alexandre teixeira mafra reconhecimento automático de locutor em

ALEXANDRE TEIXEIRA MAFRA

RECONHECIMENTO AUTOMÁTICO DE LOCUTOREM MODO INDEPENDENTE DE TEXTO

POR SELF-ORGANIZING MAPS

Dissertação apresentada à EscolaPolitécnica da Universidade deSão Paulo para obtenção doTítulo de Mestre em Engenharia

São Paulo2002

ALEXANDRE TEIXEIRA MAFRA

RECONHECIMENTO AUTOMÁTICO DE LOCUTOREM MODO INDEPENDENTE DE TEXTO

POR SELF-ORGANIZING MAPS

Dissertação apresentada à EscolaPolitécnica da Universidade deSão Paulo para obtenção doTítulo de Mestre em Engenharia

Área de Concentração:Engenharia Mecânica

Orientador:Prof. Dr. Marcelo Godoy Simões

São Paulo2002

FICHA CATALOGRÁFICA

Mafra, Alexandre TeixeiraReconhecimento automático de locutor em modo indepen-

dente de texto por self-organizing maps / A.T. Mafra. – SãoPaulo, 2005.

78 p.

Dissertação (Mestrado) - Escola Politécnica da Universidadede São Paulo. Departamento de Engenharia Mecatrônica e deSistemas Mecânicos.

1.Reconhecimento de voz 2.Biometria 3.Redes neuraisI.Universidade de São Paulo. Escola Politécnica. Departamentode Engenharia Mecatrônica e de Sistemas Mecânicos II.t.

À minha família, ondesempre encontrei suportegeneroso e

confiança,quefundamentamasgrandesconquistaspessoais.

A Lúcia, comquemamoviver, peladedicaçãoe compreensão

semlimites.

Aosrecém-nascidosMarcos,Brunae Giovana,quesejamre-

cebidoscomgenerosidade, confiança,dedicaçãoe compreen-

são,e queosretribuamcomsuasgrandesconquistas.

AGRADECIMENT OS

AgradeçoaoprofessorDr. MarceloGodoy Simõespelaconstantemotivação,pelo

estímuloàcriaçãoeaserenidadenaorientação.Semeles,estetrabalhonãosetornaria

fato.

Ao professorDr. JunOkamotoJr. porsuacontribuição,suaincansável disposição

e pelaseriedadecomquevemconduzindoseusalunosdaPolitécnicahátantosanos.

À professoraDra. Anna HelenaReali Costae ao professorDr. Fabio Gagliardi

Cozman,porseuenvolvimentoesuasimportantesorientações.

Aos colegasdaUniconsult, companheirosde trabalhoe devida, quemeempres-

taramsuasvozese suaforça. Aos demaisamigos,quegentilmentecederamamostras

desuasvozes.

RESUMO

Projetarmáquinascapazesidentificarpessoasé um problemacujasoluçãoencon-traumagrandequantidadedeaplicações.Implementaçõesemsoftwaredesistemasba-seadosemmediçõesdecaracterísticasfísicaspessoais(biométricos),estãocomeçandoaserproduzidosemescalacomercial.NestacategoriaestãoossistemasdeReconheci-mentoAutomáticodeLocutor, queseusamdavozcomocaracterísticaidentificadora.

No presentemomento, os métodosmaispopularessãobaseadosna extraçãodecoeficientesmel-cepstrais(MFCCs)daslocuções,seguidosdaidentificaçãodo locutoratravés de HiddenMarkov Models(HMMs), Gaussian Mixture Models(GMMs) ouquantizaçãovetorial.Estapreferênciasejustificapelaqualidadedosresultadosobtidos.

Fazercomqueestessistemassejamrobustos,mantendosuaeficiênciaem ambi-entesruidosos,é umadasgrandesquestõesatuais. Igualmenterelevantessãoospro-blemasrelativos à degradaçãode performanceem aplicaçõesenvolvendoum grandenúmerode locutores,e a possibilidadede fraudebaseadaem vozesgravadas. Outroponto importanteé embarcarestessistemas como sub-sistemasde equipamentosjáexistentes,tornando-oscapazesdefuncionardeacordocomo seuoperador.

Estetrabalhoexpõeosconceitosealgoritmosenvolvidosnaimplementaçãodeumsoftware de ReconhecimentoAutomático de Locutor independentede texto. Inicial-menteé tratadoo processamentodossinaisdevozeaextraçãodosatributosessenciaisdestesinalparao reconhecimento.Apósisto,édescritaa formapelaquala voz deca-da locutoré modeladaatravésdeumaredeneuraldearquiteturaSelf-Organizing Map(SOM) e o métododecomparaçãoentreasrespostasdosmodelosquandoapresentadaumalocuçãodeumlocutordesconhecido.

Porfim, sãoapresentadoso processodeconstruçãodocorpusdevozesusadoparao treinamentoe testedos modelos,as arquiteturasde redestestadase os resultadosexperimentaisobtidos numatarefa deidentificaçãodelocutor.

ABSTRACT

Thedesignof machinesthatcanidentify peopleis a problemwhosesolution hasa wide rangeof applications. Software systems,basedon personalphisical attribu-tesmeasurements(biometrics), are in the beginning of commercialscaleproduction.Automatic Speaker Recognitionsystems fall into this cathegory, using voice as theidentifyingattribute.

At present,themostpopularmethodsarebasedontheextractionof mel-frequencycepstralcoefficients(MFCCs),followed by speaker identificationby HiddenMarkovModels(HMMs), GaussianMixtureModels(GMMs) or vectorquantization. Thispre-ferenceis motivatedby thequalityof theresultsobtainedby theuseof thesemethods.

Making thesesystems robust,ableto keepthemselves efficient in noisyenviron-ments,is now amajorconcern.Justasrelevantaretheproblemsrelatedto performancedegradationin applicationswith a largenumberof speakersinvolved,andtheissuesre-latedto thepossibility of fraudby theuseof recordedvoices.Anotherimportantsubjectis to embedthesesystems assub-systemsof existing devices,enablingthemto workaccordingto theoperator.

Thisworkpresentstherelevantconceptsandalgorithmsconcerningtheimplemen-tationof atext-independentAutomaticSpeakerRecognitionsoftwaresystem.First,thevoice signalprocessingandthe extractionof its essentialfeaturesfor recognitionaretreated.After this,it is describedthewayeachspeaker’svoiceis representedby aSelf-OrganizingMap (SOM) neuralnetwork, and the comparisonmethodof the modelsresponseswhena new utterancefrom anunknown speaker is presented.

At last, it is describedtheconstructionof thespeechcorpususedfor trainingandtestingthemodels, theneuralnetwork architecturestested,andtheexperimental resultsobtainedin aspeaker identificationtask.

SUMÁRIO

1 Intr odução 13

1.1 ReconhecimentoAutomáticodeLocutor(RAL) . . . . . . . . . . . . . 13

1.2 ClassificaçãodoProblema . . . . . . . . . . . . . . . . . . . . . . . . 14

1.2.1 Tipo deTarefa . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.2.2 ModalidadesdeTexto . . . . . . . . . . . . . . . . . . . . . . 15

1.3 AvaliaçãodoDesempenho. . . . . . . . . . . . . . . . . . . . . . . . 15

1.4 Aplicações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.5 ProblemasCorrelatos . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.5.1 ReconhecimentodeVoz . . . . . . . . . . . . . . . . . . . . . 16

1.5.2 EntendimentodeVoz . . . . . . . . . . . . . . . . . . . . . . . 17

1.6 EstadodaArte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.7 VisãoGeraldaDissertação. . . . . . . . . . . . . . . . . . . . . . . . 18

2 Extração de Atrib utosdosSinaisdeVoz 19

2.1 Digitalizador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2 ExtratordeAtributos . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2.1 Pré-ênfase. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.2.2 Janelamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.2.3 DFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.2.4 BancosMel-Frequency . . . . . . . . . . . . . . . . . . . . . . 29

2.2.5 Log

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.2.6 DCT eMFCCs . . . . . . . . . . . . . . . . . . . . . . . . . . 33

DeltaCepstrum. . . . . . . . . . . . . . . . . . . . . . . . . . 34

3 Reconhecimento deLocutor por Self-Organizing Maps 36

3.1 VisãoGeral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2 RedesNeuraisArtificiais . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2.1 UnidadesdeProcessamento. . . . . . . . . . . . . . . . . . . 37

FunçõesdeAtivação . . . . . . . . . . . . . . . . . . . . . . . 38

3.2.2 ArquiteturasdeRedes . . . . . . . . . . . . . . . . . . . . . . 39

Camadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

RedesFeedforward deUmaCamada. . . . . . . . . . . . . . . 40

RedesFeedforward Multi-camada. . . . . . . . . . . . . . . . 40

RedesRecorrentes . . . . . . . . . . . . . . . . . . . . . . . . 41

3.2.3 ProcessosdeAprendizadodeRedesNeurais . . . . . . . . . . 41

AprendizadoSupervisionado. . . . . . . . . . . . . . . . . . . 42

AprendizadoNãoSupervisionado. . . . . . . . . . . . . . . . 42

AprendizadoCompetitivo . . . . . . . . . . . . . . . . . . . . 43

3.3 RedesNeuraisparaReconhecimentodeLocutor . . . . . . . . . . . . . 44

3.3.1 Multi-LayerPerceptron (MLP) . . . . . . . . . . . . . . . . . . 44

3.3.2 Self-Organizing Map (SOM) e LearningVector Quantization

(LVQ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.3.3 Time-DelayNeural Network(TDNN) . . . . . . . . . . . . . . 45

3.3.4 RecurrentNeural Network(RNN) . . . . . . . . . . . . . . . . 46

3.3.5 Neural TreeNetwork(NTN) . . . . . . . . . . . . . . . . . . . 46

3.4 QuantizaçãoVetorial(VectorQuantization– VQ) . . . . . . . . . . . . 47

3.5 A ArquiteturaSelf-OrganizingMap (SOM) . . . . . . . . . . . . . . . 47

3.5.1 Algoritmo deTreinamento. . . . . . . . . . . . . . . . . . . . 48

Competição. . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

Cooperação. . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

Adaptação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.5.2 PropriedadesdoMapadeAtributos . . . . . . . . . . . . . . . 51

3.6 Self-Organizing MapsparaReconhecimentoAutomáticodeLocutor . . 52

3.6.1 PrincípiodeFuncionamento. . . . . . . . . . . . . . . . . . . 52

3.6.2 Normalização. . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.6.3 Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.6.4 Teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4 ProcedimentoExperimental 55

4.1 CorpusdeAmostrasdeVoz . . . . . . . . . . . . . . . . . . . . . . . 55

4.1.1 CondiçõesdoAmbiente . . . . . . . . . . . . . . . . . . . . . 55

4.1.2 ComposiçãodoConjuntodeLocutores . . . . . . . . . . . . . 55

4.1.3 FrasesUsadas. . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2 Softwaree HardwareUsados. . . . . . . . . . . . . . . . . . . . . . . 58

4.3 DigitalizaçãoeExtraçãodosMFCCs. . . . . . . . . . . . . . . . . . . 58

4.4 ArquiteturasdeSOMsUsadas . . . . . . . . . . . . . . . . . . . . . . 59

4.5 Treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.5.1 AnálisedosResultadosdoTreinamento. . . . . . . . . . . . . 61

4.6 ResultadosdosTestes. . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.6.1 AnálisedosResultadosdosTestes. . . . . . . . . . . . . . . . 61

5 Conclusões 69

5.1 ConclusõesGerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.2 Sobreo usodeumaSOM por locutor . . . . . . . . . . . . . . . . . . 70

5.3 DireçõesFuturasparaPesquisa. . . . . . . . . . . . . . . . . . . . . . 71

LISTA DE FIGURAS

1 DiagramadeblocosdoDigitalizador . . . . . . . . . . . . . . . . . . . 20

2 Palavra “zero”, digitalizadaa22 05kHz comresoluçãode8 bits . . . . 22

3 Espectrodepotênciadapalavra “zero” . . . . . . . . . . . . . . . . . . 22

4 DiagramadeblocosdoExtratordeAtributos . . . . . . . . . . . . . . 23

5 Palavra “zero” apóspré-ênfase . . . . . . . . . . . . . . . . . . . . . . 25

6 Espectrodepotênciadapalavra “zero” apóspré-ênfase . . . . . . . . . 25

7 FunçõesdeJanelamento . . . . . . . . . . . . . . . . . . . . . . . . . 28

8 Segmentodapalavra “zero” semjanelamento . . . . . . . . . . . . . . 28

9 Segmentodapalavra “zero” apósjanelamento. . . . . . . . . . . . . . 30

10 Espectrodepotênciadesegmento dapalavra “zero” . . . . . . . . . . . 30

11 FiltrosdebandascríticasdaescalaMel . . . . . . . . . . . . . . . . . 31

12 Potênciadosfiltros debandascríticasdesegmento dapalavra “zero” . . 31

13 Log dapotênciadosfiltros de bandascríticasde segmentoda palavra

“zero” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

14 Coeficientesmel-cepstraisdesegmentodapalavra “zero” . . . . . . . . 33

15 Coeficientesmel-cepstraisdapalavra “zero” . . . . . . . . . . . . . . . 35

16 Modelonãolineardeum neurônio . . . . . . . . . . . . . . . . . . . . 38

17 Redeneuralfeedforward deumacamada. . . . . . . . . . . . . . . . . 40

18 Redeneuralfeedforward multi-camada. . . . . . . . . . . . . . . . . . 41

19 RedeneuralTDNN comentradaunidimensional. . . . . . . . . . . . . 45

20 RecurrentNeural Network(RNN) . . . . . . . . . . . . . . . . . . . . 46

21 ArquiteturadeumaSelf-OrganizingMap . . . . . . . . . . . . . . . . 48

22 RetículabidimensionaldeumaSelf-Organizing Map . . . . . . . . . . 50

23 Evoluçãodoerrodequantizaçãoporsegmentoparacadaarquiteturade

SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

24 Médiado errodequantizaçãoapóstreinamentoemfunçãodo número

deunidadesdaarquitetura . . . . . . . . . . . . . . . . . . . . . . . . 65

25 Taxa de erro de identificaçãoem funçãoda duraçãodo conjuntode

treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

26 Taxa de erro de identificaçãoem funçãodo númerode unidadesda

arquiteturausada,paracadaconjuntodetreinamento . . . . . . . . . . 66

27 Taxadeerrodeidentificaçãoemfunçãodaduraçãomédiadalocução . 68

LISTA DE TABELAS

1 Composiçãodoconjunto delocutoresdocorpusdeamostrasdevoz . . 56

2 ConjuntoVAR1 defrasesvariáveis por locutor . . . . . . . . . . . . . 57

3 ConjuntoBAL1, foneticamentebalanceado,de frasescomunsa todos

oslocutores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57


oslocutores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57


oslocutores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

6 Característicasdosconjuntos quecompõemo corpus. . . . . . . . . . . 59

7 ArquiteturasdeSOM utilizadase seusparâmetrosdetreinamento . . . 60

8 Resultadosdo treinamentodaarquiteturaSOM 16 sobreosconjuntos

VAR1, BAL1 eBAL2, paracadaum doslocutores . . . . . . . . . . . 62







12 Porcentagensdeidentificaçãocorretado locutorparaaSOM16 . . . . 64




16 Taxadeerrodeidentificaçãoemfunçãodaduraçãomédiadalocução . 68

LISTA DE ABREVIA TURAS

ANN – Artificial NeuralNetwork

ASR – AutomaticSpeechRecognition

BALn – Conjuntofoneticamentebalanceadodefrasescomuns

DCT – DiscreteCosineTransform

DFT – DiscreteFourierTransform

FFT – FastFourierTransform

GMM – GaussianMixture Model

HMM – HiddenMarkov Model

IDFT – InverseDiscreteFourierTransform

LVQ – LearningVectorQuantization

MFCC – Mel-Frequency CepstralCoefficient

MLP – Multi-Layer Perceptron

NTN – NeuralTreeNetwork

PU – ProcessingUnit

RAL – ReconhecimentoAutomáticodeLocutor

RNA – RedeNeuralArtificial

RNN – Recurrent NeuralNetwork

SOM – Self-OrganizingMap

stRC – shorttermRealCepstrum

TDNN – Time-DelayNeuralNetwork

VAR1 – Conjuntodefrasesvariáveis

VQ – VectorQuantization

13

1 INTRODUÇÃO

A identificaçãodooperadoréumproblemacomumamuitosprojetosdeEngenha-

ria. Uma grandevariedadede exemplosde métodosde identificaçãopessoalé facil-

menteencontradano cotidiano: documentos,chaves,cartõesmagnéticos,códigosde

identificaçãoe senhasdeacesso.

Todosestesmétodos possuemumacaracterísticaem comum: a identificaçãoda

pessoaestáassociadaa algumacoisaqueela possuaou saiba, obrigando-aa portar

objetosedecorarcódigos.Diversosproblemasdecorremdoesquecimentoouconfusão

destescódigosoudaperda,cópiaou fraudedosobjetosdeidentificação.

Nestecontexto surgemassoluçõesbaseadasemmétodosbiométricos(PHILLIPS,

2000),ou seja,baseadosna mediçãoe reconhecimentode característicasfísicasindi-

viduaiscomoformade identificação.Reconhecedoresde impressõesdigitais, de íris,

defacee delocutorseencaixamnestacategoria. É tambémcomumo usocombinado

destesmétodos, parao aumentodonível desegurança.

Dentreosmétodosbiométricosdeidentificação,avozrecebebastanteatençãodos

pesquisadoresda área. Estaatençãose deve principalmenteà facilidadecom queé

produzida,capturada,processadae transmitidanoestadotecnológicoatual.

1.1 Reconhecimento Automático deLocutor (RAL)

OssistemasdeReconhecimentoAutomáticodeLocutor(RAL) têmcomoobjetivo

a determinaçãoautomáticado indivíduo emissor de umadeterminadalocução,mate-

rializadanum sinal de voz, através da comparaçãoentrecaracterísticasextraídasda

locuçãoatuale locuçõesanteriores.

Destaforma,umagrandeáreainicial depesquisa consistenamodelagem(BOR-

DEN; HARRIS, 1980;DENES;PINSON,1993),análise(FLANAGAN, 1972;OPPE-

NHEIM; SCHAFER, 1998)etécnicasdereduçãodoruídoincorporadonestessinaisde

voz(DELLER JR.;HANSEN;PROAKIS, 1993,cap.8). Outragrandefrentesededica

14

à definiçãodascaracterísticasmaisrepresentativas destessinais(RABINER; JUANG,

1993,cap. 3 e 4), objetivandoressaltaraspeculiaridadese reduziras redundâncias,

simplificandoa tarefa declassificaçãodo locutor.

Paraefetuaro reconhecimentoemsi, osprincipaismétodosusadossãobaseados

em Hidden Markov Models(HMMs) (RABINER, 1989), GaussianMixture Models

(GMMs) (REYNOLDS;HECK,2000)eRedesNeuraisArtificiais (RNAs) (FARRELL,

2000).

1.2 Classificaçãodo Problema

Segue a classificaçãodo problema,apresentadaem Furui (1996)e amplamente

aceitaemoutrasreferênciasnoassunto.

1.2.1 Tipo deTarefa

De maneirageral,um sistemade RAL podeseraplicadoparaa identificaçãoou

paraaverificaçãodeum locutor.

Identificaçãode locutor: nestacategoria, é assumidoum conjuntode locutores,ca-

da qual com um conjuntode padrõesqueo representam,e a tarefa do sistema

consisteemcomparara locuçãoproposta contraestespadrões,decidindoa qual

locutor pertenceo padrãomaissemelhante.Existem duasvariaçõesdestatare-

fa: a identificaçãoemconjuntofechado, emquesesupõequesomentelocutores

pertencentesao conjuntoalvo participamtantodo aprendizadoquantoda iden-

tificação,e a identificaçãoem conjunto aberto, em queum elementoadicional

é acrescentado,representantoqualquerlocutorquenãopertençaaoconjuntode

locutoresalvo.

Verificaçãode locutor: no casodaverificaçãoou autenticação,o sistemaé responsá-

vel por compararumalocuçãode entradacomo padrãoassociadoà identidade

propostaparaestalocução,chegandoa umadecisãobináriado tipo aceitox re-

jeitadodentrodeumamargemdesegurançadefinida(GISH; SCHMIDT, 1994).

Emresumoo sistemadeveconfirmarsealocuçãopropostarealmentepertenceao

locutorpropostoounegarestaassociação,atribuindoa locuçãoaumimpostor.

15

1.2.2 ModalidadesdeTexto

Umasegunda classificaçãodossistemasRAL divide-osemdependentesou inde-

pendentesconteúdotextualdaemissão.

Dependentesde texto: o locutor deve pronunciarum determinadotexto, paraqueo

reconhecimentoocorra. Estetexto deve serfixo ou propostopelo sistema. O

sistemajá deve ter sidotreinadocomo texto específico,dito pelolocutor.

Independentesde texto: o locutordeve serreconhecidoindependentementedo texto

queestejafalando.O sistemanãolevaemconsideraçãoo texto pronunciado.

1.3 Avaliaçãodo Desempenho

Paraavaliaro desempelhodeumsistemaRAL, devemserconsideradososseguin-

tesaspectos:

Qualidadedo sinal devoz: característicasdo microfonee do canalde transmissão,

tipo enível deruídoambienteea variaçãoentreossinaisdetreinamentoe teste.

Modalidade de texto: dependenteou independentedetexto.

Duração daslocuções: duraçãoenúmerodesessõesdetreinamentoeverificação.

Populaçãode locutores: númerodelocutorese composiçãodo conjuntosegundose-

xo, idadee origem,entreoutros.

1.4 Aplicações

Autenticaçãode transaçõescomerciais: sistemasde identificaçãoautomáticade lo-

cutor podemser usadosparaautenticaro locutor em chamadastelefônicasde

longadistância,validar transaçõescomerciaiscompagamentoatravésdecartão

decréditopor telefoneevalidaraplicaçõesfinanceirasvia telefone.

Controle deacesso:sistemasdeidentificaçãoeverificaçãocomomeiodeacessopara

ambientesfísicosou redesde computadores.Em hospitais,podemserusados

paradaracessoaoregistrodeinformaçõesdepacientesou parahabilitar a pres-

criçãodemedicamentos eexames,restritasaopessoalautorizado.

16

Monitoramento: sistemasdeidentificaçãousadosno monitoramento decall-centers,

registrandoo atendentee o tempogastonaschamadas.Ainda comomonitora-

mento,podemserusadosna verificaçãodo cumprimentode prisãocondicional

doméstica,ou nomonitoramento daschamadasfeitasdentrodeumaprisão,ras-

treandoe identificandoautomaticamenteoscontatosdosprisioneiros.

Fontede informações: sistemasdeidentificaçãousadosparadeterminarostrechosde

cadalocutoremarquivoscontendogravaçõesdeconversasentrevárioslocutores.

Aplicaçãoforense: sistemasdeverificaçãosãousadosatualmenteparacomparartre-

chosdegravaçõestelefônicascomamostrasfornecidaspelossupostoslocutores,

confirmandoounegandoa identidadedentrodeum certograudeaceitação.

Aplicaçõeshíbridas: sistemasRAL, associadosasistemasdereconhecimentodevoz,

podemfornecerumaltograudesegurançaemtarefasdeverificaçãoemcontextos

dependentesdetexto, pelaverificaçãosimultâneado locutore do conhecimento

depalavrassecretas,interpretadaspeloreconhecedordevoz.

1.5 Problemas Corr elatos

1.5.1 Reconhecimentode Voz

O objetivo da tecnologiade reconhecimentode voz, segundo Deller Jr., Hansen

e Proakis(1993, p. 601), é o de “criar máquinasque possamreceberinformações

faladase agir de forma apropriadade acordocom estasinformações”. Os sistemas

de Reconhecimentode Voz (AutomaticSpeechRecognition,ASR) (RABINER; JU-

ANG, 1993;DELLER JR.; HANSEN; PROAKIS, 1993;LEE; SOONG;PALIWAL,

1996;DE MORI, 1998)tentamfazercomqueum computadorreconheça,com100%

deacuracidade,todasaspalavrasquepossamserentendidasporqualquerpessoa,inde-

pendentementedotamanhodovocabulário,ruídospresentes,característicasousotaque

do locutor, epreferencialmenteemtemporeal.

Estestêm sido alvo de intensapesquisana última década, motivadapelagran-

de quantidadede possíveis aplicaçõescomerciaisdestatecnologia (SRINIVASAN;

BROWN, 2002). A concepçãoe implementaçãodestetipo de software estáem fase

deamadurecimento,maso problemado reconhecimentoaindaé consideradobastante

abertoesujeitoanovasabordagensparaasuasolução.Aindaassim,aplicaçõescomer-

ciaisestãorecebendosgrandesinvestimentose experimentandorápidapopularização,

17

principalmenteaquelasembarcadasemhandhelds(KUMAGAI, 2002).

1.5.2 Entendimento deVoz

Considerandoa riquezadosaspectoscognitivos da comunicaçãohumanafalada,

o reconhecimentodevozcomomeratranscriçãodaspalavrasparecebastantelimitado,

poisignorao realsignificadoea intençãodecomunicardo locutor. A áreadepesquisa

deEntendimentodeVozbuscarepresentarasintençõesdacomunicaçãodeumaforma

mais rica do que a simplestranscriçãodo sinal de voz. Obviamente,estatarefa é

extremamenteambiciosa,dadoqueos processosdo pensamentohumanoe intenções

decomunicaçãosãomuito poucocompreendidos.

1.6 Estadoda Arte

Atualmente,o métodomaiseficazparao reconhecimentodelocutordependeprin-

cipalmentedamodalidadedetexto associadaaoproblema.

OsHiddenMarkov Models(HMMs) demonstramosmelhoresresultadosemapli-

caçõesdependentesde texto. Os HMMs sãomodelosestatísticos,com grandecapa-

cidadedemodelagemdasdependênciastemporaisassociadasaossinaisde voz. Para

uma introduçãosobrea aplicaçãoe os resultadosdo usode HMMs parareconheci-

mentoautomáticodelocutorvejaNaik, Netche Doddington (1989),Rosenberg, Leee

Soong(1990),Rosenberg, LeeeGokeen(1991)eMatsuieFurui (1994).

OsGaussianMixtureModels(GMMs)sãotambémmodelosestatísticos,emqueas

probabilidadesdeocorrênciadosvetoresdeatributosparacadalocutorsãomodeladas

comocombinaçõesponderadasdevariáveisaleatóriasvetoriaiscompdfsGaussianas.

Usadoscom excelentesresultadosem aplicaçõesindependentesde texto, conforme

demonstradopor Bimbot, Magrin-Chagnolleaue Mathan(1995),Reynolds(1995)e

Reynolds,Quatierie Dunn(2000).

As RedesNeuraisArtificiais (RNAs) sãomodelosconexionistasnãolineares,com

grandecapacidadedereconhecimentoe classificaçãodepadrõesestáticos.Muitasar-

quiteturasde RNAs foram experimentadasem reconhecimentode locutor, sendoque

osmelhoresresultadossãoconseguidospelousodearquiteturasbaseadasemQuanti-

zaçãoVetorialparaaplicaçõesindependentesdetexto. Umadasprimeirasreferências

sobreo reconhecimentoautomáticode locutor atravésde QuantizaçãoVetorial pode

servistaemSoong(1985).Bennanie Gallinari (1990),Andersone Patterson(1994)e

18

Lapidot,Gutermane Cohen(2002)apresentamosresultadosdo usodeRNAs execu-

tandoreconhecimentoautomáticodelocutoratravésdeQuantizaçãoVetorial.Segundo

HomayounpoureChollet(1995),seudesempenhoécomparável aodosGMMs.

Um resumosobreo estadodaarteemRAL, partedeumacoleçãodeartigossobre

o estadodaarteemtecnologiasrelacionadasà linguagemhumana,podeserencontrada

em Furui (1996). Outrasreferênciassobreos métodosusadosincluemFurui (1994),

CampbellJr. (1997),Furui (1997)eFarrell (2000).

1.7 VisãoGeral da Dissertação

A dissertaçãoestáestruturadadaseguinte forma:

Capítulo 2: descreveo processamentodossinaisdevoz,focandonaextraçãodosatri-

butosrelevantesparareconhecimentoautomáticodelocutor.

Capítulo 3: faz umabreve introduçãoàsredesneurais,citandoasprincipaisarquite-

turasusadasem reconhecimentoautomático de locutor e aprofundando-senas

arquiteturaSelf-Organizing Map. Apresentaentãoa modelagemdasvozesdos

locutoresatravésderedesneuraisdearquiteturaSOMeo critériodecomparação

entreasrespostasdosmodelosdoslocutoresquandoapresentadosaumalocução

delocutordesconhecido.

Capítulo 4: relataa forma como foi elaboradoo corpusde amostrasde vozesdos

locutoresusadasparatreinamentoeteste,asarquiteturasusadas,o procedimento

experimentalconduzidosobreesteconjuntoe osresultadosobtidosnatarefa de

identificaçãodelocutoremconjuntofechado.

Capítulo 5: apresentaasconclusõessobreosresultadosdosexperimentose direções

futurasparapesquisa.

19

2 EXTRAÇÃO DE ATRIB UTOSDOS SINAIS DE VOZ

Paraquesejamusadosparareconhecimentode locutor, os sinaisde voz devem

serdigitalizadose pré-processados.O objetivo do pré-processamentoé obterumare-

presentçãoparamétricados sinais,que reduzaredundâncias,mantendoinformações

estatísticassuficientesparao reconhecimento.Do pontodevistado reconhecedor, es-

tasrepresentaçõessãoosatributosdo sinaldevoz (features), queconstituemo objeto

dereconhecimento.

Um bomconjuntodeatributos(REYNOLDS;HECK, 2000)deve serprático,ro-

bustoe seguro,o quesignificaqueestascaracterísticasdevemocorrernaturalmentee

freqüentementenosinaldevoz,devemserfacilmentemensuráveis,nãodevemsermui-

to afetadaspelaidadeoupelasaúdedo locutor, devemserpoucoafetadaspeloruídode

fundooupeloruídointroduzidopelocanaldecomunicaçãoenãodevemserfacilmente

imitáveis.

Diversasrepresentaçõesparamétricasjá foramexperimentadasemsistemasdere-

conhecimentode voz e locutor, sendoquea queapresentaos melhoresresultadosna

maioriadoscasossãoosCoeficientesMel-Cepstrais(Mel-FrequencyCepstral Coeffici-

ents– MFCCs)esuasderivadas.MermelsteineDavis (1980)ePicone(1993)apresen-

tamumarevisãosobreestasrepresentaçõesejustificamaescolhadosMFCCs.Bechetti

e Ricotti (1999)apresentamumasíntesepráticado processode extraçãode MFCCs,

enquantoDeller Jr., Hansene Proakis(1993)trazemumademonstraçãomaisformal

destemesmoprocesso.

A extraçãodeatributosdeum sistemadereconhecimentodevoz é executadapor

2 blocos:

Digitalizador

ExtratordeAtributos(FeatureExtractor)

20

2.1 Digitalizador

Responsável pelacapturae digitalização(discretizaçãodo tempoe daamplitude)

do sinal de voz (figura 1), normalmenteintegradonumaplacade som(com exceção

do Bancode Polifones). Uma vez amostradoe discretizado,o sinal de voz podeser

processadodigitalmente.

DIGITALIZADOR

BANCO DEPOLIFONES

ANTI-ALIASING

PRÉ-AMPLIFICADOR

SAMPLER/HOLDER

CONVERSOR A/D

PSfragreplacements

p t

xc t

xc t

xc t

x n

x n

Figura1: DiagramadeblocosdoDigitalizador

Micr ofone. Recebeossinaisenviadospelo locutoratravésdeondasdepressãodo ar

p t eosconverteemsinaisanalógicosdetensãoelétricaxc t , ondet éo índice

detempocontínuo.

21

Pré-amplificador. Filtro analógicodeganhopositivo naentradadexc t .Anti-aliasing. Filtro analógico(Butterworth, Chebyshev, InverseChebyshev, Cauer,

Bessel-Thomson)quecorta freqüênciasaltas(acimada largurade bandarele-

vante),evitando queestasfreqüênciassejamrebatidasparao espectrorelevante

durantea análiseespectral,introduzindo um tipo deruídoconhecidocomoalias

(TEXAS INSTRUMENTS INC., 1995).

Sampler/Holder. Amostra(sampler) o sinalxc t emintervalosTc, comfreqüênciade

amostragemfc 1 Tc. O instantede amostragemt é discretizado,sendodado

por t nTc, onden é o índicede tempodiscretodaamostra(tambémchamado

de temponormalizado). O sinal é mantidoestável (holder) duranteo intervalo

necessárioparaaconversãoA/D. O sinalpassaaserrepresentadoporxc n . São

comunstaxasdeamostragemde8kHz, 11 025kHz, 12kHz, 16kHz e 22 05kHz.

Maisusualmente,duranteprocedimentosexperimentais,asamostrassãotomadas

a 22 05kHz e entãotêm suafreqüênciade amostragembaixadaartificialmente

paraa freqüênciadesejadaatravésdedownsampling.

Conversor A/D. Recebeos sinaisamostradosxc n e os quantizacom umadetermi-

nadaresolução,gerandoo sinalx n . Resoluçõesde8, 12e16bitssãocomuns.

Bancode Polifones. Umavezdigitalizados,ossinaispodemserarmazenadosemme-

móriapermanente(hard drive), emarquivos(.wav, .mp3), guardandoreferência

aolocutore à locução(figura2).

2.2 Extrator deAtrib utos

Cadeiadeprocessamento(figura4) querecebeossinaisdevozdigitalizadosx n ,executaa segmentaçãoe extrai os vetoresde coeficientesmel-cepstrais(MFCCs)cw

dossegmentos,quesãoosatributosaseremreconhecidos.

Sejao conjunto de locuçõesX de diversaspalavrasou frasesp (1 p P),

emitidaspordiferenteslocutoresl (1 l L), pordiversasvezesi (1 i I ).

X l p i 1 l L 1 p P 1 i I (2.1a)

X X l p i xl p i n 1 n Nl p i (2.1b)

xl p i 1 xl p i n xl p i Nl p i (2.1c)

22

-150

-100

-50

0

50

100

150

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6

Val

or d

a A

mos

tra

- x(

n)

Tempo (s)

Palavra "Zero", 22.05 kHz, 8 bits

atm-0-22kHz-8b.wav

Figura2: Palavra “zero”, digitalizadaa22 05kHz comresoluçãode8 bits

0

5e+08

1e+09

1.5e+09

2e+09

2.5e+09

3e+09

3.5e+09

4e+09

4.5e+09

5e+09

0 2000 4000 6000 8000 10000 12000

Pot

enci

a

Frequencia (Hz)

Espectro de Potencia: palavra "Zero", 22.05 kHz, 8 bits

Figura3: Espectrodepotênciadapalavra “zero”

23

EXTRATOR DEATRIBUTOS

BANCO DEATRIBUTOS

JANELA

x (t)cPRÉ-ÊNFASE

LOG | . |

BANCOS MF

DFT

DCT

PSfrag replacements

x n

x nζ n

yw n

zw ω

zw ω

zw ω

Figura4: DiagramadeblocosdoExtratordeAtributos

24

Exemplificando,X4 2 3, representao conjuntodeN4 2 3 amostrasdosinalx4 2 3 nque compõema locuçãoi 3 da palavra ou frase p 2 pelo locutor l 4. Para

simplicidadede notação,seráusadox n significandoxl p i n e N significandoNl p idestepontoemdiante.

2.2.1 Pré-ênfase

Observa-seque,parasinaisde voz, a energia carregada pelasaltasfreqüênciasé

pequenaquandocomparadacomasbaixasfreqüências.A pré-ênfasedasfreqüências

altasénecessáriaparaqueseobtenhaamplitudesmaishomogêneasdasfreqüênciasfor-

mantes,poisinformaçõesimportantessobrealocuçãotambémestãopresentesnasaltas

freqüências.Istopodeserfeito atravésdeumfiltro digital (OPPENHEIM;SCHAFER,

1998),cujafunçãodetransferêncianodomínioz é

H z 1 az 1 0 a 1 (2.2)

sendoa o parâmetroresponsável pelapré-ênfase,daordemde0 95.

No domínio do tempo,o filtro é implementadoatravésde

X x n 1 n N (2.3a)

x n x n ax n 1 (2.3b)

comx 0 0.

O efeitodapré-ênfasepodeserobservadocomparando-seo sinaloriginal (figura

2) e o sinalapósa pré-ênfase(figura5) e osrespectivosespectrosdepotência(figuras

3 e6).

2.2.2 Janelamento

Apósapréênfase,aslocuçõesX sãodivididasemsegmentos(frames) paraquese

possafazeraanáliseshorttermdosinal.Estasegmentaçãoénecessáriapoiso espectro

médiodosinalaolongodetodaa observação(long term) encobrevariaçõesespectrais

queocorremdurantecurtosintervalos de tempoe quesãode granderelevânciapara

o reconhecimento.Dentrodeumajanelasuficientementepequena(aproximadamente

20ms), asvariaçõesno espectrodeum sinaldevoz podemserconsideradasdesprezí-

veis,tornandoválidaaanálisedeFourier. Sãocomunsjanelasentre10mse 30ms.

25

-150

-100

-50

0

50

100

150

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6

Val

or d

a A

mos

tra

Tempo (s)

Palavra "Zero", 22.05 kHz, 8 bits, apos pre-enfase (alfa = 0.95)

Figura5: Palavra “zero” apóspré-ênfase

0

2e+07

4e+07

6e+07

8e+07

1e+08

1.2e+08

1.4e+08

1.6e+08

0 2000 4000 6000 8000 10000 12000

Pot

enci

a

Frequencia (Hz)

Espectro de Potencia: palavra "Zero", 22.05 kHz, 8 bits, apos pre-enfase (alfa = 0.95)

Figura6: Espectrodepotênciadapalavra “zero” apóspré-ênfase

26

Tomando-sesegmentosYw, delarguraNw N, comNw sendoumapotênciade2,

sobrepostossegundoumarazãos, com0 s 1,

s númerodeamostrassobrepostasNw

(2.4)

cadalocuçãoX ésegmentadaemW Wl p i janelas,sendo

W N 1 s Nw

(2.5)

Osvaloresdes maisutilizadossão0.25,0.50e0.75.

O índicedetempodiscretodentrodo segmento n guardaa seguinterelaçãocom

o índicedetempodiscretodalocução:

n n ! w 1" 1 s Nw 1 n Nw (2.6)

Destaforma, a locuçãocompletaoriginal é representadapor um conjunto de

segmentosdelocuçãoYw (figura8)

# Yw 1 w W (2.7a)

Yw # yw n 1 n Nw (2.7b)

# yw 1 yw n yw Nw (2.7c)

Paraevitar o efeito do fenômenode leakage (introduçãode ruídosem freqüên-

cia devidosà segmentação),utilizam-sefunçõesdejanelamentoζ n (OPPENHEIM;

SCHAFER,1998).Osvaloresdaamostradentrodossegmentossãomultiplicadospon-

to apontopelarespostaimpulsivano tempodafunçãodejanelamento(figura9)

yw n ζ n x n (2.8)

As funçõesde janelamentoseguintes(figura 7) já foram aplicadasem reconhe-

cimentoautomático de locutor, sendoque as de usomais freqüentesãoa janelade

Hammingea janeladeHanning:

27

JaneladeBartlett

ζBartlett n 2n$ Nw n Nw 22 2n% Nw n'& Nw 2 (2.9)

JaneladeHamming

ζHamming n 0 54 0 46cos2πNw

n Nw

2(2.10)

JaneladeHanning

ζHanning n 0 5 0 5cos2πNw

n Nw

2(2.11)

JaneladeBlackman

ζBlackman n 0 42 0 5cos2πNw

n Nw

2(

(0 08cos

4πNw

n Nw

2(2.12)

2.2.3 DFT

Tendoagoraumconjuntodejanelasdeamostrasdosinal # Yw , procede-sea

análisedeFourierdecadaumadelas.É calculadaaDFT (DiscreteFourier Transform)

decadasegmento, atravésdeseualgoritmo rápido:aFFT (COOLEY; TUKEY, 1965).

Paramaioresdetalhes,videOppenheimeSchafer(1998,capítulo8), DellerJr., Hansen

e Proakis(1993,seção1.1.4)ePress(1992,capítulo12).

As amostrasno domínio do tempon sãolevadasparao domínio da freqüência

pelatransformação

zw ω n)+* Nw

∑n) * 1

yw n e j , 2π - Nw . , n) 1. ω (2.13)

ondeoscoeficienteszw ω sãonúmeroscomplexos.

A aplicaçãodaDFT gera,paracadalocução,umconjunto dejanelasZw (figura

10) contendoNw 2 componentesdo espectrodepotênciado sinal (somentea metade

doscomponentesé utilizada,pois o sinal de entradaé compostopor númerosreais,

28

0

0.2

0.4

0.6

0.8

1

0 64 128 192 256 320 384 448 512

Mag

nitu

de/

Tempo normalizado (norm-sec)

Funcoes de Janelamento, 512 pontos

BartlettHammingHanning

Blackman

Figura7: FunçõesdeJanelamento,512pontos

-150

-100

-50

0

50

100

150

0.71 0.715 0.72 0.725 0.73 0.735

Val

or d

a A

mos

tra

Tempo (s)

Palavra "Zero", 22.05 kHz, 8 bits, segmento 35 (0.71111 s a 0.73286 s)

Figura8: Segmento35dapalavra “zero” (Y35), semjanelamento

29

tendoo espectrosimétricoemrelaçãoà freqüênciadeNyquist fc 2),

Zw 1 w W (2.14a)

Zw zw ω 2 1 ω Ω (2.14b)

comΩ π fc ecomo intervalo entrefreqüênciasconsecutivasdadopelarelação

∆ω 2π fcNw

(2.15)

e ω n ∆ω.

2.2.4 BancosMel-Fr equency

No estudoda dinâmicado sistemaauditivo humano,definiu-seumaescalapsi-

coacústicade sensibilidadedo ouvido paradiversasfreqüênciasdo espectroaudível,

conhecidacomoescalaMel (STEVENS;VOLKMAN, 1940;KOENIG, 1949). Um

melé umaunidadedemedidadefreqüênciapercebidaparaumadeterminadafreqüên-

cia de entrada(recebida).A interpolaçãodosresultadosobtidospor esteestudoleva

aproximadamenteà seguinte relaçãoentrea freqüênciarecebida( fHz) e a freqüência

percebida( fmel):

fmel 1000ln 1

( fHz700

ln 1( 1000

700

(2.16)

Foi demonstrado(SHIKANO, 1985)queo desempenhode sistemasde reconhe-

cimentode voz aumentacom o usoda escalaMel, aliadaao usode bancosde filtros

com umafunçãode envelopetriangular. Estesfiltros fazema somadoscoeficientes,

ponderadospelafunçãotriangularcentradanafreqüênciaprincipal,comvalor 1 neste

ponto.

Osfiltros têmsuasfreqüênciascentraisespaçadasde100mel ou mais,cobrindoo

espectroentre200Hz e 7kHz, ondea maiorquantidadedeenergia seconcentra.Evi-

dentemente,a freqüênciasuperioré limitada pela freqüênciade Nyquist (metadeda

freqüênciade amostragem).Assim, sãocomumenteencontradasaplicaçõesondea

freqüênciasuperiorvariade3kHzaté11kHz.

30

-150

-100

-50

0

50

100

150

0.71 0.715 0.72 0.725 0.73 0.735

Val

or d

a A

mos

tra

Tempo (s)

Palavra "Zero", 22.05 kHz, 8 bits, segmento 35 (0.71111 s a 0.73286 s), janela de Hamming

Figura9: Segmento35 dapalavra “zero” (Y35), apósjaneladeHamming. Observar aatenuaçãonasextremidadesdo segmento,diminuindoa potênciado ruídointroduzidopelasegmentação.

0

2e+06

4e+06

6e+06

8e+06

1e+07

1.2e+07

0 2000 4000 6000 8000 10000 12000

Pot

enci

a

Frequencia (Hz)

Espectro de Potencia: palavra "Zero", 22.05 kHz, 8 bits, segmento 35, janela de Hamming

Figura 10: Espectrode Potênciado segmento 35 da palavra “zero”, apósjaneladeHamming

31

0

0.25

0.5

0.75

1

0 250 500 750 1000 1250 1500 1750 2000 2250 2500 2750 3000

Mag

nitu

de/

Frequencia (Hz)

Banco de filtros em escala Mel, incremento de 100 Hz

Figura11: Filtros debandascríticasdaescalaMel

0

500000

1e+06

1.5e+06

2e+06

2.5e+06

3e+06

3.5e+06

4e+06

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32

Pot

enci

a

Banco

Potencias dos Filtros de Bandas Crticas: segmento 35, 32 filtros, incremento de 100 mel

Figura12: Potênciatotalnosfiltros debandascríticasdosegmento35dapalavra“zero”

32

2.2.5 Log

Parao cálculodo cepstrumreal (short term RealCepstrum– stRC) aplica-sea

funçãolog sobreo espectrodepotência(figura10)dasjanelasZw. Ossinaisdevozsão

formadospelaconvoluçãono tempoentreo sinaldeexcitaçãoproduzidopelatraquéia

ea respostaimpulsiva instantâneado tratovocal.Estessinais,convoluídos nodomínio

do tempo,aparecemmultiplicadosnodomínio dafreqüência.A aplicaçãodo log sobre

o espectrotransformaestamultiplicaçãoemsoma,permitindo a separaçãolinear dos

componentesdosinaldeexcitaçãoedosinaldemodulaçãodotratovocal.A saídadesta

operaçãoé, paracadalocução,um conjunto de janelasZ w (figura 13) contendoos

coeficientestransformados

# Z w 1 w W (2.17a)

Z w # zw ω 1 ω Ω (2.17b)

zw ω logzw ω 2 2log zw ω (2.17c)

O coeficiente2 daequaçãoanteriorpodeserdesprezadopor nãosersignificativo

emtermosdereconhecimentoe por suaeliminaçãoreduzira complexidadecomputa-

cionalassociadaà extraçãodaraiz quadradaparao cálculodamagnitude.

0

1

2

3

4

5

6

7

8

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32

Log

(Pot

enci

a)0

Filtro

Log das Potencias dos Filtros de Bandas Criticas: segmento 35, 32 filtros, incremento de 100 mel

Figura13: Logdapotênciatotalnosfiltrosdebandascríticasdosegmento35dapalavra“zero”

33

2.2.6 DCT eMFCCs

Sobreos logaritmosdasenergiasdosfiltros debandascríticaszw ω é calculada

a seguir a transformadainversadeFourierIDFT (InverseDiscreteFourier Transform),

gerandooscoeficientesmel-cepstrais(MFCCs). Comoasjanelasgeradaspelaopera-

çãoanteriorsãocompostasapenaspor valoresreais,a IDFT sereduzà DCT (Discrete

CosineTransform).

O espectrodo logaritmo do trato vocal possuiuma variaçãosuave e de baixa

freqüência,enquantoo da excitaçãoé altamentevariável e quaseperiódico,princi-

palmenteparaasvogais. Assim,a respostado tratovocalpodeserobtidapelasimples

retençãodosprimeirosM coeficientesmel-cepstrais.Estaoperaçãogeraum conjunto

(figura15)devetorescw (figura14)quesãoosvetoresdecoeficientesmel-cepstrais.

# cw 1 w W (2.18a)

cw 21 cwm3 Mm* 1 (2.18b)

cw 1 cwm cwM T(2.18c)

-5

0

5

10

15

20

25

30

35

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Mag

nitu

de/

Coeficiente

Coeficientes Mel-cepstrais: segmento 35, incremento de 100 mel, 16 primeiros coeficientes

Figura14: Coeficientesmel-cepstraisdosegmento 35dapalavra “zero” (c35)

O númeroM decoeficienteséescolhidodeacordocomadistânciaemfreqüência

entreos filtros do banco,sendomuito usadosM 8, M 12, M 14 e M 16

34

coeficientesmel-cepstrais.

Delta Cepstrum

Além doscoeficientesmel-cepstraisemsi, ossistemasatuaisusamestimativasde

suasderivadastemporaiscomocomponentesadicionaisdovetordeatributos,colocando-

asnum patamarde igual relevânciaao doscoeficientesem si (JUANG; RABINER;

WILPON,1987;RABINER; WILPON;SOONG,1989;BOCCHIERI;WILPON,1993).

O objetivo destainclusãoé acrescentaralgumainformaçãotemporalsobrea variação

dosMFCCs.

Estascomponentes,conhecidascomodeltacepstrumou delta-MFCCssãofacil-

mentecomputáveisatravésdavariaçãodoscoeficientesentreo segmentoatualeumou

doissegmentosprecedenteseconsequentes.

Sejaδw a distânciaentreo segmentoatualw e ossegmentosprecedentee subse-

quenteconsideradosparaa diferenciação.Então,o delta-MFCCdacomponentem no

segmentow édefinidopor

cwm cw4 δwm cw δwm (2.19)

Supondo-seδw 1, paraoscasosparticularesemquew 1 e w W, define-se

c1m c2 m c1 m2

(2.20a)

cWm cWm cW 1m2

(2.20b)

Destaforma,a dimensãodosvetoresdeMFCCsdo conjunto w é dobrada(2M),

e o conjuntoéentãoredefinidocomo

cwm cwm para1 m M

cwm paraM(

1 m 2M(2.21a)

cw 51 cwm3 2Mm* 1 cw 1 cwm cwM cw 1 cwm cwM T

(2.21b)

cw 1 w W (2.21c)

35

Coeficientes mel-cepstrais (MFCCs): palavra "Zero", 22.05 kHz, 8 bits

010

2030

4050

6070

Segmento (w) 0 1 2 3 4 5 6 7 8 9 101112131415

Coeficiente (m)

-5

0

5

10

15

20

25

Magnitude c(w,m)

Coeficientes mel-cepstrais (MFCCs): palavra "Zero", 22.05 kHz, 8 bits

1020

3040

5060

70

Segmento (w)

01

23

45

67

89

1011

1213

14

Coeficiente (m)

-5

0

5

10

15

20

25

Magnitude c(w,m)

Figura15: Coeficientesmel-cepstrais( ) dapalavra “zero”, M 16coeficientes

36

3 RECONHECIMENT O DELOCUT OR PORSELF-ORGANIZING MAPS

3.1 VisãoGeral

Apósextraídososvetoresdeatributosdaslocuçõesoriginais,estessãousadospara

treinarmodelosconexionistasassociadosaosseuslocutores.Cadalocutoré represen-

tadopor suaprópriaredeneuralartificial dearquiteturaSelf-Organizing Map (SOM),

treinadaparaexecutara quantizaçãovetorialdosvetoresdeMFCCsextraídosdesuas

própriaslocuções.Quandoapresentadaumanova locução(atravésdeseusvetoresde

MFCCs),estaé testadaemcadaumadasSOMs,sendodeclaradaa vencedoraaquela

queapresentaamenordistorçãototalnaquantizaçãovetorialdestesMFCCs.O locutor

reconhecidoéaqueleassociadoàSOMvencedora.

Procedimentossemelhantesforam testadospor Bennanie Gallinari (1990),An-

dersonePatterson(1994)eHomayounpoureChollet(1995),combonsresultados.

Nestecapítulosãointroduzidasasredesneuraisartificiaiseapresentadasasprinci-

paisarquiteturasutilizadasparareconhecimentodelocutor. A arquiteturaSelf-Organizing

Mapéentãodetalhadaeporfim éexplicadoo processodemodelagemdo locutoratra-

vésdestasredes.

3.2 RedesNeurais Artifi ciais

Seguea definiçãode RedeNeuralArtificial (Artificial Neural Network– ANN),

segundoHaykin (1999,pg. 2):

Umaredeneuraléumprocessadordistribuídoaltamenteparalelo,compos-

to deunidadesdeprocessamentosimples,quesãonaturalmentepropensas

aarmazenarconhecimentoexperimentalea torná-lodisponível parao uso.

Elaseassemelhaaocérebroemdoisaspectos:

37

1. O conhecimentoéadquiridopelaredeapartirdeseuambienteatravés

deumprocessodeaprendizado.

2. As forçasdasconexõesentreneurônios,conhecidascomopesossi-

nápticos,sãousadasparaarmazenaro conhecimentoadquirido.

Redesneurais(BISHOP,1995;ARBIB, 1995;HAYKIN, 1999)podemserusadas

comofunçõesdiscriminantesnãoparamétricasemtarefasdeclassificação,comomo-

delosderegressãomúltiplaoucomoaproximadoresdefunções“universais”.Porestas

propriedades,elassãoaplicadasnumagrandevariedadedetarefasemreconhecimento

devoz, sejacomoparadigmaprincipalou combinadascomoutrosmodelos.O usode

redesneuraisparaa tarefa dereconhecimentodevoz (KATAGIRI, 2000)é um campo

depesquisacomumahistóriadealgumasdécadas,envolvendo muitasdisciplinastais

comoaFisiologia,aFísica,aEstatística,aPsicologia,aLingüísticaeaEngenharia.

3.2.1 Unidadesde Processamento

A basedoprojetoderedesneuraisartificiaisé o modelomatemáticodoneurônio,

queé chamadodeUnidadedeProcessamento(Processing Unit – PU,ProcessingEle-

ment– PE).O modelomaisusadoé o neurônionãolinear, ilustradonafigura16. Os

trêselementosbásicosdeumaunidadedeprocessamento6 são:

1. Um conjuntodeconexõesousinapses, cadaumadasquaiscaracterizadaporseu

peso. A conexão 7 k i , queligaaunidadedeprocessamento6 i àunidade6 k (nesta

ordem)temseupesorepresentadoporwk i .2. Um somadorquefaz a combinaçãolinear dossinaisde entradaxi , ponderados

segundoospesosdasconexõeswk i .3. Uma funçãodeativaçãoϕ paralimitar a amplitudedo sinaldesaídadauni-

dadedeprocessamentoyk.

O modelodeneurôniodafigura16 tambéminclui um termodebiasbk, aplicado

externamente,quepodeserincorporadofacilmenteàsentradasde 6 k definindo-seuma

entradafictícia comasseguintespropriedades

x0 t 198 t (3.1a)

wk 0 t bk t (3.1b)

38

O conjuntodeentradasdaunidade6 k podeserrepresentadovetorialmente por

x t x0 t x1 t xi t xI t T(3.2)

eo conjuntodepesosdasconexõescomdestinoa 6 k (conexõesdeentrada),noinstante

t emqueéapresentadaaentradax t , por

wk t wk 0 t wk 1 t wk i t wk I t T(3.3)

ondeI éo númerodeconexõescomdestinoàunidadedeprocessamento6 k.

Em termosmatemáticos,a unidadede processamento6 k podeserdescritapelo

seguintepardeequações:

vk t I

∑i * 0

xi t wk i t xT t wk t (3.4a)

yk t ϕ vk t (3.4b)

ondea variável vk t é chamadadecampolocal induzido pelaapresentaçãodaentrada

x t .

.

.

.

.

.

.

SINAIS DEENTRADA

PESOSSINÁPTICOS

SAÍDA

BIAS

FUNÇÃO DEATIVAÇÃO

PSfragreplacements

x1

x2

xI

wk 0 bk

vk yk

wk 1wk 2

wk I

∑ ϕ

Figura16: Modelonãolineardeum neurônio

Funçõesde Ati vação

As funçõesde ativaçãodefinem,segundoo modelode neurôniolinear exposto,

o valor da saídaem funçãodo campolocal induzido. As maisusadassãoexpostasa

seguir, podendoserencontradascomvariaçõesnoslimitesdedefinição.

39

1. FunçãoDegrau

yk ϕ vk 1 , sevk & 0

0 , sevk 0(3.5)

2. FunçãoRampa

yk ϕ vk 1 , sevk & 1

vk , se0 vk 1

0 , sevk 0

(3.6)

3. FunçãoSigmoidal

yk ϕ vk 11(

exp avk (3.7)

ondea éo parâmetrodecurvaturadafunçãosigmoidal.

4. FunçãoTangenteHiperbólica

yk ϕ vk tanh vk (3.8)

3.2.2 Ar quiteturas deRedes

Porarquiteturadeumaredeneuralentende-sea formacomoestãoconectadasas

suasunidadesdeprocessamentoe comoocorreo fluxo do sinaldentrodarede.A ar-

quiteturadaredeneuralestáfortementeligadaaoalgoritmodeaprendizadousadopara

treiná-la.As arquiteturasmaisimportantessãodestacadasmaisadiantenestecapítulo.

Camadas

Usualmente,asunidadesdeprocessamentoestãodispostasemcamadas(layers),

sendoqueunidadespertencentesa umamesmacamadaapresentampropriedadesse-

melhantes,tantoemtermosdedefiniçãodaunidadequantodepropagaçãodosinal.

A camadadeíndice: serádenotadapor ;"< . Umaunidadedeíndiceu pertencentea

;=< serádenotadapor 6 <u. O númerodeunidadesde ;< serádenotadoporU< . A conexão

daunidade6 < 1u1

paraaunidade6 < 2u2serádenotadapor 7 < 2 < 1u2 u1

.

Quandotodasasunidadesdeumacamada;< estãoconectadasa todasasunidades

dacamadaseguinte ;=< 4 1 (I < 4 1 U< >8 6 < 4 1), a redeé dita totalmenteconectada; caso

contrárioa redeé parcialmente conectada.

Paraum par de camadas; 1 e ; 2, pode-sedefinir a matriz de conexão W2 1 das

40

unidadesde ; 1 paraasunidadesde ; 2 como

W2 1 w2 11 w2 1

2 w2 1U2

(3.9a)

w2 1

1 1 w2 12 1

w2 1U2 1

w2 11 2 w2 1

2 2 w2 1

U2 2...

.... . .

...

w2 11U1

w2 12U1

w2 1

U2 U1

(3.9b)

ondew2 1u2

é o vetor de pesosdasconexõesdasunidadesde ; 1 com a unidade6 2u2

e

w2 1u2 u1

éo pesodaconexão 7 2 1u2 u1

daunidade6 1u1

paraaunidade6 2u2

.

RedesFeedforward deUma Camada

A arquiteturamaissimplesderedeneuralé composta porumacamadadeentrada

; in, queseconectaunidirecionalmenteparafrente(feedforward) comumacamadade

saída; out (figura17). Nestaarquitetura,acamadadeentradaécompostaporUin unida-

desdeprocessamentodotipo pass-through, quenãoexecutamqualquerprocessamento

a nãosera distribuiçãodosinaldeentradaparaasUout unidadesdacamadadesaída.

Figura17: Redeneuralfeedforward deumacamada

RedesFeedforward Multi-camada

Diferenciam-sedasredesde umacamadapelapresençade umaou maiscama-

dasocultas ; hid, cujasunidadesdeprocessamentosãochamadasdeunidadesocultas

41

6 hiduhid 1 uhid Uhid (figura18). O acréscimodeumaoumaiscamadasocultaspermite

àredeextrair estatísticasdemaiorordem,o queéparticularmenteútil quandoacamada

deentradatemmuitasunidades.A arquiteturadaredepodeserdescritasucintamente

pelaseqüênciadenúmerosdeunidadesnascamadas,daentradaparaasaída.A rededa

figura18, por exemplo, podeserescritacomo10-4-2,significandoUin 10 unidades

nacamadadeentrada,Uhid 4 nacamadaocultaeUout 2 nacamadadesaída.

Figura18: Redeneuralfeedforward multi-camada,10-4-2

RedesRecorrentes

Umarederecorrente(recurrent) diferencia-sedeumaredefeedforward pelapre-

sençade pelo menosum ciclo de realimentação(feedback). Uma conexão de reali-

mentaçãoconectaumneurôniodeumacertacamadacomumneurôniodeumacamada

anteriorou consigomesmo. As redesrecorrentesserãoexplicadasmais adiantena

seção3.3.4.

3.2.3 Processosde AprendizadodeRedesNeurais

Seguea definiçãodeaprendizado, no contexto deredesneurais,segundoHaykin

(1999,pg.50).

42

Aprendizadoé um processopelo qual os parâmetroslivresde umarede

neuralsãoadaptados,atravésde estímulos do ambienteondeestáa rede

neural. O tipo de aprendizadoé determinadopela maneirapelaqual as

mudançasnosparâmetrosacontecem.

Esteprocessoé formalizadoatravésdeum algoritmodeaprendizado, quedefine

comoa redeéestimulada,comoosparâmetrosseadaptame comoa rededeverespon-

deranovos estímulos.

AprendizadoSupervisionado

O conhecimentoestádisponível paraa redesoba formadeexemplosdeparest t do tipo vetor de entradax t e seurespectivo vetor de saídadesejadad t , reunidos

numconjuntodetreinamento .

# t t x t d t 1 t T (3.10)

ondeT é o númerodeelementosdo conjuntodetreinamento.Costuma-seatribuir um

significadotemporalao índicedo elementode treinamento,pois esteselementossão

apresentadossequencialmenteà redeneuralparao seutreinamento.Nestecontexto,

umaapresentaçãodo conjuntocompletoé chamadadeépocadetreinamento,e T é a

duraçãodaépocadetreinamento.

Quandoumexemplo éapresentadoàredeneural,écalculadoumsinaldeerroe t ,no qual a redesebaseiaparatentarapresentarumarespostamaiscorretana próxima

vezqueo exemplo for apresentado.

e t d t y t (3.11)

Destaforma,pode-seentenderquea redeaprendea imitar o seuconjuntodetrei-

namento(ambiente).

AprendizadoNãoSupervisionado

Nestecaso,nãohá osvetoresdesaídasdesejadasd t associadosaosvetoresde

entradasx t t t x t 1 t T (3.12)

O sinaldeerrogeradono aprendizadosupervisionadoé substituídopor umame-

43

dida independenteda tarefada qualidadeda representaçãoquea rededeve aprender,

e osparâmetroslivressãoadaptadosparaminimizarestemedidor. Paraisto, podeser

usadaumaregradeaprendizadocompetitivo.

Uma vez quea redetenhasido sintonizadaàsregularidadesestatísticasdosda-

dosde entrada,ela desenvolve a habilidadede formar representaçõesinternasparaa

codificaçãodosatributosdaentradaecriar novasclassesautomaticamente.

O aprendizadonãosupervisionado(auto-organizado)baseia-seemmodificar repe-

tidamenteospesossinápticosdeumaredeneuralemrespostaaospadrõesdeativação,

de acordocom regraspré-determinadas,atéqueumadeterminadaconfiguraçãofinal

sejaatingida.

AprendizadoCompetitivo

No aprendizadocompetitivo (INTRATOR, 1995),asunidadesde processamento

deumamesmacamadaempregamalgumtipo decompetiçãoentresi atravésdecone-

xõeslaterais.Estaidéia foi propostaoriginalmentepor Rosenblatt(1958). As unida-

desindividuaisdaredeaprendema seespecializaremconjuntos depadrõessimilares,

tornando-sedetectoresdeatributos paraasdiferentesclassesdepadrõesdeentrada.

Propostainicialmentepor Malsburg (1973),a competiçãohard definequeapenas

umaúnicaunidadede saídapodeativa a cadainstante.Segundoestaproposição,há

trêselementosbásicosnoaprendizadocompetitivo:

1. um conjuntodeunidadesdeprocessamentoidênticas,excetopor seuspesossi-

nápticos,respondendodeformadiferenteaumconjuntodepadrõesdeentrada;

2. um limite imposto à “força” decadaunidade;

3. um mecanismoquepermitecomqueasunidadescompitampelodireito deres-

pondera um determinadosubconjuntodepadrõesdeentrada,de formaqueso-

menteumaúnicaunidadede saída,ou só umaunidadepor grupo,estejaativa

numdeterminadoinstante.

Em modelosmaisrecentes,a competiçãoafetaa atividadede unidadeslaterais,

masnãonecessariamentefaz com quea ativaçãode todasasunidades,excetouma,

sejamlevadasa zero(RUMELHART; ZIPSER,1986).As arquiteturasqueimplemen-

tamestetipo decompetição,chamadocompetiçãosoft, podempossuir váriascamadas.

Suasunidadespossuemconexõeslateraisinibitóriase conexõesexcitatóriascomuni-

dadesdecamadasadjacentes.Estesalgoritmos deaprendizadocompetitivo podemser

44

distinguidosporumaregradeaprendizadoguiadaporumafunçãoobjetivadesejadaou

pelaformacomoa competiçãoépromovida.

3.3 RedesNeurais para ReconhecimentodeLocutor

A pesquisarecentedemonstraqueredesneuraisconstituemumaalternativaviável

aosmodelosestatísticostradicionaisemaplicaçõesde reconhecimentoautomáticode

locutor (YUK, 1999). Elassemostramparticularmenteadequadasparaa exploração

decaracterísticasdistintivas entrelocutores.

Segue uma breve descriçãodasprincipaisarquiteturasutilizadasem reconheci-

mentodelocutore suasaplicações.

3.3.1 Multi-Layer Perceptron (MLP)

As redesneuraisde arquiteturaMulti-Layer Perceptron (HAYKIN, 1999, cap.

4), treinadaspeloalgoritmo back-propagationde aprendizadosupervisionado(WER-

BOS,1974;PARKER, 1985;LECUN, 1985;RUMELHART; HINTON; WILLIAMS,

1986a, 1986b)possuemusogeneralizado.Derivadasdosperceptrons(MINSKY; PA-

PERT, 1990),possuemumaou maiscamadasintermediárias,compostasde unidades

de processamentonãolineares,quelhesconferemgrandepodercomoclassificadores

depadrões,entreoutrasdiversasaplicações.

Redesdotipo MLP, pornãoefetuaremprocessamentotemporal,podemseraplica-

dasemreconhecimentodelocutorindependentedetexto. Nestecaso,forampropostos

modelos(OGLESBY; MASON, 1990)emquemúltiplasMLPs seespecializamemlo-

cutoresespecíficosparaa tarefa de identificaçãode locutor. Estudos sobreo usode

MLPsparaaverificaçãodelocutorpodemserencontradosemTsoi (1994),Delacretaz

e Hennebert(1998)e Sória(2001). OspontosfracosdasMLPs residemno tempode

treinamentomuitograndeeemdificuldadesdeconvergênciaparagrandesquantidades

dedados.

3.3.2 Self-Organizing Map (SOM) e Learning Vector Quantization(LVQ)

As arquiteturasSelf-Organizing Map e LearningVectorQuantization, sãobasea-

dasno processodeQuantizaçãoVetorial (apresentadonaseção3.4) paraimplementar

a detecçãoeo reconhecimentodepadrõesestatísticos.Sãoredesneuraisdeumaúnica

45

camada,compostapor unidadesde processamentolineares,totalmente conectadasàs

unidadesdeentrada,ondesãoaplicadososvetoresdeentrada.Ambassãobaseadasno

processodeaprendizadocompetitivo (seção3.2.3).

As SOM constituema versãonãosupervisionada,e serãodiscutidasmaisadiante

naseção3.5.NaarquiteturaLearningVectorQuantization (LVQ) (KOHONEN,1986),

os pesosdasunidadesda camadade saídasãoassociadosaoscodevectors represen-

tantesdasclasses.Quandoé apresentadoum padrãodeumaentrada,umaunidadede

saídaé declaradavencedora,e seuvetordepesosseaproximaou distanciado padrão

deentrada,deacordocomaclassificaçãocorretaou incorreta.

Aplicaçõesde SOMse LVQs parao reconhecimentode locutor em modoinde-

pendentede texto podemser encontradasem Bennanie Gallinari (1990), Anderson

e Patterson(1994)e Homayounpoure Chollet (1995),com altosíndicesde reconhe-

cimento. Mais recentemente,Lapidot,Gutermane Cohen(2002)usaramSOMspara

descobrirautomaticamenteo númerodelocutorespresentesnumtrecholongodecon-

versa,eentãoprocederasegmentaçãodaconversasegundo oslocutoresdescobertos.

3.3.3 Time-Delay Neural Network (TDNN)

A arquiteturaTime-DelayNeural Network, descritainicialmenteporLangeHinton

(1988)eWaibel(1989),seutiliza deatrasosdetempoparalidar como processamento

temporal.A TDNN é umaredemulti-camada,compropagaçãodo sinal feedforward,

cujasunidadesocultasedesaídasãoreplicadasno tempo.

CAMADADE SAÍDA

CAMADAOCULTA

CAMADA DEENTRADA

PSfragreplacements

z 1z 1z 1

z 1 z 1z 1z 1z 1

Figura19: RedeneuralTDNN parapadrõesdeentradaunidimensionais

46

RedesTDNN foramutilizadasemtarefasdeidentificaçãodelocutorcomsucesso

emBennanieGallinari (1991).

3.3.4 Recurrent Neural Network (RNN)

As redesneuraisdo tipo recurrent (DOYA, 1995)sãoaquelasquepossuemcone-

xõesdo tipo feedback e unidadesqueintroduzematrasostemporaisno fluxo do sinal

(figura20). RNNssecomportamcomosistemasdinâmicos:umavezalimentadascom

umaentrada,asconexõesrecorrentessãoresponsáveis pelaevoluçãono tempodeseu

estadointerno.Destaforma,permitemquequeo estadodeumsistemasejacodificado

nospadrõesde atividadedasunidades,possibilitandoa programaçãode umaampla

variedadedecomportamentos dinâmicosatravésdospesossinápticos.

CAMADADE SAÍDA

CAMADAOCULTA

CAMADA DEENTRADA

PSfragreplacements

z? 1

z? 1

z? 1

x1 x2

y1 y2 y3

Figura20: RecurrentNeural Network(RNN)

Suaaplicaçãoemum problemaemmododependentedetexto, combonsresulta-

dos,podeserencontradaemTsoi (1994).

3.3.5 Neural Tree Network (NTN)

As Neural TreeNetworks(SANKAR; MAMMONE, 1993)constituemummodelo

híbridoderedeneural,quecombinamárvoresdedecisãoe redesneurais.As NTN são

47

classificadoreshierárquicosqueusamumaarquiteturaemárvereparaimplementaruma

estratégiadedecisãosequenciallinear. Emcadanódarede,umperceptronéusadopara

dividir osdadosparaosnósseguintes.

NTNsforamaplicadasemexperimentosdeverificaçãodelocutorindependentede

texto combastantesucessoemFarrell,MammoneeAssaleh(1994).

3.4 QuantizaçãoVetorial (Vector Quantization – VQ)

A QuantizaçãoVetorial (VectorQuantization – VQ) é umatécnicaqueexploraa

estruturasubjacentedeum conjuntodevetoresdeentradacomo objetivo decompres-

sãodosdados(GERSHO;GRAY, 1992).

Sejamum vetordeentradax @ t ACB n e um conjuntodeunidadesou células,cada

qual associadaa um vetor de parâmetros(chamadovetor de código) wu @ t ADB n. A

vencedorana categoria de problemasde VQ é definidacomosendoa unidadecujo

vetordecódigopossuiamenordistânciaEuclidianaemrelaçãoax @ t A :uE=@ t AGF argmin

u

HJIx @ t AK wu @ t A IML (3.13)

Sex @ t A éumavariável vetorialcontínua,estocásticaenaturalnãoháanecessidade

deseconsiderarmúltiplosmínimos: aprobabilidadedeIx @ t ANK w i @ t A I F I

x @ t AOK w j @ t A Iparai PF j ézero.

O objetivo dosmétodosdeVQ éo degerarumconjuntodevetoresdecódigoque

minimizemo errodequantização:

E F Ix K wuQ I 2p @ x A dx F min (3.14)

ondep @ x A é a funçãode densidadede probabilidadede x e dx é um hipervolume di-

ferencialno espaçode entradas.Observe-sequeuE , o índiceda unidadevencedora,

dependedex edetodososvetoreswu.

3.5 A Ar quitetura Self-Organizing Map (SOM)

As redesdo tipo Self-Organizing Map (KOHONEN, 2001) foram formalizadas

por Kohonen(1990).Elassãobaseadasnoaprendizadocompetitivo, descritonaseção

3.2.3. NumaSOM, asunidadesestãodispostasnosnósdeumaretícula(lattice), nor-

malmenteuni- ou bidimensional(figura 21). As unidadessãoativadasseletivamente

48

deacordocomosváriospadrõesdeentrada(estímulos)ou comclassesdepadrõesde

entradaduranteo processode aprendizadocompetitivo. Estaativaçãoseletiva imple-

mentaa quantizaçãovetorialdosvetoresdeentrada,descritonaseção3.4: osvetores

depesosdasunidadesdesaídaconstituemo conjuntodevetoresdecódigo.

A posiçãorelativadasunidadesdaretícula,quandoprojetadanoespaçodeatribu-

tos,torna-seordenada,deformaqueum sistema decoordenadassignificativo sobreos

atributosdeentradaé criadonesteespaço.Destaforma,umaSOM secaracterizapela

formaçãodeummapatopográficodospadrõesdeentrada,noqualascoordenadasdas

unidadessãoindicativosdeatributosestatísticosintrínsecoscontidosnestespadrões.

CAMADA DENÓS DE ENTRADA

Figura21: ArquiteturadeumaSelf-OrganizingMap

Nestaarquitetura,asunidadessãolinearese dispostasemumaúnicacamada,to-

talmenteconectadasaosnósde entradascom propagaçãofeedforward dossinaisde

entradaaplicados.

3.5.1 Algoritmo deTreinamento

A inicializaçãodospesossinápticosé feitaatravésdaatribuiçãodevaloresaleató-

riospequenos,evitandoaimposiçãodequalquerpré-ordenação.O algoritmoprossegue

entãoem3 etapas:competição,cooperaçãoeadaptação,descritasaseguir.

Competição

Paracadapadrãodeentradaapresentado,cadaunidadecalculaseuvalor desaída

(valor da funçãodiscriminante). A distânciaEuclidianaentreo vetor de entradae o

49

vetordepesosdaunidadeéusadacomofunçãodiscriminante:

eu @ t ARF Ix @ t AK wu @ t A I (3.15)

Determina-seentãoaunidadevencedora S uQ comosendoaquelaqueapresentouame-

nordistânciadopadrãodeentrada:

uE @ t AGF argminu

eu @ t A (3.16)

Alternativamentee deformaequivalente,o máximo produtointernoentreo vetor

deentradae o vetordepesosdaunidadepodeserusado:

eu @ t ATF wu @ t A x @ t A (3.17)

uE @ t ATF argmaxu

eu @ t A (3.18)

Cooperação

A unidadevencedoradeterminaemtornodesi umavizinhançatopológicadeuni-

dadescooperativas. Para isso,escolhe-seinicialmenteumadimensão paraa retícula

(normalmente1 ou2),define-seo sistemadecoordenadasnestadimensãoeumamétri-

cadedistânciaentreunidadesnestesistema(figura22). Paraoscasosuni- e bidimen-

sional,podemserusadasasseguintesmétricas:

d S u1 U S u2 FWV u1 K u2 V , pararetículaunidimensional (3.19a)

d S u1 U S u2 F Iru1 K ru2

I, pararetículabidimensional (3.19b)

Portanto,dadaa unidadevencedoraS uQ , calcula-seinicialmentea distânciaentre

ela e cadauma dasdemaisd S uQ U S u U u PF uE . A intensidadeda interaçãoentrea

unidadevencedorae suasvizinhasé dadapor umafunçãodevizinhançah @ d U t A , com

asseguintespropriedades:

X A funçãodevizinhançaé simétricaemtornodo pontodemáximo,definidoem

u1 F u2;

X A amplitudedafunçãodevizinhançadecrescemonotonicamentecomo aumento

dadistâncialateral,decaindoparazeroparad Y ∞.

50

PSfragreplacements

S u1

S u2

ru1ru2

d S u1 U S u2

Figura22: RetículabidimensionalcomsistemadecoordenadasparaasunidadesS u1 eS u2

A funçãoGaussiana é tipicamenteusada,pois satisfaz ambasascondiçõese é

invarianteà translação(nãodependedaunidadecentral):

h @ d U t AZF exp K d2

2ρ2 @ t A (3.20)

ondeρ @ t A éa funçãolargura efetivadavizinhançatopológica,quedecaicomo tempo,

reduzindoa intensidadedainteraçãocooperativacomasunidadesvizinhas:

ρ @ t ARF ρ0exp K tτ1

(3.21)

com ρ0 sendoa larguraefetiva inicial (em t F 0) e τ1 a constantede tempodedecai-

mento.

Assim,tendocalculadoasdistânciasentrea unidadevencedorae todasasdemais

unidades,calcula-seo valordafunçãodevizinhançaparacadaumadelas,determinan-

doasintensidadesdecooperaçãoindividuais.

Adaptação

Porfim, o processodeadaptaçãodospesossinápticoséexecutado,fazendocomo

vetordepesosdaunidadevencedorasejamovido emdireçãoaovetordeentradasatual.

51

As unidadesvizinhastambémtêmseuspesossinápticosadaptados,de acordocom o

valor dafunçãodevizinhançadefinidono processocooperativo. Destaforma,a lei de

atualizaçãodepesosparaaSOM édadapor:

wu @ t [ 1AZF wu @ t A\[ η @ t A h d S uQ^] t _ U S u U t @ x @ t AK wu @ t AA (3.22)

ondeη @ t A é a funçãotaxadeaprendizado, quecomeçacomum valor inicial alto η0 e

decaiexponencialmentecomo tempo:

η @ t AGF η0exp K tτ2

(3.23)

O processoadaptativo daSOM podeserdecomposto emduasgrandesetapas:

Auto-organização.Etapainicial, emqueaSOMpartedeumestadodetotaldesordem

echegaaoestadodeordenaçãotopológica. Nestaprimeiraetapa,queduracerca

de 1000iterações,deve serusadaumaalta taxade aprendizadoe umalargura

efetivadevizinhançaalta.Paraa taxadeaprendizado,pode-seassumir umataxa

inicial η0 F 0 1, decaindopara0 01 após1000iterações(τ2 F 1000). Quantoà

larguradavizinhança,deve incluir inicialmentequasetodasasunidadesdarede

(ρ0 é o “raio” da retícula),decaindoparasomentealgumasunidadesvizinhas

ou somenteà unidadevencedoraaofinal. Paraisto,pode-seusara constantede

tempoτ1 F 1000 logρ0.

Convergência. Nestasegundaetapa,o processoadaptativo fazasintonia finadomapa

deatributos, fazendoumaquantizaçãoestatísticaacuradadoespaçodeentradas.

Comoregrageral,a duraçãodestaetapaé deaproximadamente500vezeso nú-

merodeunidadesquecompõemo mapa.A taxadeaprendizadodevesermantida

fixa, comum valor baixo(η F 0 01). A vizinhançadeve sermantidaconstante,

emaproximadamenteumaounenhumaunidadevizinha.

3.5.2 Propriedadesdo Mapa deAtrib utos

Uma vez treinada,o mapacriadopelaSOM evidenciacaracterísticasestatísticas

importantesdoespaçodeentradas,quesãodescritasaseguir.

Aproximaçãodo Espaçode Entradas. Os vetoresde pesosdasunidadesda SOM

formamum conjuntode protótiposquerepresentamascaracterísticasessenci-

52

ais do espaçode entradas,constituindo uma aproximaçãodesteespaço. Esta

característicaébaseadanaidéiadequantizaçãovetorial.

OrdenaçãoTopológica. O processocooperativo doalgoritmodetreinamentofazcom

quea posiçãorelativa dasunidadesnaretículasetorneumaevidênciadeseme-

lhançasestatísticasentreasregiõesdo espaçodeentradascodificadaspor estas

unidades.

Mapeamento de Densidadesde Probabilidades. Mais unidadestêmseusvetoresde

pesosassociadosa regiõesdo espaçode entradascom maior probabilidadede

ocorrência.Istosignificaqueo conjuntodevetoresdepesostêmmaiorresolução

emregiõesdoespaçodeentradasmaisricaseminformaçõesestatísticas.

SeleçãodeAtrib utos. Dadospadrõesde entradacom umadistribuiçãonão linear, a

SOM é capazdeselecionaro melhorconjuntodeatributosparaaproximaresta

distribuição. Mais precisamente,osmapasfornecemumaaproximaçãodiscreta

dascurvasprincipais ousuperfíciesprincipais, e podemsertomadoscomouma

generalizaçãonãolineardaanálisedecomponentesprincipais.

3.6 Self-Organizing Maps para Reconhecimento Auto-mático deLocutor

3.6.1 Princípio deFuncionamento

Paraexecutara tarefa de reconhecimento,a voz de cadalocutor é modeladapor

umaredeneuraldearquiteturaSOM.AsSOMsdetodososlocutoressãoidênticasentre

si quantoaonúmerototaldeunidades,tamanhoedisposiçãodasretículaseparâmetros

detreinamento.

CadaSOM é treinadasomentecom vetoresde MFCCsextraídosde locuçõesde

seupróprio locutor, tornando-seespecialistanaquantizaçãodestesvetores.Assim,se

estesvetorescontémcaracterísticasessenciaissuficientesdo locutor, umaSOM apre-

sentaráum erro total dequantizaçãomenorquandoapresentadaa umalocuçãodeseu

locutordoquequandoapresentadaaumalocuçãodeoutrolocutor.

Quandoumanova locuçãoé apresentada,asSOMscompetementresi, sendode-

claradavencedoraaquelaquefornecero menorerrodequantizaçãototal paraestalo-

cução.O locutorassociadoà redevencedoraéconsideradoo locutorreconhecido.

53

3.6.2 Normalização

Antes de seremsubmetidos às SOMs, os conjuntosde vetoresde atributosdas

locuçõesdevemsernormalizados. Estaoperaçãosejustifica pelasdiferençasentreas

médiase variânciasentreasdistribuiçõesdos2M MFCCse delta-MFCCs:pequenas

variaçõesocorridasemcoeficientesquevariampoucopodemsermaissignificativasdo

quegrandesvariaçõesemcoeficientesquevariammuito, levandoamétricaserradasno

cálculodadistânciaentrevetoresdeatributos(equação3.15).

Sejao conjuntode treinamento l F Hcwa l a p L , o conjuntode vetoresde MFCCs,

extraídosdossegmentosdaslocuçõesX l a p do locutor l , ondep é a fraseou palavra

emitida na locução(1 b p b P) e w é o índice do segmento(1 b w b Wl a pA . Sem

perdadegeneralidade,assuma-sequeapenasumarepetiçãodecadafrasep existeno

conjuntodetreinamento(I F 1).

O processode normalizaçãoconsisteem subtraira média(µcmc l c p) e dividir pelo

desviopadrão(σcmc l c p) cadaum doscomponentesdosvetoresde atributos,calculados

sobrecadalocuçãop do locutor l .

µcmc l c p F 1Wl a p

Wl c p∑

wd 1cma wa l a p (3.24a)

σcmc l c p F 1Wl a p

Wl c p∑

wd 1cma wa l a p K µcmc l c p 2

(3.24b)

cma wa l a p F cma wa l a p K µcmc l c pσcmc l c p (3.24c)

cwa l a p F cma wa l a p 2M

md 1(3.24d)

Procedimentoidênticoseaplicaàslocuçõesindividuaisdoconjuntodetestes.

3.6.3 Treinamento

Seja umconjuntodeL locutores,consideradosalvosdoreconhecimento.Tome-

sel , umlocutorqualquerpertencentea . Seja l o conjuntodetreinamentodolocutor

l , definidonaseçãoanterior.

Paracadalocutor, define-seumaredeneural l , comarquiteturaSOM,queé trei-

nadacom l de acordocom o algoritmode treinamentodefinidona seção3.5.1. Ao

final do processodetreinamento,osvetoresdepesoswu a l dasunidadesdesaídade l

representamos codevectors do locutor l , queminimizamo erro total de quantização

54

dossegmentosdelocuçãoquecompõem l :

El F E @ l AGFP

∑pd 1

Wl c p∑

wd 1

Icwa l a p K wuQ a l I (3.25)

ondeuE éo índicedaunidadevencedoraparao segmentodelocução.

3.6.4 Teste

SejaumanovalocuçãoXl a p, deumafrasep desconhecida,emitidaporumlocutor l

desconhecido,representadapelosseusvetoresdeMFCCsedelta-MFCCsnormalizadosHc

wa l a p L . O númerodesegmentosWl a p éconhecido,poisdependeapenasdaduraçãoda

locuçãoedosparâmetrosdoextratordeatributos.

Estalocuçãoé apresentadaa cadarede l , sendocalculadoo errototal dequanti-

zaçãodestalocuçãoemcadarede:

E @ l AZFW

l c p∑

wd 1

Ic

wa l a p K wuQea l I (3.26)

Atravésde um processocompetitivo semelhanteao dasunidadesdentrode cada

SOM,édeclaradavencedoraa rede l Q queapresentao mínimo errototaldequantiza-

ção

E @ l Q AZF minl

E @ l A (3.27)

e o locutorreconhecidoseráaqueleassociadoa l Ql EZF argmin

lE @ l A (3.28)

Destaforma,sel E F l , o locutorfoi corretamenteidentificado.

55

4 PROCEDIMENT OEXPERIMENT AL

A tarefa escolhidacomoaplicaçãoexperimentalfoi a de identificaçãode locutor,

em um conjuntofechadode locutores,em modoindependentede texto. Seguemos

detalhessobreo corpusde locuçõesutilizados, as arquiteturasexperimentadase os

resultadosobtidos.

4.1 Corpus deAmostras deVoz

Um novo corpusde amostrasde vozesfoi coletadoparaa tarefa. Em resumo,

o conjuntoconsistede frasesem Português,faladaspor 14 locutoresbrasileiros(6

homense8 mulheres),com32frasespor locutor, sendo26frasescomunsparatodosos

locutorese6 frasesvariáveispor locutor. Todasasamostrasforamcoletadasnomesmo

local,namesmadata,emumaúnicasessão.Nãofoi executadoqualquerprocessamento

paraaeliminaçãoderuídosousilênciossobreasamostrascoletadas.

4.1.1 Condiçõesdo Ambiente

A coletafoi executadanum ambientesilenciosoe de poucareverberação.Foi

utilizadoum microfonedebaixocustoPlantronicsAudio 90, deusocomumemcom-

putadorespessoaise videogamesqueusamreconhecimentode voz. Estemicrofone,

montadonum conjuntodo tipo headset, permitequesejamantidaumadistânciafixa

entreo rostodolocutoreo microfone.O microfonefoi posicionadoaumadistânciade

aproximadamente4cmdo rosto,numaposiçãointermediáriaentreo narizeaboca.

4.1.2 Composiçãodo Conjunto de Locutores

O conjuntodelocutores(tabela1) foi composto por 14 locutoresbrasileiros,nas-

cidosnoestadodeSãoPaulo,sendo6 homense8 mulheres,nafaixadeidadeentre28

e 42anos(médiaaproximadade32anos).

56

ID (l ) Nome Sexo Idade CidadeNatal01 AlexandreT. Mafra M 31 SãoPaulo02 LúciaT. G. deCastro F 42 Santos03 RenataR. Rodrigues F 32 Campinas04 MauroA. DiGiorgi M 30 SãoPaulo05 EduardoA. C. Fullen M 30 SãoCaetanodoSul06 AlessandraM. Velho M 28 Campinas07 AndréiaA. C. Martins F 31 SãoPaulo08 ClaudiaM. S.Bernasconi F 33 SãoPaulo09 MaurícioB. Falleiros M 32 SãoPaulo10 AnaPaulaHenriques F 30 SãoPaulo11 RobertoC. Godoy M 32 SãoPaulo12 PauloSergio S.Pfaff M 38 SãoPaulo13 GabrielaS.Ferreira F 30 RibeirãoPreto14 FernandaHenriques M 28 SãoPaulo

Tabela1: Composiçãodoconjuntodelocutoresdocorpusdeamostrasdevoz

4.1.3 FrasesUsadas

Foramcoletadas,paracadalocutor, 32frasesemPortuguês.Destas,6 foramfrases

variáveispor locutor (conjuntoVAR1, tabela2) e asoutras26 foram frasesidênticas

paratodosos locutores. Estas26 frasesse agrupamem 3 conjuntos foneticamente

balanceados,extraídosdotrabalhodeAlcaim, Solewicz eMoraes(1992):umprimeiro

menor, com6 frases(conjuntoBAL1, tabela3), edoisoutrosmaiores,cadaumcom10

frases(conjuntosBAL2 eBAL3, tabelas4 e 5, respectivamente).

O objetivo do usoconjuntos defrasesfoneticamentebalanceadasé o deseobter,

paracadalocutor, amostrasdosfonesquecompõema línguafalada,naproporçãoem

queocorremnestalíngua. Com isto, aumenta-sea representatividadeestatísticadas

amostrascoletadas,quandoas frasessãousadasem conjuntoparao treinamentodo

reconhecedor.

O usode frasesvariáveis por locutor tem o objetivo de testaro desempenhodo

reconhecimentocomfrasesquepoderiamserusadascomotesteemaplicaçõescomer-

ciais. Usadascomoconjuntodetreinamento,podemservircomocomparativo entreo

usoounãodefrasesfoneticamentebalanceadas.

57

VAR1ID (p) Frase001 Digaseunomecompleto002 Digasuacidadenatal003 Digaadatao seunascimento1

004 Digao CEPdeondemora2

005 Digaquehorassão3

006 Digasuacomidafavorita1 Ex.: dezdeabril demil novecentose setenta

e um2 Ex.: zeroquatrozerosetesetezerozerozero3 Ex.: sãodezenovehoras ecatorzeminutos

Tabela2: ConjuntoVAR1 defrasesvariáveis por locutor

BAL1ID (p) Frase101 Euvi logoa Ioiô eo Léo.102 Um homemnãocaminhasemumfim.103 Vi Zé fazeressasviagensseisvezes.104 O atabaquedoTito écobertocompeledegato.105 Ele lê no leito depalha.106 Pairaum ardeararararanoRio Real.

Tabela3: ConjuntoBAL1, foneticamentebalanceado,de frasescomunsa todososlocutores

BAL2ID (p) Frase201 Nossotelefonequebrou.202 Desculpesemagoeio velho.203 Queremosdiscutiro orçamento.204 Ela temmuita fome.205 Umaíndiaandavanamata.206 Zé,vámaisrápido!207 Hojedormireibem.208 Joãodeupoucodinheiro.209 Aindasãoseishoras.210 Elasaíadiscretamente.


58

BAL3ID (p) Frase301 Um casaldegatoscomeno telhado.302 A cantorafoi apresentarseugrandesucesso.303 Lá éumlugarótimo paratomarunschopinhos.304 O musicalconsumiu setemesesdeensaio.305 Nossobaileinicia apósasnove.306 Apesardessesresultados,tomareiumadecisão.307 A verdadenãopoupanemascelebridades.308 As queimadasdevemdiminuir esteano.309 O vãoentreo tremeaplataformaémuitogrande.310 Infelizmentenãocompareciaoencontro.


4.2 Software eHardware Usados

Todoo softwareutilizado,tantoparao ExtratordeAtributosquantoparaasSOMs,

foi desenvolvido emANSI-C, rodandosobreo sistema operacionalRedHatLinux 7.1.

Quantoao hardware, foi usadoum PC com processadorPentiumIII , com freqüência

declock de500MHz, equipadocom256Mb dememóriaRAM eplacadesomcomum

paraPCmodeloCreativeSoundblasterAWE64, usadaparaacoletaedigitalizaçãodas

amostrasdevoz.

4.3 DigitalizaçãoeExtr açãodosMFCCs

As vozesforamcoletadasa umataxadeamostragemfc F 22 05kHz, comresolu-

çãode8 bitsearmazenadasemarquivosdeformato.wav. Paraapré-ênfase,foi usado

a F 0 95.

Asamostrasforamentãoparticionadasemsegmentosde23 22ms(Nw F 512amos-

tras),sobrepostasem11 61ms (s F 0 5, 256amostras),sobreosquaisfoi aplicadaa ja-

neladeHamming. Foi usadoum bancoMel-Frequency de32 filtros triangulares,com

freqüênciascentraisigualmenteespaçadaspor 120mel, sendoa primeiradelasigual a

480mel. Foramusadosos14primeirosMFCCs,cobrindoaproximadamenteo espectro

entre263Hze4592Hz. A estes14MFCCs,foramacrescentadosseus14delta-MFCCs,

compondovetoresdedimensão2M F 28.

A tabela6 apresentaascaracterísticasdosconjuntosquecompõemo corpus, após

59

Característica VAR1 BAL1 BAL2 BAL3Totaldefrases 84 84 140 140Frasespor locutor 6 6 10 10Duraçãototal 223.26s 244.04s 281.89s 419.58sDuraçãomínimadeum locutor 13.12s 14.11s 14.51s 24.85sDuraçãomédiapor locutor 15.95s 17.43s 20.14s 29.97sDuraçãomáximadeumlocutor 20.43s 21.19s 26.01s 36.34sDuraçãomínimadeumalocução 0.87s 1.57s 1.03s 2.03sDuraçãomédiadeumalocução 2.66s 2.91s 2.01s 3.00sDuraçãomáximadeumalocução 6.04s 4.46s 2.96 4.35sTotaldesegmentos 19230 21020 24280 36140Mínimo desegmentospor locutor 1130 1215 1250 2140Médiadesegmentospor locutor 1374 1501 1734 2581Máximodesegmentospor locutor 1760 1825 2240 3130Mínimo desegmentospor locução 75 135 95 175Médiadesegmentospor locução 229 250 173 258Máximodesegmentospor locução 520 384 255 375

Tabela6: CaracterísticasdosconjuntosVAR1, BAL1, BAL2 E BAL3, apósa digitali-zaçãoeextraçãodeatributos

a digitalizaçãoeextraçãodosMFCCs.

4.4 Ar quiteturas deSOMsUsadas

Foram testadas4 arquiteturasde SOMs, que sedistingüemprimariamentepelo

númerodeunidadesdesaída:16 (SOM 16), 25 (SOM 25), 36 (SOM 36) e 64 (SOM

64). Emtodaselas,foramusadasretículasbidimensionaisquadradas.Osvetoresdepe-

sosforaminicializados,emtodososcasos,comumavariável aleatóriadedistribuição

Gaussiana,commédiaµ F 0 edesviopadrãoσ F 0 005.

4.5 Treinamento

Em cadarodada,foram treinadas14 SOMs (umaparacadalocutor), com uma

dasarquiteturasanteriores(SOM 16, SOM 25, SOM 36 ou SOM 64), sobreum dos

conjuntode palavras (VAR1, BAL1 e BAL2). O conjuntoBAL3 não participoude

nenhumarodadadetreinamento,sendousadoapenascomoreferênciaparacomparação

dosresultadosdostestes.OsvetoresdeMFCCsforamapresentadosemordemaleatória

paracadarede.O treinamentofoi interrompidoquandoumnúmeromáximodeépocas

60

pré-definidofoi atingido.Osparâmetrosdetreinamentoforamfixadosporarquitetura,

e estãorelacionadosnatabela7.

Arquitetura Unidades Retícula η0 τ2 ρ0 τ1 ÉpocasSOM 16 16 4 x 4 0.1 400 4 40 150SOM 25 25 5 x 5 0.1 1000 5 20 150SOM 36 36 6 x 6 0.1 1000 6 20 100SOM 64 64 8 x 8 0.1 1000 8 30 100

Tabela7: ArquiteturasdeSOM utilizadaseseusparâmetrosdetreinamento

3

3.2

3.4

3.6

3.8

4

4.2

4.4

4.6

4.8

0 20 40 60 80 100 120 140 160

Err

o de

qua

ntiz

acao

por

seg

men

to

f

Epoca de treinamento

SOM 16SOM 25SOM 36SOM 64

Figura23: Evoluçãodoerrodequantizaçãoporsegmentoparacadaarquitetura(SOM16,SOM25,SOM36eSOM64)duranteo treinamentodolocutorl F 1comoconjuntoVAR1, segundoosparâmetrosdetreinamentodefinidosnatabela7

Osvaloresutilizadosparaaconstanteτ1, quedefineataxadediminuiçãotemporal

dalarguradavizinhançaduranteo processocolaborativo dotreinamento,forambastan-

te inferioresaosrecomendadasnaseção3.5.1.Isto foi possível porqueobservou-seem

experimentosanteriorescomarquiteturasfixasque,paraosconjuntosde treinamento

utilizados,valoresaltosparaestaconstantenãomelhoravam o valor final do erro de

quantização,apenastornandomaislentoo processodeconvergência.

Destaforma,aetapadeauto-organizaçãodasSOMspodeseracelerada,passando

rapidamenteparaaetapadeconvergência.Istopermitiu areduçãodonúmerodeépocas

61

de treinamentopara100 ou 150, tambémbastanteinferior ao recomendadona seção

3.5.1.

As tabelas8, 9, 10 e 11 mostramos resultadosdo treinamentoparacadacombi-

naçãode arquitetura,conjunto de treinamentoe locutor. Estãotabeladosos números

de segmentosquecompõemcadaparticularconjuntode treinamento(#segm), o erro

médiopor segmentoaofinal do treinamentoE @ l A e a duraçãototal do treinamentoem

segundost @ sA obtidacomo softwareehardwaredescritosnaseção4.2.Ao final deca-

databela,sãoexibidosamédia(µ) eo desviopadrão(ρ) entreoslocutores,calculados

paracadacoluna,semponderação.

4.5.1 Análise dosResultadosdo Treinamento

Conformeseobserva na figura 23, arquiteturascom maior númerode unidades

convergemparaum erro final de quantizaçãomenor. Esteresultadocorrespondeàs

expectativassobrea distorçãototal deum processodequantizaçãovetorialcomo au-

mentodo númerode codevectors, detalhadoem Deller Jr., Hansene Proakis(1993,

cap.7).

OsvaloresmédiosdoerrodequantizaçãoentreoslocutoresµE ] l _ dastabelas8, 9,

10 e 11 forame reunidose plotadosno gráficodafigura24. Ainda namesmafigura,

observarqueo conjuntoBAL 1 sempreatingeerrosdequantizaçãomaioresaofinal do

processodetreinamento,seguidopelosconjuntosBAL2 eVAR1.

4.6 ResultadosdosTestes

Paracadaparcompostoporumaarquiteturaeumconjuntodetreinamento,foram

testadostodososconjuntos, incluindoo testesobreo próprioconjuntodetreinamento.

Osresultadosdestestestespodemserverificadosnastabelas12,13,14e15.

4.6.1 Análise dosResultadosdosTestes

O primeiroaspectoaseranalisadoéa influênciadoconjuntodetreinamentosobre

os resultadosdostestes.Tomando-seos resultadosdostestessobreo conjuntoBAL3

comoreferência,a taxadeacertoparaa identificaçãodo locutoré superiorquandoas

redessãotreinadascom conjuntosmaiores.Parademonstraristo, o gráficoda figura

25 apresentaastaxasde erro de identificaçãosobreo conjuntoBAL3 em funçãoda

duraçãototal doconjuntodetreinamento:a linhamédiaindicaa influênciapositivada

62

SOM16

l VAR1 BAL1 BAL2#segm. E g l h t g sh #segm. E g l h t g sh #segm. E g l h t g sh

01 1130 3.850350 145 1275 3.930231 160 1425 3.907387 18902 1510 3.756444 192 1610 3.888117 204 2065 3.854281 30803 1205 3.737171 158 1480 3.892291 191 1660 3.862804 25404 1440 3.704218 188 1545 3.776099 200 1755 3.740991 22905 1340 3.711907 168 1465 3.828838 187 1615 3.761101 25206 1705 3.724510 215 1825 3.829321 234 2240 3.834785 43607 1760 3.705028 216 1680 3.851719 211 2055 3.783249 28908 1270 3.710843 164 1270 3.842659 162 1490 3.799229 22309 1140 3.821485 156 1215 3.926001 160 1250 3.922188 18510 1155 3.721538 147 1300 3.877294 174 1560 3.781904 20511 1360 3.809140 171 1600 3.896933 213 1710 3.905970 23912 1465 3.780217 196 1705 3.880631 219 2000 3.803833 27613 1405 3.742413 183 1570 3.853733 201 1955 3.773800 26014 1345 3.689333 171 1480 3.852578 193 1500 3.842279 228

µ 1374 3.747471 176 1501 3.866175 194 1734 3.826700 255ρ 168 0.042635 20 160 0.035267 20 249 0.050932 54

Tabela8: ResultadosdotreinamentodaarquiteturaSOM16sobreosconjuntosVAR1,BAL1 eBAL2, paracadaumdoslocutores

SOM25


01 1130 3.638926 229 1275 3.733778 255 1425 3.708895 27402 1510 3.555540 316 1610 3.692731 343 2065 3.651145 38303 1205 3.517757 256 1480 3.694164 312 1660 3.650260 31704 1440 3.496305 271 1545 3.577963 292 1755 3.542798 33405 1340 3.483513 260 1465 3.621988 287 1615 3.574476 30706 1705 3.510487 335 1825 3.620634 341 2240 3.632639 42307 1760 3.507588 367 1680 3.643409 329 2055 3.586185 38808 1270 3.492126 258 1270 3.625308 243 1490 3.578020 27809 1140 3.606436 239 1215 3.711298 242 1250 3.709633 22610 1155 3.496430 253 1300 3.652692 249 1560 3.571513 28011 1360 3.603729 282 1600 3.698144 312 1710 3.708936 31212 1465 3.553793 308 1705 3.676520 328 2000 3.608054 36613 1405 3.530000 279 1570 3.657584 309 1955 3.588535 35714 1345 3.482920 292 1480 3.638358 290 1500 3.634082 274

µ 1374 3.533968 282 1501 3.660326 295 1734 3.624655 323ρ 168 0.043520 33 160 0.036620 31 249 0.048659 48


63

SOM36


01 1130 3.492952 203 1275 3.589477 243 1425 3.565388 25802 1510 3.404846 271 1610 3.560843 315 2065 3.524513 37603 1205 3.367438 218 1480 3.560192 297 1660 3.513186 30204 1440 3.369601 257 1545 3.427927 315 1755 3.393654 32005 1340 3.342476 239 1465 3.489934 270 1615 3.435144 29506 1705 3.353831 307 1825 3.487980 373 2240 3.490784 40807 1760 3.355704 317 1680 3.499603 322 2055 3.460366 37408 1270 3.344298 227 1270 3.474160 273 1490 3.433771 27109 1140 3.458565 205 1215 3.550769 234 1250 3.577610 22810 1155 3.365070 208 1300 3.511152 226 1560 3.432277 28511 1360 3.460631 246 1600 3.564048 281 1710 3.571059 31312 1465 3.413179 265 1705 3.538540 301 2000 3.466402 36813 1405 3.379473 255 1570 3.518382 278 1955 3.474470 35814 1345 3.350826 243 1480 3.503370 267 1500 3.508964 275

µ 1374 3.389921 247 1501 3.519741 285 1734 3.489113 317ρ 168 0.041913 30 160 0.037235 34 249 0.050061 46


SOM64


01 1130 3.257061 386 1275 3.369882 453 1425 3.354250 49502 1510 3.196165 513 1610 3.338552 553 2065 3.325137 70303 1205 3.173336 412 1480 3.324057 485 1660 3.321978 55704 1440 3.163855 493 1545 3.206206 505 1755 3.188100 60205 1340 3.132561 461 1465 3.252636 483 1615 3.231621 57806 1705 3.163045 583 1825 3.274538 614 2240 3.292596 81707 1760 3.154074 641 1680 3.288615 567 2055 3.259534 73008 1270 3.110839 422 1270 3.231460 438 1490 3.209353 52509 1140 3.228385 385 1215 3.318852 449 1250 3.349652 44510 1155 3.128878 540 1300 3.290218 460 1560 3.233025 54711 1360 3.235732 688 1600 3.346527 583 1710 3.350150 57812 1465 3.198592 738 1705 3.328344 638 2000 3.282925 67613 1405 3.183600 647 1570 3.323647 570 1955 3.258399 66014 1345 3.126672 500 1480 3.303251 502 1500 3.305747 503

µ 1374 3.175200 529 1501 3.299770 521 1734 3.283033 601ρ 168 0.038801 104 160 0.039551 58 249 0.047592 90


64

SOM16

Conjuntode VAR1 BAL1 BAL2 BAL3 µTreinamento P = 6 P = 6 P = 10 P = 10

VAR1 96.43% 85.71% 83.57% 93.57% 89.51%BAL1 78.57% 100.00% 87.86% 93.57% 90.18%BAL2 89.29% 90.48% 100.00% 97.14% 95.31%

µ 88.10% 92.06% 90.48% 94.76% 91.67%

Tabela12: Porcentagensdeidentificaçãocorretado locutorparaa SOM16

SOM25


VAR1 100.00% 84.52% 82.14% 93.57% 89.50%BAL1 85.71% 100.00% 93.57% 97.14% 94.42%BAL2 88.10% 89.29% 100.00% 97.86% 95.10%

µ 91.27% 91.27% 91.90% 96.19% 93.01%


SOM36


VAR1 100.00% 86.90% 87.86% 95.71% 92.41%BAL1 84.52% 100.00% 92.86% 99.29% 94.64%BAL2 89.29% 90.48% 100.00% 97.86% 95.54%

µ 91.27% 92.46% 93.57% 97.62% 94.20%


SOM64


VAR1 100.00% 84.52% 87.86% 97.14% 92.41%BAL1 86.90% 100.00% 93.57% 99.29% 95.31%BAL2 88.10% 90.48% 100.00% 99.29% 95.76%

µ 91.67% 91.67% 93.81% 98.57% 94.49%


65

3.1

3.2

3.3

3.4

3.5

3.6

3.7

3.8

3.9

16 24 32 40 48 56 64

Err

o de

qua

ntiz

acao

por

seg

men

to

f

Unidades

VAR1BAL1BAL2

Figura24: Médiado errodequantizaçãopor segmentoaofinal do treinamento,calcu-ladaentreoslocutores,emfunçãodonúmerodeunidadesdaarquitetura,paracadaumdosconjuntos detreinamento

duraçãosobreaquedadataxadeerrosdeidentificação.

A segundaquestãoserefereaopoderdiscriminantedecadaarquitetura.Usando

aindaosresultadossobreo conjuntoBAL3 comoreferência,foi levantadoo gráficoda

figura26, queexibe a taxadeerrodeidentificaçãoemfunçãodo númerodeunidades

da arquitetura,paracadaconjuntode treinamento.Observa-se,pelacurva da média

ponderadasegundoo númerodefrasesdo conjuntode treinamento, a influênciaposi-

tiva do aumentodo númerode unidadesda arquitetura,baixandoastaxasde erro de

identificação.

Porfim, sãoanalisadososresultadosdastaxasdeidentificaçãoemfunçãodocon-

junto testado.Paraoscasosemqueo conjuntodetesteéo mesmoqueo detreinamen-

to, umataxade acertoesperadade 100%foi obtidaem todososcasos,excetoparao

parSOM 16 conjuntodetreinamentoVAR1, quefoi de96.43%(tabela12), quepode

serconsideradaincapaz,comosparâmetrosde treinamentousados,dequantizarade-

quadamenteo conjunto. Paraefeito de análise,os testesefetuadossobreos próprios

conjuntosdetreinamentoserãodescartados.

Observandoastabelasderesultados12,13,14e15,verifica-sequeaspiorestaxas

deacertoocorremquandoo conjuntoVAR1 é testado,independentementedaarquite-

tura.Paraexplicarosmotivos,serãodetalhadososerrospor fraseocorridosno testedo

66

0

1

2

3

4

5

6

7

15.5 16 16.5 17 17.5 18 18.5 19 19.5 20 20.5

Tax

a de

err

o de

iden

tific

acao

do

locu

tor

(%)

Duracao media do conjunto de treinamento por locutor (s)

MEDIASOM 16SOM 25SOM 36SOM 64

Figura25: Taxadeerrode identificaçãoemfunçãodaduraçãodo conjunto detreina-mento

0

1

2

3

4

5

6

7

16 24 32 40 48 56 64

Tax

a de

err

o de

iden

tific

acao

do

locu

tor

(%)

Numero de unidades da arquitetura

MEDIA PONDERADAVAR1BAL1BAL2

Figura26: Taxadeerrodeidentificaçãoemfunçãodonúmerodeunidadesdaarquite-turausada,paracadaconjuntodetreinamento

67

conjuntoVAR1 sobrea arquiteturaSOM 64 treinadacomo conjuntoBAL1. A esco-

lhasejustificapelaaparenteincompatibilidadeentreosbonsresultadosdacombinação

no testedo conjuntoBAL3 (99.29%de acerto)contraos resultadosruins no testedo

conjuntoVAR1 (86.90%de acerto). O alto índicede errosde classificaçãotendea

evidenciarmelhorosseusmotivos.

Note-seinicialmentequeo conjuntoVAR1, tomadocomoconjuntodetestes,não

apresentanenhumapropriedaderelevantequedemonstrequeasfrasespossamserana-

lisadasemconjunto.A principaldiferençaentreasrespostasdoslocutoresnoconjunto

VAR1 estána duraçãodasrespostas.A tabela16 e o respectivo gráfico (figura 27)

ilustrama variaçãodataxadeerrosde identificaçãoemfunçãodaduraçãomédiadas

frases,calculadasentreoslocutores.

O gráfico demontrade forma bastanteclara que existe um limiar entre2 45s e

2 79s paraa duraçãomédiadaslocuções,acimado qual a taxade acertoé de 100%.

Mais do queisto,demonstraque,abaixodestelimiar, a reduçãodaduraçãomédiadas

locuçõesfaz com que as taxasde erro de identificaçãodo locutor aumentemmuito

rapidamente.Verifica-se,portanto,quea duraçãodaslocuçõesde testeé um fatorde

altarelevânciaparaestesistemadereconhecimentoautomáticodelocutor.

68

Frase(p) DuraçãoMédia Desv. Padr. Duração Erros TaxadeAcertos001 2.45s 0.47s 1 92.86%002 1.44s 0.43s 4 71.43%003 3.43s 0.51s 0 100.00%004 4.44s 0.77s 0 100.00%005 2.79s 0.36s 0 100.00%006 1.40s 0.24s 6 64.29%

Tabela16: Taxadeerrodeidentificaçãoemfunçãodaduraçãomédiadalocuçãoparaa arquiteturaSOM 64,treinadacomo conjuntoBAL1, testadacomo conjuntoVAR1

0

5

10

15

20

25

30

35

40

1 1.5 2 2.5 3 3.5 4 4.5

Tax

a de

err

o de

iden

tific

acao

do

locu

tor

(%)

Duracao media da locucao (s)

Figura27: Duraçãomédiadaslocuçõese taxasdeerrodeidentificaçãoparaa arquite-turaSOM 64, treinadacomo conjuntoBAL1, testadacomo conjuntoVAR1, segundoosdadosdatabela16

69

5 CONCLUSÕES

5.1 ConclusõesGerais

Nestetrabalhofoi apresentadoinicialmenteumconjuntodetécnicasenvolvendoa

extraçãodeatributosrepresentativosdeum locutora partir desegmentosdeamostras

desuavoz. Foi descritaamodelagemdoslocutoresatravésderedesneuraisdearquite-

turaSelf-OrganizingMap (SOM), treinadasexclusivamentecomosatributosextraídos

deseuslocutoresassociados.A técnicadeidentificaçãoapresentadaconsiste nacom-

paraçãoentreoserrosde quantizaçãovetorialdaslocuçõesde testesobreasdiversas

SOMs,sendoo locutoridentificadoaquelecujaredemelhorquantizaalocuçãodeteste.

Paratestarasolução,foi propostoumproblemadeidentificaçãodelocutoremum

conjuntofechadodelocutores,emmodoindependentedetexto. Paraisto, foi coletado

um corpusde amostrasde voz de 14 locutores(6 homense 8 mulheres),envolvendo

um conjuntodefrasesvariáveispor locutore 3 conjuntosdefrasescomunsa todosos

locutores,foneticamentebalanceadas.

Foramusadas4 arquiteturasde SOM com retículaquadradaparacadaconjunto

de treinamento:com 16, 25, 36 e 64 unidadesde processamento.Cadacombinação

deumaarquiteturacomum conjuntodefrasesfoi treinadae testada.Um dosconjun-

tos de treinamentode frasescomuns,foneticamentebalanceadas,nãofoi usadopara

treinamento,sendodeixadocomoconjuntodereferênciaparatestes.

Osresultadosdostestesindicaramqueasarquiteturascommaisunidadespossuem

maior poderdiscriminativo, respondendocom menoreserrosde quantizaçãodurante

o treinamentoe maiorestaxasde acertoduranteos testes. Tambémindicaramque

conjuntosdetreinamentodemaiorduraçãofavorecemo aumentodastaxasdeacerto.

O melhordesempenhoemtermosdetaxasdeacertosobreo conjuntodereferência

foi conseguido coma arquiteturade64 unidades,treinadacomosconjuntosde frases

foneticamentebalanceadas,comunsaoslocutores:99.29%. Entretanto,estamesma

arquiteturaapresentoutaxasdeacertobaixasquandotestadano conjunto defrasesva-

70

riáveis: 86.90%.Como detalhamentodesteerro por frase,observou-sequeasfrases

detestemaiscurtasforamresponsáveispeloserros,comtaxasdeacertode100%para

asfrasesdetestemaislongas.Isto definiuum limite inferior paraa duraçãodasfrases

detestedeaproximadamente 2 6s.

De forma geral, pode-sedizer que o conjunto, treinadocom aproximadamente

17 5s de amostrasde voz por locutor, é capazde identificá-loscom maisde 99% de

taxadeacertoquandotestadocomlocuçõesdeduraçãosuperiora 2 8s, emmodoinde-

pendentedetexto,colocando-omuitopróximoaossistemasestadodaartenacategoria.

Osresultadosdostestesindicamqueestedesempenhopodeseraindamelhoradopelo

aumentodonúmerodeunidadesdasSOMs.

5.2 Sobreo usodeuma SOM por locutor

A soluçãoabordadaapresentaumacaracterísticaarquiteturalbastanteinteressan-

te: paraqueumnovo locutorsejaacrescentadoaoconjuntodelocutoresalvo,bastaque

umanova SOM sejatreinadaparaestelocutor, semnecessidadedere-executaro pro-

cessodetreinamentodasdemais.Damesmaforma,paraqueumlocutorsejaremovido

do conjuntoalvo, bastadestruira suaSOM associada.Estedesacoplamentodámaior

viabilidadeparaaplicaçõesemqueo conjuntoexatodelocutoresalvo é desconhecido

a priori , desenvolvendo-seaolongodociclo devidadaaplicação.

Entretanto,o procedimentodeidentificação(teste)torna-semaiscomplexo como

aumentodo númerodelocutoresalvo: o númeroderedesemqueum padrãodeve ser

testadoaumenta,aumentandolinearmenteo tempoderespostadostestes.

Outraquestãoquesurge com o aumentodo númerode locutoresé queasdife-

rençasentreos errostotaisde quantizaçãoentreas redestendea sermaispróximo,

refletindoamaiorprobabilidadedeseencontrarlocutorescomvozessemelhantes.En-

tretanto,segundoos gráficosdasfiguras25 e 26, o aumentodo númerode unidades

dasSOMsreduztantoos errosdequantizaçãoduranteo treinamentoquantoastaxas

deerrodeidentificação,conferindoàsredesmaiorpoderdiscriminativo.

Portanto,o númerode unidadesde processamentodasSOMs deve serbaseado

numaestimativadonúmeromáximo delocutoresqueo conjuntodeverásuportar, man-

tendoosníveisdedesempenhoaceitáveis. Além disto, deve-selevar emconsideração

queaplicaçõescom um maior númerode unidadesde processamentopor SOM tor-

nammaislentososprocessosdetreinamentoe verificação,aumentandoostemposde

respostadaaplicação.

71

5.3 Dir eçõesFuturas para Pesquisa

Nestetrabalho,os índicesdasclassesresultantesda quantizaçãovetorial pelas

SOMsfoi ignorado:somenteos errostotaisde quantizaçãoforam utilizados. Testes

preliminares,feitos fora do escopodestadissertação,indicamquea seqüênciadestes

índicesdeclassepodeserusadaparaidentificarafrasesendofaladapelolocutor. Opro-

cedimentousadonestestestesconsistiu naconstruçãodemapasdetransiçãodeestado

(histogramasde ocorrênciade transiçõesentreíndicesde classes),seguido da identi-

ficação atravésde redesneuraisde arquiteturaLearningVector Quantization (LVQ).

Experimentosanteriorescomo usodestemétodo,aplicadonaidentificaçãodefreqüên-

ciasdeondasmecânicas,propagadasnumasondadeprospecçãodepetróleo(SIMõES,

2000),apresentaramresultadosmuito bons.

A soluçãoapresentadadevesertestadasobreconjuntoscommaislocutores,como

por exemplo os corpora KING, SPOLTECH e TIMIT, buscandodefinir um compro-

missoentreo desempenhoe a complexidadecomputacional daarquitetura,comparan-

do estedesempenhocom os padrõesatuaisparaestesconjuntos de amostrasde voz.

Tambémdeve ser testadaem conjuntosde vozescom diferentesníveis de ruído para

quesuarobustezsejaavaliada.

Umanovaaplicaçãosugeridaparaestesistemaéasegmentaçãodeconversasentre

um grupodelocutores:definir ostrechosemquecadalocutorestáfalando,ostrechos

demisturadevozese ostrechosdesilêncio.Estasegmentaçãoé bastanteinteressante

comopré-processamentoparasistemasdereconhecimentodevoz.

72

REFERÊNCIAS BIBLIOGRÁFICAS

ALCAIM, A.; SOLEWICZ,J. A.; MORAES,J. A. Freqüênciadeocorrênciados

fonese listasde frasesfoneticamentebalanceadasno Portuguêsfaladono Rio de

Janeiro.Revista da SociedadeBrasileira deTelecomunicações, v. 7, n. 1, p. 23–41,

dez.1992.

ANDERSON,T. R.; PATTERSON,R. Speaker recognitionwith theAuditory Image

modelandSelf OrganizingFeatureMap: a comparisonwith traditionaltechniques.

In: ESCA WORKSHOPON SPEAKERRECOGNITION,IDENTIFICATION,

AND VERIFICATION. Proceedings. Martigny, Switzerland:[s.n.],1994.

ARBIB, M. A. (Ed.).The Handbook of Brain Theory and Neural Networks.

Cambridge,MA: TheMIT Press,1995.1118p.

BECHETTI, C.; RICOTTI, L. P. Speech Recognition: Theory and C++

implementation. WestSussex, England: JohnWiley & Sons,1999.407 p.

AcompanhaCD-ROM.

BENNANI, Y.; GALLINARI, P. A connectionistapproachfor speaker identification.

In: ICASSP, 1990.Proceedings. Albuquerque,NM, USA: [s.n.],1990.p. 265–268.

BENNANI, Y.; GALLINARI, P. On theuseof TDNN-extractedfeaturesinformation

in talker identification. In: ICASSP, 1991.Proceedings. Toronto,Ontario,Canada:

[s.n.],1991.p. 385–388.

BIMBOT, F.; MAGRIN-CHAGNOLLEAU, I.; MATHAN, L. Second-orderstatistical

measuresfor text-independentspeaker identification. SpeechCommunication,

v. 17,n. 1–2,p. 177–192,ago.1995.

BISHOP, C. M. Neural Networks for Pattern Recognition. Oxford: Oxford

University Press,1995.482p.

BOCCHIERI, E. L.; WILPON, J. G. Discriminative featureselectionfor speech

recognition.Computer Speechand Language, v. 7, p. 229–246,1993.

73

BORDEN,G.; HARRIS, K. SpeechSciencePrimer : Physiology, acoustics,and

perception.Baltimore,Md.: Williams & Wilkins, 1980.

CAMPBELL JR.,J. P. Speaker recognition:a tutorial. Proceedings of the IEEE ,

v. 85,n. 9, p. 1437–1462,set.1997.

COOLEY, J. W.; TUKEY, J.W. An algorithmfor themachinecomputation of the

complex Fourierseries.Mathematical Computation, v. 19,p. 297–301,1965.

DELACRETAZ, D. P.; HENNEBERT, J. Text-promptedspeaker verification

experimentswith phonemespecificMLPs. In: ICASSP, 1998.Proceedings. [S.l.:

s.n.],1998.p. 777–780.

DELLER JR.,J.R.; HANSEN,J.H. L.; PROAKIS, J.G. Discrete-Time Processing

of Speech Signals. New York: Macmillan,1993.908p.

DE MORI, R. (Ed.). Spoken Dialogueswith Computers. London: Academic

Publishers,1998.702p.

DENES,P. B.; PINSON,E. N. The SpeechChain: Thephysicsandbiology of

spokenlanguage.2 ed.New York: W. H. Freeman,1993.246p.

DOYA, K. Recurrentnetworks: Supervisedlearning.In: ARBIB, M. A. (Ed.).The

Handbook of Brain Theory and Neural Networks. Cambridge,MA: MIT Press,

1995.p. 796–800.

FARRELL, K. Networks for speaker recognition. In: KATAGIRI, S. (Ed.).

Handbook of Neural Networks for SpeechProcessing. Norwood: ArtechHouse

Publishers,2000.cap.10,p. 357–391.

FARRELL, K.; MAMMONE, R. J.; ASSALEH, K. T. Speaker recognition

usingneuralnetworksandconventionalclassifiers.Acoustic, Speech and Signal

Processing,IEEE Transactionson, v. 2, n. 1, p. 194–205, jan.1994.Part II.

FLANAGAN, J.L. SpeechAnalysis,Synthesisand Perception. 2 ed.New York:

Springer-Verlag,1972.

FURUI, S. An overview of speaker recognitiontechnology. In: ESCAWORKSHOP

ON SPEAKERRECOGNITION,IDENTIFICATION, AND VERIFICATION.

Proceedings. Martigny, Switzerland:[s.n.],1994.

74

FURUI, S. Recentadvancesin speaker recognition. Pattern RecognitionLetters,

v. 18,n. 9, p. 859–872, set.1997.

FURUI, S. Speaker recognition. In: Ron Cole; Victor Zue (Ed.). Survey of

the State of Art in Human LanguageTechnology. [S.l.]: NationalScience

FoundationandEuropeanUnion, 1996.cap.1.7, p. 42–48. Disponível em:i http://cslu.cse.ogi.edu/HLTsurvey/ j .

GERSHO,A.; GRAY, R. M. Vector Quantization and Signal Compression.

Norwell, MA: Kluwer AcademicPublishers,1992.(TheKluwer InternationalSeries

in EngineeringandComputerScience).

GISH, H.; SCHMIDT, M. Text-independent speaker verification. IEEE Signal

ProcessingMagazine, v. 11,n. 4, p. 18–32,out.1994.

HAYKIN, S. Neural Networks: A comprehensive foundation.2 ed.Englewood

Clif fs, NJ: PrenticeHall, 1999.842p.

HOMAYOUNPOUR,M. M.; CHOLLET, G. NeuralNet approachesto speaker

verification: comparisonwith secondorderstatistic measure.In: ICASSP, 1995.

Proceedings. Detroit,MI, USA: [s.n.],1995.v. 1, p. 353–356.

INTRATOR, N. Competitive learning. In: ARBIB, M. A. (Ed.).The Handbook

of Brain Theory and Neural Networks. Cambridge,MA: MIT Press,1995.p.

220–222.

JUANG, B. H.; RABINER, L. R.; WILPON, J.G. On theuseof bandpassliftering in

speechrecognition. Acoustic,Speechand Signal Processing,IEEE Transactions

on, v. 35,p. 947–954,jul. 1987.

KATAGIRI, S. (Ed.). Handbook of Neural Networks for Speech Processing.

Norwood:ArtechHousePublishers,2000.522p.

KOENIG, W. A new frequency scalefor acousticmeasurements.Bell Telephone

Laboratory Record, v. 27,p. 299–301, 1949.

KOHONEN,T. Learning vector quantization for pattern recognition. Helsinki:

HelsinkiUniversityof Technology, 1986.(TechnicalReport,TKK-F-A601).

75

KOHONEN,T. Theself-organizingmap. Proceedingsof the IEEE , v. 78,n. 9, p.

1464–1480,set.1990.

KOHONEN,T. Self-Organizing Maps. 3 ed.Berlin: Springer-Verlag,2001.

(SpringerSeriesin InformationSciences,30).

KUMAGAI, J. Talk to themachine.IEEE Spectrum , p. 60–64,set.2002. Special

R&D Report.

LANG, K. J.;HINTON, G. E. The developmentof the time-delayneural network

architecture for speechrecognition. Carnegie-MellonUniversity: Pittsburg, PA,

1988.(TechnicalReport,TR-CMU-CS-88-152).

LAPIDOT, I.; GUTERMAN, H.; COHEN,A. Unsupervisedspeaker recognition

basedon competition betweenSelf-OrganizingMaps. Neural Networks, IEEE

Transactionson, v. 13,n. 4, p. 877–887, jul. 2002.

LECUN, Y. Une procedured’apprentissagepour reseaua seuil assymetrique.

Cognitiva, v. 85,p. 599–604,1985.

LEE,C.H.; SOONG,F. K.; PALIWAL, K. K. (Ed.).Automatic Speechand Speaker

Recognition: Advancedtopics.Boston:Kluwer AcademicPublishers,1996.517p.

MATSUI, T.; FURUI, S. Speaker adaptionof tied-mixture-basedphonememodels

for text-promptedspeaker recognition. In: Proceedings. [S.l.: s.n.],1994.v. 1, p.

I/125–I/128.

MERMELSTEIN, P.; DAVIS, B. Comparisonof parametricrepresentationsfor

monosyllabic word recognitionin continuously spokensentences.Acoustic,Speech

and SignalProcessing,IEEE Transactionson, v. 28,n. 4, p. 357–366, ago.1980.

MINSKY, M. L.; PAPERT, S.A. Perceptrons: Expandededition.2 ed.Cambridge,

MA: TheMIT Press,1990.292p.

NAIK, J.M.; NETCH,L. P.; DODDINGTON, G. R. Speaker verificationover long

distancetelephonelines. In: ICASSP, 1989.Proceedings. Glasgow, Scotland:[s.n.],

1989.p. 524–527.

OGLESBY, J.; MASON, J. S. Optimizationof neuralmodelsfor speaker

identification. In: ICASSP, 1990.Proceedings. Albuquerque,NM, USA: [s.n.],

1990.p. 261–264.

76

OPPENHEIM,A. V.; SCHAFER,R. W. Discrete-Time Signal Processing. 2 ed.

UpperSaddleRiver, NJ:PrenticeHall, 1998.870p. (PrenticeHall SignalProcessing

Series).

PARKER, D. B. Learning-logic: castingthe cortex of the human brain in silicon.

Cambridge,MA: Centerfor ComputationalResearchin EconomicsandManagement

Science,1985.(TechnicalReport,TR-47).

PHILLIPS, P. J. et al. An introductionevaluatingbiometricsystems.Computer

Magazine, v. 33,n. 2, p. 56–63,fev. 2000.

PICONE,J.W. Signalmodeling techniquesin speechrecognition.Proceedingsof

the IEEE , v. 81,n. 9, p. 1215–1247,set.1993.

PRESS, W. H. et al. Numerical Recipesin C: Theart of scientificcomputing. 2 ed.

Cambridge,UK: CambridgeUniversity Press,1992.994p.

RABINER,L. R.; JUANG, B. W. Fundamentalsof Speech Recognition. Englewood

Clif fs, NJ: PrenticeHall, 1993.507p.

RABINER, L. R.; WILPON, J.G.; SOONG,F. K. High performanceconnecteddigit

recognitionusinghiddenMarkov models.Acoustic,Speech and Signal Processing,

IEEE Transactionson, v. 37,p. 1214–1225,ago.1989.

RABINER, L. A tutorial on HiddenMarkov Modelsandselectedapplicationsin

speechrecognition.Proceedingsof the IEEE , v. 77,n. 2, p. 257–286, fev. 1989.

REYNOLDS,D. A.; QUATIERI, T. F.; DUNN, R. B. Speaker verificationusing

adaptedGaussianMixture Models.Digital Signal ProcessingReview Journal, jan.

2000.

REYNOLDS,D. Speaker identificationandverificationusingGaussianMixture

Models.SpeechCommunications, v. 17,p. 91–108,ago.1995.

REYNOLDS,D. A.; HECK, L. P. Automaticspeaker recognition:recentprogress,

currentapplications,andfuturetrends.In: AMERICAN ASSOCIATION FORTHE

ADVANCEMENT OF SCIENCE (AAAS) SYMPOSIUM.Washington,DC: [s.n.],

2000.

77

ROSENBERG, A. E.; LEE, C. H.; GOKEEN,S. Connectedword talker recognition

usingwholewordHiddenMarkov Models.In: ICASSP, 1991.Proceedings. Toronto,

Ontario,Canada:[s.n.],1991.p. 381–384.

ROSENBERG, A. E.; LEE, C. H.; SOONG,F. K. Sub-word unit talker verification

usingHiddenMarkov Models. In: ICASSP, 1990.Proceedings. Albuquerque,NM,

USA: [s.n.],1990.p. 269–272.

ROSENBLATT, F. ThePerceptron:A probabilistic modelfor informationstorage

andorganizationin thebrain. PsychologicalReview, v. 65,p. 386–408,1958.

RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Learningrepresentations

by back-propagatingerrors.Nature, London,v. 323,p. 533–536,1986.

RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Learninginternal

representationsby errorpropagation.In: RUMELHART, D. E.; MCCLELLAND,

J.L. (Ed.).Parallel Distrib uted Processing: Explorationsin themicrostructureof

cognition.Cambridge,MA: MIT Press,1986,v. 1: Foundations,v. 1: Foundations.

cap.8, p. 318–362.

RUMELHART, D. E.; ZIPSER,D. Featurediscovery by competitive learning. In:

RUMELHART, D. E.; MCLELLAND, J.L. (Ed.).Parallel Distrib uted Processing:

Explorationsin themicrostructureof cognition.Cambridge,MA: MIT Press,1986,

v. 1: Foundations,v. 1: Foundations. cap.5, p. 151–193.

SANKAR, A.; MAMMON E, R. J. Growing andpruningneuraltreenetworks.

Computers, IEEE Transactionson, v. C-42,p. 221–229,mar. 1993.

SHIKANO, K. Evaluation of LPC spectral matching measuresfor phonetic

unit recognition. New York: ComputerScienceDepartment,Carnegie-Mellon

University, maio1985.(TechnicalReport).

SIMõES,M. G. et al. A novel competitive learningneuralnetwork basedacoustic

transmission systemfor oil-well monitoring. Industry Applications, IEEE

Transactionson, v. 36,n. 2, p. 484–491, abr. 2000.

SOONG,F. K. et al. A vectorquantizationapproachto speaker recognition. In:

ICASSP, 1985.Proceedings. [S.l.: s.n.],1985.p. 387–390.

78

SóRIA, R. A. B. Reconhecimento Automático de Locutor usando pré-

processamentoem sonsnasalizadoscom diversosclassificadores neurais.

Dissertação(Mestrado)— EscolaPolitécnicadaUniversidadedeSãoPaulo,São

Paulo,SP, 2001.

SRINIVASAN, S.; BROWN, E. Is speechrecognitionbecomingmainstream?

Computer Magazine, abr. 2002. Disponível em: i http://computer.org/computer/-

homepage/0402/GEI/index.htmj . Acessoem:26 .apr. 2002.

STEVENS,S. S.; VOLKMAN, J. Therelationof pitch to frequency. American

Journal of Psychology, v. 53,p. 329,1940.

TEXAS INSTRUMENTS INC. Understanding Data Converters. [S.l.], 1995.

(ApplicationReport,SLAA013).

TSOI, A. C. et al. Application of artificial neuralnetwork techniquesto

speaker verification. In: ESCAWORKSHOPON SPEAKERRECOGNITION,

IDENTIFICATION, AND VERIFICATION. Proceedings. Martigny, Switzerland:

[s.n.],1994.

MALSBURG, C. von der. Self-organizationof orientationsensitivity cells in the

striatecortex. Kybernetik, n. 14,p. 85–100,1973.

WAIBEL, A. etal. Phonemerecognitionusingtime-delayneuralnetworks.Acoustic,

Speech and Signal Processing,IEEE Transactionson, v. ASSP-37,n. 3, p.

328–339,1989.

WERBOS,P. J. Beyond regression:new tools for prediction and analysisin the

behavioral sciences. Tese(Doutorado)— HarvardUniversity, Cambridge,MA,

1974.

YUK, D. S. et al. A neural network systemfor robust large-vocabulary

continuousspeechrecognition in variable acousticenvir onments. Piscataway,

N.J.: Rutgers- TheStateUniversityof New Jersey, 15 jan.1999.(TechnicalReport

CAIP-TR-234).

alexandre teixeira mafra reconhecimento automático de locutor em

Documents