alexandre teixeira mafra reconhecimento automático de locutor em
TRANSCRIPT
ALEXANDRE TEIXEIRA MAFRA
RECONHECIMENTO AUTOMÁTICO DE LOCUTOREM MODO INDEPENDENTE DE TEXTO
POR SELF-ORGANIZING MAPS
Dissertação apresentada à EscolaPolitécnica da Universidade deSão Paulo para obtenção doTítulo de Mestre em Engenharia
São Paulo2002
ALEXANDRE TEIXEIRA MAFRA
RECONHECIMENTO AUTOMÁTICO DE LOCUTOREM MODO INDEPENDENTE DE TEXTO
POR SELF-ORGANIZING MAPS
Dissertação apresentada à EscolaPolitécnica da Universidade deSão Paulo para obtenção doTítulo de Mestre em Engenharia
Área de Concentração:Engenharia Mecânica
Orientador:Prof. Dr. Marcelo Godoy Simões
São Paulo2002
FICHA CATALOGRÁFICA
Mafra, Alexandre TeixeiraReconhecimento automático de locutor em modo indepen-
dente de texto por self-organizing maps / A.T. Mafra. – SãoPaulo, 2005.
78 p.
Dissertação (Mestrado) - Escola Politécnica da Universidadede São Paulo. Departamento de Engenharia Mecatrônica e deSistemas Mecânicos.
1.Reconhecimento de voz 2.Biometria 3.Redes neuraisI.Universidade de São Paulo. Escola Politécnica. Departamentode Engenharia Mecatrônica e de Sistemas Mecânicos II.t.
À minha família, ondesempre encontrei suportegeneroso e
confiança,quefundamentamasgrandesconquistaspessoais.
A Lúcia, comquemamoviver, peladedicaçãoe compreensão
semlimites.
Aosrecém-nascidosMarcos,Brunae Giovana,quesejamre-
cebidoscomgenerosidade, confiança,dedicaçãoe compreen-
são,e queosretribuamcomsuasgrandesconquistas.
AGRADECIMENT OS
AgradeçoaoprofessorDr. MarceloGodoy Simõespelaconstantemotivação,pelo
estímuloàcriaçãoeaserenidadenaorientação.Semeles,estetrabalhonãosetornaria
fato.
Ao professorDr. JunOkamotoJr. porsuacontribuição,suaincansável disposição
e pelaseriedadecomquevemconduzindoseusalunosdaPolitécnicahátantosanos.
À professoraDra. Anna HelenaReali Costae ao professorDr. Fabio Gagliardi
Cozman,porseuenvolvimentoesuasimportantesorientações.
Aos colegasdaUniconsult, companheirosde trabalhoe devida, quemeempres-
taramsuasvozese suaforça. Aos demaisamigos,quegentilmentecederamamostras
desuasvozes.
RESUMO
Projetarmáquinascapazesidentificarpessoasé um problemacujasoluçãoencon-traumagrandequantidadedeaplicações.Implementaçõesemsoftwaredesistemasba-seadosemmediçõesdecaracterísticasfísicaspessoais(biométricos),estãocomeçandoaserproduzidosemescalacomercial.NestacategoriaestãoossistemasdeReconheci-mentoAutomáticodeLocutor, queseusamdavozcomocaracterísticaidentificadora.
No presentemomento, os métodosmaispopularessãobaseadosna extraçãodecoeficientesmel-cepstrais(MFCCs)daslocuções,seguidosdaidentificaçãodo locutoratravés de HiddenMarkov Models(HMMs), Gaussian Mixture Models(GMMs) ouquantizaçãovetorial.Estapreferênciasejustificapelaqualidadedosresultadosobtidos.
Fazercomqueestessistemassejamrobustos,mantendosuaeficiênciaem ambi-entesruidosos,é umadasgrandesquestõesatuais. Igualmenterelevantessãoospro-blemasrelativos à degradaçãode performanceem aplicaçõesenvolvendoum grandenúmerode locutores,e a possibilidadede fraudebaseadaem vozesgravadas. Outroponto importanteé embarcarestessistemas como sub-sistemasde equipamentosjáexistentes,tornando-oscapazesdefuncionardeacordocomo seuoperador.
Estetrabalhoexpõeosconceitosealgoritmosenvolvidosnaimplementaçãodeumsoftware de ReconhecimentoAutomático de Locutor independentede texto. Inicial-menteé tratadoo processamentodossinaisdevozeaextraçãodosatributosessenciaisdestesinalparao reconhecimento.Apósisto,édescritaa formapelaquala voz deca-da locutoré modeladaatravésdeumaredeneuraldearquiteturaSelf-Organizing Map(SOM) e o métododecomparaçãoentreasrespostasdosmodelosquandoapresentadaumalocuçãodeumlocutordesconhecido.
Porfim, sãoapresentadoso processodeconstruçãodocorpusdevozesusadoparao treinamentoe testedos modelos,as arquiteturasde redestestadase os resultadosexperimentaisobtidos numatarefa deidentificaçãodelocutor.
ABSTRACT
Thedesignof machinesthatcanidentify peopleis a problemwhosesolution hasa wide rangeof applications. Software systems,basedon personalphisical attribu-tesmeasurements(biometrics), are in the beginning of commercialscaleproduction.Automatic Speaker Recognitionsystems fall into this cathegory, using voice as theidentifyingattribute.
At present,themostpopularmethodsarebasedontheextractionof mel-frequencycepstralcoefficients(MFCCs),followed by speaker identificationby HiddenMarkovModels(HMMs), GaussianMixtureModels(GMMs) or vectorquantization. Thispre-ferenceis motivatedby thequalityof theresultsobtainedby theuseof thesemethods.
Making thesesystems robust,ableto keepthemselves efficient in noisyenviron-ments,is now amajorconcern.Justasrelevantaretheproblemsrelatedto performancedegradationin applicationswith a largenumberof speakersinvolved,andtheissuesre-latedto thepossibility of fraudby theuseof recordedvoices.Anotherimportantsubjectis to embedthesesystems assub-systemsof existing devices,enablingthemto workaccordingto theoperator.
Thisworkpresentstherelevantconceptsandalgorithmsconcerningtheimplemen-tationof atext-independentAutomaticSpeakerRecognitionsoftwaresystem.First,thevoice signalprocessingandthe extractionof its essentialfeaturesfor recognitionaretreated.After this,it is describedthewayeachspeaker’svoiceis representedby aSelf-OrganizingMap (SOM) neuralnetwork, and the comparisonmethodof the modelsresponseswhena new utterancefrom anunknown speaker is presented.
At last, it is describedtheconstructionof thespeechcorpususedfor trainingandtestingthemodels, theneuralnetwork architecturestested,andtheexperimental resultsobtainedin aspeaker identificationtask.
SUMÁRIO
1 Intr odução 13
1.1 ReconhecimentoAutomáticodeLocutor(RAL) . . . . . . . . . . . . . 13
1.2 ClassificaçãodoProblema . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.1 Tipo deTarefa . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.2 ModalidadesdeTexto . . . . . . . . . . . . . . . . . . . . . . 15
1.3 AvaliaçãodoDesempenho. . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Aplicações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 ProblemasCorrelatos . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.1 ReconhecimentodeVoz . . . . . . . . . . . . . . . . . . . . . 16
1.5.2 EntendimentodeVoz . . . . . . . . . . . . . . . . . . . . . . . 17
1.6 EstadodaArte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 VisãoGeraldaDissertação. . . . . . . . . . . . . . . . . . . . . . . . 18
2 Extração de Atrib utosdosSinaisdeVoz 19
2.1 Digitalizador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 ExtratordeAtributos . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1 Pré-ênfase. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2 Janelamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.3 DFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.4 BancosMel-Frequency . . . . . . . . . . . . . . . . . . . . . . 29
2.2.5 Log
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.6 DCT eMFCCs . . . . . . . . . . . . . . . . . . . . . . . . . . 33
DeltaCepstrum. . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 Reconhecimento deLocutor por Self-Organizing Maps 36
3.1 VisãoGeral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 RedesNeuraisArtificiais . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.1 UnidadesdeProcessamento. . . . . . . . . . . . . . . . . . . 37
FunçõesdeAtivação . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.2 ArquiteturasdeRedes . . . . . . . . . . . . . . . . . . . . . . 39
Camadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
RedesFeedforward deUmaCamada. . . . . . . . . . . . . . . 40
RedesFeedforward Multi-camada. . . . . . . . . . . . . . . . 40
RedesRecorrentes . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.3 ProcessosdeAprendizadodeRedesNeurais . . . . . . . . . . 41
AprendizadoSupervisionado. . . . . . . . . . . . . . . . . . . 42
AprendizadoNãoSupervisionado. . . . . . . . . . . . . . . . 42
AprendizadoCompetitivo . . . . . . . . . . . . . . . . . . . . 43
3.3 RedesNeuraisparaReconhecimentodeLocutor . . . . . . . . . . . . . 44
3.3.1 Multi-LayerPerceptron (MLP) . . . . . . . . . . . . . . . . . . 44
3.3.2 Self-Organizing Map (SOM) e LearningVector Quantization
(LVQ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3.3 Time-DelayNeural Network(TDNN) . . . . . . . . . . . . . . 45
3.3.4 RecurrentNeural Network(RNN) . . . . . . . . . . . . . . . . 46
3.3.5 Neural TreeNetwork(NTN) . . . . . . . . . . . . . . . . . . . 46
3.4 QuantizaçãoVetorial(VectorQuantization– VQ) . . . . . . . . . . . . 47
3.5 A ArquiteturaSelf-OrganizingMap (SOM) . . . . . . . . . . . . . . . 47
3.5.1 Algoritmo deTreinamento. . . . . . . . . . . . . . . . . . . . 48
Competição. . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Cooperação. . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Adaptação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.5.2 PropriedadesdoMapadeAtributos . . . . . . . . . . . . . . . 51
3.6 Self-Organizing MapsparaReconhecimentoAutomáticodeLocutor . . 52
3.6.1 PrincípiodeFuncionamento. . . . . . . . . . . . . . . . . . . 52
3.6.2 Normalização. . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.6.3 Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.6.4 Teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4 ProcedimentoExperimental 55
4.1 CorpusdeAmostrasdeVoz . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.1 CondiçõesdoAmbiente . . . . . . . . . . . . . . . . . . . . . 55
4.1.2 ComposiçãodoConjuntodeLocutores . . . . . . . . . . . . . 55
4.1.3 FrasesUsadas. . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2 Softwaree HardwareUsados. . . . . . . . . . . . . . . . . . . . . . . 58
4.3 DigitalizaçãoeExtraçãodosMFCCs. . . . . . . . . . . . . . . . . . . 58
4.4 ArquiteturasdeSOMsUsadas . . . . . . . . . . . . . . . . . . . . . . 59
4.5 Treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.5.1 AnálisedosResultadosdoTreinamento. . . . . . . . . . . . . 61
4.6 ResultadosdosTestes. . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.6.1 AnálisedosResultadosdosTestes. . . . . . . . . . . . . . . . 61
5 Conclusões 69
5.1 ConclusõesGerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2 Sobreo usodeumaSOM por locutor . . . . . . . . . . . . . . . . . . 70
5.3 DireçõesFuturasparaPesquisa. . . . . . . . . . . . . . . . . . . . . . 71
LISTA DE FIGURAS
1 DiagramadeblocosdoDigitalizador . . . . . . . . . . . . . . . . . . . 20
2 Palavra “zero”, digitalizadaa22 05kHz comresoluçãode8 bits . . . . 22
3 Espectrodepotênciadapalavra “zero” . . . . . . . . . . . . . . . . . . 22
4 DiagramadeblocosdoExtratordeAtributos . . . . . . . . . . . . . . 23
5 Palavra “zero” apóspré-ênfase . . . . . . . . . . . . . . . . . . . . . . 25
6 Espectrodepotênciadapalavra “zero” apóspré-ênfase . . . . . . . . . 25
7 FunçõesdeJanelamento . . . . . . . . . . . . . . . . . . . . . . . . . 28
8 Segmentodapalavra “zero” semjanelamento . . . . . . . . . . . . . . 28
9 Segmentodapalavra “zero” apósjanelamento. . . . . . . . . . . . . . 30
10 Espectrodepotênciadesegmento dapalavra “zero” . . . . . . . . . . . 30
11 FiltrosdebandascríticasdaescalaMel . . . . . . . . . . . . . . . . . 31
12 Potênciadosfiltros debandascríticasdesegmento dapalavra “zero” . . 31
13 Log dapotênciadosfiltros de bandascríticasde segmentoda palavra
“zero” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
14 Coeficientesmel-cepstraisdesegmentodapalavra “zero” . . . . . . . . 33
15 Coeficientesmel-cepstraisdapalavra “zero” . . . . . . . . . . . . . . . 35
16 Modelonãolineardeum neurônio . . . . . . . . . . . . . . . . . . . . 38
17 Redeneuralfeedforward deumacamada. . . . . . . . . . . . . . . . . 40
18 Redeneuralfeedforward multi-camada. . . . . . . . . . . . . . . . . . 41
19 RedeneuralTDNN comentradaunidimensional. . . . . . . . . . . . . 45
20 RecurrentNeural Network(RNN) . . . . . . . . . . . . . . . . . . . . 46
21 ArquiteturadeumaSelf-OrganizingMap . . . . . . . . . . . . . . . . 48
22 RetículabidimensionaldeumaSelf-Organizing Map . . . . . . . . . . 50
23 Evoluçãodoerrodequantizaçãoporsegmentoparacadaarquiteturade
SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
24 Médiado errodequantizaçãoapóstreinamentoemfunçãodo número
deunidadesdaarquitetura . . . . . . . . . . . . . . . . . . . . . . . . 65
25 Taxa de erro de identificaçãoem funçãoda duraçãodo conjuntode
treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
26 Taxa de erro de identificaçãoem funçãodo númerode unidadesda
arquiteturausada,paracadaconjuntodetreinamento . . . . . . . . . . 66
27 Taxadeerrodeidentificaçãoemfunçãodaduraçãomédiadalocução . 68
LISTA DE TABELAS
1 Composiçãodoconjunto delocutoresdocorpusdeamostrasdevoz . . 56
2 ConjuntoVAR1 defrasesvariáveis por locutor . . . . . . . . . . . . . 57
3 ConjuntoBAL1, foneticamentebalanceado,de frasescomunsa todos
oslocutores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4 ConjuntoBAL2, foneticamentebalanceado,de frasescomunsa todos
oslocutores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5 ConjuntoBAL3, foneticamentebalanceado,de frasescomunsa todos
oslocutores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6 Característicasdosconjuntos quecompõemo corpus. . . . . . . . . . . 59
7 ArquiteturasdeSOM utilizadase seusparâmetrosdetreinamento . . . 60
8 Resultadosdo treinamentodaarquiteturaSOM 16 sobreosconjuntos
VAR1, BAL1 eBAL2, paracadaum doslocutores . . . . . . . . . . . 62
9 Resultadosdo treinamentodaarquiteturaSOM 25 sobreosconjuntos
VAR1, BAL1 eBAL2, paracadaum doslocutores . . . . . . . . . . . 62
10 Resultadosdo treinamentodaarquiteturaSOM 36 sobreosconjuntos
VAR1, BAL1 eBAL2, paracadaum doslocutores . . . . . . . . . . . 63
11 Resultadosdo treinamentodaarquiteturaSOM 64 sobreosconjuntos
VAR1, BAL1 eBAL2, paracadaum doslocutores . . . . . . . . . . . 63
12 Porcentagensdeidentificaçãocorretado locutorparaaSOM16 . . . . 64
13 Porcentagensdeidentificaçãocorretado locutorparaaSOM25 . . . . 64
14 Porcentagensdeidentificaçãocorretado locutorparaaSOM36 . . . . 64
15 Porcentagensdeidentificaçãocorretado locutorparaaSOM64 . . . . 64
16 Taxadeerrodeidentificaçãoemfunçãodaduraçãomédiadalocução . 68
LISTA DE ABREVIA TURAS
ANN – Artificial NeuralNetwork
ASR – AutomaticSpeechRecognition
BALn – Conjuntofoneticamentebalanceadodefrasescomuns
DCT – DiscreteCosineTransform
DFT – DiscreteFourierTransform
FFT – FastFourierTransform
GMM – GaussianMixture Model
HMM – HiddenMarkov Model
IDFT – InverseDiscreteFourierTransform
LVQ – LearningVectorQuantization
MFCC – Mel-Frequency CepstralCoefficient
MLP – Multi-Layer Perceptron
NTN – NeuralTreeNetwork
PU – ProcessingUnit
RAL – ReconhecimentoAutomáticodeLocutor
RNA – RedeNeuralArtificial
RNN – Recurrent NeuralNetwork
SOM – Self-OrganizingMap
stRC – shorttermRealCepstrum
TDNN – Time-DelayNeuralNetwork
VAR1 – Conjuntodefrasesvariáveis
VQ – VectorQuantization
13
1 INTRODUÇÃO
A identificaçãodooperadoréumproblemacomumamuitosprojetosdeEngenha-
ria. Uma grandevariedadede exemplosde métodosde identificaçãopessoalé facil-
menteencontradano cotidiano: documentos,chaves,cartõesmagnéticos,códigosde
identificaçãoe senhasdeacesso.
Todosestesmétodos possuemumacaracterísticaem comum: a identificaçãoda
pessoaestáassociadaa algumacoisaqueela possuaou saiba, obrigando-aa portar
objetosedecorarcódigos.Diversosproblemasdecorremdoesquecimentoouconfusão
destescódigosoudaperda,cópiaou fraudedosobjetosdeidentificação.
Nestecontexto surgemassoluçõesbaseadasemmétodosbiométricos(PHILLIPS,
2000),ou seja,baseadosna mediçãoe reconhecimentode característicasfísicasindi-
viduaiscomoformade identificação.Reconhecedoresde impressõesdigitais, de íris,
defacee delocutorseencaixamnestacategoria. É tambémcomumo usocombinado
destesmétodos, parao aumentodonível desegurança.
Dentreosmétodosbiométricosdeidentificação,avozrecebebastanteatençãodos
pesquisadoresda área. Estaatençãose deve principalmenteà facilidadecom queé
produzida,capturada,processadae transmitidanoestadotecnológicoatual.
1.1 Reconhecimento Automático deLocutor (RAL)
OssistemasdeReconhecimentoAutomáticodeLocutor(RAL) têmcomoobjetivo
a determinaçãoautomáticado indivíduo emissor de umadeterminadalocução,mate-
rializadanum sinal de voz, através da comparaçãoentrecaracterísticasextraídasda
locuçãoatuale locuçõesanteriores.
Destaforma,umagrandeáreainicial depesquisa consistenamodelagem(BOR-
DEN; HARRIS, 1980;DENES;PINSON,1993),análise(FLANAGAN, 1972;OPPE-
NHEIM; SCHAFER, 1998)etécnicasdereduçãodoruídoincorporadonestessinaisde
voz(DELLER JR.;HANSEN;PROAKIS, 1993,cap.8). Outragrandefrentesededica
14
à definiçãodascaracterísticasmaisrepresentativas destessinais(RABINER; JUANG,
1993,cap. 3 e 4), objetivandoressaltaraspeculiaridadese reduziras redundâncias,
simplificandoa tarefa declassificaçãodo locutor.
Paraefetuaro reconhecimentoemsi, osprincipaismétodosusadossãobaseados
em Hidden Markov Models(HMMs) (RABINER, 1989), GaussianMixture Models
(GMMs) (REYNOLDS;HECK,2000)eRedesNeuraisArtificiais (RNAs) (FARRELL,
2000).
1.2 Classificaçãodo Problema
Segue a classificaçãodo problema,apresentadaem Furui (1996)e amplamente
aceitaemoutrasreferênciasnoassunto.
1.2.1 Tipo deTarefa
De maneirageral,um sistemade RAL podeseraplicadoparaa identificaçãoou
paraaverificaçãodeum locutor.
Identificaçãode locutor: nestacategoria, é assumidoum conjuntode locutores,ca-
da qual com um conjuntode padrõesqueo representam,e a tarefa do sistema
consisteemcomparara locuçãoproposta contraestespadrões,decidindoa qual
locutor pertenceo padrãomaissemelhante.Existem duasvariaçõesdestatare-
fa: a identificaçãoemconjuntofechado, emquesesupõequesomentelocutores
pertencentesao conjuntoalvo participamtantodo aprendizadoquantoda iden-
tificação,e a identificaçãoem conjunto aberto, em queum elementoadicional
é acrescentado,representantoqualquerlocutorquenãopertençaaoconjuntode
locutoresalvo.
Verificaçãode locutor: no casodaverificaçãoou autenticação,o sistemaé responsá-
vel por compararumalocuçãode entradacomo padrãoassociadoà identidade
propostaparaestalocução,chegandoa umadecisãobináriado tipo aceitox re-
jeitadodentrodeumamargemdesegurançadefinida(GISH; SCHMIDT, 1994).
Emresumoo sistemadeveconfirmarsealocuçãopropostarealmentepertenceao
locutorpropostoounegarestaassociação,atribuindoa locuçãoaumimpostor.
15
1.2.2 ModalidadesdeTexto
Umasegunda classificaçãodossistemasRAL divide-osemdependentesou inde-
pendentesconteúdotextualdaemissão.
Dependentesde texto: o locutor deve pronunciarum determinadotexto, paraqueo
reconhecimentoocorra. Estetexto deve serfixo ou propostopelo sistema. O
sistemajá deve ter sidotreinadocomo texto específico,dito pelolocutor.
Independentesde texto: o locutordeve serreconhecidoindependentementedo texto
queestejafalando.O sistemanãolevaemconsideraçãoo texto pronunciado.
1.3 Avaliaçãodo Desempenho
Paraavaliaro desempelhodeumsistemaRAL, devemserconsideradososseguin-
tesaspectos:
Qualidadedo sinal devoz: característicasdo microfonee do canalde transmissão,
tipo enível deruídoambienteea variaçãoentreossinaisdetreinamentoe teste.
Modalidade de texto: dependenteou independentedetexto.
Duração daslocuções: duraçãoenúmerodesessõesdetreinamentoeverificação.
Populaçãode locutores: númerodelocutorese composiçãodo conjuntosegundose-
xo, idadee origem,entreoutros.
1.4 Aplicações
Autenticaçãode transaçõescomerciais: sistemasde identificaçãoautomáticade lo-
cutor podemser usadosparaautenticaro locutor em chamadastelefônicasde
longadistância,validar transaçõescomerciaiscompagamentoatravésdecartão
decréditopor telefoneevalidaraplicaçõesfinanceirasvia telefone.
Controle deacesso:sistemasdeidentificaçãoeverificaçãocomomeiodeacessopara
ambientesfísicosou redesde computadores.Em hospitais,podemserusados
paradaracessoaoregistrodeinformaçõesdepacientesou parahabilitar a pres-
criçãodemedicamentos eexames,restritasaopessoalautorizado.
16
Monitoramento: sistemasdeidentificaçãousadosno monitoramento decall-centers,
registrandoo atendentee o tempogastonaschamadas.Ainda comomonitora-
mento,podemserusadosna verificaçãodo cumprimentode prisãocondicional
doméstica,ou nomonitoramento daschamadasfeitasdentrodeumaprisão,ras-
treandoe identificandoautomaticamenteoscontatosdosprisioneiros.
Fontede informações: sistemasdeidentificaçãousadosparadeterminarostrechosde
cadalocutoremarquivoscontendogravaçõesdeconversasentrevárioslocutores.
Aplicaçãoforense: sistemasdeverificaçãosãousadosatualmenteparacomparartre-
chosdegravaçõestelefônicascomamostrasfornecidaspelossupostoslocutores,
confirmandoounegandoa identidadedentrodeum certograudeaceitação.
Aplicaçõeshíbridas: sistemasRAL, associadosasistemasdereconhecimentodevoz,
podemfornecerumaltograudesegurançaemtarefasdeverificaçãoemcontextos
dependentesdetexto, pelaverificaçãosimultâneado locutore do conhecimento
depalavrassecretas,interpretadaspeloreconhecedordevoz.
1.5 Problemas Corr elatos
1.5.1 Reconhecimentode Voz
O objetivo da tecnologiade reconhecimentode voz, segundo Deller Jr., Hansen
e Proakis(1993, p. 601), é o de “criar máquinasque possamreceberinformações
faladase agir de forma apropriadade acordocom estasinformações”. Os sistemas
de Reconhecimentode Voz (AutomaticSpeechRecognition,ASR) (RABINER; JU-
ANG, 1993;DELLER JR.; HANSEN; PROAKIS, 1993;LEE; SOONG;PALIWAL,
1996;DE MORI, 1998)tentamfazercomqueum computadorreconheça,com100%
deacuracidade,todasaspalavrasquepossamserentendidasporqualquerpessoa,inde-
pendentementedotamanhodovocabulário,ruídospresentes,característicasousotaque
do locutor, epreferencialmenteemtemporeal.
Estestêm sido alvo de intensapesquisana última década, motivadapelagran-
de quantidadede possíveis aplicaçõescomerciaisdestatecnologia (SRINIVASAN;
BROWN, 2002). A concepçãoe implementaçãodestetipo de software estáem fase
deamadurecimento,maso problemado reconhecimentoaindaé consideradobastante
abertoesujeitoanovasabordagensparaasuasolução.Aindaassim,aplicaçõescomer-
ciaisestãorecebendosgrandesinvestimentose experimentandorápidapopularização,
17
principalmenteaquelasembarcadasemhandhelds(KUMAGAI, 2002).
1.5.2 Entendimento deVoz
Considerandoa riquezadosaspectoscognitivos da comunicaçãohumanafalada,
o reconhecimentodevozcomomeratranscriçãodaspalavrasparecebastantelimitado,
poisignorao realsignificadoea intençãodecomunicardo locutor. A áreadepesquisa
deEntendimentodeVozbuscarepresentarasintençõesdacomunicaçãodeumaforma
mais rica do que a simplestranscriçãodo sinal de voz. Obviamente,estatarefa é
extremamenteambiciosa,dadoqueos processosdo pensamentohumanoe intenções
decomunicaçãosãomuito poucocompreendidos.
1.6 Estadoda Arte
Atualmente,o métodomaiseficazparao reconhecimentodelocutordependeprin-
cipalmentedamodalidadedetexto associadaaoproblema.
OsHiddenMarkov Models(HMMs) demonstramosmelhoresresultadosemapli-
caçõesdependentesde texto. Os HMMs sãomodelosestatísticos,com grandecapa-
cidadedemodelagemdasdependênciastemporaisassociadasaossinaisde voz. Para
uma introduçãosobrea aplicaçãoe os resultadosdo usode HMMs parareconheci-
mentoautomáticodelocutorvejaNaik, Netche Doddington (1989),Rosenberg, Leee
Soong(1990),Rosenberg, LeeeGokeen(1991)eMatsuieFurui (1994).
OsGaussianMixtureModels(GMMs)sãotambémmodelosestatísticos,emqueas
probabilidadesdeocorrênciadosvetoresdeatributosparacadalocutorsãomodeladas
comocombinaçõesponderadasdevariáveisaleatóriasvetoriaiscompdfsGaussianas.
Usadoscom excelentesresultadosem aplicaçõesindependentesde texto, conforme
demonstradopor Bimbot, Magrin-Chagnolleaue Mathan(1995),Reynolds(1995)e
Reynolds,Quatierie Dunn(2000).
As RedesNeuraisArtificiais (RNAs) sãomodelosconexionistasnãolineares,com
grandecapacidadedereconhecimentoe classificaçãodepadrõesestáticos.Muitasar-
quiteturasde RNAs foram experimentadasem reconhecimentode locutor, sendoque
osmelhoresresultadossãoconseguidospelousodearquiteturasbaseadasemQuanti-
zaçãoVetorialparaaplicaçõesindependentesdetexto. Umadasprimeirasreferências
sobreo reconhecimentoautomáticode locutor atravésde QuantizaçãoVetorial pode
servistaemSoong(1985).Bennanie Gallinari (1990),Andersone Patterson(1994)e
18
Lapidot,Gutermane Cohen(2002)apresentamosresultadosdo usodeRNAs execu-
tandoreconhecimentoautomáticodelocutoratravésdeQuantizaçãoVetorial.Segundo
HomayounpoureChollet(1995),seudesempenhoécomparável aodosGMMs.
Um resumosobreo estadodaarteemRAL, partedeumacoleçãodeartigossobre
o estadodaarteemtecnologiasrelacionadasà linguagemhumana,podeserencontrada
em Furui (1996). Outrasreferênciassobreos métodosusadosincluemFurui (1994),
CampbellJr. (1997),Furui (1997)eFarrell (2000).
1.7 VisãoGeral da Dissertação
A dissertaçãoestáestruturadadaseguinte forma:
Capítulo 2: descreveo processamentodossinaisdevoz,focandonaextraçãodosatri-
butosrelevantesparareconhecimentoautomáticodelocutor.
Capítulo 3: faz umabreve introduçãoàsredesneurais,citandoasprincipaisarquite-
turasusadasem reconhecimentoautomático de locutor e aprofundando-senas
arquiteturaSelf-Organizing Map. Apresentaentãoa modelagemdasvozesdos
locutoresatravésderedesneuraisdearquiteturaSOMeo critériodecomparação
entreasrespostasdosmodelosdoslocutoresquandoapresentadosaumalocução
delocutordesconhecido.
Capítulo 4: relataa forma como foi elaboradoo corpusde amostrasde vozesdos
locutoresusadasparatreinamentoeteste,asarquiteturasusadas,o procedimento
experimentalconduzidosobreesteconjuntoe osresultadosobtidosnatarefa de
identificaçãodelocutoremconjuntofechado.
Capítulo 5: apresentaasconclusõessobreosresultadosdosexperimentose direções
futurasparapesquisa.
19
2 EXTRAÇÃO DE ATRIB UTOSDOS SINAIS DE VOZ
Paraquesejamusadosparareconhecimentode locutor, os sinaisde voz devem
serdigitalizadose pré-processados.O objetivo do pré-processamentoé obterumare-
presentçãoparamétricados sinais,que reduzaredundâncias,mantendoinformações
estatísticassuficientesparao reconhecimento.Do pontodevistado reconhecedor, es-
tasrepresentaçõessãoosatributosdo sinaldevoz (features), queconstituemo objeto
dereconhecimento.
Um bomconjuntodeatributos(REYNOLDS;HECK, 2000)deve serprático,ro-
bustoe seguro,o quesignificaqueestascaracterísticasdevemocorrernaturalmentee
freqüentementenosinaldevoz,devemserfacilmentemensuráveis,nãodevemsermui-
to afetadaspelaidadeoupelasaúdedo locutor, devemserpoucoafetadaspeloruídode
fundooupeloruídointroduzidopelocanaldecomunicaçãoenãodevemserfacilmente
imitáveis.
Diversasrepresentaçõesparamétricasjá foramexperimentadasemsistemasdere-
conhecimentode voz e locutor, sendoquea queapresentaos melhoresresultadosna
maioriadoscasossãoosCoeficientesMel-Cepstrais(Mel-FrequencyCepstral Coeffici-
ents– MFCCs)esuasderivadas.MermelsteineDavis (1980)ePicone(1993)apresen-
tamumarevisãosobreestasrepresentaçõesejustificamaescolhadosMFCCs.Bechetti
e Ricotti (1999)apresentamumasíntesepráticado processode extraçãode MFCCs,
enquantoDeller Jr., Hansene Proakis(1993)trazemumademonstraçãomaisformal
destemesmoprocesso.
A extraçãodeatributosdeum sistemadereconhecimentodevoz é executadapor
2 blocos:
Digitalizador
ExtratordeAtributos(FeatureExtractor)
20
2.1 Digitalizador
Responsável pelacapturae digitalização(discretizaçãodo tempoe daamplitude)
do sinal de voz (figura 1), normalmenteintegradonumaplacade som(com exceção
do Bancode Polifones). Uma vez amostradoe discretizado,o sinal de voz podeser
processadodigitalmente.
DIGITALIZADOR
BANCO DEPOLIFONES
ANTI-ALIASING
PRÉ-AMPLIFICADOR
SAMPLER/HOLDER
CONVERSOR A/D
PSfragreplacements
p t
xc t
xc t
xc t
x n
x n
Figura1: DiagramadeblocosdoDigitalizador
Micr ofone. Recebeossinaisenviadospelo locutoratravésdeondasdepressãodo ar
p t eosconverteemsinaisanalógicosdetensãoelétricaxc t , ondet éo índice
detempocontínuo.
21
Pré-amplificador. Filtro analógicodeganhopositivo naentradadexc t .Anti-aliasing. Filtro analógico(Butterworth, Chebyshev, InverseChebyshev, Cauer,
Bessel-Thomson)quecorta freqüênciasaltas(acimada largurade bandarele-
vante),evitando queestasfreqüênciassejamrebatidasparao espectrorelevante
durantea análiseespectral,introduzindo um tipo deruídoconhecidocomoalias
(TEXAS INSTRUMENTS INC., 1995).
Sampler/Holder. Amostra(sampler) o sinalxc t emintervalosTc, comfreqüênciade
amostragemfc 1 Tc. O instantede amostragemt é discretizado,sendodado
por t nTc, onden é o índicede tempodiscretodaamostra(tambémchamado
de temponormalizado). O sinal é mantidoestável (holder) duranteo intervalo
necessárioparaaconversãoA/D. O sinalpassaaserrepresentadoporxc n . São
comunstaxasdeamostragemde8kHz, 11 025kHz, 12kHz, 16kHz e 22 05kHz.
Maisusualmente,duranteprocedimentosexperimentais,asamostrassãotomadas
a 22 05kHz e entãotêm suafreqüênciade amostragembaixadaartificialmente
paraa freqüênciadesejadaatravésdedownsampling.
Conversor A/D. Recebeos sinaisamostradosxc n e os quantizacom umadetermi-
nadaresolução,gerandoo sinalx n . Resoluçõesde8, 12e16bitssãocomuns.
Bancode Polifones. Umavezdigitalizados,ossinaispodemserarmazenadosemme-
móriapermanente(hard drive), emarquivos(.wav, .mp3), guardandoreferência
aolocutore à locução(figura2).
2.2 Extrator deAtrib utos
Cadeiadeprocessamento(figura4) querecebeossinaisdevozdigitalizadosx n ,executaa segmentaçãoe extrai os vetoresde coeficientesmel-cepstrais(MFCCs)cw
dossegmentos,quesãoosatributosaseremreconhecidos.
Sejao conjunto de locuçõesX de diversaspalavrasou frasesp (1 p P),
emitidaspordiferenteslocutoresl (1 l L), pordiversasvezesi (1 i I ).
X l p i 1 l L 1 p P 1 i I (2.1a)
X X l p i xl p i n 1 n Nl p i (2.1b)
xl p i 1 xl p i n xl p i Nl p i (2.1c)
22
-150
-100
-50
0
50
100
150
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6
Val
or d
a A
mos
tra
- x(
n)
Tempo (s)
Palavra "Zero", 22.05 kHz, 8 bits
atm-0-22kHz-8b.wav
Figura2: Palavra “zero”, digitalizadaa22 05kHz comresoluçãode8 bits
0
5e+08
1e+09
1.5e+09
2e+09
2.5e+09
3e+09
3.5e+09
4e+09
4.5e+09
5e+09
0 2000 4000 6000 8000 10000 12000
Pot
enci
a
Frequencia (Hz)
Espectro de Potencia: palavra "Zero", 22.05 kHz, 8 bits
Figura3: Espectrodepotênciadapalavra “zero”
23
EXTRATOR DEATRIBUTOS
BANCO DEATRIBUTOS
JANELA
x (t)cPRÉ-ÊNFASE
LOG | . |
BANCOS MF
DFT
DCT
PSfrag replacements
x n
x nζ n
yw n
zw ω
zw ω
zw ω
Figura4: DiagramadeblocosdoExtratordeAtributos
24
Exemplificando,X4 2 3, representao conjuntodeN4 2 3 amostrasdosinalx4 2 3 nque compõema locuçãoi 3 da palavra ou frase p 2 pelo locutor l 4. Para
simplicidadede notação,seráusadox n significandoxl p i n e N significandoNl p idestepontoemdiante.
2.2.1 Pré-ênfase
Observa-seque,parasinaisde voz, a energia carregada pelasaltasfreqüênciasé
pequenaquandocomparadacomasbaixasfreqüências.A pré-ênfasedasfreqüências
altasénecessáriaparaqueseobtenhaamplitudesmaishomogêneasdasfreqüênciasfor-
mantes,poisinformaçõesimportantessobrealocuçãotambémestãopresentesnasaltas
freqüências.Istopodeserfeito atravésdeumfiltro digital (OPPENHEIM;SCHAFER,
1998),cujafunçãodetransferêncianodomínioz é
H z 1 az 1 0 a 1 (2.2)
sendoa o parâmetroresponsável pelapré-ênfase,daordemde0 95.
No domínio do tempo,o filtro é implementadoatravésde
X x n 1 n N (2.3a)
x n x n ax n 1 (2.3b)
comx 0 0.
O efeitodapré-ênfasepodeserobservadocomparando-seo sinaloriginal (figura
2) e o sinalapósa pré-ênfase(figura5) e osrespectivosespectrosdepotência(figuras
3 e6).
2.2.2 Janelamento
Apósapréênfase,aslocuçõesX sãodivididasemsegmentos(frames) paraquese
possafazeraanáliseshorttermdosinal.Estasegmentaçãoénecessáriapoiso espectro
médiodosinalaolongodetodaa observação(long term) encobrevariaçõesespectrais
queocorremdurantecurtosintervalos de tempoe quesãode granderelevânciapara
o reconhecimento.Dentrodeumajanelasuficientementepequena(aproximadamente
20ms), asvariaçõesno espectrodeum sinaldevoz podemserconsideradasdesprezí-
veis,tornandoválidaaanálisedeFourier. Sãocomunsjanelasentre10mse 30ms.
25
-150
-100
-50
0
50
100
150
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6
Val
or d
a A
mos
tra
Tempo (s)
Palavra "Zero", 22.05 kHz, 8 bits, apos pre-enfase (alfa = 0.95)
Figura5: Palavra “zero” apóspré-ênfase
0
2e+07
4e+07
6e+07
8e+07
1e+08
1.2e+08
1.4e+08
1.6e+08
0 2000 4000 6000 8000 10000 12000
Pot
enci
a
Frequencia (Hz)
Espectro de Potencia: palavra "Zero", 22.05 kHz, 8 bits, apos pre-enfase (alfa = 0.95)
Figura6: Espectrodepotênciadapalavra “zero” apóspré-ênfase
26
Tomando-sesegmentosYw, delarguraNw N, comNw sendoumapotênciade2,
sobrepostossegundoumarazãos, com0 s 1,
s númerodeamostrassobrepostasNw
(2.4)
cadalocuçãoX ésegmentadaemW Wl p i janelas,sendo
W N 1 s Nw
(2.5)
Osvaloresdes maisutilizadossão0.25,0.50e0.75.
O índicedetempodiscretodentrodo segmento n guardaa seguinterelaçãocom
o índicedetempodiscretodalocução:
n n ! w 1" 1 s Nw 1 n Nw (2.6)
Destaforma, a locuçãocompletaoriginal é representadapor um conjunto de
segmentosdelocuçãoYw (figura8)
# Yw 1 w W (2.7a)
Yw # yw n 1 n Nw (2.7b)
# yw 1 yw n yw Nw (2.7c)
Paraevitar o efeito do fenômenode leakage (introduçãode ruídosem freqüên-
cia devidosà segmentação),utilizam-sefunçõesdejanelamentoζ n (OPPENHEIM;
SCHAFER,1998).Osvaloresdaamostradentrodossegmentossãomultiplicadospon-
to apontopelarespostaimpulsivano tempodafunçãodejanelamento(figura9)
yw n ζ n x n (2.8)
As funçõesde janelamentoseguintes(figura 7) já foram aplicadasem reconhe-
cimentoautomático de locutor, sendoque as de usomais freqüentesãoa janelade
Hammingea janeladeHanning:
27
JaneladeBartlett
ζBartlett n 2n$ Nw n Nw 22 2n% Nw n'& Nw 2 (2.9)
JaneladeHamming
ζHamming n 0 54 0 46cos2πNw
n Nw
2(2.10)
JaneladeHanning
ζHanning n 0 5 0 5cos2πNw
n Nw
2(2.11)
JaneladeBlackman
ζBlackman n 0 42 0 5cos2πNw
n Nw
2(
(0 08cos
4πNw
n Nw
2(2.12)
2.2.3 DFT
Tendoagoraumconjuntodejanelasdeamostrasdosinal # Yw , procede-sea
análisedeFourierdecadaumadelas.É calculadaaDFT (DiscreteFourier Transform)
decadasegmento, atravésdeseualgoritmo rápido:aFFT (COOLEY; TUKEY, 1965).
Paramaioresdetalhes,videOppenheimeSchafer(1998,capítulo8), DellerJr., Hansen
e Proakis(1993,seção1.1.4)ePress(1992,capítulo12).
As amostrasno domínio do tempon sãolevadasparao domínio da freqüência
pelatransformação
zw ω n)+* Nw
∑n) * 1
yw n e j , 2π - Nw . , n) 1. ω (2.13)
ondeoscoeficienteszw ω sãonúmeroscomplexos.
A aplicaçãodaDFT gera,paracadalocução,umconjunto dejanelasZw (figura
10) contendoNw 2 componentesdo espectrodepotênciado sinal (somentea metade
doscomponentesé utilizada,pois o sinal de entradaé compostopor númerosreais,
28
0
0.2
0.4
0.6
0.8
1
0 64 128 192 256 320 384 448 512
Mag
nitu
de/
Tempo normalizado (norm-sec)
Funcoes de Janelamento, 512 pontos
BartlettHammingHanning
Blackman
Figura7: FunçõesdeJanelamento,512pontos
-150
-100
-50
0
50
100
150
0.71 0.715 0.72 0.725 0.73 0.735
Val
or d
a A
mos
tra
Tempo (s)
Palavra "Zero", 22.05 kHz, 8 bits, segmento 35 (0.71111 s a 0.73286 s)
Figura8: Segmento35dapalavra “zero” (Y35), semjanelamento
29
tendoo espectrosimétricoemrelaçãoà freqüênciadeNyquist fc 2),
Zw 1 w W (2.14a)
Zw zw ω 2 1 ω Ω (2.14b)
comΩ π fc ecomo intervalo entrefreqüênciasconsecutivasdadopelarelação
∆ω 2π fcNw
(2.15)
e ω n ∆ω.
2.2.4 BancosMel-Fr equency
No estudoda dinâmicado sistemaauditivo humano,definiu-seumaescalapsi-
coacústicade sensibilidadedo ouvido paradiversasfreqüênciasdo espectroaudível,
conhecidacomoescalaMel (STEVENS;VOLKMAN, 1940;KOENIG, 1949). Um
melé umaunidadedemedidadefreqüênciapercebidaparaumadeterminadafreqüên-
cia de entrada(recebida).A interpolaçãodosresultadosobtidospor esteestudoleva
aproximadamenteà seguinte relaçãoentrea freqüênciarecebida( fHz) e a freqüência
percebida( fmel):
fmel 1000ln 1
( fHz700
ln 1( 1000
700
(2.16)
Foi demonstrado(SHIKANO, 1985)queo desempenhode sistemasde reconhe-
cimentode voz aumentacom o usoda escalaMel, aliadaao usode bancosde filtros
com umafunçãode envelopetriangular. Estesfiltros fazema somadoscoeficientes,
ponderadospelafunçãotriangularcentradanafreqüênciaprincipal,comvalor 1 neste
ponto.
Osfiltros têmsuasfreqüênciascentraisespaçadasde100mel ou mais,cobrindoo
espectroentre200Hz e 7kHz, ondea maiorquantidadedeenergia seconcentra.Evi-
dentemente,a freqüênciasuperioré limitada pela freqüênciade Nyquist (metadeda
freqüênciade amostragem).Assim, sãocomumenteencontradasaplicaçõesondea
freqüênciasuperiorvariade3kHzaté11kHz.
30
-150
-100
-50
0
50
100
150
0.71 0.715 0.72 0.725 0.73 0.735
Val
or d
a A
mos
tra
Tempo (s)
Palavra "Zero", 22.05 kHz, 8 bits, segmento 35 (0.71111 s a 0.73286 s), janela de Hamming
Figura9: Segmento35 dapalavra “zero” (Y35), apósjaneladeHamming. Observar aatenuaçãonasextremidadesdo segmento,diminuindoa potênciado ruídointroduzidopelasegmentação.
0
2e+06
4e+06
6e+06
8e+06
1e+07
1.2e+07
0 2000 4000 6000 8000 10000 12000
Pot
enci
a
Frequencia (Hz)
Espectro de Potencia: palavra "Zero", 22.05 kHz, 8 bits, segmento 35, janela de Hamming
Figura 10: Espectrode Potênciado segmento 35 da palavra “zero”, apósjaneladeHamming
31
0
0.25
0.5
0.75
1
0 250 500 750 1000 1250 1500 1750 2000 2250 2500 2750 3000
Mag
nitu
de/
Frequencia (Hz)
Banco de filtros em escala Mel, incremento de 100 Hz
Figura11: Filtros debandascríticasdaescalaMel
0
500000
1e+06
1.5e+06
2e+06
2.5e+06
3e+06
3.5e+06
4e+06
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32
Pot
enci
a
Banco
Potencias dos Filtros de Bandas Crticas: segmento 35, 32 filtros, incremento de 100 mel
Figura12: Potênciatotalnosfiltros debandascríticasdosegmento35dapalavra“zero”
32
2.2.5 Log
Parao cálculodo cepstrumreal (short term RealCepstrum– stRC) aplica-sea
funçãolog sobreo espectrodepotência(figura10)dasjanelasZw. Ossinaisdevozsão
formadospelaconvoluçãono tempoentreo sinaldeexcitaçãoproduzidopelatraquéia
ea respostaimpulsiva instantâneado tratovocal.Estessinais,convoluídos nodomínio
do tempo,aparecemmultiplicadosnodomínio dafreqüência.A aplicaçãodo log sobre
o espectrotransformaestamultiplicaçãoemsoma,permitindo a separaçãolinear dos
componentesdosinaldeexcitaçãoedosinaldemodulaçãodotratovocal.A saídadesta
operaçãoé, paracadalocução,um conjunto de janelasZ w (figura 13) contendoos
coeficientestransformados
# Z w 1 w W (2.17a)
Z w # zw ω 1 ω Ω (2.17b)
zw ω logzw ω 2 2log zw ω (2.17c)
O coeficiente2 daequaçãoanteriorpodeserdesprezadopor nãosersignificativo
emtermosdereconhecimentoe por suaeliminaçãoreduzira complexidadecomputa-
cionalassociadaà extraçãodaraiz quadradaparao cálculodamagnitude.
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32
Log
(Pot
enci
a)0
Filtro
Log das Potencias dos Filtros de Bandas Criticas: segmento 35, 32 filtros, incremento de 100 mel
Figura13: Logdapotênciatotalnosfiltrosdebandascríticasdosegmento35dapalavra“zero”
33
2.2.6 DCT eMFCCs
Sobreos logaritmosdasenergiasdosfiltros debandascríticaszw ω é calculada
a seguir a transformadainversadeFourierIDFT (InverseDiscreteFourier Transform),
gerandooscoeficientesmel-cepstrais(MFCCs). Comoasjanelasgeradaspelaopera-
çãoanteriorsãocompostasapenaspor valoresreais,a IDFT sereduzà DCT (Discrete
CosineTransform).
O espectrodo logaritmo do trato vocal possuiuma variaçãosuave e de baixa
freqüência,enquantoo da excitaçãoé altamentevariável e quaseperiódico,princi-
palmenteparaasvogais. Assim,a respostado tratovocalpodeserobtidapelasimples
retençãodosprimeirosM coeficientesmel-cepstrais.Estaoperaçãogeraum conjunto
(figura15)devetorescw (figura14)quesãoosvetoresdecoeficientesmel-cepstrais.
# cw 1 w W (2.18a)
cw 21 cwm3 Mm* 1 (2.18b)
cw 1 cwm cwM T(2.18c)
-5
0
5
10
15
20
25
30
35
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Mag
nitu
de/
Coeficiente
Coeficientes Mel-cepstrais: segmento 35, incremento de 100 mel, 16 primeiros coeficientes
Figura14: Coeficientesmel-cepstraisdosegmento 35dapalavra “zero” (c35)
O númeroM decoeficienteséescolhidodeacordocomadistânciaemfreqüência
entreos filtros do banco,sendomuito usadosM 8, M 12, M 14 e M 16
34
coeficientesmel-cepstrais.
Delta Cepstrum
Além doscoeficientesmel-cepstraisemsi, ossistemasatuaisusamestimativasde
suasderivadastemporaiscomocomponentesadicionaisdovetordeatributos,colocando-
asnum patamarde igual relevânciaao doscoeficientesem si (JUANG; RABINER;
WILPON,1987;RABINER; WILPON;SOONG,1989;BOCCHIERI;WILPON,1993).
O objetivo destainclusãoé acrescentaralgumainformaçãotemporalsobrea variação
dosMFCCs.
Estascomponentes,conhecidascomodeltacepstrumou delta-MFCCssãofacil-
mentecomputáveisatravésdavariaçãodoscoeficientesentreo segmentoatualeumou
doissegmentosprecedenteseconsequentes.
Sejaδw a distânciaentreo segmentoatualw e ossegmentosprecedentee subse-
quenteconsideradosparaa diferenciação.Então,o delta-MFCCdacomponentem no
segmentow édefinidopor
cwm cw4 δwm cw δwm (2.19)
Supondo-seδw 1, paraoscasosparticularesemquew 1 e w W, define-se
c1m c2 m c1 m2
(2.20a)
cWm cWm cW 1m2
(2.20b)
Destaforma,a dimensãodosvetoresdeMFCCsdo conjunto w é dobrada(2M),
e o conjuntoéentãoredefinidocomo
cwm cwm para1 m M
cwm paraM(
1 m 2M(2.21a)
cw 51 cwm3 2Mm* 1 cw 1 cwm cwM cw 1 cwm cwM T
(2.21b)
cw 1 w W (2.21c)
35
Coeficientes mel-cepstrais (MFCCs): palavra "Zero", 22.05 kHz, 8 bits
010
2030
4050
6070
Segmento (w) 0 1 2 3 4 5 6 7 8 9 101112131415
Coeficiente (m)
-5
0
5
10
15
20
25
Magnitude c(w,m)
Coeficientes mel-cepstrais (MFCCs): palavra "Zero", 22.05 kHz, 8 bits
1020
3040
5060
70
Segmento (w)
01
23
45
67
89
1011
1213
14
Coeficiente (m)
-5
0
5
10
15
20
25
Magnitude c(w,m)
Figura15: Coeficientesmel-cepstrais( ) dapalavra “zero”, M 16coeficientes
36
3 RECONHECIMENT O DELOCUT OR PORSELF-ORGANIZING MAPS
3.1 VisãoGeral
Apósextraídososvetoresdeatributosdaslocuçõesoriginais,estessãousadospara
treinarmodelosconexionistasassociadosaosseuslocutores.Cadalocutoré represen-
tadopor suaprópriaredeneuralartificial dearquiteturaSelf-Organizing Map (SOM),
treinadaparaexecutara quantizaçãovetorialdosvetoresdeMFCCsextraídosdesuas
própriaslocuções.Quandoapresentadaumanova locução(atravésdeseusvetoresde
MFCCs),estaé testadaemcadaumadasSOMs,sendodeclaradaa vencedoraaquela
queapresentaamenordistorçãototalnaquantizaçãovetorialdestesMFCCs.O locutor
reconhecidoéaqueleassociadoàSOMvencedora.
Procedimentossemelhantesforam testadospor Bennanie Gallinari (1990),An-
dersonePatterson(1994)eHomayounpoureChollet(1995),combonsresultados.
Nestecapítulosãointroduzidasasredesneuraisartificiaiseapresentadasasprinci-
paisarquiteturasutilizadasparareconhecimentodelocutor. A arquiteturaSelf-Organizing
Mapéentãodetalhadaeporfim éexplicadoo processodemodelagemdo locutoratra-
vésdestasredes.
3.2 RedesNeurais Artifi ciais
Seguea definiçãode RedeNeuralArtificial (Artificial Neural Network– ANN),
segundoHaykin (1999,pg. 2):
Umaredeneuraléumprocessadordistribuídoaltamenteparalelo,compos-
to deunidadesdeprocessamentosimples,quesãonaturalmentepropensas
aarmazenarconhecimentoexperimentalea torná-lodisponível parao uso.
Elaseassemelhaaocérebroemdoisaspectos:
37
1. O conhecimentoéadquiridopelaredeapartirdeseuambienteatravés
deumprocessodeaprendizado.
2. As forçasdasconexõesentreneurônios,conhecidascomopesossi-
nápticos,sãousadasparaarmazenaro conhecimentoadquirido.
Redesneurais(BISHOP,1995;ARBIB, 1995;HAYKIN, 1999)podemserusadas
comofunçõesdiscriminantesnãoparamétricasemtarefasdeclassificação,comomo-
delosderegressãomúltiplaoucomoaproximadoresdefunções“universais”.Porestas
propriedades,elassãoaplicadasnumagrandevariedadedetarefasemreconhecimento
devoz, sejacomoparadigmaprincipalou combinadascomoutrosmodelos.O usode
redesneuraisparaa tarefa dereconhecimentodevoz (KATAGIRI, 2000)é um campo
depesquisacomumahistóriadealgumasdécadas,envolvendo muitasdisciplinastais
comoaFisiologia,aFísica,aEstatística,aPsicologia,aLingüísticaeaEngenharia.
3.2.1 Unidadesde Processamento
A basedoprojetoderedesneuraisartificiaisé o modelomatemáticodoneurônio,
queé chamadodeUnidadedeProcessamento(Processing Unit – PU,ProcessingEle-
ment– PE).O modelomaisusadoé o neurônionãolinear, ilustradonafigura16. Os
trêselementosbásicosdeumaunidadedeprocessamento6 são:
1. Um conjuntodeconexõesousinapses, cadaumadasquaiscaracterizadaporseu
peso. A conexão 7 k i , queligaaunidadedeprocessamento6 i àunidade6 k (nesta
ordem)temseupesorepresentadoporwk i .2. Um somadorquefaz a combinaçãolinear dossinaisde entradaxi , ponderados
segundoospesosdasconexõeswk i .3. Uma funçãodeativaçãoϕ paralimitar a amplitudedo sinaldesaídadauni-
dadedeprocessamentoyk.
O modelodeneurôniodafigura16 tambéminclui um termodebiasbk, aplicado
externamente,quepodeserincorporadofacilmenteàsentradasde 6 k definindo-seuma
entradafictícia comasseguintespropriedades
x0 t 198 t (3.1a)
wk 0 t bk t (3.1b)
38
O conjuntodeentradasdaunidade6 k podeserrepresentadovetorialmente por
x t x0 t x1 t xi t xI t T(3.2)
eo conjuntodepesosdasconexõescomdestinoa 6 k (conexõesdeentrada),noinstante
t emqueéapresentadaaentradax t , por
wk t wk 0 t wk 1 t wk i t wk I t T(3.3)
ondeI éo númerodeconexõescomdestinoàunidadedeprocessamento6 k.
Em termosmatemáticos,a unidadede processamento6 k podeserdescritapelo
seguintepardeequações:
vk t I
∑i * 0
xi t wk i t xT t wk t (3.4a)
yk t ϕ vk t (3.4b)
ondea variável vk t é chamadadecampolocal induzido pelaapresentaçãodaentrada
x t .
.
.
.
.
.
.
SINAIS DEENTRADA
PESOSSINÁPTICOS
SAÍDA
BIAS
FUNÇÃO DEATIVAÇÃO
PSfragreplacements
x1
x2
xI
wk 0 bk
vk yk
wk 1wk 2
wk I
∑ ϕ
Figura16: Modelonãolineardeum neurônio
Funçõesde Ati vação
As funçõesde ativaçãodefinem,segundoo modelode neurôniolinear exposto,
o valor da saídaem funçãodo campolocal induzido. As maisusadassãoexpostasa
seguir, podendoserencontradascomvariaçõesnoslimitesdedefinição.
39
1. FunçãoDegrau
yk ϕ vk 1 , sevk & 0
0 , sevk 0(3.5)
2. FunçãoRampa
yk ϕ vk 1 , sevk & 1
vk , se0 vk 1
0 , sevk 0
(3.6)
3. FunçãoSigmoidal
yk ϕ vk 11(
exp avk (3.7)
ondea éo parâmetrodecurvaturadafunçãosigmoidal.
4. FunçãoTangenteHiperbólica
yk ϕ vk tanh vk (3.8)
3.2.2 Ar quiteturas deRedes
Porarquiteturadeumaredeneuralentende-sea formacomoestãoconectadasas
suasunidadesdeprocessamentoe comoocorreo fluxo do sinaldentrodarede.A ar-
quiteturadaredeneuralestáfortementeligadaaoalgoritmodeaprendizadousadopara
treiná-la.As arquiteturasmaisimportantessãodestacadasmaisadiantenestecapítulo.
Camadas
Usualmente,asunidadesdeprocessamentoestãodispostasemcamadas(layers),
sendoqueunidadespertencentesa umamesmacamadaapresentampropriedadesse-
melhantes,tantoemtermosdedefiniçãodaunidadequantodepropagaçãodosinal.
A camadadeíndice: serádenotadapor ;"< . Umaunidadedeíndiceu pertencentea
;=< serádenotadapor 6 <u. O númerodeunidadesde ;< serádenotadoporU< . A conexão
daunidade6 < 1u1
paraaunidade6 < 2u2serádenotadapor 7 < 2 < 1u2 u1
.
Quandotodasasunidadesdeumacamada;< estãoconectadasa todasasunidades
dacamadaseguinte ;=< 4 1 (I < 4 1 U< >8 6 < 4 1), a redeé dita totalmenteconectada; caso
contrárioa redeé parcialmente conectada.
Paraum par de camadas; 1 e ; 2, pode-sedefinir a matriz de conexão W2 1 das
40
unidadesde ; 1 paraasunidadesde ; 2 como
W2 1 w2 11 w2 1
2 w2 1U2
(3.9a)
w2 1
1 1 w2 12 1
w2 1U2 1
w2 11 2 w2 1
2 2 w2 1
U2 2...
.... . .
...
w2 11U1
w2 12U1
w2 1
U2 U1
(3.9b)
ondew2 1u2
é o vetor de pesosdasconexõesdasunidadesde ; 1 com a unidade6 2u2
e
w2 1u2 u1
éo pesodaconexão 7 2 1u2 u1
daunidade6 1u1
paraaunidade6 2u2
.
RedesFeedforward deUma Camada
A arquiteturamaissimplesderedeneuralé composta porumacamadadeentrada
; in, queseconectaunidirecionalmenteparafrente(feedforward) comumacamadade
saída; out (figura17). Nestaarquitetura,acamadadeentradaécompostaporUin unida-
desdeprocessamentodotipo pass-through, quenãoexecutamqualquerprocessamento
a nãosera distribuiçãodosinaldeentradaparaasUout unidadesdacamadadesaída.
Figura17: Redeneuralfeedforward deumacamada
RedesFeedforward Multi-camada
Diferenciam-sedasredesde umacamadapelapresençade umaou maiscama-
dasocultas ; hid, cujasunidadesdeprocessamentosãochamadasdeunidadesocultas
41
6 hiduhid 1 uhid Uhid (figura18). O acréscimodeumaoumaiscamadasocultaspermite
àredeextrair estatísticasdemaiorordem,o queéparticularmenteútil quandoacamada
deentradatemmuitasunidades.A arquiteturadaredepodeserdescritasucintamente
pelaseqüênciadenúmerosdeunidadesnascamadas,daentradaparaasaída.A rededa
figura18, por exemplo, podeserescritacomo10-4-2,significandoUin 10 unidades
nacamadadeentrada,Uhid 4 nacamadaocultaeUout 2 nacamadadesaída.
Figura18: Redeneuralfeedforward multi-camada,10-4-2
RedesRecorrentes
Umarederecorrente(recurrent) diferencia-sedeumaredefeedforward pelapre-
sençade pelo menosum ciclo de realimentação(feedback). Uma conexão de reali-
mentaçãoconectaumneurôniodeumacertacamadacomumneurôniodeumacamada
anteriorou consigomesmo. As redesrecorrentesserãoexplicadasmais adiantena
seção3.3.4.
3.2.3 Processosde AprendizadodeRedesNeurais
Seguea definiçãodeaprendizado, no contexto deredesneurais,segundoHaykin
(1999,pg.50).
42
Aprendizadoé um processopelo qual os parâmetroslivresde umarede
neuralsãoadaptados,atravésde estímulos do ambienteondeestáa rede
neural. O tipo de aprendizadoé determinadopela maneirapelaqual as
mudançasnosparâmetrosacontecem.
Esteprocessoé formalizadoatravésdeum algoritmodeaprendizado, quedefine
comoa redeéestimulada,comoosparâmetrosseadaptame comoa rededeverespon-
deranovos estímulos.
AprendizadoSupervisionado
O conhecimentoestádisponível paraa redesoba formadeexemplosdeparest t do tipo vetor de entradax t e seurespectivo vetor de saídadesejadad t , reunidos
numconjuntodetreinamento .
# t t x t d t 1 t T (3.10)
ondeT é o númerodeelementosdo conjuntodetreinamento.Costuma-seatribuir um
significadotemporalao índicedo elementode treinamento,pois esteselementossão
apresentadossequencialmenteà redeneuralparao seutreinamento.Nestecontexto,
umaapresentaçãodo conjuntocompletoé chamadadeépocadetreinamento,e T é a
duraçãodaépocadetreinamento.
Quandoumexemplo éapresentadoàredeneural,écalculadoumsinaldeerroe t ,no qual a redesebaseiaparatentarapresentarumarespostamaiscorretana próxima
vezqueo exemplo for apresentado.
e t d t y t (3.11)
Destaforma,pode-seentenderquea redeaprendea imitar o seuconjuntodetrei-
namento(ambiente).
AprendizadoNãoSupervisionado
Nestecaso,nãohá osvetoresdesaídasdesejadasd t associadosaosvetoresde
entradasx t t t x t 1 t T (3.12)
O sinaldeerrogeradono aprendizadosupervisionadoé substituídopor umame-
43
dida independenteda tarefada qualidadeda representaçãoquea rededeve aprender,
e osparâmetroslivressãoadaptadosparaminimizarestemedidor. Paraisto, podeser
usadaumaregradeaprendizadocompetitivo.
Uma vez quea redetenhasido sintonizadaàsregularidadesestatísticasdosda-
dosde entrada,ela desenvolve a habilidadede formar representaçõesinternasparaa
codificaçãodosatributosdaentradaecriar novasclassesautomaticamente.
O aprendizadonãosupervisionado(auto-organizado)baseia-seemmodificar repe-
tidamenteospesossinápticosdeumaredeneuralemrespostaaospadrõesdeativação,
de acordocom regraspré-determinadas,atéqueumadeterminadaconfiguraçãofinal
sejaatingida.
AprendizadoCompetitivo
No aprendizadocompetitivo (INTRATOR, 1995),asunidadesde processamento
deumamesmacamadaempregamalgumtipo decompetiçãoentresi atravésdecone-
xõeslaterais.Estaidéia foi propostaoriginalmentepor Rosenblatt(1958). As unida-
desindividuaisdaredeaprendema seespecializaremconjuntos depadrõessimilares,
tornando-sedetectoresdeatributos paraasdiferentesclassesdepadrõesdeentrada.
Propostainicialmentepor Malsburg (1973),a competiçãohard definequeapenas
umaúnicaunidadede saídapodeativa a cadainstante.Segundoestaproposição,há
trêselementosbásicosnoaprendizadocompetitivo:
1. um conjuntodeunidadesdeprocessamentoidênticas,excetopor seuspesossi-
nápticos,respondendodeformadiferenteaumconjuntodepadrõesdeentrada;
2. um limite imposto à “força” decadaunidade;
3. um mecanismoquepermitecomqueasunidadescompitampelodireito deres-
pondera um determinadosubconjuntodepadrõesdeentrada,de formaqueso-
menteumaúnicaunidadede saída,ou só umaunidadepor grupo,estejaativa
numdeterminadoinstante.
Em modelosmaisrecentes,a competiçãoafetaa atividadede unidadeslaterais,
masnãonecessariamentefaz com quea ativaçãode todasasunidades,excetouma,
sejamlevadasa zero(RUMELHART; ZIPSER,1986).As arquiteturasqueimplemen-
tamestetipo decompetição,chamadocompetiçãosoft, podempossuir váriascamadas.
Suasunidadespossuemconexõeslateraisinibitóriase conexõesexcitatóriascomuni-
dadesdecamadasadjacentes.Estesalgoritmos deaprendizadocompetitivo podemser
44
distinguidosporumaregradeaprendizadoguiadaporumafunçãoobjetivadesejadaou
pelaformacomoa competiçãoépromovida.
3.3 RedesNeurais para ReconhecimentodeLocutor
A pesquisarecentedemonstraqueredesneuraisconstituemumaalternativaviável
aosmodelosestatísticostradicionaisemaplicaçõesde reconhecimentoautomáticode
locutor (YUK, 1999). Elassemostramparticularmenteadequadasparaa exploração
decaracterísticasdistintivas entrelocutores.
Segue uma breve descriçãodasprincipaisarquiteturasutilizadasem reconheci-
mentodelocutore suasaplicações.
3.3.1 Multi-Layer Perceptron (MLP)
As redesneuraisde arquiteturaMulti-Layer Perceptron (HAYKIN, 1999, cap.
4), treinadaspeloalgoritmo back-propagationde aprendizadosupervisionado(WER-
BOS,1974;PARKER, 1985;LECUN, 1985;RUMELHART; HINTON; WILLIAMS,
1986a, 1986b)possuemusogeneralizado.Derivadasdosperceptrons(MINSKY; PA-
PERT, 1990),possuemumaou maiscamadasintermediárias,compostasde unidades
de processamentonãolineares,quelhesconferemgrandepodercomoclassificadores
depadrões,entreoutrasdiversasaplicações.
Redesdotipo MLP, pornãoefetuaremprocessamentotemporal,podemseraplica-
dasemreconhecimentodelocutorindependentedetexto. Nestecaso,forampropostos
modelos(OGLESBY; MASON, 1990)emquemúltiplasMLPs seespecializamemlo-
cutoresespecíficosparaa tarefa de identificaçãode locutor. Estudos sobreo usode
MLPsparaaverificaçãodelocutorpodemserencontradosemTsoi (1994),Delacretaz
e Hennebert(1998)e Sória(2001). OspontosfracosdasMLPs residemno tempode
treinamentomuitograndeeemdificuldadesdeconvergênciaparagrandesquantidades
dedados.
3.3.2 Self-Organizing Map (SOM) e Learning Vector Quantization(LVQ)
As arquiteturasSelf-Organizing Map e LearningVectorQuantization, sãobasea-
dasno processodeQuantizaçãoVetorial (apresentadonaseção3.4) paraimplementar
a detecçãoeo reconhecimentodepadrõesestatísticos.Sãoredesneuraisdeumaúnica
45
camada,compostapor unidadesde processamentolineares,totalmente conectadasàs
unidadesdeentrada,ondesãoaplicadososvetoresdeentrada.Ambassãobaseadasno
processodeaprendizadocompetitivo (seção3.2.3).
As SOM constituema versãonãosupervisionada,e serãodiscutidasmaisadiante
naseção3.5.NaarquiteturaLearningVectorQuantization (LVQ) (KOHONEN,1986),
os pesosdasunidadesda camadade saídasãoassociadosaoscodevectors represen-
tantesdasclasses.Quandoé apresentadoum padrãodeumaentrada,umaunidadede
saídaé declaradavencedora,e seuvetordepesosseaproximaou distanciado padrão
deentrada,deacordocomaclassificaçãocorretaou incorreta.
Aplicaçõesde SOMse LVQs parao reconhecimentode locutor em modoinde-
pendentede texto podemser encontradasem Bennanie Gallinari (1990), Anderson
e Patterson(1994)e Homayounpoure Chollet (1995),com altosíndicesde reconhe-
cimento. Mais recentemente,Lapidot,Gutermane Cohen(2002)usaramSOMspara
descobrirautomaticamenteo númerodelocutorespresentesnumtrecholongodecon-
versa,eentãoprocederasegmentaçãodaconversasegundo oslocutoresdescobertos.
3.3.3 Time-Delay Neural Network (TDNN)
A arquiteturaTime-DelayNeural Network, descritainicialmenteporLangeHinton
(1988)eWaibel(1989),seutiliza deatrasosdetempoparalidar como processamento
temporal.A TDNN é umaredemulti-camada,compropagaçãodo sinal feedforward,
cujasunidadesocultasedesaídasãoreplicadasno tempo.
CAMADADE SAÍDA
CAMADAOCULTA
CAMADA DEENTRADA
PSfragreplacements
z 1z 1z 1
z 1 z 1z 1z 1z 1
Figura19: RedeneuralTDNN parapadrõesdeentradaunidimensionais
46
RedesTDNN foramutilizadasemtarefasdeidentificaçãodelocutorcomsucesso
emBennanieGallinari (1991).
3.3.4 Recurrent Neural Network (RNN)
As redesneuraisdo tipo recurrent (DOYA, 1995)sãoaquelasquepossuemcone-
xõesdo tipo feedback e unidadesqueintroduzematrasostemporaisno fluxo do sinal
(figura20). RNNssecomportamcomosistemasdinâmicos:umavezalimentadascom
umaentrada,asconexõesrecorrentessãoresponsáveis pelaevoluçãono tempodeseu
estadointerno.Destaforma,permitemquequeo estadodeumsistemasejacodificado
nospadrõesde atividadedasunidades,possibilitandoa programaçãode umaampla
variedadedecomportamentos dinâmicosatravésdospesossinápticos.
CAMADADE SAÍDA
CAMADAOCULTA
CAMADA DEENTRADA
PSfragreplacements
z? 1
z? 1
z? 1
x1 x2
y1 y2 y3
Figura20: RecurrentNeural Network(RNN)
Suaaplicaçãoemum problemaemmododependentedetexto, combonsresulta-
dos,podeserencontradaemTsoi (1994).
3.3.5 Neural Tree Network (NTN)
As Neural TreeNetworks(SANKAR; MAMMONE, 1993)constituemummodelo
híbridoderedeneural,quecombinamárvoresdedecisãoe redesneurais.As NTN são
47
classificadoreshierárquicosqueusamumaarquiteturaemárvereparaimplementaruma
estratégiadedecisãosequenciallinear. Emcadanódarede,umperceptronéusadopara
dividir osdadosparaosnósseguintes.
NTNsforamaplicadasemexperimentosdeverificaçãodelocutorindependentede
texto combastantesucessoemFarrell,MammoneeAssaleh(1994).
3.4 QuantizaçãoVetorial (Vector Quantization – VQ)
A QuantizaçãoVetorial (VectorQuantization – VQ) é umatécnicaqueexploraa
estruturasubjacentedeum conjuntodevetoresdeentradacomo objetivo decompres-
sãodosdados(GERSHO;GRAY, 1992).
Sejamum vetordeentradax @ t ACB n e um conjuntodeunidadesou células,cada
qual associadaa um vetor de parâmetros(chamadovetor de código) wu @ t ADB n. A
vencedorana categoria de problemasde VQ é definidacomosendoa unidadecujo
vetordecódigopossuiamenordistânciaEuclidianaemrelaçãoax @ t A :uE=@ t AGF argmin
u
HJIx @ t AK wu @ t A IML (3.13)
Sex @ t A éumavariável vetorialcontínua,estocásticaenaturalnãoháanecessidade
deseconsiderarmúltiplosmínimos: aprobabilidadedeIx @ t ANK w i @ t A I F I
x @ t AOK w j @ t A Iparai PF j ézero.
O objetivo dosmétodosdeVQ éo degerarumconjuntodevetoresdecódigoque
minimizemo errodequantização:
E F Ix K wuQ I 2p @ x A dx F min (3.14)
ondep @ x A é a funçãode densidadede probabilidadede x e dx é um hipervolume di-
ferencialno espaçode entradas.Observe-sequeuE , o índiceda unidadevencedora,
dependedex edetodososvetoreswu.
3.5 A Ar quitetura Self-Organizing Map (SOM)
As redesdo tipo Self-Organizing Map (KOHONEN, 2001) foram formalizadas
por Kohonen(1990).Elassãobaseadasnoaprendizadocompetitivo, descritonaseção
3.2.3. NumaSOM, asunidadesestãodispostasnosnósdeumaretícula(lattice), nor-
malmenteuni- ou bidimensional(figura 21). As unidadessãoativadasseletivamente
48
deacordocomosváriospadrõesdeentrada(estímulos)ou comclassesdepadrõesde
entradaduranteo processode aprendizadocompetitivo. Estaativaçãoseletiva imple-
mentaa quantizaçãovetorialdosvetoresdeentrada,descritonaseção3.4: osvetores
depesosdasunidadesdesaídaconstituemo conjuntodevetoresdecódigo.
A posiçãorelativadasunidadesdaretícula,quandoprojetadanoespaçodeatribu-
tos,torna-seordenada,deformaqueum sistema decoordenadassignificativo sobreos
atributosdeentradaé criadonesteespaço.Destaforma,umaSOM secaracterizapela
formaçãodeummapatopográficodospadrõesdeentrada,noqualascoordenadasdas
unidadessãoindicativosdeatributosestatísticosintrínsecoscontidosnestespadrões.
CAMADA DENÓS DE ENTRADA
Figura21: ArquiteturadeumaSelf-OrganizingMap
Nestaarquitetura,asunidadessãolinearese dispostasemumaúnicacamada,to-
talmenteconectadasaosnósde entradascom propagaçãofeedforward dossinaisde
entradaaplicados.
3.5.1 Algoritmo deTreinamento
A inicializaçãodospesossinápticosé feitaatravésdaatribuiçãodevaloresaleató-
riospequenos,evitandoaimposiçãodequalquerpré-ordenação.O algoritmoprossegue
entãoem3 etapas:competição,cooperaçãoeadaptação,descritasaseguir.
Competição
Paracadapadrãodeentradaapresentado,cadaunidadecalculaseuvalor desaída
(valor da funçãodiscriminante). A distânciaEuclidianaentreo vetor de entradae o
49
vetordepesosdaunidadeéusadacomofunçãodiscriminante:
eu @ t ARF Ix @ t AK wu @ t A I (3.15)
Determina-seentãoaunidadevencedora S uQ comosendoaquelaqueapresentouame-
nordistânciadopadrãodeentrada:
uE @ t AGF argminu
eu @ t A (3.16)
Alternativamentee deformaequivalente,o máximo produtointernoentreo vetor
deentradae o vetordepesosdaunidadepodeserusado:
eu @ t ATF wu @ t A x @ t A (3.17)
uE @ t ATF argmaxu
eu @ t A (3.18)
Cooperação
A unidadevencedoradeterminaemtornodesi umavizinhançatopológicadeuni-
dadescooperativas. Para isso,escolhe-seinicialmenteumadimensão paraa retícula
(normalmente1 ou2),define-seo sistemadecoordenadasnestadimensãoeumamétri-
cadedistânciaentreunidadesnestesistema(figura22). Paraoscasosuni- e bidimen-
sional,podemserusadasasseguintesmétricas:
d S u1 U S u2 FWV u1 K u2 V , pararetículaunidimensional (3.19a)
d S u1 U S u2 F Iru1 K ru2
I, pararetículabidimensional (3.19b)
Portanto,dadaa unidadevencedoraS uQ , calcula-seinicialmentea distânciaentre
ela e cadauma dasdemaisd S uQ U S u U u PF uE . A intensidadeda interaçãoentrea
unidadevencedorae suasvizinhasé dadapor umafunçãodevizinhançah @ d U t A , com
asseguintespropriedades:
X A funçãodevizinhançaé simétricaemtornodo pontodemáximo,definidoem
u1 F u2;
X A amplitudedafunçãodevizinhançadecrescemonotonicamentecomo aumento
dadistâncialateral,decaindoparazeroparad Y ∞.
50
PSfragreplacements
S u1
S u2
ru1ru2
d S u1 U S u2
Figura22: RetículabidimensionalcomsistemadecoordenadasparaasunidadesS u1 eS u2
A funçãoGaussiana é tipicamenteusada,pois satisfaz ambasascondiçõese é
invarianteà translação(nãodependedaunidadecentral):
h @ d U t AZF exp K d2
2ρ2 @ t A (3.20)
ondeρ @ t A éa funçãolargura efetivadavizinhançatopológica,quedecaicomo tempo,
reduzindoa intensidadedainteraçãocooperativacomasunidadesvizinhas:
ρ @ t ARF ρ0exp K tτ1
(3.21)
com ρ0 sendoa larguraefetiva inicial (em t F 0) e τ1 a constantede tempodedecai-
mento.
Assim,tendocalculadoasdistânciasentrea unidadevencedorae todasasdemais
unidades,calcula-seo valordafunçãodevizinhançaparacadaumadelas,determinan-
doasintensidadesdecooperaçãoindividuais.
Adaptação
Porfim, o processodeadaptaçãodospesossinápticoséexecutado,fazendocomo
vetordepesosdaunidadevencedorasejamovido emdireçãoaovetordeentradasatual.
51
As unidadesvizinhastambémtêmseuspesossinápticosadaptados,de acordocom o
valor dafunçãodevizinhançadefinidono processocooperativo. Destaforma,a lei de
atualizaçãodepesosparaaSOM édadapor:
wu @ t [ 1AZF wu @ t A\[ η @ t A h d S uQ^] t _ U S u U t @ x @ t AK wu @ t AA (3.22)
ondeη @ t A é a funçãotaxadeaprendizado, quecomeçacomum valor inicial alto η0 e
decaiexponencialmentecomo tempo:
η @ t AGF η0exp K tτ2
(3.23)
O processoadaptativo daSOM podeserdecomposto emduasgrandesetapas:
Auto-organização.Etapainicial, emqueaSOMpartedeumestadodetotaldesordem
echegaaoestadodeordenaçãotopológica. Nestaprimeiraetapa,queduracerca
de 1000iterações,deve serusadaumaalta taxade aprendizadoe umalargura
efetivadevizinhançaalta.Paraa taxadeaprendizado,pode-seassumir umataxa
inicial η0 F 0 1, decaindopara0 01 após1000iterações(τ2 F 1000). Quantoà
larguradavizinhança,deve incluir inicialmentequasetodasasunidadesdarede
(ρ0 é o “raio” da retícula),decaindoparasomentealgumasunidadesvizinhas
ou somenteà unidadevencedoraaofinal. Paraisto,pode-seusara constantede
tempoτ1 F 1000 logρ0.
Convergência. Nestasegundaetapa,o processoadaptativo fazasintonia finadomapa
deatributos, fazendoumaquantizaçãoestatísticaacuradadoespaçodeentradas.
Comoregrageral,a duraçãodestaetapaé deaproximadamente500vezeso nú-
merodeunidadesquecompõemo mapa.A taxadeaprendizadodevesermantida
fixa, comum valor baixo(η F 0 01). A vizinhançadeve sermantidaconstante,
emaproximadamenteumaounenhumaunidadevizinha.
3.5.2 Propriedadesdo Mapa deAtrib utos
Uma vez treinada,o mapacriadopelaSOM evidenciacaracterísticasestatísticas
importantesdoespaçodeentradas,quesãodescritasaseguir.
Aproximaçãodo Espaçode Entradas. Os vetoresde pesosdasunidadesda SOM
formamum conjuntode protótiposquerepresentamascaracterísticasessenci-
52
ais do espaçode entradas,constituindo uma aproximaçãodesteespaço. Esta
característicaébaseadanaidéiadequantizaçãovetorial.
OrdenaçãoTopológica. O processocooperativo doalgoritmodetreinamentofazcom
quea posiçãorelativa dasunidadesnaretículasetorneumaevidênciadeseme-
lhançasestatísticasentreasregiõesdo espaçodeentradascodificadaspor estas
unidades.
Mapeamento de Densidadesde Probabilidades. Mais unidadestêmseusvetoresde
pesosassociadosa regiõesdo espaçode entradascom maior probabilidadede
ocorrência.Istosignificaqueo conjuntodevetoresdepesostêmmaiorresolução
emregiõesdoespaçodeentradasmaisricaseminformaçõesestatísticas.
SeleçãodeAtrib utos. Dadospadrõesde entradacom umadistribuiçãonão linear, a
SOM é capazdeselecionaro melhorconjuntodeatributosparaaproximaresta
distribuição. Mais precisamente,osmapasfornecemumaaproximaçãodiscreta
dascurvasprincipais ousuperfíciesprincipais, e podemsertomadoscomouma
generalizaçãonãolineardaanálisedecomponentesprincipais.
3.6 Self-Organizing Maps para Reconhecimento Auto-mático deLocutor
3.6.1 Princípio deFuncionamento
Paraexecutara tarefa de reconhecimento,a voz de cadalocutor é modeladapor
umaredeneuraldearquiteturaSOM.AsSOMsdetodososlocutoressãoidênticasentre
si quantoaonúmerototaldeunidades,tamanhoedisposiçãodasretículaseparâmetros
detreinamento.
CadaSOM é treinadasomentecom vetoresde MFCCsextraídosde locuçõesde
seupróprio locutor, tornando-seespecialistanaquantizaçãodestesvetores.Assim,se
estesvetorescontémcaracterísticasessenciaissuficientesdo locutor, umaSOM apre-
sentaráum erro total dequantizaçãomenorquandoapresentadaa umalocuçãodeseu
locutordoquequandoapresentadaaumalocuçãodeoutrolocutor.
Quandoumanova locuçãoé apresentada,asSOMscompetementresi, sendode-
claradavencedoraaquelaquefornecero menorerrodequantizaçãototal paraestalo-
cução.O locutorassociadoà redevencedoraéconsideradoo locutorreconhecido.
53
3.6.2 Normalização
Antes de seremsubmetidos às SOMs, os conjuntosde vetoresde atributosdas
locuçõesdevemsernormalizados. Estaoperaçãosejustifica pelasdiferençasentreas
médiase variânciasentreasdistribuiçõesdos2M MFCCse delta-MFCCs:pequenas
variaçõesocorridasemcoeficientesquevariampoucopodemsermaissignificativasdo
quegrandesvariaçõesemcoeficientesquevariammuito, levandoamétricaserradasno
cálculodadistânciaentrevetoresdeatributos(equação3.15).
Sejao conjuntode treinamento l F Hcwa l a p L , o conjuntode vetoresde MFCCs,
extraídosdossegmentosdaslocuçõesX l a p do locutor l , ondep é a fraseou palavra
emitida na locução(1 b p b P) e w é o índice do segmento(1 b w b Wl a pA . Sem
perdadegeneralidade,assuma-sequeapenasumarepetiçãodecadafrasep existeno
conjuntodetreinamento(I F 1).
O processode normalizaçãoconsisteem subtraira média(µcmc l c p) e dividir pelo
desviopadrão(σcmc l c p) cadaum doscomponentesdosvetoresde atributos,calculados
sobrecadalocuçãop do locutor l .
µcmc l c p F 1Wl a p
Wl c p∑
wd 1cma wa l a p (3.24a)
σcmc l c p F 1Wl a p
Wl c p∑
wd 1cma wa l a p K µcmc l c p 2
(3.24b)
cma wa l a p F cma wa l a p K µcmc l c pσcmc l c p (3.24c)
cwa l a p F cma wa l a p 2M
md 1(3.24d)
Procedimentoidênticoseaplicaàslocuçõesindividuaisdoconjuntodetestes.
3.6.3 Treinamento
Seja umconjuntodeL locutores,consideradosalvosdoreconhecimento.Tome-
sel , umlocutorqualquerpertencentea . Seja l o conjuntodetreinamentodolocutor
l , definidonaseçãoanterior.
Paracadalocutor, define-seumaredeneural l , comarquiteturaSOM,queé trei-
nadacom l de acordocom o algoritmode treinamentodefinidona seção3.5.1. Ao
final do processodetreinamento,osvetoresdepesoswu a l dasunidadesdesaídade l
representamos codevectors do locutor l , queminimizamo erro total de quantização
54
dossegmentosdelocuçãoquecompõem l :
El F E @ l AGFP
∑pd 1
Wl c p∑
wd 1
Icwa l a p K wuQ a l I (3.25)
ondeuE éo índicedaunidadevencedoraparao segmentodelocução.
3.6.4 Teste
SejaumanovalocuçãoXl a p, deumafrasep desconhecida,emitidaporumlocutor l
desconhecido,representadapelosseusvetoresdeMFCCsedelta-MFCCsnormalizadosHc
wa l a p L . O númerodesegmentosWl a p éconhecido,poisdependeapenasdaduraçãoda
locuçãoedosparâmetrosdoextratordeatributos.
Estalocuçãoé apresentadaa cadarede l , sendocalculadoo errototal dequanti-
zaçãodestalocuçãoemcadarede:
E @ l AZFW
l c p∑
wd 1
Ic
wa l a p K wuQea l I (3.26)
Atravésde um processocompetitivo semelhanteao dasunidadesdentrode cada
SOM,édeclaradavencedoraa rede l Q queapresentao mínimo errototaldequantiza-
ção
E @ l Q AZF minl
E @ l A (3.27)
e o locutorreconhecidoseráaqueleassociadoa l Ql EZF argmin
lE @ l A (3.28)
Destaforma,sel E F l , o locutorfoi corretamenteidentificado.
55
4 PROCEDIMENT OEXPERIMENT AL
A tarefa escolhidacomoaplicaçãoexperimentalfoi a de identificaçãode locutor,
em um conjuntofechadode locutores,em modoindependentede texto. Seguemos
detalhessobreo corpusde locuçõesutilizados, as arquiteturasexperimentadase os
resultadosobtidos.
4.1 Corpus deAmostras deVoz
Um novo corpusde amostrasde vozesfoi coletadoparaa tarefa. Em resumo,
o conjuntoconsistede frasesem Português,faladaspor 14 locutoresbrasileiros(6
homense8 mulheres),com32frasespor locutor, sendo26frasescomunsparatodosos
locutorese6 frasesvariáveispor locutor. Todasasamostrasforamcoletadasnomesmo
local,namesmadata,emumaúnicasessão.Nãofoi executadoqualquerprocessamento
paraaeliminaçãoderuídosousilênciossobreasamostrascoletadas.
4.1.1 Condiçõesdo Ambiente
A coletafoi executadanum ambientesilenciosoe de poucareverberação.Foi
utilizadoum microfonedebaixocustoPlantronicsAudio 90, deusocomumemcom-
putadorespessoaise videogamesqueusamreconhecimentode voz. Estemicrofone,
montadonum conjuntodo tipo headset, permitequesejamantidaumadistânciafixa
entreo rostodolocutoreo microfone.O microfonefoi posicionadoaumadistânciade
aproximadamente4cmdo rosto,numaposiçãointermediáriaentreo narizeaboca.
4.1.2 Composiçãodo Conjunto de Locutores
O conjuntodelocutores(tabela1) foi composto por 14 locutoresbrasileiros,nas-
cidosnoestadodeSãoPaulo,sendo6 homense8 mulheres,nafaixadeidadeentre28
e 42anos(médiaaproximadade32anos).
56
ID (l ) Nome Sexo Idade CidadeNatal01 AlexandreT. Mafra M 31 SãoPaulo02 LúciaT. G. deCastro F 42 Santos03 RenataR. Rodrigues F 32 Campinas04 MauroA. DiGiorgi M 30 SãoPaulo05 EduardoA. C. Fullen M 30 SãoCaetanodoSul06 AlessandraM. Velho M 28 Campinas07 AndréiaA. C. Martins F 31 SãoPaulo08 ClaudiaM. S.Bernasconi F 33 SãoPaulo09 MaurícioB. Falleiros M 32 SãoPaulo10 AnaPaulaHenriques F 30 SãoPaulo11 RobertoC. Godoy M 32 SãoPaulo12 PauloSergio S.Pfaff M 38 SãoPaulo13 GabrielaS.Ferreira F 30 RibeirãoPreto14 FernandaHenriques M 28 SãoPaulo
Tabela1: Composiçãodoconjuntodelocutoresdocorpusdeamostrasdevoz
4.1.3 FrasesUsadas
Foramcoletadas,paracadalocutor, 32frasesemPortuguês.Destas,6 foramfrases
variáveispor locutor (conjuntoVAR1, tabela2) e asoutras26 foram frasesidênticas
paratodosos locutores. Estas26 frasesse agrupamem 3 conjuntos foneticamente
balanceados,extraídosdotrabalhodeAlcaim, Solewicz eMoraes(1992):umprimeiro
menor, com6 frases(conjuntoBAL1, tabela3), edoisoutrosmaiores,cadaumcom10
frases(conjuntosBAL2 eBAL3, tabelas4 e 5, respectivamente).
O objetivo do usoconjuntos defrasesfoneticamentebalanceadasé o deseobter,
paracadalocutor, amostrasdosfonesquecompõema línguafalada,naproporçãoem
queocorremnestalíngua. Com isto, aumenta-sea representatividadeestatísticadas
amostrascoletadas,quandoas frasessãousadasem conjuntoparao treinamentodo
reconhecedor.
O usode frasesvariáveis por locutor tem o objetivo de testaro desempenhodo
reconhecimentocomfrasesquepoderiamserusadascomotesteemaplicaçõescomer-
ciais. Usadascomoconjuntodetreinamento,podemservircomocomparativo entreo
usoounãodefrasesfoneticamentebalanceadas.
57
VAR1ID (p) Frase001 Digaseunomecompleto002 Digasuacidadenatal003 Digaadatao seunascimento1
004 Digao CEPdeondemora2
005 Digaquehorassão3
006 Digasuacomidafavorita1 Ex.: dezdeabril demil novecentose setenta
e um2 Ex.: zeroquatrozerosetesetezerozerozero3 Ex.: sãodezenovehoras ecatorzeminutos
Tabela2: ConjuntoVAR1 defrasesvariáveis por locutor
BAL1ID (p) Frase101 Euvi logoa Ioiô eo Léo.102 Um homemnãocaminhasemumfim.103 Vi Zé fazeressasviagensseisvezes.104 O atabaquedoTito écobertocompeledegato.105 Ele lê no leito depalha.106 Pairaum ardeararararanoRio Real.
Tabela3: ConjuntoBAL1, foneticamentebalanceado,de frasescomunsa todososlocutores
BAL2ID (p) Frase201 Nossotelefonequebrou.202 Desculpesemagoeio velho.203 Queremosdiscutiro orçamento.204 Ela temmuita fome.205 Umaíndiaandavanamata.206 Zé,vámaisrápido!207 Hojedormireibem.208 Joãodeupoucodinheiro.209 Aindasãoseishoras.210 Elasaíadiscretamente.
Tabela4: ConjuntoBAL2, foneticamentebalanceado,de frasescomunsa todososlocutores
58
BAL3ID (p) Frase301 Um casaldegatoscomeno telhado.302 A cantorafoi apresentarseugrandesucesso.303 Lá éumlugarótimo paratomarunschopinhos.304 O musicalconsumiu setemesesdeensaio.305 Nossobaileinicia apósasnove.306 Apesardessesresultados,tomareiumadecisão.307 A verdadenãopoupanemascelebridades.308 As queimadasdevemdiminuir esteano.309 O vãoentreo tremeaplataformaémuitogrande.310 Infelizmentenãocompareciaoencontro.
Tabela5: ConjuntoBAL3, foneticamentebalanceado,de frasescomunsa todososlocutores
4.2 Software eHardware Usados
Todoo softwareutilizado,tantoparao ExtratordeAtributosquantoparaasSOMs,
foi desenvolvido emANSI-C, rodandosobreo sistema operacionalRedHatLinux 7.1.
Quantoao hardware, foi usadoum PC com processadorPentiumIII , com freqüência
declock de500MHz, equipadocom256Mb dememóriaRAM eplacadesomcomum
paraPCmodeloCreativeSoundblasterAWE64, usadaparaacoletaedigitalizaçãodas
amostrasdevoz.
4.3 DigitalizaçãoeExtr açãodosMFCCs
As vozesforamcoletadasa umataxadeamostragemfc F 22 05kHz, comresolu-
çãode8 bitsearmazenadasemarquivosdeformato.wav. Paraapré-ênfase,foi usado
a F 0 95.
Asamostrasforamentãoparticionadasemsegmentosde23 22ms(Nw F 512amos-
tras),sobrepostasem11 61ms (s F 0 5, 256amostras),sobreosquaisfoi aplicadaa ja-
neladeHamming. Foi usadoum bancoMel-Frequency de32 filtros triangulares,com
freqüênciascentraisigualmenteespaçadaspor 120mel, sendoa primeiradelasigual a
480mel. Foramusadosos14primeirosMFCCs,cobrindoaproximadamenteo espectro
entre263Hze4592Hz. A estes14MFCCs,foramacrescentadosseus14delta-MFCCs,
compondovetoresdedimensão2M F 28.
A tabela6 apresentaascaracterísticasdosconjuntosquecompõemo corpus, após
59
Característica VAR1 BAL1 BAL2 BAL3Totaldefrases 84 84 140 140Frasespor locutor 6 6 10 10Duraçãototal 223.26s 244.04s 281.89s 419.58sDuraçãomínimadeum locutor 13.12s 14.11s 14.51s 24.85sDuraçãomédiapor locutor 15.95s 17.43s 20.14s 29.97sDuraçãomáximadeumlocutor 20.43s 21.19s 26.01s 36.34sDuraçãomínimadeumalocução 0.87s 1.57s 1.03s 2.03sDuraçãomédiadeumalocução 2.66s 2.91s 2.01s 3.00sDuraçãomáximadeumalocução 6.04s 4.46s 2.96 4.35sTotaldesegmentos 19230 21020 24280 36140Mínimo desegmentospor locutor 1130 1215 1250 2140Médiadesegmentospor locutor 1374 1501 1734 2581Máximodesegmentospor locutor 1760 1825 2240 3130Mínimo desegmentospor locução 75 135 95 175Médiadesegmentospor locução 229 250 173 258Máximodesegmentospor locução 520 384 255 375
Tabela6: CaracterísticasdosconjuntosVAR1, BAL1, BAL2 E BAL3, apósa digitali-zaçãoeextraçãodeatributos
a digitalizaçãoeextraçãodosMFCCs.
4.4 Ar quiteturas deSOMsUsadas
Foram testadas4 arquiteturasde SOMs, que sedistingüemprimariamentepelo
númerodeunidadesdesaída:16 (SOM 16), 25 (SOM 25), 36 (SOM 36) e 64 (SOM
64). Emtodaselas,foramusadasretículasbidimensionaisquadradas.Osvetoresdepe-
sosforaminicializados,emtodososcasos,comumavariável aleatóriadedistribuição
Gaussiana,commédiaµ F 0 edesviopadrãoσ F 0 005.
4.5 Treinamento
Em cadarodada,foram treinadas14 SOMs (umaparacadalocutor), com uma
dasarquiteturasanteriores(SOM 16, SOM 25, SOM 36 ou SOM 64), sobreum dos
conjuntode palavras (VAR1, BAL1 e BAL2). O conjuntoBAL3 não participoude
nenhumarodadadetreinamento,sendousadoapenascomoreferênciaparacomparação
dosresultadosdostestes.OsvetoresdeMFCCsforamapresentadosemordemaleatória
paracadarede.O treinamentofoi interrompidoquandoumnúmeromáximodeépocas
60
pré-definidofoi atingido.Osparâmetrosdetreinamentoforamfixadosporarquitetura,
e estãorelacionadosnatabela7.
Arquitetura Unidades Retícula η0 τ2 ρ0 τ1 ÉpocasSOM 16 16 4 x 4 0.1 400 4 40 150SOM 25 25 5 x 5 0.1 1000 5 20 150SOM 36 36 6 x 6 0.1 1000 6 20 100SOM 64 64 8 x 8 0.1 1000 8 30 100
Tabela7: ArquiteturasdeSOM utilizadaseseusparâmetrosdetreinamento
3
3.2
3.4
3.6
3.8
4
4.2
4.4
4.6
4.8
0 20 40 60 80 100 120 140 160
Err
o de
qua
ntiz
acao
por
seg
men
to
f
Epoca de treinamento
SOM 16SOM 25SOM 36SOM 64
Figura23: Evoluçãodoerrodequantizaçãoporsegmentoparacadaarquitetura(SOM16,SOM25,SOM36eSOM64)duranteo treinamentodolocutorl F 1comoconjuntoVAR1, segundoosparâmetrosdetreinamentodefinidosnatabela7
Osvaloresutilizadosparaaconstanteτ1, quedefineataxadediminuiçãotemporal
dalarguradavizinhançaduranteo processocolaborativo dotreinamento,forambastan-
te inferioresaosrecomendadasnaseção3.5.1.Isto foi possível porqueobservou-seem
experimentosanteriorescomarquiteturasfixasque,paraosconjuntosde treinamento
utilizados,valoresaltosparaestaconstantenãomelhoravam o valor final do erro de
quantização,apenastornandomaislentoo processodeconvergência.
Destaforma,aetapadeauto-organizaçãodasSOMspodeseracelerada,passando
rapidamenteparaaetapadeconvergência.Istopermitiu areduçãodonúmerodeépocas
61
de treinamentopara100 ou 150, tambémbastanteinferior ao recomendadona seção
3.5.1.
As tabelas8, 9, 10 e 11 mostramos resultadosdo treinamentoparacadacombi-
naçãode arquitetura,conjunto de treinamentoe locutor. Estãotabeladosos números
de segmentosquecompõemcadaparticularconjuntode treinamento(#segm), o erro
médiopor segmentoaofinal do treinamentoE @ l A e a duraçãototal do treinamentoem
segundost @ sA obtidacomo softwareehardwaredescritosnaseção4.2.Ao final deca-
databela,sãoexibidosamédia(µ) eo desviopadrão(ρ) entreoslocutores,calculados
paracadacoluna,semponderação.
4.5.1 Análise dosResultadosdo Treinamento
Conformeseobserva na figura 23, arquiteturascom maior númerode unidades
convergemparaum erro final de quantizaçãomenor. Esteresultadocorrespondeàs
expectativassobrea distorçãototal deum processodequantizaçãovetorialcomo au-
mentodo númerode codevectors, detalhadoem Deller Jr., Hansene Proakis(1993,
cap.7).
OsvaloresmédiosdoerrodequantizaçãoentreoslocutoresµE ] l _ dastabelas8, 9,
10 e 11 forame reunidose plotadosno gráficodafigura24. Ainda namesmafigura,
observarqueo conjuntoBAL 1 sempreatingeerrosdequantizaçãomaioresaofinal do
processodetreinamento,seguidopelosconjuntosBAL2 eVAR1.
4.6 ResultadosdosTestes
Paracadaparcompostoporumaarquiteturaeumconjuntodetreinamento,foram
testadostodososconjuntos, incluindoo testesobreo próprioconjuntodetreinamento.
Osresultadosdestestestespodemserverificadosnastabelas12,13,14e15.
4.6.1 Análise dosResultadosdosTestes
O primeiroaspectoaseranalisadoéa influênciadoconjuntodetreinamentosobre
os resultadosdostestes.Tomando-seos resultadosdostestessobreo conjuntoBAL3
comoreferência,a taxadeacertoparaa identificaçãodo locutoré superiorquandoas
redessãotreinadascom conjuntosmaiores.Parademonstraristo, o gráficoda figura
25 apresentaastaxasde erro de identificaçãosobreo conjuntoBAL3 em funçãoda
duraçãototal doconjuntodetreinamento:a linhamédiaindicaa influênciapositivada
62
SOM16
l VAR1 BAL1 BAL2#segm. E g l h t g sh #segm. E g l h t g sh #segm. E g l h t g sh
01 1130 3.850350 145 1275 3.930231 160 1425 3.907387 18902 1510 3.756444 192 1610 3.888117 204 2065 3.854281 30803 1205 3.737171 158 1480 3.892291 191 1660 3.862804 25404 1440 3.704218 188 1545 3.776099 200 1755 3.740991 22905 1340 3.711907 168 1465 3.828838 187 1615 3.761101 25206 1705 3.724510 215 1825 3.829321 234 2240 3.834785 43607 1760 3.705028 216 1680 3.851719 211 2055 3.783249 28908 1270 3.710843 164 1270 3.842659 162 1490 3.799229 22309 1140 3.821485 156 1215 3.926001 160 1250 3.922188 18510 1155 3.721538 147 1300 3.877294 174 1560 3.781904 20511 1360 3.809140 171 1600 3.896933 213 1710 3.905970 23912 1465 3.780217 196 1705 3.880631 219 2000 3.803833 27613 1405 3.742413 183 1570 3.853733 201 1955 3.773800 26014 1345 3.689333 171 1480 3.852578 193 1500 3.842279 228
µ 1374 3.747471 176 1501 3.866175 194 1734 3.826700 255ρ 168 0.042635 20 160 0.035267 20 249 0.050932 54
Tabela8: ResultadosdotreinamentodaarquiteturaSOM16sobreosconjuntosVAR1,BAL1 eBAL2, paracadaumdoslocutores
SOM25
l VAR1 BAL1 BAL2#segm. E g l h t g sh #segm. E g l h t g sh #segm. E g l h t g sh
01 1130 3.638926 229 1275 3.733778 255 1425 3.708895 27402 1510 3.555540 316 1610 3.692731 343 2065 3.651145 38303 1205 3.517757 256 1480 3.694164 312 1660 3.650260 31704 1440 3.496305 271 1545 3.577963 292 1755 3.542798 33405 1340 3.483513 260 1465 3.621988 287 1615 3.574476 30706 1705 3.510487 335 1825 3.620634 341 2240 3.632639 42307 1760 3.507588 367 1680 3.643409 329 2055 3.586185 38808 1270 3.492126 258 1270 3.625308 243 1490 3.578020 27809 1140 3.606436 239 1215 3.711298 242 1250 3.709633 22610 1155 3.496430 253 1300 3.652692 249 1560 3.571513 28011 1360 3.603729 282 1600 3.698144 312 1710 3.708936 31212 1465 3.553793 308 1705 3.676520 328 2000 3.608054 36613 1405 3.530000 279 1570 3.657584 309 1955 3.588535 35714 1345 3.482920 292 1480 3.638358 290 1500 3.634082 274
µ 1374 3.533968 282 1501 3.660326 295 1734 3.624655 323ρ 168 0.043520 33 160 0.036620 31 249 0.048659 48
Tabela9: ResultadosdotreinamentodaarquiteturaSOM25sobreosconjuntosVAR1,BAL1 eBAL2, paracadaumdoslocutores
63
SOM36
l VAR1 BAL1 BAL2#segm. E g l h t g sh #segm. E g l h t g sh #segm. E g l h t g sh
01 1130 3.492952 203 1275 3.589477 243 1425 3.565388 25802 1510 3.404846 271 1610 3.560843 315 2065 3.524513 37603 1205 3.367438 218 1480 3.560192 297 1660 3.513186 30204 1440 3.369601 257 1545 3.427927 315 1755 3.393654 32005 1340 3.342476 239 1465 3.489934 270 1615 3.435144 29506 1705 3.353831 307 1825 3.487980 373 2240 3.490784 40807 1760 3.355704 317 1680 3.499603 322 2055 3.460366 37408 1270 3.344298 227 1270 3.474160 273 1490 3.433771 27109 1140 3.458565 205 1215 3.550769 234 1250 3.577610 22810 1155 3.365070 208 1300 3.511152 226 1560 3.432277 28511 1360 3.460631 246 1600 3.564048 281 1710 3.571059 31312 1465 3.413179 265 1705 3.538540 301 2000 3.466402 36813 1405 3.379473 255 1570 3.518382 278 1955 3.474470 35814 1345 3.350826 243 1480 3.503370 267 1500 3.508964 275
µ 1374 3.389921 247 1501 3.519741 285 1734 3.489113 317ρ 168 0.041913 30 160 0.037235 34 249 0.050061 46
Tabela10: ResultadosdotreinamentodaarquiteturaSOM36sobreosconjuntosVAR1,BAL1 eBAL2, paracadaumdoslocutores
SOM64
l VAR1 BAL1 BAL2#segm. E g l h t g sh #segm. E g l h t g sh #segm. E g l h t g sh
01 1130 3.257061 386 1275 3.369882 453 1425 3.354250 49502 1510 3.196165 513 1610 3.338552 553 2065 3.325137 70303 1205 3.173336 412 1480 3.324057 485 1660 3.321978 55704 1440 3.163855 493 1545 3.206206 505 1755 3.188100 60205 1340 3.132561 461 1465 3.252636 483 1615 3.231621 57806 1705 3.163045 583 1825 3.274538 614 2240 3.292596 81707 1760 3.154074 641 1680 3.288615 567 2055 3.259534 73008 1270 3.110839 422 1270 3.231460 438 1490 3.209353 52509 1140 3.228385 385 1215 3.318852 449 1250 3.349652 44510 1155 3.128878 540 1300 3.290218 460 1560 3.233025 54711 1360 3.235732 688 1600 3.346527 583 1710 3.350150 57812 1465 3.198592 738 1705 3.328344 638 2000 3.282925 67613 1405 3.183600 647 1570 3.323647 570 1955 3.258399 66014 1345 3.126672 500 1480 3.303251 502 1500 3.305747 503
µ 1374 3.175200 529 1501 3.299770 521 1734 3.283033 601ρ 168 0.038801 104 160 0.039551 58 249 0.047592 90
Tabela11: ResultadosdotreinamentodaarquiteturaSOM64sobreosconjuntosVAR1,BAL1 eBAL2, paracadaumdoslocutores
64
SOM16
Conjuntode VAR1 BAL1 BAL2 BAL3 µTreinamento P = 6 P = 6 P = 10 P = 10
VAR1 96.43% 85.71% 83.57% 93.57% 89.51%BAL1 78.57% 100.00% 87.86% 93.57% 90.18%BAL2 89.29% 90.48% 100.00% 97.14% 95.31%
µ 88.10% 92.06% 90.48% 94.76% 91.67%
Tabela12: Porcentagensdeidentificaçãocorretado locutorparaa SOM16
SOM25
Conjuntode VAR1 BAL1 BAL2 BAL3 µTreinamento P = 6 P = 6 P = 10 P = 10
VAR1 100.00% 84.52% 82.14% 93.57% 89.50%BAL1 85.71% 100.00% 93.57% 97.14% 94.42%BAL2 88.10% 89.29% 100.00% 97.86% 95.10%
µ 91.27% 91.27% 91.90% 96.19% 93.01%
Tabela13: Porcentagensdeidentificaçãocorretado locutorparaa SOM25
SOM36
Conjuntode VAR1 BAL1 BAL2 BAL3 µTreinamento P = 6 P = 6 P = 10 P = 10
VAR1 100.00% 86.90% 87.86% 95.71% 92.41%BAL1 84.52% 100.00% 92.86% 99.29% 94.64%BAL2 89.29% 90.48% 100.00% 97.86% 95.54%
µ 91.27% 92.46% 93.57% 97.62% 94.20%
Tabela14: Porcentagensdeidentificaçãocorretado locutorparaa SOM36
SOM64
Conjuntode VAR1 BAL1 BAL2 BAL3 µTreinamento P = 6 P = 6 P = 10 P = 10
VAR1 100.00% 84.52% 87.86% 97.14% 92.41%BAL1 86.90% 100.00% 93.57% 99.29% 95.31%BAL2 88.10% 90.48% 100.00% 99.29% 95.76%
µ 91.67% 91.67% 93.81% 98.57% 94.49%
Tabela15: Porcentagensdeidentificaçãocorretado locutorparaa SOM64
65
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
16 24 32 40 48 56 64
Err
o de
qua
ntiz
acao
por
seg
men
to
f
Unidades
VAR1BAL1BAL2
Figura24: Médiado errodequantizaçãopor segmentoaofinal do treinamento,calcu-ladaentreoslocutores,emfunçãodonúmerodeunidadesdaarquitetura,paracadaumdosconjuntos detreinamento
duraçãosobreaquedadataxadeerrosdeidentificação.
A segundaquestãoserefereaopoderdiscriminantedecadaarquitetura.Usando
aindaosresultadossobreo conjuntoBAL3 comoreferência,foi levantadoo gráficoda
figura26, queexibe a taxadeerrodeidentificaçãoemfunçãodo númerodeunidades
da arquitetura,paracadaconjuntode treinamento.Observa-se,pelacurva da média
ponderadasegundoo númerodefrasesdo conjuntode treinamento, a influênciaposi-
tiva do aumentodo númerode unidadesda arquitetura,baixandoastaxasde erro de
identificação.
Porfim, sãoanalisadososresultadosdastaxasdeidentificaçãoemfunçãodocon-
junto testado.Paraoscasosemqueo conjuntodetesteéo mesmoqueo detreinamen-
to, umataxade acertoesperadade 100%foi obtidaem todososcasos,excetoparao
parSOM 16 conjuntodetreinamentoVAR1, quefoi de96.43%(tabela12), quepode
serconsideradaincapaz,comosparâmetrosde treinamentousados,dequantizarade-
quadamenteo conjunto. Paraefeito de análise,os testesefetuadossobreos próprios
conjuntosdetreinamentoserãodescartados.
Observandoastabelasderesultados12,13,14e15,verifica-sequeaspiorestaxas
deacertoocorremquandoo conjuntoVAR1 é testado,independentementedaarquite-
tura.Paraexplicarosmotivos,serãodetalhadososerrospor fraseocorridosno testedo
66
0
1
2
3
4
5
6
7
15.5 16 16.5 17 17.5 18 18.5 19 19.5 20 20.5
Tax
a de
err
o de
iden
tific
acao
do
locu
tor
(%)
Duracao media do conjunto de treinamento por locutor (s)
MEDIASOM 16SOM 25SOM 36SOM 64
Figura25: Taxadeerrode identificaçãoemfunçãodaduraçãodo conjunto detreina-mento
0
1
2
3
4
5
6
7
16 24 32 40 48 56 64
Tax
a de
err
o de
iden
tific
acao
do
locu
tor
(%)
Numero de unidades da arquitetura
MEDIA PONDERADAVAR1BAL1BAL2
Figura26: Taxadeerrodeidentificaçãoemfunçãodonúmerodeunidadesdaarquite-turausada,paracadaconjuntodetreinamento
67
conjuntoVAR1 sobrea arquiteturaSOM 64 treinadacomo conjuntoBAL1. A esco-
lhasejustificapelaaparenteincompatibilidadeentreosbonsresultadosdacombinação
no testedo conjuntoBAL3 (99.29%de acerto)contraos resultadosruins no testedo
conjuntoVAR1 (86.90%de acerto). O alto índicede errosde classificaçãotendea
evidenciarmelhorosseusmotivos.
Note-seinicialmentequeo conjuntoVAR1, tomadocomoconjuntodetestes,não
apresentanenhumapropriedaderelevantequedemonstrequeasfrasespossamserana-
lisadasemconjunto.A principaldiferençaentreasrespostasdoslocutoresnoconjunto
VAR1 estána duraçãodasrespostas.A tabela16 e o respectivo gráfico (figura 27)
ilustrama variaçãodataxadeerrosde identificaçãoemfunçãodaduraçãomédiadas
frases,calculadasentreoslocutores.
O gráfico demontrade forma bastanteclara que existe um limiar entre2 45s e
2 79s paraa duraçãomédiadaslocuções,acimado qual a taxade acertoé de 100%.
Mais do queisto,demonstraque,abaixodestelimiar, a reduçãodaduraçãomédiadas
locuçõesfaz com que as taxasde erro de identificaçãodo locutor aumentemmuito
rapidamente.Verifica-se,portanto,quea duraçãodaslocuçõesde testeé um fatorde
altarelevânciaparaestesistemadereconhecimentoautomáticodelocutor.
68
Frase(p) DuraçãoMédia Desv. Padr. Duração Erros TaxadeAcertos001 2.45s 0.47s 1 92.86%002 1.44s 0.43s 4 71.43%003 3.43s 0.51s 0 100.00%004 4.44s 0.77s 0 100.00%005 2.79s 0.36s 0 100.00%006 1.40s 0.24s 6 64.29%
Tabela16: Taxadeerrodeidentificaçãoemfunçãodaduraçãomédiadalocuçãoparaa arquiteturaSOM 64,treinadacomo conjuntoBAL1, testadacomo conjuntoVAR1
0
5
10
15
20
25
30
35
40
1 1.5 2 2.5 3 3.5 4 4.5
Tax
a de
err
o de
iden
tific
acao
do
locu
tor
(%)
Duracao media da locucao (s)
Figura27: Duraçãomédiadaslocuçõese taxasdeerrodeidentificaçãoparaa arquite-turaSOM 64, treinadacomo conjuntoBAL1, testadacomo conjuntoVAR1, segundoosdadosdatabela16
69
5 CONCLUSÕES
5.1 ConclusõesGerais
Nestetrabalhofoi apresentadoinicialmenteumconjuntodetécnicasenvolvendoa
extraçãodeatributosrepresentativosdeum locutora partir desegmentosdeamostras
desuavoz. Foi descritaamodelagemdoslocutoresatravésderedesneuraisdearquite-
turaSelf-OrganizingMap (SOM), treinadasexclusivamentecomosatributosextraídos
deseuslocutoresassociados.A técnicadeidentificaçãoapresentadaconsiste nacom-
paraçãoentreoserrosde quantizaçãovetorialdaslocuçõesde testesobreasdiversas
SOMs,sendoo locutoridentificadoaquelecujaredemelhorquantizaalocuçãodeteste.
Paratestarasolução,foi propostoumproblemadeidentificaçãodelocutoremum
conjuntofechadodelocutores,emmodoindependentedetexto. Paraisto, foi coletado
um corpusde amostrasde voz de 14 locutores(6 homense 8 mulheres),envolvendo
um conjuntodefrasesvariáveispor locutore 3 conjuntosdefrasescomunsa todosos
locutores,foneticamentebalanceadas.
Foramusadas4 arquiteturasde SOM com retículaquadradaparacadaconjunto
de treinamento:com 16, 25, 36 e 64 unidadesde processamento.Cadacombinação
deumaarquiteturacomum conjuntodefrasesfoi treinadae testada.Um dosconjun-
tos de treinamentode frasescomuns,foneticamentebalanceadas,nãofoi usadopara
treinamento,sendodeixadocomoconjuntodereferênciaparatestes.
Osresultadosdostestesindicaramqueasarquiteturascommaisunidadespossuem
maior poderdiscriminativo, respondendocom menoreserrosde quantizaçãodurante
o treinamentoe maiorestaxasde acertoduranteos testes. Tambémindicaramque
conjuntosdetreinamentodemaiorduraçãofavorecemo aumentodastaxasdeacerto.
O melhordesempenhoemtermosdetaxasdeacertosobreo conjuntodereferência
foi conseguido coma arquiteturade64 unidades,treinadacomosconjuntosde frases
foneticamentebalanceadas,comunsaoslocutores:99.29%. Entretanto,estamesma
arquiteturaapresentoutaxasdeacertobaixasquandotestadano conjunto defrasesva-
70
riáveis: 86.90%.Como detalhamentodesteerro por frase,observou-sequeasfrases
detestemaiscurtasforamresponsáveispeloserros,comtaxasdeacertode100%para
asfrasesdetestemaislongas.Isto definiuum limite inferior paraa duraçãodasfrases
detestedeaproximadamente 2 6s.
De forma geral, pode-sedizer que o conjunto, treinadocom aproximadamente
17 5s de amostrasde voz por locutor, é capazde identificá-loscom maisde 99% de
taxadeacertoquandotestadocomlocuçõesdeduraçãosuperiora 2 8s, emmodoinde-
pendentedetexto,colocando-omuitopróximoaossistemasestadodaartenacategoria.
Osresultadosdostestesindicamqueestedesempenhopodeseraindamelhoradopelo
aumentodonúmerodeunidadesdasSOMs.
5.2 Sobreo usodeuma SOM por locutor
A soluçãoabordadaapresentaumacaracterísticaarquiteturalbastanteinteressan-
te: paraqueumnovo locutorsejaacrescentadoaoconjuntodelocutoresalvo,bastaque
umanova SOM sejatreinadaparaestelocutor, semnecessidadedere-executaro pro-
cessodetreinamentodasdemais.Damesmaforma,paraqueumlocutorsejaremovido
do conjuntoalvo, bastadestruira suaSOM associada.Estedesacoplamentodámaior
viabilidadeparaaplicaçõesemqueo conjuntoexatodelocutoresalvo é desconhecido
a priori , desenvolvendo-seaolongodociclo devidadaaplicação.
Entretanto,o procedimentodeidentificação(teste)torna-semaiscomplexo como
aumentodo númerodelocutoresalvo: o númeroderedesemqueum padrãodeve ser
testadoaumenta,aumentandolinearmenteo tempoderespostadostestes.
Outraquestãoquesurge com o aumentodo númerode locutoresé queasdife-
rençasentreos errostotaisde quantizaçãoentreas redestendea sermaispróximo,
refletindoamaiorprobabilidadedeseencontrarlocutorescomvozessemelhantes.En-
tretanto,segundoos gráficosdasfiguras25 e 26, o aumentodo númerode unidades
dasSOMsreduztantoos errosdequantizaçãoduranteo treinamentoquantoastaxas
deerrodeidentificação,conferindoàsredesmaiorpoderdiscriminativo.
Portanto,o númerode unidadesde processamentodasSOMs deve serbaseado
numaestimativadonúmeromáximo delocutoresqueo conjuntodeverásuportar, man-
tendoosníveisdedesempenhoaceitáveis. Além disto, deve-selevar emconsideração
queaplicaçõescom um maior númerode unidadesde processamentopor SOM tor-
nammaislentososprocessosdetreinamentoe verificação,aumentandoostemposde
respostadaaplicação.
71
5.3 Dir eçõesFuturas para Pesquisa
Nestetrabalho,os índicesdasclassesresultantesda quantizaçãovetorial pelas
SOMsfoi ignorado:somenteos errostotaisde quantizaçãoforam utilizados. Testes
preliminares,feitos fora do escopodestadissertação,indicamquea seqüênciadestes
índicesdeclassepodeserusadaparaidentificarafrasesendofaladapelolocutor. Opro-
cedimentousadonestestestesconsistiu naconstruçãodemapasdetransiçãodeestado
(histogramasde ocorrênciade transiçõesentreíndicesde classes),seguido da identi-
ficação atravésde redesneuraisde arquiteturaLearningVector Quantization (LVQ).
Experimentosanteriorescomo usodestemétodo,aplicadonaidentificaçãodefreqüên-
ciasdeondasmecânicas,propagadasnumasondadeprospecçãodepetróleo(SIMõES,
2000),apresentaramresultadosmuito bons.
A soluçãoapresentadadevesertestadasobreconjuntoscommaislocutores,como
por exemplo os corpora KING, SPOLTECH e TIMIT, buscandodefinir um compro-
missoentreo desempenhoe a complexidadecomputacional daarquitetura,comparan-
do estedesempenhocom os padrõesatuaisparaestesconjuntos de amostrasde voz.
Tambémdeve ser testadaem conjuntosde vozescom diferentesníveis de ruído para
quesuarobustezsejaavaliada.
Umanovaaplicaçãosugeridaparaestesistemaéasegmentaçãodeconversasentre
um grupodelocutores:definir ostrechosemquecadalocutorestáfalando,ostrechos
demisturadevozese ostrechosdesilêncio.Estasegmentaçãoé bastanteinteressante
comopré-processamentoparasistemasdereconhecimentodevoz.
72
REFERÊNCIAS BIBLIOGRÁFICAS
ALCAIM, A.; SOLEWICZ,J. A.; MORAES,J. A. Freqüênciadeocorrênciados
fonese listasde frasesfoneticamentebalanceadasno Portuguêsfaladono Rio de
Janeiro.Revista da SociedadeBrasileira deTelecomunicações, v. 7, n. 1, p. 23–41,
dez.1992.
ANDERSON,T. R.; PATTERSON,R. Speaker recognitionwith theAuditory Image
modelandSelf OrganizingFeatureMap: a comparisonwith traditionaltechniques.
In: ESCA WORKSHOPON SPEAKERRECOGNITION,IDENTIFICATION,
AND VERIFICATION. Proceedings. Martigny, Switzerland:[s.n.],1994.
ARBIB, M. A. (Ed.).The Handbook of Brain Theory and Neural Networks.
Cambridge,MA: TheMIT Press,1995.1118p.
BECHETTI, C.; RICOTTI, L. P. Speech Recognition: Theory and C++
implementation. WestSussex, England: JohnWiley & Sons,1999.407 p.
AcompanhaCD-ROM.
BENNANI, Y.; GALLINARI, P. A connectionistapproachfor speaker identification.
In: ICASSP, 1990.Proceedings. Albuquerque,NM, USA: [s.n.],1990.p. 265–268.
BENNANI, Y.; GALLINARI, P. On theuseof TDNN-extractedfeaturesinformation
in talker identification. In: ICASSP, 1991.Proceedings. Toronto,Ontario,Canada:
[s.n.],1991.p. 385–388.
BIMBOT, F.; MAGRIN-CHAGNOLLEAU, I.; MATHAN, L. Second-orderstatistical
measuresfor text-independentspeaker identification. SpeechCommunication,
v. 17,n. 1–2,p. 177–192,ago.1995.
BISHOP, C. M. Neural Networks for Pattern Recognition. Oxford: Oxford
University Press,1995.482p.
BOCCHIERI, E. L.; WILPON, J. G. Discriminative featureselectionfor speech
recognition.Computer Speechand Language, v. 7, p. 229–246,1993.
73
BORDEN,G.; HARRIS, K. SpeechSciencePrimer : Physiology, acoustics,and
perception.Baltimore,Md.: Williams & Wilkins, 1980.
CAMPBELL JR.,J. P. Speaker recognition:a tutorial. Proceedings of the IEEE ,
v. 85,n. 9, p. 1437–1462,set.1997.
COOLEY, J. W.; TUKEY, J.W. An algorithmfor themachinecomputation of the
complex Fourierseries.Mathematical Computation, v. 19,p. 297–301,1965.
DELACRETAZ, D. P.; HENNEBERT, J. Text-promptedspeaker verification
experimentswith phonemespecificMLPs. In: ICASSP, 1998.Proceedings. [S.l.:
s.n.],1998.p. 777–780.
DELLER JR.,J.R.; HANSEN,J.H. L.; PROAKIS, J.G. Discrete-Time Processing
of Speech Signals. New York: Macmillan,1993.908p.
DE MORI, R. (Ed.). Spoken Dialogueswith Computers. London: Academic
Publishers,1998.702p.
DENES,P. B.; PINSON,E. N. The SpeechChain: Thephysicsandbiology of
spokenlanguage.2 ed.New York: W. H. Freeman,1993.246p.
DOYA, K. Recurrentnetworks: Supervisedlearning.In: ARBIB, M. A. (Ed.).The
Handbook of Brain Theory and Neural Networks. Cambridge,MA: MIT Press,
1995.p. 796–800.
FARRELL, K. Networks for speaker recognition. In: KATAGIRI, S. (Ed.).
Handbook of Neural Networks for SpeechProcessing. Norwood: ArtechHouse
Publishers,2000.cap.10,p. 357–391.
FARRELL, K.; MAMMONE, R. J.; ASSALEH, K. T. Speaker recognition
usingneuralnetworksandconventionalclassifiers.Acoustic, Speech and Signal
Processing,IEEE Transactionson, v. 2, n. 1, p. 194–205, jan.1994.Part II.
FLANAGAN, J.L. SpeechAnalysis,Synthesisand Perception. 2 ed.New York:
Springer-Verlag,1972.
FURUI, S. An overview of speaker recognitiontechnology. In: ESCAWORKSHOP
ON SPEAKERRECOGNITION,IDENTIFICATION, AND VERIFICATION.
Proceedings. Martigny, Switzerland:[s.n.],1994.
74
FURUI, S. Recentadvancesin speaker recognition. Pattern RecognitionLetters,
v. 18,n. 9, p. 859–872, set.1997.
FURUI, S. Speaker recognition. In: Ron Cole; Victor Zue (Ed.). Survey of
the State of Art in Human LanguageTechnology. [S.l.]: NationalScience
FoundationandEuropeanUnion, 1996.cap.1.7, p. 42–48. Disponível em:i http://cslu.cse.ogi.edu/HLTsurvey/ j .
GERSHO,A.; GRAY, R. M. Vector Quantization and Signal Compression.
Norwell, MA: Kluwer AcademicPublishers,1992.(TheKluwer InternationalSeries
in EngineeringandComputerScience).
GISH, H.; SCHMIDT, M. Text-independent speaker verification. IEEE Signal
ProcessingMagazine, v. 11,n. 4, p. 18–32,out.1994.
HAYKIN, S. Neural Networks: A comprehensive foundation.2 ed.Englewood
Clif fs, NJ: PrenticeHall, 1999.842p.
HOMAYOUNPOUR,M. M.; CHOLLET, G. NeuralNet approachesto speaker
verification: comparisonwith secondorderstatistic measure.In: ICASSP, 1995.
Proceedings. Detroit,MI, USA: [s.n.],1995.v. 1, p. 353–356.
INTRATOR, N. Competitive learning. In: ARBIB, M. A. (Ed.).The Handbook
of Brain Theory and Neural Networks. Cambridge,MA: MIT Press,1995.p.
220–222.
JUANG, B. H.; RABINER, L. R.; WILPON, J.G. On theuseof bandpassliftering in
speechrecognition. Acoustic,Speechand Signal Processing,IEEE Transactions
on, v. 35,p. 947–954,jul. 1987.
KATAGIRI, S. (Ed.). Handbook of Neural Networks for Speech Processing.
Norwood:ArtechHousePublishers,2000.522p.
KOENIG, W. A new frequency scalefor acousticmeasurements.Bell Telephone
Laboratory Record, v. 27,p. 299–301, 1949.
KOHONEN,T. Learning vector quantization for pattern recognition. Helsinki:
HelsinkiUniversityof Technology, 1986.(TechnicalReport,TKK-F-A601).
75
KOHONEN,T. Theself-organizingmap. Proceedingsof the IEEE , v. 78,n. 9, p.
1464–1480,set.1990.
KOHONEN,T. Self-Organizing Maps. 3 ed.Berlin: Springer-Verlag,2001.
(SpringerSeriesin InformationSciences,30).
KUMAGAI, J. Talk to themachine.IEEE Spectrum , p. 60–64,set.2002. Special
R&D Report.
LANG, K. J.;HINTON, G. E. The developmentof the time-delayneural network
architecture for speechrecognition. Carnegie-MellonUniversity: Pittsburg, PA,
1988.(TechnicalReport,TR-CMU-CS-88-152).
LAPIDOT, I.; GUTERMAN, H.; COHEN,A. Unsupervisedspeaker recognition
basedon competition betweenSelf-OrganizingMaps. Neural Networks, IEEE
Transactionson, v. 13,n. 4, p. 877–887, jul. 2002.
LECUN, Y. Une procedured’apprentissagepour reseaua seuil assymetrique.
Cognitiva, v. 85,p. 599–604,1985.
LEE,C.H.; SOONG,F. K.; PALIWAL, K. K. (Ed.).Automatic Speechand Speaker
Recognition: Advancedtopics.Boston:Kluwer AcademicPublishers,1996.517p.
MATSUI, T.; FURUI, S. Speaker adaptionof tied-mixture-basedphonememodels
for text-promptedspeaker recognition. In: Proceedings. [S.l.: s.n.],1994.v. 1, p.
I/125–I/128.
MERMELSTEIN, P.; DAVIS, B. Comparisonof parametricrepresentationsfor
monosyllabic word recognitionin continuously spokensentences.Acoustic,Speech
and SignalProcessing,IEEE Transactionson, v. 28,n. 4, p. 357–366, ago.1980.
MINSKY, M. L.; PAPERT, S.A. Perceptrons: Expandededition.2 ed.Cambridge,
MA: TheMIT Press,1990.292p.
NAIK, J.M.; NETCH,L. P.; DODDINGTON, G. R. Speaker verificationover long
distancetelephonelines. In: ICASSP, 1989.Proceedings. Glasgow, Scotland:[s.n.],
1989.p. 524–527.
OGLESBY, J.; MASON, J. S. Optimizationof neuralmodelsfor speaker
identification. In: ICASSP, 1990.Proceedings. Albuquerque,NM, USA: [s.n.],
1990.p. 261–264.
76
OPPENHEIM,A. V.; SCHAFER,R. W. Discrete-Time Signal Processing. 2 ed.
UpperSaddleRiver, NJ:PrenticeHall, 1998.870p. (PrenticeHall SignalProcessing
Series).
PARKER, D. B. Learning-logic: castingthe cortex of the human brain in silicon.
Cambridge,MA: Centerfor ComputationalResearchin EconomicsandManagement
Science,1985.(TechnicalReport,TR-47).
PHILLIPS, P. J. et al. An introductionevaluatingbiometricsystems.Computer
Magazine, v. 33,n. 2, p. 56–63,fev. 2000.
PICONE,J.W. Signalmodeling techniquesin speechrecognition.Proceedingsof
the IEEE , v. 81,n. 9, p. 1215–1247,set.1993.
PRESS, W. H. et al. Numerical Recipesin C: Theart of scientificcomputing. 2 ed.
Cambridge,UK: CambridgeUniversity Press,1992.994p.
RABINER,L. R.; JUANG, B. W. Fundamentalsof Speech Recognition. Englewood
Clif fs, NJ: PrenticeHall, 1993.507p.
RABINER, L. R.; WILPON, J.G.; SOONG,F. K. High performanceconnecteddigit
recognitionusinghiddenMarkov models.Acoustic,Speech and Signal Processing,
IEEE Transactionson, v. 37,p. 1214–1225,ago.1989.
RABINER, L. A tutorial on HiddenMarkov Modelsandselectedapplicationsin
speechrecognition.Proceedingsof the IEEE , v. 77,n. 2, p. 257–286, fev. 1989.
REYNOLDS,D. A.; QUATIERI, T. F.; DUNN, R. B. Speaker verificationusing
adaptedGaussianMixture Models.Digital Signal ProcessingReview Journal, jan.
2000.
REYNOLDS,D. Speaker identificationandverificationusingGaussianMixture
Models.SpeechCommunications, v. 17,p. 91–108,ago.1995.
REYNOLDS,D. A.; HECK, L. P. Automaticspeaker recognition:recentprogress,
currentapplications,andfuturetrends.In: AMERICAN ASSOCIATION FORTHE
ADVANCEMENT OF SCIENCE (AAAS) SYMPOSIUM.Washington,DC: [s.n.],
2000.
77
ROSENBERG, A. E.; LEE, C. H.; GOKEEN,S. Connectedword talker recognition
usingwholewordHiddenMarkov Models.In: ICASSP, 1991.Proceedings. Toronto,
Ontario,Canada:[s.n.],1991.p. 381–384.
ROSENBERG, A. E.; LEE, C. H.; SOONG,F. K. Sub-word unit talker verification
usingHiddenMarkov Models. In: ICASSP, 1990.Proceedings. Albuquerque,NM,
USA: [s.n.],1990.p. 269–272.
ROSENBLATT, F. ThePerceptron:A probabilistic modelfor informationstorage
andorganizationin thebrain. PsychologicalReview, v. 65,p. 386–408,1958.
RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Learningrepresentations
by back-propagatingerrors.Nature, London,v. 323,p. 533–536,1986.
RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Learninginternal
representationsby errorpropagation.In: RUMELHART, D. E.; MCCLELLAND,
J.L. (Ed.).Parallel Distrib uted Processing: Explorationsin themicrostructureof
cognition.Cambridge,MA: MIT Press,1986,v. 1: Foundations,v. 1: Foundations.
cap.8, p. 318–362.
RUMELHART, D. E.; ZIPSER,D. Featurediscovery by competitive learning. In:
RUMELHART, D. E.; MCLELLAND, J.L. (Ed.).Parallel Distrib uted Processing:
Explorationsin themicrostructureof cognition.Cambridge,MA: MIT Press,1986,
v. 1: Foundations,v. 1: Foundations. cap.5, p. 151–193.
SANKAR, A.; MAMMON E, R. J. Growing andpruningneuraltreenetworks.
Computers, IEEE Transactionson, v. C-42,p. 221–229,mar. 1993.
SHIKANO, K. Evaluation of LPC spectral matching measuresfor phonetic
unit recognition. New York: ComputerScienceDepartment,Carnegie-Mellon
University, maio1985.(TechnicalReport).
SIMõES,M. G. et al. A novel competitive learningneuralnetwork basedacoustic
transmission systemfor oil-well monitoring. Industry Applications, IEEE
Transactionson, v. 36,n. 2, p. 484–491, abr. 2000.
SOONG,F. K. et al. A vectorquantizationapproachto speaker recognition. In:
ICASSP, 1985.Proceedings. [S.l.: s.n.],1985.p. 387–390.
78
SóRIA, R. A. B. Reconhecimento Automático de Locutor usando pré-
processamentoem sonsnasalizadoscom diversosclassificadores neurais.
Dissertação(Mestrado)— EscolaPolitécnicadaUniversidadedeSãoPaulo,São
Paulo,SP, 2001.
SRINIVASAN, S.; BROWN, E. Is speechrecognitionbecomingmainstream?
Computer Magazine, abr. 2002. Disponível em: i http://computer.org/computer/-
homepage/0402/GEI/index.htmj . Acessoem:26 .apr. 2002.
STEVENS,S. S.; VOLKMAN, J. Therelationof pitch to frequency. American
Journal of Psychology, v. 53,p. 329,1940.
TEXAS INSTRUMENTS INC. Understanding Data Converters. [S.l.], 1995.
(ApplicationReport,SLAA013).
TSOI, A. C. et al. Application of artificial neuralnetwork techniquesto
speaker verification. In: ESCAWORKSHOPON SPEAKERRECOGNITION,
IDENTIFICATION, AND VERIFICATION. Proceedings. Martigny, Switzerland:
[s.n.],1994.
MALSBURG, C. von der. Self-organizationof orientationsensitivity cells in the
striatecortex. Kybernetik, n. 14,p. 85–100,1973.
WAIBEL, A. etal. Phonemerecognitionusingtime-delayneuralnetworks.Acoustic,
Speech and Signal Processing,IEEE Transactionson, v. ASSP-37,n. 3, p.
328–339,1989.
WERBOS,P. J. Beyond regression:new tools for prediction and analysisin the
behavioral sciences. Tese(Doutorado)— HarvardUniversity, Cambridge,MA,
1974.
YUK, D. S. et al. A neural network systemfor robust large-vocabulary
continuousspeechrecognition in variable acousticenvir onments. Piscataway,
N.J.: Rutgers- TheStateUniversityof New Jersey, 15 jan.1999.(TechnicalReport
CAIP-TR-234).