reconhecimento robusto de fala com redes de microfones em … · a minha av` o, que j´ a n´ ao se...

84
Reconhecimento Robusto de Fala com Redes de Microfones em Ambientes Domésticos Multi-Sala José Miguel Caldeira e Matos Dissertação para obtenção do Grau de Mestre em Mestrado Integrado em Engenharia Electrotécnica e de Computadores Orientadores: Prof. Dra. Isabel Maria Martins Trancoso Dr. Alberto Abad Gareta Júri Presidente: Prof. Dr. Nuno Cavaco Gomes Horta Orientador: Dr. Alberto Abad Gareta Vogal: Prof. Dr. Francisco António Chaves Saraiva de Melo Outubro 2014

Upload: trantuyen

Post on 28-Jan-2019

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Reconhecimento Robusto de Fala com Redes deMicrofones em Ambientes Domésticos Multi-Sala

José Miguel Caldeira e Matos

Dissertação para obtenção do Grau de Mestre em

Mestrado Integrado em Engenharia Electrotécnica e deComputadores

Orientadores: Prof. Dra. Isabel Maria Martins TrancosoDr. Alberto Abad Gareta

Júri

Presidente: Prof. Dr. Nuno Cavaco Gomes HortaOrientador: Dr. Alberto Abad Gareta

Vogal: Prof. Dr. Francisco António Chaves Saraiva de Melo

Outubro 2014

Page 2: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

ii

Page 3: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Para os meus pais, irma e Filipa.

iii

Page 4: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

iv

Page 5: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Agradecimentos

Aproveito esta oportunidade para expressar a minha gratidao a todas as pessoas que me apoiaram

durante este percurso de desenvolvimento pessoal e profissional, que directa ou indirectamente con-

tribuıram para a realizacao desta tese.

Ao Dr. Alberto Abad, pela sua disponibilidade, compreensao, estımulo, partilha de conhecimentos

cientıficos e toda a orientacao dada, no desenvolvimento deste trabalho.

A Prof. Dra. Isabel Trancoso, o meu apreco, por me ter proporcionado esta oportunidade, por todo o

apoio e estımulo prestados nos momentos difıceis.

Aos Dr. Ramon Astudillo, Dr. Hugo Meinedo e Dr. Antonio Serralheiro, agradeco toda a disponibili-

dade e conhecimentos transmitidos.

Ao L2F, pela recepcao nesta grande famılia, a todas as pessoas que me ajudaram, ensinaram e pela

camaradagem vivida nestes ultimos tempos.

A todos os parceiros do DIRHA, que disponibilizaram partes essenciais, para que este trabalho fosse

uma realidade.

Aos meus pais, que sempre me acompanharam e muito contribuıram para que fosse possıvel a

realizacao do meu percurso academico, transmitindo amor, educacao e valores.

A minha avo, que ja nao se encontra entre nos, expresso o meu sentimento de amizade e gratidao,

pelo contributo e apoio que me proporcionou enquanto foi possıvel.

A minha irma, pelo apoio, companhia e amizade disponibilizada ao longo destes anos.

A Filipa, pelo amor e carinho que me proporciona todos os dias. Em especial pelo incentivo, com-

preensao, paciencia e apoio que foram essenciais no decorrer deste trabalho.

Esta tese e financiada pelo projecto de FCT FP7-288121.

v

Page 6: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

vi

Page 7: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Resumo

O foco desta tese centra-se na problematica do reconhecimento de fala a distancia num ambiente multi-

divisao para aplicacoes de domotica. Em geral os sistemas de reconhecimento de fala tem um bom

desempenho num ambiente sem ruıdo e com o microfone perto do falante. No entanto, os reconhe-

cedores tem um fraco desempenho quando os microfones se encontram distantes e com presenca de

ruıdo e reverberacao. O objectivo e construir uma casa autonoma controlada por fala a distancia no

ambito do projecto DIRHA.

Para resolver o problema foram utilizados varios corpora que simulam diferentes tipos de ruıdos

domesticos e reverberacao para construcao dos modelos integrados no reconhecedor. Foram analisa-

dos varios modelos acusticos com interaccoes tıpicas de comandos de voz para comandar uma casa.

O modelo acustico com melhor desempenho foi treinado com varios nıveis de ruıdo e reverberacao,

incluindo ficheiros audio sem ruıdo.

De seguida foram abordadas tecnicas de agrupamento de microfones para eliminacao de ruıdos

e reverberacao, seleccao automatica de microfone, divisao e grupo de microfones. Ficou claro que

a seleccao automatica de microfone superou o algoritmo de agrupamento de microfones aplicado. O

melhor algoritmo baseia-se na seleccao do microfone com menor distorcao de acordo com uma metrica

baseada na envolvente espectral. Obtivemos 27% de melhoria absoluta respectivamente ao melhor

microfone em media.

Por fim estudou-se o problema de deteccao de fala em ambientes multi-microfone com varias di-

visoes, explorando varios metodos que tiram partido dos varios canais. A combinacao dos metodos de

seleccao com a deteccao de fala obteve bons resultados.

Palavras-chave: reconhecimento de fala, seleccao automatica de microfones, aplicacoes

de domotica, processamento multi-divisao, robustez a reverberacao, ambientes com ruıdo.

vii

Page 8: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

viii

Page 9: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Abstract

The main goal of this thesis is the recognition of distant-speech in multi-room scenarios for home control

applications. Automatic speech recognition usually provides good performances in clean environments

and when the microphone is close to the speaker. However, when the microphones are placed far and

in the presence of noise and reverberation, speech recognition performance is very poor. The purpose

in this work is to build a home automation system controlled by distant speech recognition under the

DIRHA project.

To address this problem, the statistical models of the recognizer were trained using several simu-

lated corpora based on different types of domestic noises and reverberation. Different acoustic model

configurations were analysed using data containing typical interactions of voice commands. The best

acoustic model was obtained using a great variability of noise levels and reverberations, including clean

speech data.

Then, we investigated spatial filtering to mitigate the effects of noise and reverberation, besides

automatic channel selection strategies for microphone, room/division and microphone cluster selection.

Automatic microphone selection outperformed the microphone array beamforming approach considered

in this study. The best method is based on the selection of the least distorted microphone, according to

a metric based on measurements of the spectral envelope. We achieve a 27% absolute improvement

with respect to the best average microphone.

Finally, the problem of speech/non-speech detection was investigated in a multi-microphone multi-

room environment exploring different approaches that take advantage of the availability of multiple chan-

nels. Combination of microphone selection strategies with speech/non-speech detection provided very

promising results.

Keywords: distant speech recognition, automatic microphone selection, home control applica-

tions, multi-room processing, robustness to reverberation, noisy environments.

ix

Page 10: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

x

Page 11: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Conteudo

Agradecimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v

Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii

Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix

Lista de Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiv

Lista de Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvi

Lista de Abreviaturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvii

1 Introducao 1

1.1 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Objectivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 Estrutura da Tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Reconhecimento Automatico de Fala 5

2.1 Arquitectura e principais componentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Extraccao de Parametros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3 Modelos do Reconhecedor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3.1 Modelo Acustico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3.2 Modelo Lexical . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3.3 Modelo de Lıngua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.4 Descodificacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.5 Reconhecimento robusto com microfones a distancia . . . . . . . . . . . . . . . . . . . . 12

2.5.1 Ruıdo Acustico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.5.2 Reverberacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.5.3 Tecnicas de reconhecimento de fala robusto . . . . . . . . . . . . . . . . . . . . . 14

3 Desenvolvimento de Modelos Robustos para Aplicacoes Domoticas 17

3.1 Princıpios do Hidden Markov Model Toolkit (HTK) . . . . . . . . . . . . . . . . . . . . . . . 17

3.1.1 Treino do Hidden Markov Model (HMM) . . . . . . . . . . . . . . . . . . . . . . . . 17

3.1.2 Descodificacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2 Corpora Usados na Construcao dos Varios Modelos . . . . . . . . . . . . . . . . . . . . . 20

3.2.1 Corpus para Modelos Acusticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.2.2 Corpus para Modelo de Lıngua e Modelo Lexical . . . . . . . . . . . . . . . . . . . 21

xi

Page 12: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

3.3 Construcao dos Modelos Acusticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.4 Avaliacao Experimental dos Modelos Acusticos . . . . . . . . . . . . . . . . . . . . . . . . 22

3.4.1 Modelo de articulacao intrapalavras (word-internal) . . . . . . . . . . . . . . . . . 22

3.4.2 Modelo de articulacao interpalavras (cross-word) . . . . . . . . . . . . . . . . . . . 23

4 ASR num Ambiente Multi-Canal e Multi-Divisao 25

4.1 Corpora multi-canal simulado num ambiente multi-divisao . . . . . . . . . . . . . . . . . . 25

4.2 Avaliacao do desempenho do reconhecedor . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.2.1 Corpus only reverb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.2.2 Corpus reverb noise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5 Tecnicas Robustas para Ambiente Multi-Divisao com Varios Microfones 35

5.1 Agrupamento de Microfones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.1.1 Conceitos basicos de beamforming . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.1.2 Avaliacao do delay-and-sum no Automatic Speech Recognition (ASR) . . . . . . . 37

5.2 Metodos de Seleccao Automatica de Microfones e de Divisao . . . . . . . . . . . . . . . . 39

5.2.1 Revisao do estado de arte de seleccao de microfones . . . . . . . . . . . . . . . . 39

5.2.2 Metodos explorados nesta tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.2.3 Analise do desempenho dos metodos de seleccao de canal . . . . . . . . . . . . . 44

6 Deteccao de fala em ambientes multi-divisao 47

6.1 Deteccao de eventos acusticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

6.1.1 Segmentacao Fala/Nao-Fala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

6.2 Abordagens de Segmentacao para Toda a Casa . . . . . . . . . . . . . . . . . . . . . . . 50

6.2.1 Adaptacao do modelo Multi Layer Perceptron (MLP) . . . . . . . . . . . . . . . . . 50

6.2.2 Abordagens Multi-canal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

6.2.3 Avaliacao de Resultados para Toda a Casa . . . . . . . . . . . . . . . . . . . . . . 51

6.3 Segmentacao Fala/Nao Fala para Divisoes Especıficas . . . . . . . . . . . . . . . . . . . 52

6.3.1 Resultados sem Seleccao de Divisao . . . . . . . . . . . . . . . . . . . . . . . . . 53

6.3.2 Estrategias de Seleccao de Divisao . . . . . . . . . . . . . . . . . . . . . . . . . . 53

7 Conclusoes e Trabalhos Futuros 57

7.1 Conclusoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

7.2 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Bibliografia 65

xii

Page 13: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Lista de Tabelas

3.1 WER(%) obtido pelo ASR com varios modelos acusticos (Clean, Reverb1, ReverbR, Mix),

usando o word-internal, para os dados de desen e teste do corpus clean, reverb1 e

reverbR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2 WER(%) obtido pelo ASR com varios modelos acusticos (Clean, Reverb1, ReverbR, Mix),

usando o cross-word, para os dados de desen e teste do corpus clean, reverb1 e re-

verbR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.1 Tipos de ruıdo, que mais perturbam o reconhecimento, sobrepostos com os comandos

lidos no corpus reverb noise em percentagem. . . . . . . . . . . . . . . . . . . . . . . . 27

4.2 WER(%) obtido pelo ASR para o corpus only reverb com varios modelos acusticos

(Clean, Reverb1, ReverbR, Mix), para a divisao onde ocorre o evento, com os dados de

dev 4.1(a) e test 4.1(b). Para cada divisao, dividiu-se os resultados entre os microfones

dentro dessa e todos os outros da casa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.3 WER(%) obtido pelo ASR para o corpus reverb noise com varios modelos acusticos

(Clean, Reverb1, ReverbR, Mix), para a divisao onde ocorre o evento, com os dados de

dev 4.2(a) e test 4.2(b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.4 Media do desempenho em WER(%) dos comandos lidos dos corpora reverb noise para

dev e test usando diferentes estrategias de seleccao de microfones conhecendo a di-

visao onde ocorre o evento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.1 Media do desempenho em WER(%) dos comandos lidos dos corpora reverb noise para

dev e test usando diferentes estrategias de seleccao de grupos de microfones realizando

o beamforming conhecendo a divisao onde ocorre o evento. . . . . . . . . . . . . . . . . 38

5.2 Media do WER(%) dos comandos lidos do corpora reverb noise (dev e test) do DIRHA

II, explorando as tecnicas de seleccao de microfone UBM, o EV e N-Best. . . . . . . . . 45

6.1 Desempenho em percentagem da segmentacao fala/nao fala usando as diferentes a-

daptacoes do MLP com as abordagens mono-canal e multi-canal. Sao ignorados os

segmentos de fala de outras divisoes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

6.2 Desempenho em percentagem da segmentacao fala/nao fala usando varios sistemas

com o MLP adaptado pelo corpus DIRHA II. As abordagens estao pormenorizadas na

seccao 6.2. E considerado errado deteccao de fala nos segmentos de outras divisoes. . 53

xiii

Page 14: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

6.3 Desempenho em percentagem da segmentacao fala/nao fala usando varios sistemas

com o MLP adaptado pelo corpus DIRHA II. O EV escolhe uma das divisoes detectadas

com fala. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

6.4 Desempenho em percentagem da segmentacao fala/nao fala usando varios sistemas

com o MLP adaptado pelo corpus DIRHA II. O EV escolhe qualquer divisao. . . . . . . . 54

xiv

Page 15: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Lista de Figuras

1.1 Planta do apartamento prototipo, assinalando a localizacao dos microfones (cırculos pre-

tos) e das posicoes do falante (caixas azuis). . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1 Esquema dos componentes principais de um sistema de ASR. . . . . . . . . . . . . . . . 5

2.2 Esquematizacao do processo do sinal de fala ate a extraccao dos MFCC. . . . . . . . . . 6

2.3 Representacao do Banco de Filtros de Mel. . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.4 Fone modelado por tres estados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.5 Exemplo dos varios tipos de erros cometidos pelo reconhecedor. . . . . . . . . . . . . . . 11

2.6 Exemplo da funcao de transferencia entre dois pontos na cozinha do apartamento ITEA.

Nos primeiros instantes as ondas que chegam ao microfone com uma maior amplitude

sao obtidas pelos caminhos directos da coluna para o microfone, seguido das primeiras

reflexoes e depois das ultimas reflexoes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1 Modelo do silencio apos alteracao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.2 Etapas na criacao do corpus reverb1 e reverbR. . . . . . . . . . . . . . . . . . . . . . . . 21

4.1 Planta do apartamento ITEA, com a localizacao dos microfones (cırculos pretos) e os

locais onde ocorreram os eventos (quadrados), indicando a direccao da fonte por um

vector. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.2 Exemplo de um cenario acustico usado nos corpora reverb noise. A esquerda temos

a representacao a nıvel temporal de alguns microfones, e a direita a localizacao dos

eventos no apartamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.3 Exemplo de espectrograma dos varios corpora do Distant-speech Interaction for Robust

Home Applications (DIRHA), clean, only reverb e reverb noise. . . . . . . . . . . . . . 28

4.4 Media do WER do reconhecedor com o modelo acustico Mix do corpus only reverb, nos

40 microfones espalhados pelo apartamento ITEA de acordo com a divisao onde ocorreu

o evento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.5 Media do WER do reconhecedor com o modelo acustico Mix do corpus reverb noise,

nos 40 microfones espalhados pelo apartamento ITEA de acordo com a divisao onde

ocorreu o evento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

xv

Page 16: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

5.1 Media do WER (%) do reconhecedor com o modelo acustico Mix do corpus reverb noise,

efectuando o beamforming DS com diferentes combinacoes de microfones de acordo

com a divisao onde ocorreu o evento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

6.1 Esquematizacao do processo de detectar fala/nao fala. . . . . . . . . . . . . . . . . . . . 49

6.2 Esquematizacao do processo de detectar fala/nao fala pela a fusao de probabilidades. . 52

xvi

Page 17: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Lista de Abreviaturas

(na lıngua de origem)

ASR Automatic Speech Recognition

BDPUBLICO Base de Dados em Portugues eUropeu, vocaBulario Largo, Independente do orador e

fala Contınua

BIC Bayesian Information Criterion

CMS Cepstral Mean Subtraction

CMVN Cepstral Mean and Variance Normalization

DIRHA Distant-speech Interaction for Robust Home Applications

DCT Discrete Cosine Transform

DFT Discrete Fourier Transform

DS Delay-and-Sum

EV Envelope Variance

FBE Filter-Bank-Energies

FM Fusao por Maioria

FP Fusao por Probabilidade

IFT Inverse Fourier Transform

ITEA Istituto Trentino per l’Edilizia Abitativa

IST Instituto Superior Tecnico

GMM Gaussian Mixture Model

HFA Harmonicity Feature Analysis

HMM Hidden Markov Model

HTK Hidden Markov Model Toolkit

kNN k-Nearest Neighbors

MAP Maximum A Posteriori

MFCC Mel-Frequency Cepstral Coefficients

xvii

Page 18: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

MLLR Maximum-Likelihood Linear Regression

MLP Multi Layer Perceptron

PCA Principal Component Analysis

PLP Perceptual Linear Prediction

PMC Parallel Model Combination

RIR Room Impulse Response

SAMPA Speech Assessment Methods Phonetic Alphabet

SNR Signal to Noise Ratio

SVM Support Vector Machine

UBM Universal Background Model

TOF Time Of Flight

WER Word Error Rate

WFST Weighted Finite State Transducers

TDOA Time Difference of Arrival

xviii

Page 19: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Capıtulo 1

Introducao

Vivemos rodeados de tecnologia com o objectivo de nos ajudar a realizar parcial ou totalmente tarefas

do quotidiano. A tecnologia tem sido aplicada a um ritmo alucinante, nos dispositivos moveis, transpor-

tes, edifıcios e em todos os ambientes que o possibilitam. Por mais que o Homem integre e automatize

a tecnologia no seu dia-a-dia, esta necessitara sempre de um canal de comunicacao com os seus

utilizadores.

O toque e a via mais basica e usada para dar instrucoes aos mais variados dispositivos. No en-

tanto, apresenta desvantagens significativas, porque requer muitas vezes toda a atencao por parte do

utilizador, o seu contacto fısico, capacidade e disponibilidade para efectuar essa operacao.

A maior parte da comunicacao Homem-maquina e distinta da comunicacao entre humanos, necessi-

tando que o Homem se adapte as maquinas. Para minimizar o problema nos ultimos 30 anos tem havido

um grande esforco na area da computacao para adaptar as maquinas ao Homem. No entanto, a relacao

Homem-maquina e ainda muito complexa, havendo um longo caminho a percorrer. Alem do toque, tem

sido desenvolvidas ferramentas que possibilitam a exploracao de outros meios de comunicacao, como

por exemplo, a visao e a voz, de forma a facilitar a interaccao Homem-maquina.

De todas as formas de interaccao humana, a voz e a que traz mais vantagens por ser a forma de

comunicacao mais natural e maioritaria entre os seres humanos.

1.1 Motivacao

A maior parte dos seres humanos comunicam verbalmente com grande facilidade, porque o cerebro

tem uma grande capacidade em descodificar a mensagem transmitida pelo som. Esta particularidade

oculta como e desafiante a tarefa de reconhecimento.

Seja porque o meio de comunicacao sofre por multiplas razoes perturbacoes que alteram conside-

ravelmente o sinal, ou porque os proprios falantes nao pronunciam correctamente as palavras, tendo

em atencao que existem diferencas significativas de fala entre as pessoas por variados motivos.

Se no passado o processamento dos ficheiros de fala era uma tarefa computacionalmente pesada,

com os computadores actuais, e possıvel processar varios canais de audio e efectuar milhares de

1

Page 20: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Figura 1.1: Planta do apartamento prototipo, assinalando a localizacao dos microfones (cırculos pretos)e das posicoes do falante (caixas azuis).

operacoes sobre esse mesmo sinal em tempo util. Este aumento da capacidade de processamento

possibilita adicionar varios algoritmos nas etapas do reconhecimento de fala, permitindo desta forma

construir sistemas que funcionam em ambientes muito adversos.

O projecto Europeu Distant-speech Interaction for Robust Home Applications (DIRHA), no qual se

integra esta tese, tem como objectivo a construcao de um sistema de domotica, focado em pessoas

com deficiencias motoras ou de alguma forma limitadas fisicamente. Um desafio especıfico e real do

projecto DIRHA e a introducao e a interaccao de fala a distancia dentro do contexto da domotica, com

um sistema de activacao de voz que devera funcionar em todas as divisoes da casa. O sistema esta

sempre em escuta, sem precisar de pressionar um botao para o activar, apenas necessitando de activar

o sistema, normalmente pronunciando uma palavra ou um conjunto de palavras-chave, apos o que o

sistema fica apto a responder aos comandos ditos pelo utilizador. Por sua vez, o sistema responde ao

utilizador empregando voz sintetizada ou pre-gravada, construindo uma comunicacao Homem-maquina

atraves da fala, tao proxima quanto possıvel da forma humana.

Este sistema de domotica permite controlar a distancia uma variedade de dispositivos dentro de

casa, facilitando a autonomia dos seus utilizadores. O objectivo do sistema e responder aos pedidos

independentemente da localizacao do utilizador dentro da mesma, possibilitando por exemplo, pedir

ao sistema para fechar a janela de determinada divisao da casa ou verificar se determinada porta se

encontra fechada.

O projecto DIRHA exige avancos cientıficos e tecnicos em diferentes areas do conhecimento. Dada

a existencia de varios microfones, o processamento inclui, entre outras tarefas, a localizacao do falante,

o cancelamento do eco acustico, a melhoria no reconhecimento de fala e a segmentacao e classificacao

do evento acustico [1].

Para a execucao deste projecto, existe um apartamento localizado em Trento (Italia), chamado Isti-

tuto Trentino per l’Edilizia Abitativa (ITEA), onde esta implementado o sistema prototipo, pelos parceiros

2

Page 21: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

do projecto DIRHA. No apartamento estao espalhados 40 microfones em 5 divisoes (15 na sala,13 na

cozinha, 7 no quarto, 3 na casa de banho e 2 no corredor), como esta representado na figura 1.1.

Esta tese foca-se especificamente nos aspectos de robustez do reconhecimento automatico de fala,

num ambiente de microfones distribuıdos por todas as divisoes da casa. Tanto quanto conseguimos

apurar, este e o primeiro estudo sobre o reconhecimento de fala neste tipo de ambiente multi-divisao.

1.2 Objectivos

O objectivo principal desta tese e construir um sistema de reconhecimento de comandos de voz que

funcione com microfones distantes do falante e com os ruıdos geralmente presentes numa casa. Para

concretizar este sistema complexo e necessario usar varias tecnicas a diferentes nıveis. Como qualquer

problema complexo de engenharia e necessario partir o problema em varias etapas e sobre cada uma

delas, optar pelas melhores decisoes possıveis.

Primeiramente iremos estudar e compreender o funcionamento das ferramentas de reconhecimento

de fala, de forma a conseguir modificar eficazmente partes do processo de reconhecimento com o

intuito de resolver os problemas propostos e encontrados no decorrer da tese.

De seguida vamos estudar o processo de propagacao do som, os factores que o degradam e que

afectam em particular o processamento da fala. Perante estes factores e necessario estudar metodos

que tornem o reconhecimento robusto.

O reconhecedor automatico de fala e constituıdo por varios modelos. Vamos manusear as ferramen-

tas que criam esses modelos. Sera necessario elaborar varios modelos com diferentes caracterısticas

para saber quais os melhores, com o intuito de torna-los robustos e funcionais em ambientes reverbe-

rantes e com variadas fontes de ruıdo. Posteriormente vamos analisar os desempenhos destes modelos

em diferentes condicoes acusticas e selecionar o que tem melhor desempenho.

De forma a conseguir simular os acontecimentos acusticos de uma casa, prepara-se um corpus de

varios canais com eventos de fala realizados em diferentes divisoes. Posteriormente vamos usar este

corpus para testar os reconhecedores construıdos adaptando o vocabulario a tarefa.

As tecnicas padrao de reconhecimento de fala neste tipo de ambiente apresentam pouco sucesso,

porque normalmente sao utilizadas para voz captada perto do microfone. O grande desafio nos mi-

crofones distantes e o nıvel do ruıdo captado e reverberacao comparativamente com o nıvel de voz.

Devido a estes factores para o sistema funcionar e necessario o uso de varias tecnicas que tornem o

sistema mais robusto.

Vamos seguir uma abordagem de tecnicas de seleccao de canais num ambiente com varias di-

visoes, tanto de agrupamento de microfones como de seleccao automatica de microfones. Serao tes-

tadas algumas e avaliadas quanto ao seu desempenho.

Serao estudadas formas de detectar e identificar eventos acusticos, focando-nos no evento de fala.

Atraves desta abordagem, pretendemos que o reconhedor so seja activado quando detecta fala. E

deste modo, aumentamos a robustez do reconhecedor porque evitamos que efectue transcricoes erra-

das de ruıdos e sobrecarregue o computador com processamento desnecessario.

3

Page 22: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Por fim, pretendemos propor quais as melhores abordagens estudadas para a construcao de um

sistema de reconhecimento de fala robusto e funcional num ambiente multi-divisao.

1.3 Estrutura da Tese

A estrutura desta tese guia o leitor pela explicacao teorica dos conceitos necessarios para a realizacao

dos objectivos propostos, em que cada capıtulo e construıdo com experiencias sobre as quais sao tira-

das conclusoes com o proposito de decidir eficientemente que caminho seguir nos capıtulos seguintes.

No capıtulo 2 e explicado resumidamente o funcionamento do Automatic Speech Recognition (ASR),

destacando o papel de cada um dos modelos que o compoem, especificamente os algoritmos usados

nesta tese, assim como o processo de descodificacao. E tambem realizada uma abordagem teorica

sobre o efeito do ruıdo acustico e da reverberacao e sao apresentadas as principais metodologias para

tornar o sistema de reconhecimento mais robusto.

O capıtulo 3 introduz as ferramentas e os corpora usados para treino do reconhecedor, detalhando

a construcao dos varios modelos e principalmente os efeitos de reverberacao e ruıdo. Os resultados

obtidos com os diferentes modelos construıdos servem de referencia para as experiencias realizadas

no decorrer desta tese.

No capıtulo 4 e analisado em concreto o apartamento do projecto DIRHA e a sua configuracao,

efectuando uma analise intensiva sobre o desempenho do ASR pelos varios canais e compreendendo

o seu comportamento com a variacao da localizacao do falante na casa. Estuda a eficiencia dos

varios modelos acusticos construıdos no capıtulo 3, particularizando para um ambiente em que so

ha reverberacao e para um outro ambiente em que sobre as mesmas condicoes e adicionado ruıdo.

No capıtulo 5 sao expostas, de forma teorica, solucoes de seleccao de canal assim como a realizacao

de testes e respectiva analise, com o objectivo final de construir um sistema robusto que realize o me-

lhor reconhecimento de fala possıvel. Este capıtulo e dividido em duas partes. A primeira foca tecnicas

de agrupamento de microfones, e a segunda foca tecnicas de seleccao automatica do melhor microfone

em cada instante. Por fim e realizada uma analise geral dos metodos deste capıtulo e dos resultados

obtidos.

O capıtulo 6 explora algoritmos para detectar eventos na casa, focando-se na deteccao de fala.

Adaptou-se um detector de fala/nao-fala baseado em redes neuronais. E avaliado o desempenho do

detector pelas varias divisoes. Desenvolveram-se abordagens de seleccao de microfones juntamente

com deteccao de fala/nao fala para aumentar a precisao do detector. Tambem se efectuou fusao da

informacao dos microfones por divisao para detectar eventos de fala.

Finalmente, o capıtulo 7 sumariza os principais resultados e contribuicoes desta tese, e aponta

linhas de accao para trabalhos futuros.

4

Page 23: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Capıtulo 2

Reconhecimento Automatico de Fala

O objectivo do reconhecimento automatico de fala, referido habitualmente por Automatic Speech Re-

cognition (ASR), e transcrever um sinal de audio com fala numa sequencia de palavras. Como o proprio

processo de comunicacao atraves de fala esta exposto a inumeras variaveis, um sistema tıpico de ASR

e constituıdo por varias etapas que se focam em reduzir o numero de variaveis, de modo a obter um

sistema de classificacao de padroes bem-sucedido.

Neste capıtulo vamos explicar como funciona o sistema ASR realizado nesta tese, o qual segue a

arquitectura padrao dos sistemas de reconhecimento, esquematizada na figura 2.1.

2.1 Arquitectura e principais componentes

O sistema de ASR divide-se em dois componentes, o front-end que consiste em parametrizar um

sinal de audio para quantificar e filtrar a informacao revelante; e o back-end que e constituıdo por um

conjunto de modelos que efectua o reconhecimento de padroes, transformando a informacao fornecida

no front-end em transcricoes. Para avaliar os padroes e usado um descodificador que procura a melhor

equivalencia entre uma sequencia de parametros e todas as possıveis sequencias de classes acusticas.

Esta descodificacao e realizada usando a informacao disponibilizada pelos modelos acustico, de lıngua

e lexical, que sao tipicamente obtidos numa fase de treino do reconhecedor.

Em sistemas ASR mais avancados pode ser feita a adaptacao dos modelos em tempo real com

informacao do descodificador. No entanto, este tipo de adaptacao nao foi considerado nesta tese.

Figura 2.1: Esquema dos componentes principais de um sistema de ASR.

5

Page 24: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Para a criacao de um sistema de ASR e necessario um corpus constituıdo por ficheiros audio que

contenham fala e as transcricoes destes mesmos ficheiros audio. Este corpus divide-se em tres conjun-

tos: um conjunto chamado de treino que, como o nome indica, engloba os ficheiros audio usados para

o treino dos varios modelos, sendo tambem o maior grupo de dados; um conjunto de desenvolvimento;

e um outro de teste. Estes dois ultimos conjuntos costumam ter a mesma dimensao sendo que o de

desenvolvimento e usado para afinar os parametros dos modelos e o de teste, tal como o proprio nome

indica, para aferir o desempenho do sistema.

2.2 Extraccao de Parametros

O processo de caracterizacao do sinal de audio e constituıdo por varias etapas, tal como representado

na figura 2.2.

Inicialmente o sinal passa por um bloco de pre-processamento. Este bloco pode ser constituıdo por

um filtro passa-alto que amplifica as frequencias altas para compensar a atenuacao que ocorre nas

frequencias altas na fala, chamado de pre-emphasis, ou por um filtro mais sofisticado que efectue a

reducao de ruıdo, ou algoritmos que eliminam a reverberacao.

Segue-se a extraccao dos parametros do sinal onde este e repartido em tramas e transformado em

valores que o representam para ser descodificado. E uma etapa fulcral na reducao de informacao para

caracterizar o sinal de fala.

Figura 2.2: Esquematizacao do processo do sinal de fala ate a extraccao dos MFCC.

Mel-Frequency Cepstral Coefficients (MFCC)

Na presente tese usa-se um tipo de parametro adoptado com uma grande frequencia em reconhece-

dores de fala chamado Mel-Frequency Cepstral Coefficients, [14]. O sinal e fragmentado em segmentos

de 25ms com sobreposicao de 15ms. Em cada segmento o sinal e considerado estacionario, sendo-

lhe aplicada uma janela de Hamming. Por sua vez, cada janela e transformada para o domınio da

frequencia usando a Discrete Fourier Transform (DFT). E entao calculada a magnitude dos coeficientes

de Fourier e elevados ao quadrado passando por um banco de filtros Mel. Estes sao filtros de formato

triangular sobrepostos, com mais resolucao nas baixas frequencias que nas altas, aproximando-se do

funcionamento do ouvido humano, como ilustrado na figura 2.3.

De cada um dos filtros obtem-se um coeficiente que representa a energia ao qual se aplica a funcao

logarıtmica, resultando nos coeficientes log Mel-spectral. Para obter os coeficientes cepstrais calcula-

6

Page 25: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Figura 2.3: Representacao do Banco de Filtros de Mel.

se a Discrete Cosine Transform (DCT), atraves da qual se tenta descorrelacionar os parametros es-

pectrais. Selecionam-se os primeiros treze coeficientes cepstrais, sendo os restantes descartados por

conterem relativamente pouca informacao para o objectivo pretendido. O coeficiente zero e normal-

mente substituıdo pelo logaritmo da energia da janela, por ser uma medida mais robusta que a soma

dos coeficientes log melspec. Adicionam-se para cada um dos parametros os coeficientes delta e de

aceleracao, isto e, a primeira e segunda derivada respectivamente.

2.3 Modelos do Reconhecedor

Apos a extraccao dos parametros, tem lugar a pesquisa sobre varios modelos da sequencia de pala-

vras com a melhor correspondencia com os parametros observados. Para este processo sao usados

os modelos acustico, lexical e de lıngua. Esta etapa passa por um processo de treino e para tal sao

necessarias varias horas de audio e as transcricoes respectivas para que os modelos sejam robus-

tos. O principal problema do processo de reconhecimento consiste no facto de que mapear voz em

classes acusticas nao e uma funcao de um para um. Isto acontece porque diferentes classes podem

estar correlacionadas com sons de fala similares, ainda com a agravante que ha diferentes falantes e

ambientes, causando uma grande variedade de concretizacoes de fala. Formalizando para o caso de

reconhecimento de palavras isoladas:

w = argmaxw∈W

P (w|O), (2.1)

onde w representa uma palavra do vocabulario W e O a sequencia de vectores de fala ou observacoes

fornecidas pelo front-end. A sequencia de observacao e definida O = o1, o2, ..., oT onde ot e o vector de

parametros observado no instante t. O objectivo e encontrar a palavra com maior probabilidade, dado

um vector de observacoes. Esta probabilidade pode ser calculada pela seguinte regra de Bayes:

P (w|O) =P (O|w)P (w)

P (O). (2.2)

Para calcular que palavra w tem a maior probabilidade dado um vector de observacoes O, como o

7

Page 26: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

O e fixo para o segmento em questao descarta-se o denominador, obtendo-se:

w = argmaxw∈W

P (O|w)P (w). (2.3)

Assim, a palavra mais provavel so depende da probabilidade P (w) e da probabilidade condicional

da classe acustica P (O|w). A P (w) e modelada pelo modelo de lıngua, e P (O|w) fornecida pelo modelo

acustico.

Em geral o problema podia ser calculado directamente atraves de P (o1, ot, ...|w), mas para os exem-

plos de fala tal nao e viavel. No entanto, assumindo um modelo de parametros que produza palavras, o

problema passa a ser o calculo desses parametros. Na pratica o modelo com mais sucesso para o pro-

cessamento de fala e o modelo oculto de Markov, normalmente chamado Hidden Markov Model (HMM)

[45].

2.3.1 Modelo Acustico

O principal componente de um sistema de reconhecimento automatico e sem duvida o modelo acustico,

tendo como objectivo relacionar os parametros com os fonemas atraves de probabilidades. Fonema e

a unidade mais pequena do som que estabelece contraste significativo para diferenciar as palavras.

Cada lıngua usa uma determinada quantidade de fonemas. Um fone e o som fısico produzido quando

um fonema e pronunciado.

Como demonstrado anteriormente, seria computacionalmente pesado e impraticavel construir um

sistema que para cada conjunto de parametros obtivesse uma transcricao precisa. Para resolver esse

problema e tornar o sistema mais robusto, usou-se um modelo estatıstico do tipo HMM. Este modelo e

uma maquina de estados finita que e caracterizada pelo numero de estados, matriz de probabilidade de

transicao e as distribuicoes de probabilidade do estado de saıda que modela as observacoes do vector

de parametros em cada estado.

Nao temos acesso directamente ao estado da maquina porque a sequencia de estados e desco-

nhecida, no entanto as saıdas da maquina estao relacionadas com os parametros na sua entrada.

A funcao de probabilidade a saıda de cada estado normalmente e modelada por mistura de gaussi-

anas, chamada Gaussian Mixture Model (GMM). Uma palavra e constituıda por um conjunto de fones.

Cada fone e tipicamente modelado por uma sequencia de tres estados, normalmente chamado left-to-

right HMM, como mostra a figura 2.4.

O treino do modelo acustico e um processo iterativo com varias etapas que explora centenas de

horas de fala. Tipicamente, e obtido um modelo de fones treinado com transcricoes foneticas manuais.

De seguida, aumenta-se a complexidade dos modelos com a construcao de modelos HMM de fones

que dependem do contexto a esquerda e direita, denominados trifones. Este passo e importante porque

ao pronunciar um conjunto de fones, alguns sao ocultos ou alterados.

Normalmente, e reduzido o numero de parametros necessarios para os HMMs, aumentando a ro-

bustez das estimativas para todos os modelos de trifones, processo denominado state tying. Para

todos os trifones com o mesmo fonema central, efectua-se um processo de clustering com o objectivo

8

Page 27: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Figura 2.4: Fone modelado por tres estados.

de agrupar os estados mais semelhantes. Este processo e realizado independentemente para os esta-

dos esquerdo, central e direito aplicando um algoritmo aglomerativo baseado na distancia entre estados

que sao comparados, seguindo uma arvore com regras foneticas. Os estados resultantes sao chama-

dos tied states e partilham os parametros das distribuicoes guassianas [64]. Alem disso, iterativamente

e aumentado o numero de gaussianas dos estados do GMM pelo algoritmo k-means ou pelo processo

de divisao das misturas.

Para re-estimar os parametros do modelo a cada etapa sao efectuadas varias iteracoes de Baum-

Welch [47]. O criterio de treino mais comum e a estimativa por maxima verosimilhanca.

Finalmente, outras alternativas ao modelo acustico baseado em gaussianas sao multi-layer percep-

tron [40] ou mais recentemente deep belief networks [38].

2.3.2 Modelo Lexical

Cada palavra corresponde a uma sequencia de fonemas, existindo por vezes mais que uma sequencia

para a mesma palavra devido a variacoes na forma de a pronunciar. O modelo responsavel por interligar

um conjunto de fonemas com uma palavra chama-se modelo lexical. Este modelo pode ser gerado

manualmente atraves de um dicionario em que a cada palavra do vocabulario corresponde a uma ou

mais transcricoes foneticas ou por um processo automatico de conversao de grafema em fonema. Este

processo automatico pode ser construıdo baseando-se numa lista de regras ou com aprendizagem

automatica baseada em estatıstica.

Nos ASR com vocabulario extenso e tipicamente utilizado um dicionario manual juntamente com um

sistema automatico.

2.3.3 Modelo de Lıngua

Como e do conhecimento geral, em qualquer lıngua existem regras gramaticais que limitam a sequencia

de palavras permitidas. De forma a beneficiar desta caracterıstica e usado um modelo de lıngua que

ajuda a limitar o conjunto de palavras que sao possıveis em cada insercao de uma palavra, tornando

assim o sistema mais robusto. Os modelos de lıngua podem ser de dois tipos e sao escolhidos de-

pendendo da aplicacao. O primeiro tipo de modelo de lıngua e baseado numa gramatica fechada,

9

Page 28: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

constituıda por frases fixas em que qualquer outra combinacao de palavras nao pode ser detectada

pelo ASR. O segundo modelo de lıngua e mais abrangente e usa um modelo estatıstico. Considerando

que a proxima palavra Wi so depende das palavras anteriores, entao a probabilidade de ocorrer uma

certa sequencia de palavras P (W ) em que W = w1, w2, ..., wn, a probabilidade de determinada frase

ocorrer pode ser decomposta como descrito a seguir:

P (W ) = P (w1, w2, . . . , wn)

= P (w1)P (w2|w1)P (w3|w1, w2) . . . P (wn|w1, w2, . . . , wn−1)

=

n∏i=1

P (wi|w1, w2, . . . , wi−1) (2.4)

Como e impraticavel calcular todas as hipoteses de w1, w2, ..., wi−1, porque algumas sao unicas

ou ocorrem poucas vezes, com o objectivo de calcular P (W ) de forma pratica, calcula-se para um i

pequeno. Um modelo de n = 2 palavras chama-se digrama e n = 3, trigrama. Este modelo baseia-

se em n − 1 palavras anteriores, denominando-se modelo de lıngua de n-gramas. Para treinar estes

modelos e usado um modelo de Markov de ordem n, e normalmente um grande numero de textos, ou

ate as proprias transcricoes do conjunto de dados de treino. Um modelo de ordem n-gramas contem

todos os modelos (n, ..., 1)-grama.

2.4 Descodificacao

A etapa de descodificacao baseia-se num algoritmo de procura empregando os tres modelos anterior-

mente descritos com o objectivo de encontrar a melhor correspondencia de palavras para o sinal de

entrada.

Dependendo da aplicacao do reconhecedor, existem duas estrategias de reconhecimento. A pri-

meira assenta no reconhecimento de palavras isoladas, no qual o sistema conhece a priori os limites

de cada palavra no sinal de audio e baseia-se em procurar isoladamente a palavra com a probabilidade

mais elevada em cada ocorrencia. A segunda estrategia baseia-se no reconhecimento de fala contınuo,

consistindo num processo de pesquisa que considera em qualquer segmento de audio a hipotese de

ser o inıcio de uma nova palavra.

Usando uma gramatica pequena e fechada e relativamente facil expandir todas as hipoteses possı-

veis e construir uma arvore de procura, desde que o tamanho de espaco de pesquisa nao ultrapasse

as limitacoes de memoria. Nestes casos pode ser aplicado, por exemplo, o algoritmo de Viterbi [16].

No entanto, se o vocabulario for extenso, existem varias tecnicas que resolvem o problema da des-

codificacao. Inicia-se com a criacao de um sistema de sub-modelos, composto por grupo de fones. O

processo de pesquisa junta esses modelos, para formar palavras e efectua consecutivamente expansao

dos mesmos, calculando a sua probabilidade e escolhendo o que apresentar maior valor. Tecnicas de

compactacao e heurısticas de grafos, expandindo a arvore de procura enquanto e efectuada a pesquisa,

podem ser encontradas em [42] e [44].

10

Page 29: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Os descodificadores baseados em Weighted Finite State Transducers (WFST) [39] permitem com-

pactar eficientemente a arvore de procura, o que possibilita construir um descodificador para um grande

vocabulario.

Entre as abordagens heurısticas, e possıvel eliminar estados seleccionando e mantendo os k es-

tados com probabilidades mais altas. Outra tecnica passa por manter os que nao ultrapassam um

determinado valor da probabilidade logarıtmica do melhor estado.

Nesta tese e usado o Token Passing Model [65]. Em tracos gerais, ha um token no estado j do

HMM, no tempo t, que contem entre varias informacoes a probabilidade logarıtmica ate aquele estado,

representando a correspondencia parcial da sequencia de observacoes entre o1 ate ot.

Na saıda do reconhecedor obtemos a frase com maior probabilidade de corresponder ao ficheiro de

audio de entrada.

Por fim, os descodificadores tem a caracterıstica de fornecer medidas de confianca obtidas para

cada resultado, possibilitando efectuar comparacoes [26].

Metrica do desempenho

Para medir o desempenho do reconhecedor efectuamos o alinhamento da hipotese com a transcricao

original do audio para contabilizar o numero de insercoes, eliminacoes e substituicoes. Por fim calcula-

se o Word Error Rate (WER) atraves da seguinte formula:

WER =I + S +D

N× 100%, (2.5)

na qual o S e o numero de palavras substituıdas, D o numero de palavras eliminadas, I o numero de

palavras inseridas, e N o numero de palavras totais na transcricao de referencia.

A figura 2.5 mostra um exemplo para cada tipo de erro que pode ocorrer. A referencia esta na

primeira frase. As hipoteses seguintes apresentam individualmente um tipo de erro cometido pelo

reconhecedor.

Figura 2.5: Exemplo dos varios tipos de erros cometidos pelo reconhecedor.

11

Page 30: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

2.5 Reconhecimento robusto com microfones a distancia

A nıvel conceptual, o processo de comunicacao utilizando a fala passa pela codificacao de uma men-

sagem em ondas sonoras no emissor, onda essa que atravessa o ar, que e o canal de comunicacao, e

chega ao receptor, onde e realizada a descodificacao numa mensagem que deve ser muito proxima da

original.

O sinal sonoro no emissor e radiado para o canal de comunicacao no qual sofre varios efeitos de

distorcao que ameacam o sucesso da comunicacao. Todo o sinal propagado no ar sofre atenuacao a

qual se somam, dependendo das condicoes do meio, efeitos de degradacao como ruıdos, interferencias,

distorcao, presenca de obstaculos e sobreposicao criada pelos varios caminhos de propagacao.

Na comunicacao falada Homem-Homem e notavel a capacidade ımpar que o ser humano tem no

seu sistema auditivo permitindo que seja estabelecida com sucesso em situacoes adversas.

No caso Homem-maquina, o microfone e o principal sistema de transformacao sonora em sinais

electricos. A qualidade do sinal captado por um microfone depende principalmente da reverberacao e

outros ruıdos acusticos. A influencia destes factores, principalmente em ambientes fechados, como no

projecto DIRHA, aumenta com a distancia entre o locutor e o microfone.

2.5.1 Ruıdo Acustico

A nıvel de ASR, o ruıdo acustico ou simplesmente ruıdo refere-se a todas as ondas sonoras que

nao advem do falante, logo nao transportam informacao relevante a descodificacao e perturbam a

comunicacao. Podem ser provocadas por objectos como por exemplo micro-ondas, ventoinhas, fri-

gorıficos, como tambem pela fala de outras pessoas que se encontram no mesmo meio.

O ruıdo nao tem caracterısticas concretas a nıvel estatıstico, frequencia, espacial ou de propagacao.

Pode ser estacionario ou nao estacionario e ter caracterısticas muito identicas a fala da mensagem a

reconhecer.

A origem espacial do ruıdo e um factor importante, podendo ser localizado (como por exemplo um

outro locutor). Caso os locutores nao estejam relativamente perto um do outro, utilizando uma rede

de microfones e tecnicas de beamforming, que serao estudadas posteriormente, sera possıvel atenuar

a sua interferencia. No entanto, o ruıdo pode ser nao direccional, em sentido lato, o ruıdo que surge

de todas as direccoes, denominado ruıdo de fundo. Existem diferentes tipos de ruıdo de fundo que

dependem da coerencia do mesmo em duas posicoes distintas.

Normalmente considera-se que o ruıdo de fundo tem uma forma esferica isotropica dentro de uma

divisao, por isso, tem maior amplitude perto da fonte. Chama-se ruıdo branco o sinal aleatorio que nao

tem correlacao temporal. No caso de varios canais fala-se em ruıdo branco espacial, quando o sinal

nunca e correlacionado. Nao e habitual acontecer este tipo de ruıdo nas aplicacoes de reconhecimento

de fala. No entanto, ao usar um grupo de microfones, podera acontecer haver interferencias electricas

que provocam ruıdo num unico microfone considerando-o como ruıdo branco.

12

Page 31: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

2.5.2 Reverberacao

O efeito da reverberacao e a persistencia do som depois da fonte sonora parar de emitir. Este fenomeno

ocorre em espacos fechados, ou que contenham superfıcies que reflectem o som, efectuando uma

mudanca de direccao. Quando o som atravessa um ambiente com varias superfıcies como a divisao de

uma habitacao, este reflecte criando um grande numero de novas direccoes, a tender para o infinito, no

qual o som viaja.

Se a disposicao de superfıcies do ambiente permitir que um determinado local seja atravessado

pelas primeiras ondas de som e passado algum tempo devido a reflexao, ser novamente atravessado

por ondas sonoras que transportam a informacao inicial sem muita distorcao ocorre o fenomeno deno-

minado eco, sendo este uma particularidade da reverberacao.

A caracterizacao deste fenomeno numa divisao e dada pelo tempo de reverberacao, que e o tempo

necessario para o som decair 60dB. Este depende principalmente da capacidade de reflexao sonora

das superfıcies da divisao e do tamanho da mesma.

Os materiais que sao bons reflectores do som aumentam o tempo de reverberacao, por outro lado

materiais que absorvem as ondas sonoras diminuem o tempo de reverberacao. Para uma divisao

sem obstaculos a formula de Sabine da a relacao entre o volume do quarto (V (m3)), a area de cada

superfıcie (Si(m2)) e o coeficiente de absorcao ai:

T60 =0.161V

ΣiaiSi. (2.6)

Uma demonstracao pratica destes fenomenos, e a diferenca de reverberacao notoria entre a casa

de banho e o quarto de dormir, um constituıdo principalmente por azulejos, que reflectem facilmente o

som, e outro com objectos mais absorventes como e a cama.

A funcao de transferencia h(t) que caracteriza a reverberacao no apartamento ITEA foi estimadas

como e descrito no artigo [13], atraves do sinal que o microfone capta y(n), quando um sinal do tipo

up-chirp x(n) e emitido numa coluna. Um sinal up-chirp e formado por uma sinusoide que aumenta de

forma exponencial a sua frequencia ao longo do tempo. E possıvel calcular h(t) tendo o sinal de entrada

x(n), e o sinal de saıda y(n). Esta funcao de transferencia denominada resposta impulsiva do quarto (

Room Impulse Response (RIR)), e representada na figura 2.6. Esta varia com a posicao e orientacao

da coluna e do microfone dentro da divisao e caracteriza o meio entre esses dois pontos de referencia.

Analisando com atencao, podem ser distinguidos no RIR tres etapas: a primeira onda que chega ao

microfone, as primeiras reflexoes e as ultimas reflexoes. A primeira onda e a mais directa. As primeiras

reflexoes estao directamente relacionadas com o tamanho e forma da divisao, assim como a posicao

do microfone e da coluna. As ondas directas e as primeiras reflexoes seguem a lei de propagacao do

inverso dos quadrados. Por outro lado, as ultimas reflexoes tem um comportamento difuso e nao estao

relacionadas directamente com aspectos fısicos da sala, nem com a posicao da fonte e do receptor.

Conforme as ondas vao viajando e demoram a chegar ao receptor, a sua energia vai diminuindo na

razao inversamente proporcional a distancia percorrida entre a fonte e o receptor. As ultimas reflexoes

sao as que prejudicam mais a compreensao do sinal de fala, contaminando os espectros relacionados

13

Page 32: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Figura 2.6: Exemplo da funcao de transferencia entre dois pontos na cozinha do apartamento ITEA.Nos primeiros instantes as ondas que chegam ao microfone com uma maior amplitude sao obtidaspelos caminhos directos da coluna para o microfone, seguido das primeiras reflexoes e depois dasultimas reflexoes.

com a fala.

A distorcao da reverberacao num sinal e normalmente modelada atraves da convolucao linear entre

o RIR (h) e um sinal de fala limpa x correspondendo a seguinte formula:

y(n) = h(n) ∗ x(n). (2.7)

O sinal y(n) e uma aproximacao do sinal limpo x(n) captado dentro da casa com os efeitos de

reverberacao, entre dois pontos representados pelo h(n).

2.5.3 Tecnicas de reconhecimento de fala robusto

Quando e construıdo um ASR, os ficheiros audio usados para o seu treino e desenvolvimento sao

muitas vezes obtidos em estudio com fala limpa e com o mınimo de ruıdo possıvel. Um sistema treinado

nestas condicoes quando submetido ao mundo real, onde existem muitas fontes de ruıdo de grande

variedade e reverberacao, obtem resultados de WER muito elevados. Se o WER nao aumentar quando

existem varias fontes de ruıdo e reverberacao, dizemos que o sistema e robusto. Existe uma grande

literatura referindo tecnicas para aumentar a robustez do ASR, a nıvel do processamento do audio,

alteracoes na caracterizacao das parametros ou nos modelos do reconhecedor, ou mesmo juncao de

varias tecnicas nos diferentes nıveis. Como as solucoes existentes actualmente sao inumeras, nesta

seccao serao apenas mencionadas algumas das tecnicas mais relevantes.

Processamento do sinal

Com o objectivo de aumentar o sucesso do reconhecimento, tornando-o robusto a sinais com ruıdo,

usam-se tecnicas para limpar esses mesmos ruıdos antes do sinal ser reconhecido. Varias tecnicas

no processamento do sinal tem sido aplicadas com sucesso, tanto para um unico microfone como para

varios.

14

Page 33: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

As tecnicas de processamento do sinal normalmente sao divididas em 3 categorias: gerais, com-

pensacao do ruıdo e eliminacao da reverberacao.

Um dos metodos mais conhecidos de compensacao do ruıdo denominado Spectral Subtraction [5]

baseia-se em subtrair no domınio spectral o ruıdo. E extraıda uma parte do audio que nao contem fala,

e esta e transformada no domınio espectral. Efectuando uma reducao do ruıdo de fundo, subtrai-se ao

sinal da fala no domınio spectral o anterior segmento guardado. Em seguida, o sinal e transformado por

uma Inverse Fourier Transform (IFT) de novo para o domınio temporal, assim sendo, o sinal aumentara

o Signal to Noise Ratio (SNR) se o ruıdo captado antes da fala for estacionario, aditivo e constante

durante o silencio e a fala. Outra abordagem a nıvel espectral tambem muito conhecida e o filtro de

Wiener [e.g. 35].

Dos varios algoritmos que eliminam a reverberacao, existem alguns metodos que o fazem conhe-

cendo a priori a resposta impulsiva do falante ao microfone, como por exemplo aplicando um filtro

inverso projectado para os efeitos da reverberacao. Estas tecnicas sao muito dependentes e sensıveis

a qualidade da resposta impulsiva e qualquer erro ou degradacao nesta reduz a qualidade do sinal

filtrado. Como a resposta impulsiva varia muito com as caracterısticas fisıcas da divisao e ao longo do

tempo, e difıcil ter uma medicao fiavel em cada instante.

No entanto, existem outras abordagens que reduzem a reverberacao do sinal recebido, sem saber

explicitamente a resposta impulsiva. Algumas aplicam um filtro que reverte a convolucao do sinal [28,

29]. Em [21], tambem e usado um filtro adaptativo sem a resposta impulsiva.

Com o aumento da capacidade de processamento dos computadores, consegue-se assim pro-

cessar varios canais em tempo util, existindo tecnicas multi-canal para atenuar o efeito do ruıdo e a

reverberacao, como e o caso do metodo normalmente chamado de beamforming, que utiliza os sinais

de um grupo de microfones. Esta tecnica sera estudada em mais detalhe nesta tese. E possıvel obter

a filtragem inversa com varios microfones como foi mostrado em [37].

Caracterizacao dos parametros

Apos obter o vector de parametros e possıvel melhorar o sistema de reconhecimento com tecnicas

que alteram esse mesmo vector. Normalmente estas tecnicas tem uma excelente relacao entre o custo

computacional e o desempenho do sistema.

Para remover a distorcao dos pequenos termos do canal linearmente invariantes e frequentemente

usado o Cepstral Mean Subtraction (CMS) [3]. Desde que a transformacao cepstral seja homomorfica,

as distorcoes lineares no canal afectam os parametros de forma aditiva. Consequentemente, normali-

zando os parametros pela media, remove-se o ruıdo.

Cepstral Mean and Variance Normalization (CMVN) [56] e uma generalizacao do CMS, na qual a

media de cada componente do vector e calculada e subtraıda a cada parametro. Tambem e calculada

a variancia para cada componente e normalizada para ser igual a um. Esta simples correccao permite

que as classes acusticas tenham posicoes mais invariantes no espaco dos parametros, o que torna o

sistema mais robusto.

15

Page 34: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Em trabalhos mais recentes, [32] apresenta uma extraccao dos parametros que se chama Harmo-

nicity Feature Analysis (HFA), com o objectivo de diminuir os efeitos da reverberacao. Este algoritmo

parte do princıpio que as componentes harmonicas do espectro da voz sao menos afectadas pela

reverberacao. As componentes harmonicas do espectro de voz sao usadas para sintetizar um sinal

puramente harmonico e as partes corruptas sao rejeitadas. Nos segmentos em que nao ha fala, o sinal

fica corrupto com as reflexoes mais tardias criadas pela reverberacao.

Noutros metodos mudam-se alguns componentes do processo da extracao de parametros, como

acontece em [52], onde os autores sugerem substituir o DCT por um kernel Principal Component Analy-

sis (PCA), separando os parametros principais que sao da fala dos do ruıdo.

Modelos do Reconhecedor

A estrategia dos metodos anteriores e remover a distorcao do sinal, antes de entrar no descodifica-

dor, sendo necessario usar um modelo acustico treinado com ficheiros audio sem distorcao. No entanto,

e possıvel aumentar a qualidade do reconhecimento, treinando o HMM com ficheiros audio proximos

das condicoes reais. Para obter um bom modelo acustico sao necessarias muitas horas de ficheiros

audio, sendo estas proporcionais ao tamanho do vocabulario. Gravar tantas horas nas condicoes ideais

para o reconhecimento nem sempre e possıvel.

No entanto, sendo possıvel caracterizar as condicoes acusticas, por exemplo, obtendo a funcao de

transferencia da reverberacao, e possıvel contaminar ficheiros audio limpos usando a expressao 2.7.

Treinando o modelo acustico com estes ficheiros audio contaminados, tornamos o modelo mais robusto.

Este processo constroi um modelo acustico robusto, se tiver usado ficheiros contaminados atraves de

varias funcoes de transferencia e diferentes pontos de referencia.

O objectivo destas tecnicas e aproximar o espaco acustico dos HMMs as caracterısticas acusticas

dos dados a serem adaptados.

Outra possibilidade para aumentar o desempenho do reconhecedor e criar varios ambientes acus-

ticos artificiais adicionando esse ruıdo artificial ao audio limpo e com o novo corpus treinar o modelo

acustico. Neste caso, sao criados ficheiros audio com uma grande variedade de ruıdos e diferentes

nıveis de reverberacao. Este metodo chama-se multistyle training [31], por ter uma grande variedade

nas condicoes de treino, que resulta num sistema robusto a varios ruıdos.

Para reduzir o esforco em recolher as RIR, e possıvel gera-las artificialmente, como foi realizado em

[12]. Posteriormente esta tecnica foi extendida para [11], onde o melhor modelo acustico e selecionado

pela frase descodificada em tempo real.

Existem varias tecnicas para a adaptacao de modelos acusticos, como por exemplo Maximum-

Likelihood Linear Regression (MLLR) [30], Maximum A Posteriori (MAP) [20], Parallel Model Combi-

nation (PMC) [17]. Por exemplo, o metodo MLLR pode ser aplicado com supervisao, fornecendo as

transcricoes correctas, ou sem supervisao utilizando as transcricoes fornecidas pelo descodificador e

os seus parametros de confianca.

16

Page 35: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Capıtulo 3

Desenvolvimento de Modelos

Robustos para Aplicacoes Domoticas

A construcao de um reconhecedor e um processo constituıdo por varias etapas nas quais se desen-

volvem os modelos necessarios para o seu funcionamento. A etapa mais importante e complexa e a

construcao do modelo acustico. Como foi analisado na seccao 2.5.3, e desejavel treina-lo com ficheiros

audio em condicoes semelhantes ao ambiente real onde e aplicado o reconhecedor. Esta proximidade

de condicoes, aliada a quantidade de dados necessarios para o treino, e algo muito difıcil de conseguir

na pratica. Este capıtulo foca a construcao dos modelos acusticos usados ao longo da tese, os corpora

usados, os resultados obtidos e a comprovacao de alguns conceitos teoricos.

3.1 Princıpios do Hidden Markov Model Toolkit (HTK)

A ferramenta para construir o ASR usada ao longo desta tese e o HTK [64]. O HTK e uma ferra-

menta para construir os modelos HMM, especialmente concebida para o reconhecimento de fala. E

constituıdo por varias ferramentas usadas nas diferentes etapas de reconhecimento, possibilitando a

preparacao dos varios modelos, descodificacao e analise de desempenho, entre muitas outras. O uso

desta ferramenta advem do consenso dos varios parceiros do projecto DIRHA. E uma ferramenta van-

tajosa porque e conhecida por todos os parceiros, pode ser usada sem custos adicionais, tem uma boa

documentacao e serve para o proposito deste projecto. E de referir que ha outras ferramentas que tem

por base tecnicas mais avancadas de reconhecimento e com melhor desempenho. No entanto, a sua

utilizacao nao iria alterar as tecnicas desenvolvidas nesta tese, dado que a unica alteracao seria a nıvel

de resultados que poderiam subir de forma geral.

3.1.1 Treino do HMM

Nas proximas linhas explica-se de forma simplificada os passos executados pelo HTK para o treino

dos modelos acusticos. Estas etapas estao optimizadas para um corpus de ficheiros audio e suas

17

Page 36: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

respectivas transcricoes com caracterısticas parecidas ao usado nesta tese [55]. Este corpus sera

descrito em detalhe na seccao 3.2.

Os parametros adoptados para caracterizar os ficheiros audio sao os mais convencionais e estao

descritos na seccao 2.2: 13 coeficientes MFCC estaticos, e suas primeiras e segundas derivadas,

perfazendo 39 parametros.

Com a extraccao dos parametros, sao criados os modelos HMM seguindo os passos tıpicos do HTK.

Inicialmente, a transcricao e distribuıda uniformemente pelo seu ficheiro audio, em virtude desta nao

estar alinhada com os respectivos segmentos.

Em primeiro lugar, e criado o HMM prototipo, definindo a sua topologia. A topologia aplicada e

composta de tres estados para cada monofone e tambem para o silencio. Usando todos os ficheiros

de treino e calculada a media e a variancia global para cada monofone e inicializam-se todas as gaus-

sianas do modelo HMM com a mesma media e variancia global. Os parametros do modelo HMM sao

recalculados atraves do modelo anteriormente criado, usando o conjunto de treino. Esta operacao e re-

petida duas vezes com o objectivo de treinar o HMM. E insuficiente treinar so uma vez, e treinar muitas

vezes faz com que o modelo deixe de ser generico, funcionando apenas com os dados de treino.

Para permitir que o modelo absorva varios ruıdos impulsivos do conjunto de treino, e adicionado no

modelo do silencio uma transicao do estado 1 para o 3 e vice-versa. Assim o sistema possibilita saltar

entre o estado 1 e 3 evitando passar para o proximo fone se houver ruıdo. Neste passo e criado mais

um estado que modela uma pequena pausa. A figura 3.1 esquematiza o HMM do silencio. Tal como

para os monofones retreinam-se os parametros deste HMM duas vezes.

Figura 3.1: Modelo do silencio apos alteracao.

Com esta primeira versao do modelo acustico sao alinhadas as transcricoes dos ficheiros audio

do conjunto de treino. Dependendo da diccao, forma como a palavra e pronunciada, existem varias

sequencias foneticas possıveis, e com esta operacao conseguimos aperfeicoar os alinhamentos fone-

ticos quanto aos fones usados e seus instantes temporais. Apos as transcricoes estarem alinhadas,

e criado um novo modelo HMM recalculando duas vezes os parametros com os novos alinhamentos

foneticos. Por fim obtemos o modelo HMM de monofones.

18

Page 37: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Para obter o modelo HMM de trifones e necessario efectuar mais duas etapas. Primeiro as trans-

cricoes de monofones sao convertidas em transcricoes de trifones e e treinado um modelo HMM de

trifones usando as novas transcricoes e o HMM anterior.

O HTK possibilita que as palavras sejam convertidas numa sequencia de trifones, processo desig-

nado de word-internal. O processo cross-word para alem disso tambem converte a co-articulacao com

a palavra anterior e posterior em trifones.

Ao pronunciarmos um conjunto de palavras, por vezes, nao efectuamos uma pausa entre as pala-

vras, modificamos ou nao pronunciamos fones nessa transicao. Usando a informacao de co-articulacao

de palavras, aumentamos a probabilidade de acertarmos nas palavras seguintes, visto que qualquer

lıngua tem um padrao no modo como interliga as palavras, sendo este modelado pelo HMM.

Os modelos de trifones sao criados clonando os de monofones e reestimando os modelos usando

transcricoes com trifones. E criado um modelo para cada combinacao de trifones, mesmo que so

apareca uma vez. Logo, aparecem trifones com pouca representacao nos ficheiros audio de treino.

Unificam-se no mesmo modelo todos os trifones com o mesmo fone central, partilhando a mesma

matriz de transicao, simplificacao esta que nao altera significativamente os resultados.

Para finalizar a construcao do modelo HMM, e necessario juntar alguns trifones no mesmo estado,

normalmente chamado estado fısico. O objectivo e colmatar a falta de informacao e permitir o reco-

nhecimento de novos trifones, tornando desta forma o sistema mais robusto. Para este ultimo passo e

configurado um ficheiro que descreve as regras de juncao de trifones, sendo reunidos num so, todos

os trifones com sons parecidos. Esta informacao depende das caracterısticas lınguisticas da propria

lıngua. Treinam-se os modelos HMM aumentando o numero de gaussianas em cada etapa de recalculo

dos parametros, aumentando assim a informacao associada a cada estado. Nesta tese foram utilizados

modelos com 8 e 16 gaussianas com o objectivo de analisar a diferenca de desempenho.

3.1.2 Descodificacao

Na descodificacao e possıvel acertar determinados parametros de pesquisa, o que permite ajustar a

taxa de erro no reconhecimento. O afinamento destes parametros e realizado no conjunto de desenvol-

vimento. O parametro word insertion penalty, p, e um valor fixo adicionado a cada token no algoritmo

referenciado na seccao 2.4, quando este token passa de um final de uma palavra para o inıcio de outra.

Ao controlar este valor, e possıvel dar uma penalidade a cada nova palavra que o sistema insere no

reconhecimento. Outro parametro de ajuste e o language model scale factor, s, que controla o factor de

escala na probabilidade do modelo de lıngua antes de ser adicionado cada token e transita do final de

uma palavra para o inıcio da proxima. Estes dois parametros tem um efeito significativo no desempenho

do reconhecimento, por isso e sempre necessario um conjunto de desenvolvimento sobre o qual alte-

ramos estes parametros ate obter o conjunto de valores que resultam no WER mais baixo. No entanto

e necessario ter cuidado se nao e um outlier que levara a um baixo desempenho no conjunto de teste,

nessa situacao estamos a afinar demasiado os parametros para o conjunto de desenvolvimento.

Por fim, para acelerar o aperfeicoamento dos parametros, e alterado um parametro, chamado beam,

19

Page 38: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

que define o limite da pesquisa na arvore. Como para obter os valores de afinamento obriga a fazer

o reconhecimento varias vezes para cada conjunto de valores, adoptamos uma arvore de procura re-

lativamente pequena, cortando os ramos a partir de um certo ponto, de modo a acelerar o processo.

Quando e efectuado o reconhecimento nos dados de teste o beam e entao aumentado. No entanto, e

necessario nao o aumentar excessivamente pois isso leva o reconhecedor a inserir palavras. Para evitar

que isso ocorra o HTK permite ir aumentando o beam progressivamente, caso nao encontre nenhuma

resposta viavel no tamanho de arvore actual [64].

3.2 Corpora Usados na Construcao dos Varios Modelos

Para construir o reconhecedor, e necessario um corpus de ficheiros audio com as suas respectivas

transcricoes e muitos textos escritos de forma a treinar o modelo de lıngua. Normalmente usam-se

tambem as proprias transcricoes dos ficheiros audio para treinar o modelo de lıngua.

3.2.1 Corpus para Modelos Acusticos

O corpus base usado nesta tese e o BDPUBLICO (Base de Dados em Portugues eUropeu, vocaBulario

Largo, Independente do orador e fala Contınua). Este corpus foi construıdo para permitir o desenvolvi-

mento de um sistema de reconhecimento de vasto vocabulario de fala contınua independente do falante

para o Portugues Europeu.

O texto lido pelos participantes foi extraıdo de 6 meses do jornal Publico, no qual foi usado um total

de 203k palavras e 16k diferentes.

Os corpora sao divididos em 3 partes:

• Dados de treino: 80 frases mais 3 frases de calibracao por falante;

• Dados de Desenvolvimento: 40 frases mais 15 frases de adaptacao por falante;

• Dados de teste: 40 frases mais 15 frases de adaptacao do falante e 3 frases de calibracao por

falante.

Os locutores eram alunos do Instituto Superior Tecnico (IST) com idades compreendidas entre 19

e 28 anos, selecionados de forma a ter variedade de sotaques. O corpus contem as gravacoes de 120

locutores, 100 para treino (50 homens, 50 mulheres), e 20 (10 homens, 10 mulheres) repartidos por

teste e desenvolvimento. Cada sessao de gravacao resultou em cerca de 15 minutos de fala, com uma

frequencia de amostragem de 16kHz, numa sala de gravacao profissional, utilizando microfones de alta

qualidade. Mais detalhes sobre a estrutura e o conteudo do BDPUBLICO podem ser lidos em [41].

Os ficheiros audio do corpus do BDPUBLICO tem um audio limpo, sem ruıdo e sem reverberacao.

No ambito do projecto DIRHA, este corpus foi designado como clean.

Usando os microfones instalados no apartamento usado pelo projecto DIRHA, detalhado na seccao

4.1, foram construıdos mais dois corpora. Estes corpora foram criados com o objectivo de ter uma

aproximacao as condicoes reais no qual o projecto DIRHA se integra.

20

Page 39: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

O corpus designado como reverb1 foi criado pela convolucao do ficheiro audio limpo (corpus clean)

com a RIR captada pelo microfone da sala L3R e a coluna na posicao LA, adicionando ruıdo com ganho

constante. As posicoes dos microfones e das colunas encontram-se na figura 1.1.

Figura 3.2: Etapas na criacao do corpus reverb1 e reverbR.

O corpus designado reverbR foi criado de forma igual ao reverb1, mas desta vez usando varios

microfones aleatoriamente (L3R, LC1, L4R, L2R, LC1, L4R, L1R, LC1, L1R, L4R ), adicionando 3 dife-

rentes ganhos de ruıdo nas posicoes LA,LC e LD como indicado na figura 1.1. A figura 3.2 esquematiza

as operacoes matematicas sobre os ficheiros audio.

3.2.2 Corpus para Modelo de Lıngua e Modelo Lexical

O corpus BDPUBLICO contem um modelo de lıngua de trigramas, treinado com o texto do jornal

Publico. O corpus de texto usado para o treino contem cerca de 11M palavras das quais 158.186

sao diferentes. O conjunto selecionado para a construcao do ASR contem 27.769 palavras unicas,

o que inclui todas as palavras dos conjuntos de treino, desenvolvimento e teste. Os conjuntos de

desenvolvimento e teste nao usam palavras fora do vocabulario.

Para este trabalho aplicou-se um lexico reduzido contendo apenas as 5K palavras mais frequentes

do corpus de texto usado para treino.

Todas as palavras que aparecem nos conjuntos de desenvolvimento e teste do BDPUBLICO sao

adicionadas, resultando num vocabulario de 6.618 palavras.

O lexico reduzido do BDPUBLICO foi gerado inicialmente por um sistema automatico de regras de

conversao grafema-fone, e posteriormente revisto por um especialista em linguıstica, resultando num

lexico com multiplas pronuncias com 7.581 entradas.

Para construir o dicionario lexical utilizou-se o alfabeto fonetico chamado SAMPA (Speech Assess-

ment Methods Phonetic Alphabet). O SAMPA e uma das traducoes de fones num conjunto de caracteres

ASCII para ser possıvel armazenar e ser processado pelo computador [63].

21

Page 40: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Para usar o HTK, o modelo de lıngua foi reduzido para unigramas e bigramas. E possıvel correr

trigramas com o HTK mas e necessario alterar as ferramentas, o que nao foi considerado importante no

contexto desta tese, porque estamos focados na resolucao de problemas a nıvel do modelo acustico.

Como a tarefa de reconhecimento e feita para um conjunto fechado de vocabulario e todo ele esta

presente no modelo lexical e de lıngua, os resultados nao sao significativamente afectados se usarmos

diferentes tamanhos de vocabulario. E importante referir que o vocabulario usado nao esta adaptado

para ser usado num projecto de domotica, porque, nesta fase, o foco e aumentar a robustez do modelo

acustico.

3.3 Construcao dos Modelos Acusticos

Com a ferramenta HTK foram construıdos tres reconhecedores com o modelo acustico treinado com

os tres corpora acima descritos: clean, reverb1, reverbR. Os reconhecedores serao designados de

acordo com o conjunto de treino. Um quarto reconhecedor denominado Mix foi treinado com todos os

dados dos tres corpora.

Estes reconhecedores foram treinados com diferentes configuracoes para estudar a influencia de

determinados parametros no desempenho do reconhecimento. Foram criadas versoes com trifones

word-internal e outras com trifones cross-word. Para cada um dos casos, foram treinados modelos com

8 gaussianas e 16 gaussianas.

Com os dados de desenvolvimento realizaram-se operacoes de afinacao dos parametros do HTK

para cada um dos modelos, antes de os usar com os dados de teste. Os dados de treino, desenvol-

vimento e teste apresentavam as mesmas caracterısticas (clean, reverb1, reverbR). A excepcao e o

modelo acustico Mix que foi testado com os ficheiros audio de teste clean, reverb1 e reverbR individu-

almente. Os dados de desenvolvimento usados para afinacao dos parametros foram todos os ficheiros

audio de desenvolvimento dos varios corpora (clean, reverb1, reverbR) em conjunto.

Calcularam-se os parametros de afinacao usando os dados de desenvolvimento com um beam de

250 para agilizar o processo, obtendo-se os melhores valores de word insertion penalty e scale factor

para cada um dos modelos. Foram escolhidos os valores que obtiveram melhores resultados, tendo o

cuidado de verificar se nao correspondiam a outliers. Com os valores adquiridos por esse ajuste, foram

obtidos os WER dos dados de desenvolvimento e de teste com um beam de 350.

Posteriormente foi testado o desempenho dos modelos Clean, Reverb1, ReverbR com tipos de dados

de teste diferentes dos usados no seu treino.

3.4 Avaliacao Experimental dos Modelos Acusticos

3.4.1 Modelo de articulacao intrapalavras (word-internal)

Analisando a tabela 3.1a, referente aos resultados obtidos com os modelos acusticos de 8 gaussi-

anas, verifica-se como era de esperar, que os eventos testados nas mesmas condicoes do modelo

22

Page 41: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

apresentam melhor WER, e quanto mais limpos forem os ficheiros audio, melhores resultados de reco-

nhecimento apresentam. Nota-se que o modelo ReverbR, quando testado com os dados do reverb1,

apresenta melhores resultados do que quando testado com ficheiros audio nas mesmas condicoes do

proprio modelo (ReverbR). Esta particularidade deve-se ao facto do corpus reverbR ter sido contami-

nado tambem com o microfone (L3R) usado nos dados do reverb1. O corpus reverb1 tem menos

ruıdo que o reverbR e esta melhoria de condicoes do ficheiro audio leva a melhores WER.

No modelo Mix, os testes com o corpus clean (15,49 %) e o corpus reverb1 (38,42 %) sao ligeira-

mente piores quando testados com os seus modelos respectivos Clean (12,60%) e Reverb1 (34,18%).

O modelo Mix apresentou resultados muito identicos ao ReverbR. Ha uma degradacao da qualidade do

modelo Mix quando usado com os ficheiros audio mais limpos ao treina-lo com ficheiro audio como o

corpus reverb1 e reverbR.

Comparando a tabela de 16 gaussianas (tabela 3.1b) com a de 8 gaussianas nota-se uma melhoria

global de quase 2%, porque os HMM do modelo acustico contem mais informacao.

(a) 8 Gaussianas

Modelos Dados Tipo de Testeacusticos clean reverb1 reverbR

Cleandesen 10,84 89,42 90,89teste 12,60 90,80 90,73

Reverb1desen - 34,86 40,78teste - 36,38 42,25

ReverbRdesen - 38,75 40,17teste - 40,67 40,84

Mixdesen 14,02 36,02 38,92teste 15,49 38,42 40,94

(b) 16 Gaussianas

Modelos Dados Tipo de Testeacusticos clean reverb1 reverbR

Cleandesen 9,57 88,44 89,51teste 11,47 88,90 90,01

Reverb1desen - 32,51 38,01teste - 34,42 39,23

ReverbRdesen - 36,48 38,32teste - 38,37 38,65

Mixdesen 12,12 34,72 37,99teste 13,77 34,82 37,72

Tabela 3.1: WER(%) obtido pelo ASR com varios modelos acusticos (Clean, Reverb1, ReverbR, Mix),usando o word-internal, para os dados de desen e teste do corpus clean, reverb1 e reverbR.

3.4.2 Modelo de articulacao interpalavras (cross-word)

De forma analoga ao word-internal, foram treinados tambem todos os mesmos modelos com cross-

word. Os resultados estao presentes na tabela 3.2.

Usando o cross-word com 8 gaussianas, os valores melhoraram comparativamente ao word-internal

com o mesmo numero de gaussianas. Obtem-se melhores resultados com cross-word com 8 gaus-

23

Page 42: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

(a) 8 Gaussianas

Modelos Dados Tipo de Testeacusticos clean reverb1 reverbR

cleandesen 8,86 88,93 89,82teste 10,48 90,18 90,54

reverb1desen - 32,39 35,84teste - 34,18 38,37

reverbRdesen - 35,96 37,21teste - 38,85 37,92

Mixdesen 14,50 31,43 34,47teste 16,45 34,08 36,38

(b) 16 Gaussianas

Modelos Dados Tipo de Testeacusticos clean reverb1 reverbR

cleandesen 8,74 88,47 89,57teste 10,04 89,15 89,65

reverb1desen - 30,98 35,74teste - 33,25 37,00

reverbRdesen - 34,79 34,96teste - 38,07 36,97

Mixdesen 12,34 30,04 33,07teste 13,89 32,67 34,53

Tabela 3.2: WER(%) obtido pelo ASR com varios modelos acusticos (Clean, Reverb1, ReverbR, Mix),usando o cross-word, para os dados de desen e teste do corpus clean, reverb1 e reverbR.

sianas do que word-internal com 16 gaussianas, porque o cross-word treina a co-articulacao entre

palavras aumentando o desempenho do reconhecimento.

Os melhores resultados foram obtidos com cross-word e 16 gaussianas.

O modelo Mix melhorou os resultados comparativamente com os outros modelos em cross-word o

que nao acontecia no word-internal. No entanto, piorou ligeiramente o seu desempenho para os dados

de teste clean devido ao aumento da quantidade de informacao.

Conclui-se que o modelo acustico Clean nao e adequado para as caracterısticas particulares de fala

captada a distancia e verifica-se que e necessario aplicar modelos robustos para efectuar o reconheci-

mento com sucesso.

Em ultima analise, o modelo mais robusto e que apresenta melhores resultados e o Mix com 16

gaussianas e cross-word. Este reconhece com melhor desempenho os ficheiros audio de reverb1 e

reverbR que sao os mais proximos dos reais. No entanto, para ficheiros audio limpos, o modelo Clean

continua a ser o melhor.

24

Page 43: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Capıtulo 4

ASR num Ambiente Multi-Canal e

Multi-Divisao

Este capıtulo tem como objectivo analisar o comportamento do ASR num ambiente de multiplos canais

e multiplas divisoes. Usando os corpora do projecto DIRHA, construıdos com estas caracterısticas,

serao testados os reconhecedores desenvolvidos na seccao 3.3.

4.1 Corpora multi-canal simulado num ambiente multi-divisao

O corpus DIRHA-simcorpora II multi-lıngua [49] contem uma recolha de dados acusticos simulados,

captados por varios microfones instalados no apartamento ITEA, realizada pelos parceiros do projecto

DIRHA.

Para cada lıngua, o corpus contem um conjunto de cenarios acusticos com 60 segundos de duracao

(a uma frequencia de amostragem de 48 kHz com 16bit de precisao) que sao recolhidos pelos 40

microfones espalhados no apartamento. As fontes usadas foram colunas em diferentes direccoes e

posiccoes. Na figura 4.1, e representada a posicao dos microfones (cırculos pretos) e das fontes (caixas

de varias cores), usada para obter as RIR.

O sinal de audio foi gravado com alta qualidade, num estudio profissional pelos varios parceiros,

obtendo-se ficheiros de audio paralelos para as varias lınguas do projecto. E necessario usar sinais de

audio limpos com elevada qualidade para ser possıvel gerar um corpus com realismo satisfatorio. O

valor de SNR foi superior a 40 dB, garantindo a ausencia de artefactos no corpus final originado pela

baixa qualidade do sinal de fala limpa.

Cada sequencia de audio gerada consiste em barulho de fundo (com um ganho aleatorio dentro de

um intervalo) com varios eventos acusticos sobrepostos e localizados em diferentes posicoes. Cada

sequencia de audio de 60 segundos e composta por:

- Uma palavra-chave seguida de um comando (lido);

- Um comando espontaneo (sem a palavra-chave);

- Uma frase foneticamente rica;

25

Page 44: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

- Um segmento de uma conversacao;

- Um numero variavel de fontes de ruıdo (exemplo: radio, tv, electrodomesticos, batidas, campai-

nhas, entre muitas outras, simulando o ruıdo normalmente existente numa casa).

Figura 4.1: Planta do apartamento ITEA, com a localizacao dos microfones (cırculos pretos) e os locaisonde ocorreram os eventos (quadrados), indicando a direccao da fonte por um vector. [49]

Os eventos acusticos ocorrem de modo aleatorio e dinamico no tempo e no espaco. A propagacao

da onda acustica da fonte para o microfone e simulada pela convolucao dos sinais limpos gravados

em estudio perto do microfone e a respectiva resposta impulsiva dentro do apartamento. Um exemplo

de uma sequencia acustica encontra-se na figura 4.2. O Time Of Flight (TOF) foi preservado atraves

de 6 placas de audio (RME Octamic II) com 8 canais cada uma, todas sincronizadas entre si e pe-

los varios canais. A qualidade das gravacoes e garantida pela utilizacao de microfones profissionais

omnidireccionais (Shure MX391/O).

Os corpora contem um conjunto de 150 cenarios acusticos de 60 segundos que sao captados pelos

40 microfones. Estes corpora sao divididos em dois subconjuntos; um para desenvolvimento (dev) e

outro para teste (test), cada um com 75 cenarios acusticos e 10 falantes diferentes. O corpus foi

totalmente inventariado em ficheiros de texto que contem o intervalo de tempo de cada evento acustico

para cada microfone, a sua transcricao, as coordenadas da fonte e do microfone, e tambem o TOF entre

a fonte e cada microfone.

O corpus reverb noise contem uma mistura de fala com outros ruıdos (secador, campainha, outros

falantes, etc). Cada cenario acustico contem um comando lido, que serao usados nesta tese. A tabela

4.1 apresentam os principais ruıdos que reduzem o SNR, em sobreposicao com os comandos lidos, nos

conjuntos dev e test. Nomeadamente a fala de outras pessoas no apartamento; os ruıdos intensos tais

como o microondas, o aspirador, o berbequim, entre outros; televisao ou radio, que por vezes tambem

contem fala. Todos os comandos lidos sao sobrepostos com ruıdos de fundo em ambos os conjuntos.

26

Page 45: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Cmd_spont

Key+read_cmd

Door-bell

Sneeze

Ph_rich

Hair-Dryer

Shave-Cream

Conv_speech

KA1

LA1

C1R

R1C

B1R

LIVINGROOM-LA1

KITCHEN-KA1

CORRIDOR-C1R

BEDROOM-B1R

BATHROOM-R1R

Ph_rich Sneeze

Key+read_cmd Cmd_spont

Hair-DryerShave-Cream

Conv_speech

Door-bell

Figura 4.2: Exemplo de um cenario acustico usado nos corpora reverb noise. A esquerda temos arepresentacao a nıvel temporal de alguns microfones, e a direita a localizacao dos eventos no aparta-mento. [49]

Os dois apresentam uma composicao muito semelhante, embora o conjunto dev seja mais ruıdoso. A

maior parte dos audios contem um ruıdo intenso (64% para o dev e 58,7% para o test).

Tipo de Ruıdo Tipo de conjuntodev test

TV ou radio 25,3 20,0Ruıdo intenso 64,0 58,7

Sobreposicao de fala 48,0 49,3

Tabela 4.1: Tipos de ruıdo, que mais perturbam o reconhecimento, sobrepostos com os comandos lidosno corpus reverb noise em percentagem, respectivos conjuntos dev e test.

Para efeitos de estudo, sao fornecidos outros conjuntos com os eventos separados so com a

reverberacao, chamado only reverb.

Os corpora tambem incluem os ficheiros audio de fala limpa tal como foram captados no estudio,

designado clean. Na figura 4.3 esta representado o espectrograma, mostrando as diferencas signifi-

cativas existentes nos ficheiros dos corpora para o mesmo evento de fala. Este evento e um comando

de fala lida com origem na cozinha e captado pelo microfone KA2. Na fala limpa, o sinal foi gravado

em estudio, no only reverb esta presente o efeito da reverberacao, e no sinal reverb noise existe a

reverberacao e ruıdo, que neste caso e musica de fundo. Esta acaba por preencher as frequencias

mais baixas ocultando o sinal de fala.

4.2 Avaliacao do desempenho do reconhecedor

Para testar os reconhecedores construıdos na seccao 3.3, foram processados determinados eventos

do corpus DIRHA-simcorpora II. Para a analise da tarefa de reconhecimento so foram usados os

segmentos das simulacoes que continham os comandos lidos do corpus only reverb e reverb noise.

O corpus fornece as tramas correspondentes aos instantes em que comecam e terminam os eventos.

27

Page 46: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Figura 4.3: Exemplo de espectrograma dos varios corpora do DIRHA, clean, only reverb ereverb noise.

Utilizando os varios modelos acusticos construıdos Clean, Reverb1, ReverbR, Mix, com o novo cor-

pus e possıvel analisar a influencia dos microfones de cada divisao versus o local da fonte de fala no

sistema de ASR. Os modelos acusticos utilizados nestas experiencias sao modelados com cross-word

e 16 gaussianas.

Na seleccao de microfones, o importante e que o foco esteja no modelo acustico, pois a principal

barreira sao as caracterısticas acusticas do audio. E necessario garantir que a fala nao sofra distorcoes,

que as suas caracterısticas acusticas sejam muito proximas do modelo acustico treinado e que o sis-

tema reconheca com 100% de sucesso, pelo que o modelo de lıngua devera contribuir para isso o

maximo possıvel. Criou-se assim uma gramatica de frases formada por palavras, em que cada entrada

e a transcricao de um evento lido, a que se chama normalmente gramatica fechada.

Foi efectuado um afinamento sobre os dados de dev para o microfone C1L (por ser o que apresentava

melhores resultados no geral para todos os modelos). No entanto, nao surtiu alteracoes significativas

nos resultados, porque usamos uma gramatica fechada. A alteracao do peso no modelo de lıngua e

acustico tambem nao surte efeito, porque a gramatica e tao restrita e com frases por vezes tao longas,

que diminui muito a liberdade do sistema de pesquisa. Portanto, os valores de afinamento escolhidos

foram os mesmos da seccao 3.3, dependendo do modelo usado.

O corpus DIRHA-simcorpora II contem eventos que ocorrem em diferentes divisoes, captados pe-

los 40 microfones distribuıdos pela casa, logo e necessario ter em atencao que o reconhecimento e

um desafio maior do que simplesmente captar a voz a distancia. Primeiro e necessario avaliar o quao

crıtico e selecionar um determinado microfone ou grupo de microfones em tarefas de reconhecimento

28

Page 47: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

num ambiente com varias divisoes.

4.2.1 Corpus only reverb

Numa primeira abordagem foi analisado o comportamento dos reconhecedores com os dados only re-

verb, sem ruıdos extras, pelos microfones do apartamento.

Para analisar este comportamento foram obtidos graficos que representam o desempenho do re-

conhecimento para cada microfone, para os eventos dos conjuntos dev e test, e para os modelos

acusticos, Clean, Reverb1, ReverbR e Mix. No entanto, para nao se tornar uma analise exaustiva,

optou-se por colocar apenas os graficos do modelo acustico mais robusto, concluıdo na seccao 3.4, o

Mix, e a tabela 4.2 com o resumo dos quatro modelos.

O desempenho do reconhecedor com o modelo acustico Mix por microfone e representado nos

graficos 4.4. Cada rectangulo no grafico representa, atraves da sua cor, a taxa de erro que o reconhe-

cedor obteve em cada microfone, dos eventos de fala lida, ocorridos em determinada divisao da casa.

Quanto mais escuro (vermelho) for o rectangulo, maior e o WER. Os resultados obtidos para os 75

eventos estao representados na primeira linha do grafico. E de salientar que os microfones estao or-

denados por divisao na mesma sequencia das divisoes dos eventos. O primeiro caracter do microfone

representa em ingles o nome da divisao da casa (K-cozinha; L-sala; C-corredor; B-quarto; R-casa-de-

banho). Ha que ter em atencao que o numero de eventos por divisao varia entre corpora e entre as

proprias divisoes, motivo pelo qual este numero e exibido no eixo y a frente do nome da divisao.

Na matriz colorida sobressai uma diagonal com cores mais claras que corresponde aos resultados

obtidos quando os eventos ocorreram na divisao do respectivo microfone. Como era de esperar, em

condicoes em que o microfone se encontra mais perto da fonte, a taxa de erro e menor.

O corredor e a divisao da casa que apresenta resultados mais instaveis, justificado por varias razoes.

A primeira, pela sua localizacao na casa, pelo facto de estar perto das outras divisoes e ser uma divisao

pequena, o reconhecimento dos microfones das outras divisoes em relacao aos eventos ocorridos no

corredor torna-se bastante dependente da direccao da fonte de audio. A segunda razao, prende-se com

o facto do corredor ter apenas 2 microfones, o que faz com que uma pequena falha num dos microfones

resulte num mau desempenho nos microfones dessa divisao comparativamente com as outras. E por

ultimo, o numero de eventos nesta divisao e muito reduzido, o mesmo se passando com os eventos da

casa de banho.

As divisoes que apresentam melhores resultados de reconhecimento sao a sala, a cozinha e o

quarto. Os melhores resultados advem do grande numero de eventos que ocorre nestas divisoes, por

possuırem um numero elevado de microfones e por terem maior dimensao. Nestas condicoes nao ha

duvidas que os microfones da propria divisao onde ocorre o evento sao os que apresentam o melhor

desempenho.

A tabela 4.2 foi construıda a partir dos resultados de WER dos corpora only reverb do DIRHA

(dev, test) para os varios modelos acusticos. Cada linha da tabela representa o WER dos eventos

que ocorreram numa determinada divisao, repartida em duas partes: a taxa media de erro de todos os

29

Page 48: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

(a) dev

(b) test

Figura 4.4: Media do WER do reconhecedor com o modelo acustico Mix do corpus only reverb, nos40 microfones espalhados pelo apartamento ITEA de acordo com a divisao onde ocorreu o evento. Afrente do nome da divisao encontra-se o numero de eventos que ocorreram nessa divisao.

microfones da divisao, e a taxa media de erro de todos os microfones fora da divisao. A linha “dentro”

representa o WER da diagonal dos graficos.

Podemos observar que o conjunto test e reconhecido com mais sucesso que o dev. O modelo

acustico Reverb1 e o que apresenta melhores resultados nas duas tabelas.

E notorio tanto no dev como no test uma diferenca acentuada no reconhecimento dos eventos do

corredor e da casa de banho devido ao baixo numero de eventos. Nas restantes divisoes os valores

tendem a alterar-se de forma identica. Confirma-se que em todos os modelos, os melhores resultados

sao obtidos nos microfones da divisao onde ocorreu o evento, excepto no conjunto dev no corredor.

Nota-se que os microfones da casa-de banho no test, em todos os modelos acusticos, apresentam

uma taxa de erro nula nos eventos que ocorreram nessa mesma divisao, mas so existem dois eventos,

nao sendo assim uma amostra significativa. Como era de esperar, o modelo Clean nao se encontra

adaptado para audios com reverberacao e mais uma vez, tal como na seccao 3.4, podemos verificar

30

Page 49: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

(a) dev

Divisao Microfones Modelos AcusticosClean Reverb1 ReverbR Mix

Cozinha dentro 43,4 7,6 14,5 12,9fora 78,9 27,8 32,3 26,4

Sala dentro 32,5 2,3 12,9 4,5fora 72,4 21,7 26,7 18,4

Corredor dentro 30,4 28,3 19,6 8,7fora 59,0 24,4 28,6 23,7

Quarto dentro 22,5 5,3 8,7 5,5fora 74,5 29,9 27,7 31,4

C. Banho dentro 33,3 0 16,1 10,8fora 61,7 12,5 26,9 25,5

(b) test

Divisao Microfones Modelos AcusticosClean Reverb1 ReverbR Mix

Cozinha dentro 43,3 2,8 4,8 3,2fora 74,4 29,0 31,3 29,5

Sala dentro 34,8 3,9 8,8 6,4fora 76,5 16,4 18,6 13,6

Corredor dentro 52,3 22,7 11,4 18,2fora 88,2 29,2 23,9 25,2

Quarto dentro 18,9 2,8 6,8 2,6fora 65,8 22,6 23,4 20,9

C. Banho dentro 0 0 0 0fora 31,1 0 0 2,7

Tabela 4.2: WER(%) obtido pelo ASR para o corpus only reverb com varios modelos acusticos (Clean,Reverb1, ReverbR, Mix), para a divisao onde ocorre o evento, com os dados de dev 4.1(a) e test 4.1(b).Para cada divisao, dividiu-se os resultados entre os microfones dentro dessa e todos os outros da casa.

que os resultados nao sao satisfatorios.

4.2.2 Corpus reverb noise

Numa segunda abordagem, foi analisado o comportamento dos reconhecedores com os dados re-

verb noise que se aproximam mais do ambiente real, visto que contem, para alem do efeito da rever-

beracao, ruıdos (sobreposicao de eventos, ruıdos indesejados, etc).

A diferenca que e mais notoria, quando observamos as figuras 4.5 dos corpora reverb noise em

comparacao com os corpora only reverb (figura 4.4) e no geral a deterioracao dos resultados de reco-

nhecimento (mais vermelhos), como ja era de esperar pela introducao de ruıdos simultaneos ao evento,

como musica, campainha, secador, televisao, etc. No entanto, a diagonal mais clara continua bastante

evidente, pelo que os microfones da propria divisao onde ocorrem os eventos continuam a apresentar

a menor taxa de erro de reconhecimento. O padrao de reconhecimento das divisoes mantem-se rela-

tivamente ao only reverb. Embora existam diferencas entre os microfones da mesma divisao, estas

sao consideravelmente pequenas, quando comparadas com o desempenho dos microfones fora dessa

divisao. Como era de esperar, a informacao da divisao onde ocorreu o evento e fundamental.

A tabela 4.3 representa os resultados de WER para os corpora reverb noise de forma analoga

31

Page 50: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

(a) dev

(b) test

Figura 4.5: Media do WER do reconhecedor com o modelo acustico Mix do corpus reverb noise, nos40 microfones espalhados pelo apartamento ITEA de acordo com a divisao onde ocorreu o evento.

as tabelas construıdas para os corpora only reverb. A principal conclusao a tirar desta tabela em

comparacao com os corpora only reverb (figura 4.4), e que o reconhecedor com mais sucesso passou

a ser o modelo acustico Mix em detrimento do Reverb1. Reforca-se o conhecimento que ja se tem sobre

a extrema importancia de ter o modelo acustico adaptado a tarefa. O facto de o modelo Mix ter sido

treinado com varios corpora tornou-o mais versatil as condicoes acusticas, reflectiu-se nos resultados

deste corpus.

Considerando os resultados do reconhecedor Mix para o conjunto dev representado na figura 4.5(a),

o microfone que obtem o melhor desempenho para os 75 eventos e o LA5. A tabela 4.4 mostra-nos os

WER obtidos usando esse microfone. Tal como podemos verificar, este microfone em particular tambem

e o que apresenta melhor desempenho no conjunto test. A segunda linha da tabela 4.4 mostra-nos

o desempenho do sistema, sabendo a divisao onde ocorre o evento, e selecionando aleatoriamente

um microfone dessa divisao para reconhecer a fala do evento. Este resultado foi obtido pela media

32

Page 51: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

(a) dev

Divisao Microfones Modelos AcusticosClean Reverb1 ReverbR Mix

Cozinha dentro 81,9 18,3 14,6 16,5fora 90,9 58,7 53,9 59,8

Sala dentro 69,3 10,7 9,2 9,9fora 85,7 53,8 47,9 54,6

Corredor dentro 52,2 0 0 0fora 79,8 40,3 36,8 33,4

Quarto dentro 67,7 7,2 6,8 7,5fora 88,0 59,4 55,5 59,5

C. Banho dentro 74,2 25,8 17,2 25,8fora 83,3 59,3 56,4 54,8

(b) test

Divisao Microfones Modelos AcusticosClean Reverb1 ReverbR Mix

Cozinha dentro 74,5 10,2 7,2 11,1fora 86,8 54,0 46,0 51,4

Sala dentro 75,3 16,0 14,8 14,5fora 85,9 51,3 46,1 48,8

Corredor dentro 81,8 18,2 15,9 15,9fora 86,4 47,0 39,7 43,3

Quarto dentro 63,5 3,1 2,4 2,2fora 88,2 52,8 43,5 50,7

C. Banho dentro 50,0 0 0 0fora 58,9 41,6 38,9 37,3

Tabela 4.3: WER(%) obtido pelo ASR para o corpus reverb noise com varios modelos acusticos(Clean, Reverb1, ReverbR, Mix), para a divisao onde ocorre o evento, com os dados de dev 4.2(a)e test 4.2(b). Para cada divisao, dividiu-se os resultados entre os microfones dentro dessa e todos osoutros da casa.

do desempenho de 500 diferentes seleccoes aleatorias. O desempenho na seleccao do microfone

com o conhecimento da divisao e consideravelmente melhor do que a obtida pelo melhor microfone.

A terceira linha da tabela 4.4 refere-se ao desempenho do reconhecedor, sabendo a divisao onde

ocorreu o evento, e selecionando o microfone com menor WER nessa divisao. Obtendo o melhor

microfone no conjunto dev, e usando-o no test, os resultados neste conjunto sao muito identicos a

seleccao aleatoria do microfone dentro da divisao onde ocorre o evento. Concluımos que a seleccao

do microfone esta bastante dependente de cada evento. Eleger o melhor microfone, em media, no

conjunto dev nao e necessariamente melhor, que a abordagem aleatoria. Para efeitos de comparacao,

indicamos entre parentesis o WER obtido para o conjunto test, quando selecionado o melhor microfone

para este conjunto. Observa-se que ha um aumento significativo do desempenho, selecionando o

melhor microfone para o test, o que reforca a importancia da estrategia da seleccao do microfone ser

efectuada por evento, relativamente a escolher um microfone fixo por divisao.

Com o objectivo de conhecer os limites de desempenho, tendo a informacao da divisao onde ocorreu

o evento, foi calculado o pior microfone, em media, dentro da divisao. Quando calculado para o dev e

test, e notavel que tanto para o melhor e o pior microfone por divisao nao ha uma relacao entre os dois

corpora.

33

Page 52: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Seleccao de microfone Conjuntodev test

melhor mic todos os eventos (LA5) 35,28 26,62informacao da divisao mic aleatorio 11,99 9,64informacao da divisao melhor mic 6,74 8,94 (4,47)

informacao da divisao pior mic 19,77 8,72 (16,55)mic perfeito por evento 4,94 0,0

Tabela 4.4: Media do desempenho em WER(%) dos comandos lidos dos corpora reverb noise paradev e test usando diferentes estrategias de seleccao de microfones conhecendo a divisao onde ocorreo evento.

Para conhecer o melhor desempenho fornecido por um sistema de seleccao de microfones perfeito,

foi selecionado por evento um microfone com o WER mais baixo, usando os 40 microfones disponıveis.

Como podemos verificar pelos valores da quinta linha da tabela 4.4, mesmo em situacoes muito ad-

versas como e o caso dos corpora do DIRHA, e possıvel obter bons resultados quanto melhor for a

seleccao de microfones.

34

Page 53: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Capıtulo 5

Tecnicas Robustas para Ambiente

Multi-Divisao com Varios Microfones

Este capıtulo procura tirar beneficio dos varios microfones dentro do apartamento para tornar o reco-

nhecimento mais robusto. Nos capıtulos anteriores foram criados modelos acusticos adaptados a tarefa

de forma a tornar o sistema robusto. E concluımos que e determinante a localizacao do microfone tendo

em conta o local do evento para o reconhecimento ser realizado com sucesso. A partir deste capıtulo so

serao feitas experiencias com o corpus reverb noise, visto que e o mais desafiante e proximo do real.

Agora serao abordadas, numa primeira fase, tecnicas que permitem aumentar a robustez do sistema,

efectuando o reconhecimento dos sinais obtidos pelos varios microfones, e numa segunda fase consi-

derando o reconhecimento de um so microfone, prestando especial atencao ao algoritmo de seleccao

do microfone.

5.1 Agrupamento de Microfones

Ao usarmos varios microfones e possıvel aplicar um filtro espacial, ao que se da o nome de beamfor-

ming. A ideia basica do beamforming e direccionar o lobulo principal dos varios microfones para a fonte

desejada com o proposito de aumentar a energia recebida dessa fonte e reduzir os sons provenientes

das outras fontes. Dito de outra maneira, a ideia e criar um canal directo entre a origem do evento ate

aos microfones e consequentemente filtrar os ruıdos. Esta tecnica atenua parcialmente os disturbio

provocado pelas reflexoes tardias que chegam ao microfone e que afectam bastante o reconhecimento

como analisado anteriormente na seccao 2.5.2.

5.1.1 Conceitos basicos de beamforming

As abordagens de beamforming dividem-se em dois grandes grupos: o beamforming fixo e adaptativo.

E considerado fixo se os parametros do conjunto de microfones nao mudarem dinamicamente com o

tempo.

35

Page 54: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Como os microfones estao a distancias diferentes da fonte sonora, os acontecimentos acusticos

chegam em instantes diferentes a cada microfone.

A abordagem mais simples e eficiente e Delay-and-Sum (DS) [27], que consiste em alinhar os

ficheiros audio captados pelos diferentes microfones, compensando o desfasamento. Por fim, os varios

sinais sao somados, obtendo-se um sinal amplificado do evento que estamos a direccionar. Pode ser

expresso matematicamente como se segue:

y(t) =

M∑m=1

αmxm(t− τm), (5.1)

onde αm e o peso dado a cada microfone e τm e a diferenca de tempo de propagacao entre sinais, em

que normalmente um dos microfones, chamado de referencia, tem o tempo de compensacao (τm) igual

a 0 e todos os outros se alinham a este. O τm pode ser calculado obtendo a localizacao da fonte. O peso

(αm) normalmente usado e igual a 1/M , o que corresponde a media dos sinais. No entanto, podem

ser atribuıdos outros pesos baseados em modelos de propagacao, com o objectivo de compensar a

diferenca do ganho no microfone ou compensar as diferencas de SNR. A grande vantagem deste

metodo e a sua simplicidade, apesar de nao ser muito adequado para barulhos directivos e a sua

resposta depender da frequencia. Esta frequencia varia com a distancia entre microfones. Quanto mais

baixa for a frequencia, mais afastados tem de estar os microfones. Esta abordagem funciona bem em

cenarios onde so existe a fonte a ser captada e ruıdo de fundo.

Como qualquer outro filtro espacial, assume-se que os sinais recebidos tem uma banda estreita e

se propagam por uma longa distancia, o que nao se verifica na transmissao do sinal de fala. Por outro

lado, a utilizacao de tecnicas de beamforming nao resolve os problemas dos microfones distantes. Logo

devera estar acompanhado de outros metodos robustos de deteccao de fala.

Existe uma generalizacao do delay-and-sum designada de filter-and-sum beamforming, que resolve

algumas limitacoes para determinadas frequencias existentes no algoritmo anterior. No entanto, conti-

nuam a existir problemas nas baixas frequencias.

A nıvel dos beamforming adaptativos, [33] descreve varios esquemas e compara diferentes tipos de

agrupamentos de microfones. Outro algoritmo e o Integrated Wiener-filtering with Adaptive beamformer

[19].

Os algoritmos de beamforming necessitam de saber a localizacao da fonte, o que motiva a utilizacao

de varios algoritmos para localizacao em conjunto com a tecnica de beamforming, como e o caso das

variantes do Time Difference of Arrival (TDOA) [8]. Outra abordagem e o SRP-PHAT [2], ou ainda Orien-

ted Global Coherence Field [6] baseado no mesmo algoritmo, mas focado em descobrir a orientacao.

Como se pode verificar pelos metodos anteriores, as limitacoes do beamforming passam pela ne-

cessidade de se conhecer a posicao da fonte e a sua orientacao. Os microfones tem de estar correc-

tamente calibrados e sincronizados, para evitar que ocorram sinais com amplitudes diferentes entre os

mesmos e com diferentes fases. As posicoes dos sensores devem ser conhecidas com precisao e fixas.

Nesta tese foi assumido que a localizacao das fontes e conhecida e portanto nao ha erros no calculo

dos tempos de compensacao.

36

Page 55: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

5.1.2 Avaliacao do delay-and-sum no Automatic Speech Recognition (ASR)

A figura 5.1 mostra-nos o desempenho obtido usando o algoritmo beamforming DS, para os ficheiros

audio dos corpora reverb noise, considerando diferentes configuracoes de grupos de microfones para

dev e test.

(a) dev

(b) test

Figura 5.1: Media do WER (%) do reconhecedor com o modelo acustico Mix do corpus reverb noise,efectuando o beamforming DS com diferentes combinacoes de microfones de acordo com a divisaoonde ocorreu o evento.

Foram considerados 18 grupos de microfones: 1 beamformer que processa os 40 microfones da

casa (Todos); 3 beamformers que processam todos os microfones da cozinha (Cozi T), sala (Sala T) e

quarto (Quar T), respectivamente; e os restantes 14 que processam conjuntos de microfones espacial-

mente proximos. A interpretacao desta figura 5.1 faz-se da mesma forma que as figuras da seccao 4.2.

Em contraste com a analise de microfones isolados, esta abordagem nao e convencional na medida

37

Page 56: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Seleccao do grupo microfones Conjuntodev test

melhor beamforming todos os eventos (beamf.Todos) 17,98 14,95informacao da divisao todos os mic beamforming 8,54 2,46informacao da divisao aleatorio beamforming 10,08 5,40informacao da divisao melhor beamforming 6,74 7,83 (2,46)informacao da divisao pior beamforming 13,26 6,49 (9,40)beamforming perfeito por evento 5,17 0,67

Tabela 5.1: Media do desempenho em WER(%) dos comandos lidos dos corpora reverb noise paradev e test usando diferentes estrategias de seleccao de grupos de microfones realizando o beamfor-ming conhecendo a divisao onde ocorre o evento.

em que para efectuar o beamforming e necessario saber a priori o local da fonte na casa. Tendo ja este

conhecimento, e desnecessario estar a avaliar grupos de microfones de outras divisoes. Efectuo-se

esta abordagem de forma a avaliar o comportamento do beamforming na seleccao de microfones num

ambiente de varias divisoes. O padrao da figura 5.1 mantem-se em relacao ao observado no capıtulo

anterior. A grande diferenca e que ao fazer a media de conjunto de microfones se verificou que o

desempenho melhorou, sendo as cores da diagonal mais claras.

A tabela 5.1, apresenta os resultados de desempenho obtidos com a tecnica de beamforming DS

permitindo a sua comparacao com a tabela 4.4, referente a microfones individuais. Na primeira linha

da tabela esta o WER para o melhor cluster, que neste caso e o beamformer formado por todos os

microfones, quando sao processados todos os eventos. E notoria a melhoria de resultados quando

comparado com o melhor microfone singular LA5. Como descrito na seccao 4.2.2 e conhecendo a

divisao onde ocorreu o evento, seleccionou-se o beamformer aleatorio, o melhor e o pior (linha 3, 4

e 5 da tabela). Comparando os resultados, o beamforming e mais robusto se ocorrer um erro na

seleccao do beamformer, quando ha um erro na seleccao de microfones individuais. Ao escolher o

melhor microfone ou beamformer por divisao, os valores sao muito identicos aos da terceira linha da

tabela 4.4.

Na segunda linha da tabela esta representado o desempenho quando a escolha recai sobre o be-

amformer formado por todos os microfones da divisao do evento, notando-se que apesar de ser inferior

e muito semelhante relativamente a escolha do melhor microfone por divisao. Isto significa que ao es-

colher o beamformer de todos os microfones por divisao e conhecendo a divisao do evento obteremos

bons resultados.

Comparando o valor do melhor beamformer por evento, o microfone singular obtem melhor resul-

tado, porque em alguns casos individualmente os textos foram bem reconhecidos e com o beamformer

deixaram de ser reconhecidos. Isto ocorre porque se tivermos um microfone que e reconhecido com su-

cesso mas fizermos a media com varios microfones com SNR muito baixo, no final obtemos um ficheiro

audio que dificilmente sera reconhecido.

38

Page 57: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

5.2 Metodos de Seleccao Automatica de Microfones e de Divisao

Como concluıdo anteriormente, normalmente o microfone mais perto e direccionado para a fonte e o

que tem melhor sucesso no reconhecimento. Considerando um ambiente em que ha varios microfones,

podemos tirar benefıcio da sua posicao espacial usando um microfone em cada instante, seleccionado

previamente como o melhor candidato para o sucesso do reconhecimento de fala em cada situacao.

Isto tem a vantagem de simplificar o processo do reconhecimento porque podemos usar todas as tec-

nologias padrao para reconhecimento da fala, considerando o caso de um so microfone. No entanto

nao e trivial a escolha previa de um microfone, porque ha uma grande dinamica de eventos captados

pelos microfones, e com variantes como o ruıdo e reverberacao que afectam drasticamente o reconhe-

cimento.

5.2.1 Revisao do estado de arte de seleccao de microfones

Na literatura existem varias tecnicas de seleccao de microfone, num ambiente com varios microfo-

nes numa so divisao, que efectuam alteracoes em diferentes etapas do processo de reconhecimento.

Serao referenciados alguns algoritmos relevantes, divididos em duas categorias: os que seleccionam

o microfone antes de ser efectuado o reconhecimento automatico, e os que seleccionam depois do

reconhecimento.

Seleccao do microfone na etapa do pre-processamento do sinal

Este tipo de metodos efectua a escolha do melhor microfone analisando os sinais dos varios mi-

crofones. Assim, so e necessario fazer o reconhecimento do microfone seleccionado. Como a etapa

de reconhecimento e computacionalmente demorada, com estes metodos evita-se efectuar o reconhe-

cimento de todos os microfones, diminuindo a complexidade computacional e criando sistemas mais

rapidos. A nıvel do pre-processamento do sinal, uma das formas mais simples de seleccionar o melhor

microfone e escolher pela energia do sinal. Sabemos que quanto mais alto for o valor de SNR, mais

perto da fonte o microfone se encontra e consecutivamente o ficheiro audio e melhor reconhecido. Para

esta abordagem funcionar, e necessario garantir uma boa medicao do ruıdo e que este se mantenha

constante. Em ambientes com reverberacao, e difıcil limitar onde comeca e acaba a fala, provocando

erros na medicao do SNR. Podem ocorrer eventos que nao sejam fala, que alteram os valores de SNR,

levando o sistema a seleccionar um microfone com baixo desempenho no reconhecimento. Isto ocorre

porque o SNR nao considera as caracterısticas especıficas da fala, so da energia. Em [43] e [62] podem

ser encontrados algoritmos de seleccao de microfones baseados no SNR .

Quanto mais perto o microfone estiver da fonte, menor sera a distorcao e maior a amplitude do sinal

de fala, melhorando assim o reconhecimento. Como realizado em [58] e [60], e possıvel pelo calculo do

TOF saber qual o microfone mais proximo, bem como a orientacao. Esta ultima e mais importante que

a posicao em si, devido a atenuacao do sinal provocada pela cabeca do falante.

39

Page 58: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Existem metodos de seleccao de microfone que se baseiam em medicoes do RIR. Em [59] e pro-

posta a construcao de uma extraccao de parametros para o RIR. Partindo do princıpio que o RIR e

conhecido para cada posicao do falante, e obtida uma estimativa do WER. Por fim e escolhido o canal,

conhecendo a posicao do falante, que corresponde ao WER mais baixo. Em geral os algoritmos que

necessitam do RIR, nao esquecendo que este varia da posicao da fonte, nao sao praticos de imple-

mentar num sistema real. Para obter o RIR o sistema tem de estar calibrado, no processo de captacao

nao pode haver a presenca de outros ruıdos, e por fim nao pode haver nenhuma alteracao fısica no

sistema. Em sistemas dinamicos como a acustica de uma casa no qual os moveis, pessoas e outros

objectos mudam de sıtio, e praticamente impossıvel ter o RIR para cada situacao possıvel, o que torna

os metodos que utilizam como base o RIR impraticaveis em sistemas reais.

Outros metodos como os referidos em [58] e [25] efectuam medicoes da reverberacao no ficheiro

audio e escolhem o canal que tiver menos reverberacao. No decorrer deste capıtulo sera estudado em

detalhe o Envelope Variance (EV) [60].

Nas referencias assinaladas anteriormente, o racio da energia das reflexoes tardias e de todo o RIR

e a medida que tem maior correlacao com o WER.

Seleccao do microfone na etapa da descodificacao

E possıvel seleccionar automaticamente um canal analisando o resultado obtido na etapa de des-

codificacao descrita em 2.4. Por exemplo, normalizando os parametros de todos os canais [43], sera

escolhido o canal que apresenta menor diferenca nas transcricoes com os parametros normalizados e

nao normalizados, diferenca esta que e obtida efectuando o alinhamento do texto reconhecido. Esta

tecnica baseia-se no conceito que os parametros normalizados eliminam a distorcao do canal, logo

quanto menor a diferenca entre o sinal normalizado e nao normalizado, menor a distorcao no canal, as-

sim, melhor sera o reconhecimento. E um metodo pesado a nıvel de processamento, pois e necessario

correr todo o reconhecimento duas vezes para cada canal.

Outra tecnica e a normalizacao da probabilidade emparelhada [58], que escolhe o melhor microfone

atraves de uma medida de confianca das transcricoes. E necessario reconhecer todos os canais, e

com a transcricao individual, efectuar o reconhecimento forcado nos outros canais com transcricoes

diferentes, a fim de obter a probabilidade de cada canal para cada transcricao. Calcula-se a probabili-

dade do reconhecimento para cada canal e obtemos uma medida de confianca, que e, o racio da sua

probabilidade com a soma das probabilidades do alinhamento forcado das transcricoes geradas pelos

outros. Por fim e seleccionado o canal que obtiver a maior medida de confianca. Este metodo e mais

pesado que o anterior, porque obriga a calcular a probabilidade efectuando o alinhamento forcado M-1

vezes, para cada um dos M microfones com transcricoes diferentes.

5.2.2 Metodos explorados nesta tese

Nesta tese foram escolhidos dois metodos da literatura com abordagens muito diferentes e um terceiro

que e uma especie de sistema hıbrido. Com o objectivo de comparar o desempenho e escolher dos

40

Page 59: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

tres, o melhor algoritmo para aplicacoes de reconhecimento de voz num ambiente domestico identico

ao apartamento ITEA.

O primeiro metodo, designado EV, e baseado na seleccao de microfone ao nıvel do pre-processa-

mento do sinal. O segundo metodo chamado N-Best, usa a probabilidade fornecida pelo reconhecedor

apos a descodificacao, para decidir qual o melhor microfone. Estes dois metodos foram escolhidos por

apresentaram bons resultados na literatura [58]. Sao metodos que escolhem o canal em diferentes

etapas do processo de reconhecimento, o que permite analisar se, no caso de varias divisoes, existe

vantagem em efectuar a seleccao de microfones na etapa inicial ou final do reconhecedor.

O terceiro metodo e um novo metodo que usa o modelo Gaussian Mixture Model (GMM), mais

simples que o modelo HMM usado no processo de reconhecimento, seleccionando o canal com maior

probabilidade.

Para avaliar os diferentes metodos em termos de reconhecimento, e usado o modelo acustico Mix

nas proximas experiencias, em virtude de ter apresentado melhor desempenho como demonstrado na

seccao 4.2.2.

Envelope Variance (EV)

O Envelope Variance (EV) [58] baseia-se na medicao da distorcao do sinal provocado pela reverberacao,

possibilitando seleccionar o canal que apresenta menos efeito de reverberacao. Chama-se intensidade

da envolvente os valores de energia ao longo do tempo. A reverberacao num ficheiro audio diminui a

amplitude da intensidade da envolvente, tornando o sinal mais achatado e com picos pouco definidos.

Definimos a envolvente de sub-banda como o Filter-Bank-Energies (FBE), utilizando uma funcao

nao linear ao longo do tempo comprimida pela funcao logarıtmica. O calculo da variancia do envelope

segue as mesmas etapas da extraccao de caracterısticas MFCC, como representado em 2.2, ate ao

calculo do logaritmo nos coeficientes log mel-spectrum. A seguir retiram-se os efeitos constantes no

tempo para cada canal, como por exemplo, a resposta impulsiva e diferentes ganhos electricos dos

microfones, e e subtraıda a media no domınio logarıtmico de cada sub-banda. Formalmente, tem-se:

xm(k, l) = elog[xm(k,l)]−µlog[xm(k)] , (5.2)

em que xm(k, l) e a sequencia da sub-banda FBE no canal m, k e o ındice da sub-banda e o l e o

ındice do segmento do ficheiro audio. A media µxm(k) e calculada para cada sub-banda ao longo do

tempo. Apos a normalizacao usando a media, e calculada a raiz cubica com o objectivo de comprimir

as sub-bandas de FBE. Posteriormente e calculada a variancia para cada sub-banda:

Vm(k) = V ar[xm(k, l)1/3]. (5.3)

A compressao pela raiz cubica, em vez do habitual logaritmo, resolve o problema dos silencios, em

que os valores perto de zero se tornam, na escala logarıtmica, enormemente negativos distorcendo o

calculo da variancia:

41

Page 60: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

C = argmaxm

∑k

wm(k)Vm(k)

maxm(Vm(k)). (5.4)

E aplicado um peso especıfico, wm(k), que pode ser obtido atraves de um processo de afinacao

usando um conjunto de desenvolvimento, ou simplesmente 1/n, em que n e o numero de sub-bandas.

Nesta tese foi usada a ultima abordagem descrita. Para cada sub-banda k e efectuada a normalizacao

dessa sub-banda por todas as sub-bandas k de todos os microfones m.

Por fim e escolhido o canal C que tiver a soma das sub-bandas normalizadas mais elevado, porque

este tem o valor de envelope variance mais alto, logo com menor distorcao devido a reverberacao.

Como o metodo do envelope variance e calculado directamente sobre o ficheiro audio sem precisar

de mais informacao, com calculos identicos ate determinada etapa da extraccao de parametros, acaba

por existir uma grande correlacao entre o microfone seleccionado e o WER obtido nesse microfone.

E uma boa abordagem para ser usada em tempo real, porque requer pouco poder computacional

e nao e necessario o sistema estar calibrado. Como este metodo de seleccao e aplicado antes do

reconhecimento, o sistema no global torna-se ainda mais rapido, principalmente num ambiente com

muitos canais.

N-Best Hypothesis

Em [61], o metodo do N-Best Hypothesis consiste em calcular as N melhores probabilidades para um

dado vector de observacaoO. Sabendo queO = o1, . . ., ot e uma sequencia de vectores de observacao,

onde ot e o vector observado no instante t, podemos calcular a probabilidade p(O) da seguinte forma:

p(O) =∑wεΩ

p(O|w)P (w), (5.5)

onde Ω e o conjunto de todas as sequencias de palavras possıveis para a sequencia O. W = w1, w2,

. . ., wn e a sequencia de palavras que o sistema consegue reconhecer. No entanto, na pratica, este

calculo torna-se infazıvel visto que ha muitas sequencias w possıveis. Para se tornar fazıvel, faz-se

uma restricao, tornando o W com n hipoteses, e entao o p(O) pode ser aproximado a uma soma finita:

p(O) ≈N∑n=1

p(O|wn)P (wn). (5.6)

Para seleccionar o melhor canal, calculamos o Cm para cada canal, em que m e o numero do canal,

e escolhemos o que obtiver o C mais elevado. O C e calculado da seguinte forma:

Cm =p(Om|w1

m)1/αP (w1m)∑N

n=1 p(Om|wnm)1/αP (wnm). (5.7)

A probabilidade p(Om|wm) normalmente tem um intervalo muito grande de valores. Para resolver o

problema aplica-se um factor de escala α apropriado a cada um deles. O factor α pode ser calculado a

priori com um conjunto de desenvolvimento, ou como efectuado nesta tese, pode ser igual ao numero

de segmentos. Se o modelo acustico do sistema de reconhecimento fornecer a probabilidade em escala

42

Page 61: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

logarıtmica, o valor α e equivalente a dividir a probabilidade por numero de segmentos, resultando na

media da probabilidade logarıtmica por segmento.

Nesta abordagem, e necessario efectuar o reconhecimento para todos os microfones, e na etapa

da descodificacao, correr a arvore de procura n vezes por microfone com o objectivo de obter as n

hipoteses possıveis. Apesar de ser um algoritmo que efectua a seleccao apos o reconhecimento, nao

obriga a executar todo o processo varias vezes para cada microfone como acontece em [43]. A parte

de descodificacao que se repete varias vezes pode ser agilizada carregando toda a arvore uma unica

vez na memoria e efectuando as n procuras consecutivamente. Com pequenas alteracoes, e possıvel

adaptar esta tecnica de seleccao de canal a um sistema de reconhecimento.

Verosimilhanca de Universal Background Model (UBM)

O novo metodo de escolha de microfone baseado na probabilidade obtida por um UBM [18], [34], fun-

damenta-se nas tecnicas que usam a probabilidade obtida pelo modelo acustico do ASR, para escolher

o microfone. Em vez de se obter directamente do descodificador do ASR a probabilidade de cada

canal, o que obrigaria a fazer todo o processo de reconhecimento para todos os canais, foi construıdo

um modelo acustico mais simples, unicamente para a seleccao de microfones. O conceito e similar ao

UBM utilizado normalmente na identificacao do falante como descrito em [50]. Neste caso em particular,

o nosso UBM e um GMM que e um modelo probabilıstico no qual se assume que todos os dados sao

gerados por um numero finito de distribuicoes gaussianas com parametros desconhecidos.

Um GMM e a soma ponderada de M componentes de densidade gaussiana dado pela equacao,

p(x|λ) =

M∑n=1

wng(x|µn,Σn), (5.8)

onde x e uma matriz diagonal com os parametros de cada segmento de audio, wn e o peso das misturas

e g(x|µn,Σn) sao as componentes de densidade gaussiana para n = 1, ...,M . Os componentes da

equacao sao colectivamente representados por:

λ = wn, µn,Σn, (5.9)

em que µn e o vector das medias e Σn a matriz da covariancia.

Para cada canal, e calculado o p(xc|λ), sendo c o canal. O melhor canal, C e obtido pela seguinte

formula:

C = argmaxcp(xc|λ). (5.10)

Treina-se este GMM com o mesmo corpus de treino usado para treinar o modelo acustico empregue

no ASR, esperando que este modele as caracterısticas do corpus de treino.

Na fase de teste, calcula-se atraves do GMM a verossimilhanca para cada canal. Parte-se do

princıpio que o modelo acustico do reconhecedor e o GMM usados na seleccao de canais tem carac-

terısticas identicas. Ao calcular a probabilidade para cada canal usando o GMM, escolhe-se o canal

43

Page 62: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

que obtiver a maior probabilidade, isto significa que este sinal de fala combina melhor com o modelo

acustico, e que provavelmente sera bem reconhecido. Para funcionar e necessario garantir que o mo-

delo de reconhecimento e de seleccao de microfones estejam correlacionados.

Uma vantagem desta abordagem e o tempo computacional, pois requer menos recursos calcular a

probabilidade do GMM para cada canal do que efectuar todo o processo de reconhecimento e extrair a

probabilidade para todos os canais.

A principal desvantagem deste metodo passa pela necessidade de treinar mais um modelo GMM,

embora esta seja atenuada pelo facto de usar os mesmos dados do modelo acustico do reconhecedor.

Nesta tese, foi usado um GMM com 16 gaussianas, porque aumentando o numero de gaussianas

nao apresentou melhorias significativas.

5.2.3 Analise do desempenho dos metodos de seleccao de canal

Foi analisado o desempenho dos tres metodos de seleccao anteriormente descritos, usando os coman-

dos lidos do corpus reverb noise do DIRHA-simcorpora II com o modelo acustico Mix, como descrito

na seccao 4.2.2. Cada metodo efectuou uma seleccao para cada evento.

Baseados nos metodos UBM e EV,[34], anteriormente descritos, foram propostas estrategias de

seleccao para tres tarefas diferentes: Para a seleccao de microfone, a seleccao de um conjunto de mi-

crofones e seleccao da divisao do apartamento. Assumimos que sabemos a divisao quando efectuamos

a seleccao do beamformer.

Neste caso, foram aplicados os mesmos agrupamentos de microfones utilizados em 5.1.2, excepto o

beamformer constituıdo por todos os microfones da divisao. A seleccao da divisao corresponde aquela

que obteve mais microfones dentro dos 5 microfones seleccionados pelo metodo.

Na tabela 5.2 esta representado o WER (%) para os tres metodos. A primeira e a quarta linha

retratam a seleccao aleatoria de um microfone contido na divisao seleccionada automaticamente pelo

metodo. Comparativamente com a segunda linha da tabela 4.4, ha uma degradacao do desempenho

por nao haver conhecimento da divisao onde ocorreu o evento. No entanto, o resultado e superior ao

melhor microfone para todos os eventos. Na segunda e quinta linha da tabela 5.2, esta o resultado do

microfone seleccionado automaticamente pelo UBM e EV, respectivamente. Como se pode verificar,

estes metodos funcionam quer para detectar a divisao, como tambem para detectar o melhor microfone,

sendo que o EV obteve melhores resultados nos dois corpora.

A terceira e sexta linhas apresentam os resultados da seleccao do beamformer por evento conhe-

cendo a divisao. O beamformer seleccionado pelo UBM (terceira linha da tabela 5.2) obteve pratica-

mente o mesmo WER que o beamformer escolhido aleatoriamente dentro da divisao onde ocorreu o

evento (terceira linha da tabela 5.1). Logo, nao compensa o esforco computacional da escolha do be-

amformer para uma melhoria em media de 1,5%. Enquanto que o metodo EV apresenta melhoria e

neste caso os resultados ate sao superiores ao melhor beamformer da divisao para todos os eventos,

como se pode observar na quarta linha da tabela 5.1. Este foi o melhor metodo, mas e necessario

ter em atencao que o beamforming usado e considerado perfeito. Na pratica, os resultados seriam

44

Page 63: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Algoritmo de Seleccao Estrategia de Seleccao Conjuntodev test

UBMdivisao automatica, mic aleatorio 16,49 14,28

mic automatico 15,05 9,62informacao divisao beamforming automatico 8,99 3,36

EVdivisao automatica, mic aleatorio 15,33 12,80

mic automatico 7,87 5,59informacao divisao beamforming automatico 5,62 1,79

N-Best mic automatico 27,42 27,96informacao divisao, mic automatico 8,99 9,84

Tabela 5.2: Media do WER(%) dos comandos lidos do corpora reverb noise (dev e test) do DIRHA II,explorando as tecnicas de seleccao de microfone UBM, o EV e N-Best.

ligeiramente piores, devido a erros na localizacao do evento ou erros de calibraccao no sistema.

O N-Best nao obteve bons resultados na seleccao de microfone, o que sugere que este metodo nao

se adapta a seleccao de microfones distribuıdos por varias divisoes. A diferenca significativa entre os

varios canais e o ruıdo presente impossibilita que de valores coerentes, e o facto de utilizarmos uma

gramatica fechada pode afectar as probabilidades dadas pelo descodificador. Em [61], este metodo

obteve bons resultados numa abordagem de microfones numa so divisao e apenas com a presenca de

reverberacao.

A ultima linha da tabela 5.2 refere-se a testes de seleccao de microfones dentro da divisao onde

ocorreu o evento, para verificar o comportamento do N-Best dentro de uma divisao. Comparando estes

resultados obtidos com a seleccao aleatoria de microfone conhecendo a divisao onde ocorreu o evento

(segunda linha da tabela 4.4), nota-se que o algoritmo nao revelou bons resultados para o test. Neste

ambiente acustico com ruıdo e reverberacao, este algoritmo nao apresenta um bom desempenho.

Comparativamente com os outros dois metodos testados o EV foi o melhor metodo e teve um re-

sultado surpreendente, em particular no caso de seleccao do microfone sem conhecimento previo da

divisao (quinta linha da tabela 5.2). Comparando com a quinta linha da tabela 4.4, e notorio que nos

aproximamos bastante das condicoes ideais. Este metodo tem ainda a vantagem de nao precisar de

ser treinado, como o UBM. No entanto o UBM e muito mais rapido de calcular que o N-Best. Admi-

ravelmente, o EV apresenta resultados proximos do beamforming de todos os microfones da divisao

(segunda linha da tabela 5.1) sem precisar que os microfones estejam calibrados a nıvel de ganho e

seja necessario efectuar a localizacao do falante.

Com estes resultados, demonstrou-se que e desnecessario o calculo da localizacao e processa-

mento do beamforming, quando conseguimos resultados parecidos com um metodo simples a nıvel

complexidade computacional.

Como o algoritmo do EV tem um bom desempenho quando efectua seleccao por microfone, basta

os microfones serem distribuıdos individualmente pela casa, desistindo da instalacao de clusters de

microfones, para obter melhores resultados de reconhecimento, porque assim se garante que em quase

todas as posicoes existe um microfone mais directo para o falante. Esta soluccao nao considera os

inconvenientes para outro tipo de algoritmos, que o sistema pode usar paralelamente, que tiram partido

da correlacao de sinais, e a complexidade fısica de uma instalacao deste genero.

45

Page 64: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

A mudanca do ambiente para varias divisoes e introducao de ruıdo destacou os resultados do EV

relativamente ao N-Best, que tendo em conta o estudo [61], os nossos estudos contradizem. Por

conseguinte, conclui-se que o metodo EV e robusto a reverberacao e ainda mais importante ao ruıdo,

diferenciando-se dos outros algoritmos.

46

Page 65: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Capıtulo 6

Deteccao de fala em ambientes

multi-divisao

Neste capıtulo vamos explorar a deteccao de eventos acusticos e sua classificacao. O objectivo e

detectar os instantes em que ocorrem os eventos acusticos, mais propriamente os eventos de fala.

Esta tarefa e importante para saber quais os segmentos necessarios para efectuar o reconhecimento.

Ate a data, todos os resultados foram obtidos dado o conhecimento do instante em que o evento

inicia e termina. Assim, nao sao processados pelo reconhecedor segmentos sem fala, reduzindo o

numero de insercoes. Num sistema sempre em escuta, como e o caso do DIRHA, e necessario que este

detecte a presenca de fala, para evitar que o reconhecimento de falsos resultados com o ruıdo. Quando

e possıvel, este problema e resolvido informando visualmente o utilizador quando e que deve falar ou

entao o sistema so e accionado perante a pressao de uma tecla. Como o projecto que abordamos e

controlado unicamente por fala, estas opcoes nao estao disponıveis, o que torna o projecto ainda mais

desafiante.

A este desafio juntam-se dificuldades inerentes ao cenario acustico do apartamento ITEA: o uso de

microfones distantes; a sobreposicao frequente de eventos acusticos e ocorrencia em salas diferentes;

assim como as diversas “assinaturas” acusticas e frequencia com que ocorrem, sao factores que apre-

sentam desafios significativos. Por outro lado, estao disponıveis microfones distribuıdos nas areas onde

ocorrem os eventos. E usada essa informacao e ao juntar varios algoritmos, tais como a localizacao da

fonte de ruıdo, melhoria do sinal, ou fusao de esquemas de decisao, e possıvel atenuar as dificuldades

acima mencionadas.

Inicialmente sera abordado o estado de arte da deteccao de eventos. De seguida, o foco estara na

deteccao de fala, no qual vai ser explicado o algoritmo realizado. Por fim, serao descritas abordagens

no contexto multi-sala com varios microfones.

47

Page 66: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

6.1 Deteccao de eventos acusticos

Tem sido proposta uma grande variedade de algoritmos de deteccao de fala baseados no algoritmo

classico desenvolvido por Rabiner e Sambur [46]. Atraves de um processo que envolve a representacao

no domınio temporal do sinal, e a caracterizacao estatıstica de um pequeno segmento de silencio no

inıcio do sinal. Este algoritmo da uma tolerancia para verificar e discriminar fala ou silencio num ambi-

ente onde o SNR e igual ou superior a 30dB. Tem sido investigadas varias abordagens para melhorar

a precisao e robustez do sistema em ambientes ruidosos, focadas em melhores parametrizacoes ou

numa decisao logica mais complexa.

Na literatura existem algoritmos que incluem restricoes semanticas e sintacticas no procedimento

de deteccao [57], ou modelos de 3 estados (fala, silencio e estado de transicao) e heurısticas com

base de conhecimento [51]. Numa abordagem diferente, em [4], o problema foi resolvido tirando par-

tido do reconhecimento de padroes. Este classifica com fala/nao fala usando varias parametrizacoes.

Mais recentemente, em [15], tem sido consideradas varias abordagens de deteccao de fala/nao-fala no

contexto de sala de reunioes com multi-microfones.

Alem da segmentacao de fala/nao fala, tem havido na literatura um crescente interesse em algo-

ritmos mais gerais na deteccao de eventos acusticos. No passado, as pesquisas neste ramo eram

realizadas para um numero limitado de tipo de eventos, por exemplo fala/musica/outros, onde “outros”

poderia ser qualquer outro tipo de som. No entanto, nos ultimos anos o foco mudou para o problema

mais abrangente, com uma analise mais detalhada sobre os variados eventos acusticos. Com o ob-

jectivo de entender o que acontece no ambiente, um grande numero de eventos acusticos tem sido

considerados pela tarefa de classificacao.

A parametrizacao de ficheiros mais usada neste tipo de pesquisa e o MFCC. Mas tambem tem sido

desenvolvidos diferentes metodos de extraccao de parametros tais como coeficientes de Perceptual

Linear Prediction (PLP), sub-bandas de energia, tonicidade, entre outros.

Um grande numero de classificadores, tais como HMM, GMM, SVM e kNN tem sido combinados

com os varios metodos de extraccao de parametros, fornecendo, em geral, resultados satisfatorios em

situacoes concretas. Por exemplo, em [9], e efectuado com sucesso o reconhecimento de eventos

acusticos dentro da casa de banho, com base num classificador HMM e parametrizacao MFCC.

Finalmente, tem surgido muito interesse em ambientes inteligentes com varios microfones, havendo

ja varios trabalhos realizados na deteccao de eventos acusticos com desenvolvimento e avaliacao de

sistemas de classificacao de eventos [7, 24, 53, 54].

6.1.1 Segmentacao Fala/Nao-Fala

A segmentacao de fala/nao-fala do sinal captado pelos canais e um componente crucial, principalmente

num reconhecedor aplicado em ambientes com varias fontes de ruıdo. Este fornece informacoes im-

portantes a outros componentes, como a localizacao automatica do falante, a seleccao de microfones

ou ao sistema de reconhecimento. Por exemplo, nao e necessario o sistema de reconhecimento des-

codificar ruıdos ou silencio. Este componente torna o sistema mais robusto ao ruıdo e reduz o numero

48

Page 67: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

de instrucoes executadas pelo sistema. O modulo detecta actividade de fala no ambiente, atraves da

suavizacao temporal da resposta e a possibilidade de uso de varios microfones. Este segmenta o fluxo

de audio em intervalos de tempo, classificando como fala ou nao.

Nesta tese foi aplicado um classificador Multi Layer Perceptron (MLP) que usa a parametrizacao do

audio PLP.

Classificador MLP com a parameterizacao PLP

O classificador realizado e composto por varios blocos como se encontra representado na figura 6.1.

Figura 6.1: Esquematizacao do processo de detectar fala/nao fala.

O primeiro bloco transforma o audio em parametros, efectuando uma parametrizacao acustica do

sinal de audio. Extrai ate a 12a ordem dos coeficientes PLP [23] e a energia do segmento, efectua as

suas primeiras derivadas, o que resulta num total de 26 parametros acusticos. Estes entram num bloco

classificador que implementa uma rede neuronal MLP, como implementado em [36].

Foi fornecida uma rede neuronal para classificacao treinada com 50 horas de telejornais e 41 horas

de musica variada e outros efeitos sonoros (para aumentar a representacao de sinais sem fala), aplicada

com 19 iteracoes do algoritmo de backpropagation de modo estocastico [48]. A saıda do classificador

neuronal treinado representa a probabilidade do sinal de audio conter fala.

O ultimo bloco de deteccao de fala/nao-fala e uma maquina de estados finitos que recebe como

entrada a probabilidade do sinal ser fala. Este bloco suaviza o sinal de entrada aplicando um filtro de

mediana sobre uma pequena janela temporal (tmin) e impoe um limite maximo a sua gama de valores.

A maquina de estados finita consiste em quatro possıveis estados (“sem fala provavel”, “sem fala”,

“provavel fala”, “fala”). Se o sinal de entrada tem uma probabilidade de “fala” acima de um determinado

coeficiente, a maquina de estado muda para o estado “provavel fala”. Se, depois de um determinado

tempo de intervalo (tmin), a mediana da probabilidade de fala mantem-se superior a esse coeficiente,

a maquina de estados muda para o estado “fala”. Caso contrario, efectua a transicao para o estado

“sem fala”. A maquina de estados finita cria intervalos de segmentos sem fala maiores que a janela da

mediana. Adicionalmente, os segmentos sem fala menores que tmin sao descartados. O valor tmin foi

optimizado para detectar o maximo de segmentos sem fala.

Metrica de avaliacao do segmentador

Existem muitas metricas para avaliar o desempenho do detector de fala/nao fala. Nesta tese foram

usadas as seguintes metricas: precisao, sensibilidade e F-measure.

Antes de explicar as formulas das varias metricas, e importante perceber o significado das siglas

usadas: tp significa o numero de segmentos em que foi detectada fala e havia um evento de fala valido;

49

Page 68: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

tn o numero de segmentos de fala que nao foram detectados e na realidade nao havia mesmo eventos

de fala para detectar; fn o numero de segmentos em que nao foi detectada fala mas havia fala; e fp o

numero de segmentos em que foi detectada fala mas nao havia eventos de fala para detectar.

A precisao e calculada pela seguinte formula:

Precisao =tp

tp + fp, (6.1)

esta obtem a percentagem de segmentos de fala e nao fala detectados correctamente.

O ındice de sensibilidade fornece a percentagem de segmentos correctamente detectados sobre

todos os segmentos de fala existentes e e descrito pela formula:

Sensibilidade =tp

tp + fn. (6.2)

A taxa de acerto do sistema e a relacao de todas as tramas correctamente identificadas sobre o

total, sendo obtida pela formula:

Acerto =tp + tn

tp + tn + fp + fn. (6.3)

A F-measure e uma medida de desempenho que resulta da combinacao da sensibilidade e da

precisao. E calculada pela seguinte formula:

F -measure =2× precisao× sensibilidadeprecisao+ sensibilidade

. (6.4)

6.2 Abordagens de Segmentacao para Toda a Casa

O objectivo desta tarefa e detectar os segmentos de fala que ocorrem numa determinada divisao, ig-

norando os eventos de fala que ocontecem nas outras. Cada segmento detectado por um microfone

e considerado correcto, quando corresponde a um evento de fala que ocorreu na divisao onde esta

instalado esse microfone.

6.2.1 Adaptacao do modelo Multi Layer Perceptron (MLP)

O modelo MLP anteriormente apresentado nao se adapta bem as caracterısticas acusticas do aparta-

mento ITEA. Por isso, com o objectivo de aumentar o desempenho do sistema, treina-se ou adapta-se

o classificador utilizando ficheiros audio adequados, ou seja, ficheiros audio com as mesmas condicoes

acusticas do apartamento.

Para avaliar a viabilidade desta abordagem, primeiro e utilizado o conjunto de treino do BDPUBLICO

mais concretamente o reverb1, descrito em 3.2.1. No classificador com base no MLP sao usadas 4000

frases originais (correspondentes a cerca de 10 horas de audio) das 8082 do conjunto de treino. As

restantes 4082 sao usadas para validar o funcionamento do modelo.

50

Page 69: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Numa segunda abordagem o classificador MLP e adaptado usando os tres conjuntos de desenvol-

vimento (dev) do DIRHA II, com as tres lınguas disponıveis: Italiano (IT), Portugues Europeu (PT) e

Grego (GR). Inserimos outras lınguas para aumentar a quantidade de dados de treino e porque nao

afecta os passos seguintes do reconhecimento. Um total de 1125 ficheiros audio para 3 lınguas, 5 di-

visoes (utilizando um microfone por divisao), e 75 simulacoes do conjunto dev sao usados para adaptar

o modelo. Deste total reservou-se 750 para treino e os restantes 375 para validacao. O MLP e total-

mente adaptado usando uma unica etapa do algoritmo backpropagation. Esta etapa de aprendizagem

e mais simples que a utilizada para a criacao do modelo. Esta adaptacao e a mais apropriada porque

resulta em dados muito proximos das condicoes de teste, na qual se usam os mesmos microfones e

divisoes.

Nos dois casos sao afinados os parametros da maquina de estados finitos, pelo conjunto de dev do

corpus DIRHA II em portugues.

6.2.2 Abordagens Multi-canal

Nesta seccao o objectivo e estudar metodos de segmentacao multi-canal espalhados por toda a casa.

Fusao por Maioria (FM)

Na fusao por maioria, tira-se partido dos varios microfones instalados na casa. Todos os microfones

executam individualmente a deteccao de fala/nao-fala. Se mais de metade dos microfones de uma

determinada divisao detectarem um evento de fala e considerado que ocorreu fala. Como os microfones

estao a distancias diferentes, os segmentos onde ocorre a fala nao sao exactamente iguais entre todos,

por isso e dada uma tolerancia de 1 segundo.

Fusao por Probabilidade (FP)

A fusao de probabilidades e outra abordagem que agrupa os microfones por divisao. Mas desta vez

altera-se as etapas do detector fala/nao-fala. A probabilidade processada pela maquina de estados e a

media das probabilidades fornecidas pelo MLP de cada microfone. Na figura 6.2 estao representados

os blocos do sistema. Nao foram alterados os parametros de afinacao dos blocos.

Nas restantes abordagens desta tese e usado o modelo MLP adaptado com os corpora DIRHA II,

por este obter os melhores resultados.

6.2.3 Avaliacao de Resultados para Toda a Casa

Com o objectivo de comparar os resultados com as varias adaptacoes, foram efectuados testes com

o conjunto test do DIRHA II em Portugues, sendo os resultados apresentados na tabela 6.1. Nas

abordagens mono-canal (1c) foi escolhido um microfone representativo para cada divisao (R1C, B2C,

C1R,KA6 e LA6). Os resultados sao a media dos segmentos detectados em cada divisao.

51

Page 70: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Figura 6.2: Esquematizacao do processo de detectar fala/nao fala pela fusao de probabilidades.

Primeiro foi testado o classificador nao adaptado, apresentando maus resultados na deteccao de

fala e exibindo uma tendencia para marcar como “nao fala” a maioria dos segmentos de fala. Neste

caso, a taxa de acerto apresenta um valor elevado porque os ficheiros sao compostos maioritariamente

por segmentos sem fala, logo o sistema acerta a maior parte das vezes. Por outro lado, a perda de

segmentos de fala penaliza o desempenho do sistema, porque impossibilita que os comandos dados

pelo utilizador sejam processados.

Efectuando a adaptacao do modelo com os dados do DIRHA II, aumentamos a quantidade de seg-

mentos detectados com fala, assim como a precisao de deteccao de fala e “nao fala”, comparativamente

com os dados do BDPUBLICO. Esta melhoria de resultados acontece porque os dados de desenvol-

vimento aproximam-se dos de teste e sao usados os mesmos microfones. No entanto, as tecnicas

que tiram proveito dos varios microfones instalados na casa obtiveram maior desempenho e precisao,

apesar de perderem alguns segmentos de fala.

A deteccao dos segmentos sem fala obteve resultados muito identicos, porque a maior parte dos

segmentos nao contem fala.

Como o objectivo e aumentar a precisao sem perder segmentos de fala, a fusao por probabilidade

e a melhor abordagem porque e a que tem maior precisao e so perde 0,8% dos segmentos comparati-

vamente a fusao por maioria.

Sistema e tipo Fala Nao Fala Totalde adaptacao Sensib. Precisao F-meas. Sensib. Precisao F-meas. Acerto1c-MLP Base 54,7 99,7 70,6 100 95,2 97,5 95,41c-MLP BDPUBLICO 75,4 68,1 71,5 96,0 97,2 96,6 94,01c-MLP DIRHA II 81,0 70,8 75,5 96,3 97,8 97,0 94,7FM-MLP DIRHA II 80,7 74,2 77,3 96,9 97,8 97,3 95,2FP-MLP DIRHA II 79,9 76,1 77,9 97,2 97,7 97,5 95,5

Tabela 6.1: Desempenho em percentagem da segmentacao fala/nao fala usando as diferentes adapta-coes do MLP com as abordagens mono-canal e multi-canal. Sao ignorados os segmentos de fala deoutras divisoes.

6.3 Segmentacao Fala/Nao Fala para Divisoes Especıficas

Nesta seccao, o objectivo e estudar a segmentacao fala/nao-fala que ocorre unicamente numa divisao

especıfica, considerando fala noutras divisoes erradas. Com esta abordagem queremos avaliar se e

52

Page 71: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

possıvel usar os algoritmos anteriores para localizacao da divisao e segmentacao.

6.3.1 Resultados sem Seleccao de Divisao

Sem aplicar a seleccao de divisao, analisamos os detectores de fala/nao fala para o problema de

segmentacao dentro de uma divisao especıfica. Com o objectivo de comparar a nova abordagem

com os resultados anteriores, sao usados os mesmos ficheiros de teste e o modelo MLP adaptado com

o corpus DIRHA II. Tambem e analisado o desempenho dos detectores de fusao pela maioria e pela

probabilidade. Nestes testes, e considerado errado os segmentos de fala que pertencem a outra divisao

da casa, em contraste com o que acontece na seccao 6.2.3 onde estes segmentos eram ignorados.

Comparando os resultados das tabelas 6.1 com a tabela 6.2, verifica-se que nesta ultima a precisao

e muito mais baixa, porque muitos segmentos em que e detectada fala veem de outras divisoes. Pelo

mesmo motivo, tambem pioraram os resultados da taxa de sensibilidade em segmentos sem fala, e

como tal sao considerados errados. Dos varios resultados nenhum dos metodos se destacou, apresen-

tando desempenhos muito proximos.

Por fim, conclui-se que este sistema nao e eficaz na deteccao de fala nos eventos por divisao.

Sistema e tipo Fala Nao Fala Totalde adaptacao Sensib. Precisao F-meas. Sensib. Precisao F-meas. Acerto1c-MLP DIRHA II 81,6 26,1 39,5 81,1 98,2 88,8 81,1FM-MLP DIRHA II 81,4 26,5 40,0 81,5 98,2 89,1 82,5FP-MLP DIRHA II 80,4 27,5 41,0 82,7 98,1 89,7 81,5

Tabela 6.2: Desempenho em percentagem da segmentacao fala/nao fala usando varios sistemas como MLP adaptado pelo corpus DIRHA II. As abordagens estao pormenorizadas na seccao 6.2. E consi-derado errado deteccao de fala nos segmentos de outras divisoes.

6.3.2 Estrategias de Seleccao de Divisao

Conforme referido anteriormente, o algoritmo de segmentacao nao localiza devido aos erros introdu-

zidos por outras divisoes. Para colmatar esta falha, combinamos a deteccao de fala com a seleccao

automatica de divisao.

Dos varios metodos de seleccao estudados, escolhemos o EV por ter obtido o melhor desempe-

nho. Alem deste metodo ter apresentado bons resultados tambem demonstrou ser robusto ao ruıdo,

dando preferencia a microfones em que ha fala. A divisao e seleccionada pela localizacao do primeiro

microfone escolhido pelo EV. Com o detector de fala e o EV foram exploradas duas abordagens de

seleccao.

Inicialmente e executado o MLP com as varias adaptacoes para todas as divisoes. Como resultado,

obtemos os varios segmentos de fala/nao fala por sala. Depois sao alinhados os segmentos de cada

divisao, dando uma tolerancia de 1 segundo. Assim, conseguimos fazer corresponder o mesmo evento

a cada segmento detectado por divisao. Na ultima etapa, consideramos duas possıveis abordagens.

Numa primeira e seleccionado atraves do EV uma das divisoes que detecta fala. Os resultados estao

53

Page 72: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

presentes na tabela 6.3. Numa segunda abordagem o EV pode seleccionar qualquer divisao. Neste

caso, se seleccionar uma divisao que nao detecta fala e considerado um segmento perdido. Podemos

ver os resultados do desempenho desta abordagem em 6.4.

Para as duas abordagens anteriores foram usados tres algoritmos de deteccao de evento, o MLP

adaptado pelo DIRHA II, a fusao por maioria e a fusao de probabilidade.

Sistema e tipo Fala Nao Fala Totalde adaptacao Sensib. Precisao F-meas. Sensib. Precisao F-meas. Acerto1c-MLP DIRHA II 65,9 43,2 52,2 92,9 97,1 95,0 90,9FM-MLP DIRHA II 65,3 46,4 54,3 93,8 97,1 95,4 91,7FP-MLP DIRHA II 65,6 46,9 54,7 93,9 97,1 95,5 91,8

Tabela 6.3: Desempenho em percentagem da segmentacao fala/nao fala usando varios sistemas como MLP adaptado pelo corpus DIRHA II. O EV escolhe uma das divisoes detectadas com fala.

Sistema e tipo Fala Nao Fala Totalde adaptacao Sensib. Precisao F-meas. Sensib. Precisao F-meas. Acerto1c-MLP DIRHA II 59,5 73,2 65,7 98,2 96,7 97,5 95,3FM-MLP DIRHA II 59,6 75,2 66,5 98,4 96,7 97,6 95,5FP-MLP DIRHA II 59,8 74,9 66,5 98,4 96,8 97,6 95,4

Tabela 6.4: Desempenho em percentagem da segmentacao fala/nao fala usando varios sistemas como MLP adaptado pelo corpus DIRHA II. O EV escolhe qualquer divisao.

Analise de resultados das duas abordagens de EV com deteccao de fala

Na primeira abordagem (tabela 6.3), a sensibilidade aumenta porque so selecciona divisoes onde foi

detectada fala. No entanto, a precisao reduz bastante comparativamente a tabela 6.4, porque quando

ocorre um evento de fala, este e detectado por varias divisoes e muitas vezes o EV acaba por selecci-

onar a divisao errada.

O segundo metodo apresenta melhor desempenho (F-meas), porque por vezes e escolhida uma

divisao em que nao foi detectada fala. Como neste caso o sistema selecciona de facto segmentos

sem fala, este so considera errada a divisao onde ocorreu o evento e todos os outros segmentos sao

considerados correctos. Neste caso, a perda de segmentos de fala na deteccao nao e significativo

tendo em conta a sua precisao.

Comparando as tabelas 6.2 e 6.3, podemos verificar que a introducao do EV aumenta o desempe-

nho do sistema em cerca de 25%. Deste modo, conclui-se que e vantajoso aplicar o EV na segmentacao.

Nota-se, que os tres tipos de detectores apresentam resultados muito identicos. No entanto a fusao

por probabilidade foi o que obteve em media melhores resultados.

Caso nao seja muito penalizante para o sistema perder segmentos de fala, acaba por ser mais

vantajoso usar a segunda abordagem. Como exemplo de uma situacao deste tipo, tem-se a etapa de

activacao do sistema.

54

Page 73: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Mesmo usando o EV, os resultados da segmentacao nao foram tao elevados comparativamente aos

resultados do reconhecimento. Isto ocorre, porque um evento seleccionado por um microfone de uma

divisao diferente da que ocorreu pode ser bem reconhecido e na segmentacao e considerado errado.

55

Page 74: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

56

Page 75: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Capıtulo 7

Conclusoes e Trabalhos Futuros

7.1 Conclusoes

Esta tese analisou tecnicas para construir um sistema robusto para o reconhecimento de fala captada

a distancia, num ambiente domestico, composto por varias divisoes, num cenario complexo, em que

esta presente a reverberacao e outros ruıdos, tendo sido utilizado uma rede de microfones distribuıdos

pelas diferentes salas.

Os metodos de melhoramento do reconhecimento de voz para este tipo de aplicacao tem sido am-

plamente estudados e descritos em literatura, mas tanto quanto conseguimos apurar, nao sao aborda-

dos num cenario com varias divisoes em que estao presentes varias fontes sonoras.

Partindo desta constatacao, o foco do nosso trabalho incidiu na procura de solucoes multi-microfone

adequadas para a domotica.

Num sistema de reconhecimento de fala, o principal componente e o modelo acustico, que e treinado

com um corpus constituıdo por ficheiros audio e suas transcricoes. Quanto mais proximo os ficheiros

de treino tiverem das condicoes acusticas de teste, mais eficaz e o reconhecimento. O conjunto usado

para treino foi o BDPUBLICO, constituıdo pelas gravacoes de 120 alunos do IST.

Para tornar o modelo acustico robusto, foi usado o BDPUBLICO contaminado com as respostas

impulsivas e outros ruıdos obtidos pela rede de microfones instalada no apartamento ITEA. A resposta

impulsiva caracteriza a reverberacao criada dentro do apartamento. Com as respostas impulsivas de

diferentes microfones criaram-se quatro modelos acusticos com diferentes nıveis de contaminacao: i) o

modelo, Clean, criado com os ficheiros audio de treino do BDPUBLICO; ii) o modelo Reverb1 identico

ao Clean contaminado com reverberacao e algum ruıdo; iii) o modelo ReverbR da mesma forma que

o anterior mas com mais reverberacao e mais ruıdo; iv) o reconhecedor Mix treinado com os ficheiros

audio usados no modelo Clean, Reverb1 e ReverbR, que foi o que obteve maior sucesso ao reconhecer

os ficheiros de teste do BDPUBLICO contaminados das tres diferentes formas.

Foi utilizado outro corpus, chamado DIRHA-simcorpora II, que simula de forma realista as condicoes

acusticas de uma casa com uma rede de microfones, efectuando a convolucao das respostas impulsi-

vas com gravacoes limpas de comandos lidos de domotica. Estes ficheiros audio tambem contem ruıdo

57

Page 76: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

de outras pessoas a falar, aparelhos domesticos, meios audiovisuais entre outros.

Com os varios reconhecedores criados anteriormente foi analisado o seu comportamento por micro-

fone tendo em conta a divisao onde ocorreu o evento de fala. Neste novo corpus, o modelo Mix voltou

a destacar-se como o melhor, logo foi o seleccionado para os restantes metodos analisados na tese.

Com este corpus, conclui-se que os microfones da divisao onde ocorreu o evento apresentaram me-

lhores resultados de reconhecimento e que o melhor microfone varia consoante o evento, nao existindo

um microfone favorito por divisao.

Para aumentar o desempenho do sistema e tirar proveito dos varios microfones foi aplicado um filtro

espacial, ou beamforming. Aplicando o beamformer delay-and-sum, que alinha os diferentes canais e

soma-os, analisou-se a combinacao de microfones que obteve melhor reconhecimento, com o conhe-

cimento da divisao onde ocorreu o evento. E de salientar que qualquer agrupamento de microfones

pre-definido obteve em media melhores resultados que os microfones individualmente.

Em media para todos os eventos confirmou-se que o agrupamento de todos os microfones da di-

visao onde ocorreu o evento obteve mais sucesso. No entanto, a seleccao do melhor agrupamento de

microfones por evento e mais favoravel do que a abordagem anterior.

O estudo do reconhecimento pelos varios agrupamentos de microfones ou microfones individual-

mente mostrou que o melhor esta relacionado com a qualidade do sinal. Este e diferente dependendo

das caracterısticas da divisao da casa e da posicao da fonte e dos microfones. Seleccionando o me-

lhor microfone para cada evento, obtem-se bons resultados de reconhecimento. Aproveitando esta

caracterıstica aplicou-se metodologias de seleccao de microfone ou agrupamento de microfones.

A tecnica de seleccao de microfone parte do pressuposto que quanto melhor o sinal captado mais

sucesso tera no reconhecimento, existem algoritmos que efectuam esta analise e seleccionam o canal

que tem maior probabilidade de reconhecer mais correctamente.

Existem duas categorias de algoritmos de seleccao, uma realizada na etapa do pre-processamento

do sinal, e outra na etapa final do descodificador. Os algoritmos que escolhem o microfone na etapa

inicial do reconhecedor geralmente tem pouca exigencia computacional, uma vez que efectuam a

seleccao do microfone antes do processo de reconhecimento, e assim sendo apenas e realizado o

reconhecimento do microfone seleccionado. Por outro lado, os algoritmos que seleccionam na etapa

final do reconhecedor necessitam que todos os microfones sejam reconhecidos, mas tem a vantagem

que a sua escolha e sobre os resultados do reconhecedor.

Propusemos um novo metodo de seleccao de microfones baseado na probabilidade de um modelo

UBM criado para o proposito. Este modelo, mais simples que o modelo acustico do reconhecedor, e

treinado com o conjunto de treino usado para criar o reconhecedor, logo e de esperar que eles sejam

semelhantes. Este modelo simplificado calcula a probabilidade para cada canal e escolhe o que tiver

a probabilidade mais elevada, ou seja, o canal que combina melhor com o modelo acustico e que

provavelmente sera bem reconhecido.

Para alem do UBM foram testados mais dois algoritmos de seleccao de microfones. Dos varios

metodos que apresentaram bons resultados na literatura, escolheu-se um baseado no processamento

do sinal, EV, e outro nos resultados do descodificador, N-Best. Os melhores resultados foram apresen-

58

Page 77: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

tados pelo EV, chegando muito perto da seleccao ideal de microfones. O UBM apresentou resultados

medianos comparativamente com o EV, e por fim, o N-Best nao e eficaz para esta tarefa devido a

presenca de varias divisoes, adicao de varios ruıdos e uma reverberacao acentuada no conjunto usado

para testes.

A nıvel computacional, o EV e o mais leve dos tres metodos testados. Este baseia-se em escolher

o canal com menos reverberacao, que e o tipo de ruıdo que mais perturba o reconhecimento.

E de referir que o novo metodo UBM tambem tem um peso computacional muito baixo, comparati-

vamente aos algoritmos que requerem o reconhecimento de todos os canais.

A combinacao do EV com o beamforming obteve o melhor resultado. No entanto, pela proximidade

de resultados e preferıvel a seleccao de microfone pelo EV, quer pelo peso computacional quer pelo

facto do beamforming usado ser o ideal, isto e, com o conhecimento da posicao, um beamforming real

poderia introduzir mais erros.

Finalmente, tendo em conta os metodos estudados, consegue-se um reconhecimento robusto de

fala numa aplicacao de domotica, seleccionando o melhor microfone pelo EV e efectuando o seu reco-

nhecimento com o modelo acustico Mix.

Para alem do problema do reconhecimento, foi elaborado um detector de fala/nao fala com o objec-

tivo de tornar o sistema mais robusto, evitando falsas transcricoes na presenca de ruıdo. O detector

utiliza os parametros PLP com uma rede neuronal MLP. O MLP foi adaptado com o conjunto de treino

do BDPUBLICO e com o conjunto de desenvolvimento do DIRHA-simcorpora II. Este ultimo obteve os

melhores resultados. Para aumentar o desempenho do detector tirando partido dos varios microfones,

foram implementadas duas abordagens. Na primeira, se for detectada fala em mais de metade dos

microfones de uma divisao, o sistema considera que existe fala nesta. A segunda abordagem, que ob-

teve melhores resultados, efectua a media das probabilidades fornecidas pelo MLP. Concluımos que o

detector de fala/nao fala considera muitas vezes eventos que ocorreram noutras divisoes, nao estando

apto para detectar o local do evento. Por esse motivo, aplicou-se a seleccao automatica de microfone

pelo metodo EV juntamente com o detector de fala, usando duas abordagens.

O EV, escolhe uma das divisoes em que foi detectada fala e considera errado se nao tiver ocorrido

fala na divisao seleccionada e naquela onde de facto ocorreu o evento. Este resultou na melhoria da

precisao comparativamente as experiencias sem EV. Na segunda abordagem a diferenca reside no

facto do EV puder escolher qualquer divisao. Esta ultima obtem maior desempenho porque o EV pode

seleccionar segmentos que nao tem fala, sendo uma boa escolha em sistemas de reconhecimento que

toleram perda de segmentos de fala.

Esta tese mostrou que em situacoes muito adversas e possıvel efectuar deteccao de reconheci-

mento de fala com sucesso num contexto de domotica. Todos os objectivos propostos foram alcancados.

A tese deu origem ao artigo Recognition of distant voice commands for home applications in Portuguese

[34], aceite para publicacao em IberSPEECH2014.

Os algoritmos de deteccao de fala foram testados numa competicao internacional, Evalita 2014

(Evaluation of Natural Language Processing and Speech Tools for Italian) [22], obtendo excelentes

resultados.

59

Page 78: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

7.2 Trabalhos futuros

Apesar do sucesso apresentado nos resultados desta tese ainda ha espaco para melhorias futuras

nestas areas de pesquisa. Esta tese foi direccionada para construir um sistema com o melhor desem-

penho possıvel no tempo util existente, nao tendo havido oportunidade de explorar todos os algoritmos

existentes na literatura. No entanto, estando a domotica cada vez mais presente, faz todo o sentido

testar mais algoritmos num ambiente com varias salas.

Os metodos de seleccao de canal desta tese foram a nıvel espacial. No entanto, e possıvel selec-

cionar os melhores canais por espectro de frequencias, partindo da ideia de que o sinal audio sofre

diferentes distorcoes dependendo da frequencia. Ao selecionar o melhor canal para cada sub-banda,

possivelmente, o reconhecimento tera maior sucesso.

Outra estrategia e avaliar o desempenho dos algoritmos de seleccao de microfone enquanto o fa-

lante se desloca no espaco. Como nao foi possıvel aceder a um corpus com estas caracterısticas, nao

foi realizada uma avaliacao com esta abordagem.

Outro tipo de abordagens futuras e a inclusao de mais algoritmos de forma a auxiliar o processa-

mento do sinal e seleccao de microfone. Os algoritmos de beamforming tem sido amplamente desenvol-

vidos e podem ser combinados com metodos de seleccao de canal para eleger o melhor agrupamento

de microfones. A escolha de microfones ou agrupamento de microfones tambem pode tirar proveito de

outras tecnologias, como deteccao de eventos, e com o conhecimento da posicao, evitar os microfones

que se avizinhem de determinadas fontes de ruıdo.

Nos dias de hoje as empresas comecam a efectuar o cruzamento de informacao entre os diferen-

tes electrodomesticos. Num projecto de domotica integrando o reconhecimento de fala, sera possıvel

eliminar os ruıdos de determinados aparelhos, conhecendo o ruıdo original provocado por estes. Com

todos os aparelhos ligados em rede, qualquer electrodomestico pode informar que esta ligado e em que

gama de frequencias esta a afectar o espectro sonoro. Com esta informacao o reconhecedor efectua

correccoes no sinal captado nos microfones a distancia. Na mesma linha de ideias, com a informacao

do sinal original reproduzido pelos meios audiovisuais e possıvel diminuir a influencia destes ruıdos no

sinal captado pelos microfones.

Podem ser aplicados algoritmos para resolver situacoes mais complexas, por exemplo, quando te-

mos diferentes utilizadores em salas distintas a comandar a casa. Explorando diversas ferramentas de

processamento de sinal e possıvel detectar se a fala em cada sala e do mesmo falante, usando por

exemplo o Bayesian Information Criterion (BIC) [10]. Ao verificar que nao se trata do mesmo utilizador,

usa-se um beamforming por divisao a apontar para o falante respectivo. Cada beamformer cancelara

os sinais vindos do outro utilizador, efectuando um reconhecimento de cada comando e processando

posteriormente os dois comandos recebidos.

Note-se no entanto que as estrategias sugeridas tem um peso computacional mais elevado que as

realizadas nesta tese, pelo que e sempre necessario verificar a sua relacao custo-benefıcio.

60

Page 79: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

Bibliografia

[1] DIRHA project. http://dirha.fbk.eu/, 2012.

[2] P. Aarabi. The fusion of distributed microphone arrays for sound localization. EURASIP J. Appl.

Signal Process., 2003:338–347, January 2003.

[3] B. Atal. Effectiveness of linear prediction characteristics of the speech wave for automatic speaker

identification and verification. The Journal of the Acoustical Society of America, 55(6):1304–1312,

1974.

[4] B. Atal and L. Rabiner. A pattern recognition approach to voiced-unvoiced silence classification with

applications to speech recognition. IEEE Trans on Acoustics, Speech, and Signal Proc., ASSP-

24:201–12, 1976.

[5] S. Boll. Suppression of acoustic noise in speech using spectral subtraction. Acoustics, Speech and

Signal Processing, IEEE Transactions on, 27(2):113–120, Apr 1979.

[6] A. Brutti, M. Omologo, and P. Svaizer. Oriented global coherence field for the estimation of the

head orientation in smart rooms equipped with distributed microphone arrays. In INTERSPEECH,

pages 2337–2340. ISCA, 2005.

[7] T. Butko, F. Gonzalez, C. Segura, C. Nadeu, and J. Hernando. Two-source acoustic event detection

and localization: online implementation in a smart-room. In 17th European Signal Processing

Conference (EUSIPCO 2011), pages 1317–1321, Barcelona, Espanya, 2011.

[8] J. Chen, J. Benesty, and Y. Huang. Robust time delay estimation exploiting redundancy among

multiple microphones. Speech and Audio Processing, IEEE Transactions on, 11(6):549–557, Nov

2003.

[9] J. Chen, J. Zhang, A. Kam, and L. Shue. An automatic acoustic bathroom monitoring system. In

Circuits and Systems, 2005. ISCAS 2005. IEEE International Symposium on, pages 1750–1753

Vol. 2, May 2005.

[10] S. Chen and P. Gopalakrishnan. Speaker, environment and channel change detection and clus-

tering via the bayesian information criterion. In Proc. DARPA Broadcast News Transcription and

Understanding Workshop, pages 127–132, 1998.

61

Page 80: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

[11] L. Couvreur and C. Couvreur. Blind model selection for automatic speech recognition in reverberant

environments. In Jhing-Fa Wang, Sadaoki Furui, and Biing-Hwang Juang, editors, Real World

Speech Processing, pages 115–129. Springer US, 2004.

[12] L. Couvreur, C. Couvreur, and C. Ris. A corpus-based approach for robust asr in reverberant

environments. In INTERSPEECH, pages 397–400, 2000.

[13] L. Cristoforetti, M. Ravanelli, M. Omologo, A. Sosi, A. Gareta, M. Hagmueller, and P. Maragos.

The dirha simulated corpus. In Nicoletta Calzolari (Conference Chair), Khalid Choukri, Thierry De-

clerck, Hrafn Loftsson, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk, and Stelios

Piperidis, editors, Proceedings of the Ninth International Conference on Language Resources and

Evaluation (LREC’14), Reykjavik, Iceland, may 2014. European Language Resources Association

(ELRA).

[14] S. Davis and P. Mermelstein. Comparison of parametric representations for monosyllabic word

recognition in continuously spoken sentences. IEEE Transactions on Acoustics, Speech and Signal

Processing, 28(4):357–366, August 1980.

[15] J. Fiscus, J. Ajot, M. Michel, and J. Garofolo. The rich transcription 2006 spring meeting recognition

evaluation. In Steve Renals, Samy Bengio, and Jonathan G. Fiscus, editors, MLMI, volume 4299

of Lecture Notes in Computer Science, pages 309–322. Springer, 2006.

[16] G. Forney. The viterbi algorithm. Proceedings of the IEEE, 61(3):268–278, March 1973.

[17] M. Gales and S. Young. Cepstral parameter compensation for hmm recognition in noise. Speech

Commun., 12(3):231–239, July 1993.

[18] A. Gareta and et alt. Deliverable d4.2 first report on novel techniques for distant-speech and speaker

recognition, 2014.

[19] A. Gareta and F. Pericas. A Multi-microphone Approach to Speech Processing in a Smart-room

Environment. Universitat Politecnica de Catalunya. Departament de Teoria del Senyal i Comunica-

cions, 2007.

[20] J. Gauvain and C. Lee. Maximum a posteriori estimation for multivariate gaussian mixture observa-

tions of markov chains. Speech and Audio Processing, IEEE Transactions on, 2(2):291–298, Apr

1994.

[21] B. Gillespie, H. Malvar, and D. Florencio. Speech dereverberation via maximum-kurtosis subband

adaptive filtering. In Acoustics, Speech, and Signal Processing, 2001. Proceedings. (ICASSP ’01).

2001 IEEE International Conference on, volume 6, pages 3701–3704 vol.6, 2001.

[22] NLP Group. Evalita. http://www.evalita.it/2014, 2014.

[23] H. Hermansky, N. Morgan, A Bayya, and P. Kohn. Rasta-plp speech analysis technique. In Acous-

tics, Speech, and Signal Processing, 1992. ICASSP-92., 1992 IEEE International Conference on,

volume 1, pages 121–124 vol.1, Mar 1992.

62

Page 81: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

[24] J. Huang, X. Zhuang, V. Libal, and G. Potamianos. Long-time span acoustic activity analysis from

far-field sensors in smart homes. In ICASSP, pages 4173–4176. IEEE, 2009.

[25] M. Jeub, C. Nelke, C. Beaugeant, and P. Vary. Blind estimation of the coherent-to-diffuse energy

ratio from noisy speech signals. In Proc. EUSIPCO 2011, 2011.

[26] H. Jiang. Abstract confidence measures for speech recognition: A survey, 2004.

[27] D. Johnson and D. Dudgeon. Array signal processing : concepts and techniques. P T R Prentice

Hall Englewood Cliffs, NJ, 1993.

[28] K. Kinoshita, M. Delcroix, T. Nakatani, and M. Miyoshi. Suppression of late reverberation effect

on speech signal using long-term multiple-step linear prediction. Audio, Speech, and Language

Processing, IEEE Transactions on, 17(4):534–545, May 2009.

[29] K. Kumar and R. Stern. Maximum-likelihood-based cepstral inverse filtering for blind speech de-

reverberation. In Acoustics Speech and Signal Processing (ICASSP), 2010 IEEE International

Conference on, pages 4282–4285, March 2010.

[30] C. Leggetter and P. Woodland. Maximum likelihood linear regression for speaker adaptation of

continuous density hidden markov models, 1995.

[31] R. Lippmann, E. Martin, and D. Paul. Multi-style training for robust isolated-word speech recogni-

tion. In Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP ’87.,

volume 12, pages 705–708, Apr 1987.

[32] M. Lorenz, K. Lohde, R. Petrick, and R. Hoffmann. A new feature analysis method for robust asr in

reverberant environments based on the harmonic structure of speech. 2008.

[33] E. Masgrau, L. Aguilar, and E. Lleida. Performance comparison of several adaptive schemes for

microphone array beamforming. In EUROSPEECH. ISCA, 1999.

[34] M. Matos, A. Gareta, R. Astudillo, and I. Trancoso. Recognition of distant voice commands for home

applications in portuguese, 2014.

[35] R. McAulay and M. Malpass. Speech enhancement using a soft-decision noise suppression filter.

Acoustics, Speech and Signal Processing, IEEE Transactions on, 28(2):137–145, Apr 1980.

[36] H. Meinedo. Audio pre-processing and speech recognition for broadcast news. Universidade

Tecnica de Lisboa, Diss, 2008.

[37] M. Miyoshi and Y. Kaneda. Inverse filtering of room acoustics. Acoustics, Speech and Signal

Processing, IEEE Transactions on, 36(2):145–152, Feb 1988.

[38] A. Mohamed, D. Yu, and L. Deng. Investigation of full-sequence training of deep belief networks for

speech recognition. In Annual Conference of the International Speech Communication Association,

pages 2846–2849, 2010.

63

Page 82: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

[39] M. Mohri, F. Pereira, and M. Riley. Weighted finite-state transducers in speech recognition. Com-

puter Speech and Language, 16:69–88, 2002.

[40] N. Morgan and H. Bourlard. An Introduction to Hybrid HMM/Connectionist Continuous Speech

Recognition. IEEE Signal Processing Magazine, pages 25–42, May 1995.

[41] J. Neto, C. Martins, H. Meinedo, and L. Almeida. The design of a large vocabulary speech corpus

for Portuguese. In Proc. of EUROSPEECH, pages 1707–1710, 1997.

[42] H. Ney, R. Haeb-Umbach, B. Tran, and M. Oerder. Improvements in beam search for 10000-word

continuous speech recognition. In International Conference on Acoustics, Speech, and Signal

Processing, volume 1, 1992.

[43] Y. Obuchi. Multiple-microphone robust speech recognition using decoder-based channel selection.

Advanced Research Laboratory Hitachi Ltd, 2004.

[44] S. Ortmanns and H. Ney. The time-conditioned approach in dynamic programming search for

LVCSR. IEEE Transactions on Speech and Audio Processing, 8:676–687, 2000.

[45] L. Rabiner. A tutorial on hidden markov models and selected applications in speech recognition.

Proceedings of the IEEE, 77(2):257–286, Feb 1989.

[46] L. Rabiner and M. Sambur. An algorithm for determining the endpoints of isolated utterances. Bell

System Technical Journal, 54(2):297–315, 1975.

[47] L. Rabinier. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition.

Proceedings of The IEEE, 1989.

[48] M. Ravanelli and M. Omologo. Deliverable d3.2 multi-microphone front-end, 2013.

[49] M. Ravanelli and M. Omologo. Deliverables 2.1, 2.3, 2.4 dirha-simcorpora i and ii, 2014.

[50] D. Reynolds, T. Quatieri, and R. Dunn. Speaker verification using adapted gaussian mixture models.

In Digital Signal Processing, pages 19–41, 2000.

[51] M. Savoji. A robust algorithm for accurate endpointing of speech signals. Speech Commun.,

8(1):45–60, March 1989.

[52] T. Takiguchi and Y. Ariki. Robust feature extraction using kernel pca. In Acoustics, Speech and

Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on, vo-

lume 1, pages I–I, May 2006.

[53] A. Temko, R. Malkin, C. Zieger, D. Macho, C. Nadeu, and M. Omologo. Clear evaluation of acoustic

event detection and classification systems. In Rainer Stiefelhagen and John S. Garofolo, editors,

CLEAR, volume 4122 of Lecture Notes in Computer Science, pages 311–322. Springer, 2006.

[54] A. Temko and C. Nadeu. Acoustic event detection in meeting-room environments. Pattern Recog-

nition Letters, 30(14):1281–1288, 2009.

64

Page 83: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

[55] K. Vertanen. Baseline WSJ acoustic models for HTK and Sphinx: Training recipes and recognition

experiments. Technical report, Cavendish Laboratory, University of Cambridge, 2006.

[56] O. Viikki and K. Laurila. Cepstral domain segmental feature vector normalization for noise robust

speech recognition. Speech Commun., 25(1-3):133–147, August 1998.

[57] J. Wilpon, L. Rabiner, and T. Martin. An improved word-detection algorithm for telephone-quality

speech incorporating both syntactic and semantic constraints. AT T Bell Laboratories Technical

Journal, 63:479–498, March 1984.

[58] M. Wolf. Channel Selection and Reverberation-Robust Automatic Speech Recognition. PhD, Uni-

versitat Politecnica de Catalunya (UPC), 2013.

[59] M. Wolf and C. Nadeu. Towards microphone selection based on room impulse response energy-

related measures. In I Joint SIG-IL/Microsoft Workshop on Speech and Language Technologies for

Iberian Languages, Porto Salvo, Portugal, pages 61–64, September 2009.

[60] M. Wolf and C. Nadeu. On the potential of channel selection for recognition of reverberated speech

with multiple microphones. In INTERSPEECH, pages 574–577, 2010.

[61] M. Wolf and C. Nadeu. Channel selection using n-best hypothesis for multi-microphone asr. In

Frederic Bimbot, Christophe Cerisara, Cecile Fougeron, Guillaume Gravier, Lori Lamel, Francois

Pellegrino, and Pascal Perrier, editors, INTERSPEECH, pages 3507–3511. ISCA, 2013.

[62] M. Wolfel, C. Fugen, S. Ikbal, and J. Mcdonough. Multi-source far-distance microphone selection

and combination for automatic transcription of lectures. In in INTERSPEECH, 2006.

[63] S. Young et al. SAMPA - computer readable phonetic alphabet. http://www.phon.ucl.ac.uk/

home/sampa.

[64] S. Young et al. HTK – Hidden Markov Model Toolkit, 2006.

[65] S. Young, N. Russell, and J. Thornton. Token passing: a conceptual model for connected speech

recognition systems. Technical report, Cambridge University, 1989.

65

Page 84: Reconhecimento Robusto de Fala com Redes de Microfones em … · A minha av` o, que j´ a n´ ao se encontra entre n˜ os, expresso o meu sentimento de amizade e gratid´ ao,

66