compreensão da linguagem falada

72
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE INFORMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO Compreensão da Linguagem Falada por DANIEL NEHME MÜLLER Exame de Qualificação EQ-72 PPGC-UFRGS Prof. Dr. Philippe O. A. Navaux Orientador Porto Alegre, março de 2002

Upload: clarinete

Post on 13-Jun-2015

1.140 views

Category:

Documents


18 download

TRANSCRIPT

Page 1: compreensão da linguagem falada

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

INSTITUTO DE INFORMÁTICA

PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO

Compreensão daLinguagem Falada

por

DANIEL NEHME MÜLLER

Exame de Qualificação

EQ-72 PPGC-UFRGS

Prof. Dr. Philippe O. A. Navaux

Orientador

Porto Alegre, março de 2002

Page 2: compreensão da linguagem falada

2

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SULReitora: Wrana PanizziPró-Reitor Adjunto de Pós-Graduação: Jaime Evaldo FensterseiferDiretor do Instituto de Informática: Philippe O. A. NavauxCoordenador do PPGC: Carlos Alberto HeuserBibliotecária-Chefe do Instituto de Informática: Beatriz Haro

Page 3: compreensão da linguagem falada

Sumário

1 Compreensão da Linguagem Falada 111.1 Breve histórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.2 Organização deste trabalho . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 Reconhecimento Automático de Fala 172.1 Conceitos Elementares da Fala e da Audição . . . . . . . . . . . . . . . 17

2.1.1 Formação da Fala . . . . . . . . . . . . . . . . . . . . . . . . . 172.1.2 Audição Humana . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2 Processamento do Sinal da Fala . . . . . . . . . . . . . . . . . . . . . . 212.2.1 Extração de Coeficientes . . . . . . . . . . . . . . . . . . . . . . 23

2.3 Métodos Classificatórios do Sinal da Fala . . . . . . . . . . . . . . . . . 272.3.1 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . 282.3.2 Modelos de Markov Ocultos . . . . . . . . . . . . . . . . . . . . 30

3 Processamento de Linguagem Natural 333.1 Análise morfológica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.2 Análise sintática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.2.1 Etiquetagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.2.2 Construção Gramatical . . . . . . . . . . . . . . . . . . . . . . . 36

3.3 Análise Semântica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.3.1 Gramáticas Semânticas . . . . . . . . . . . . . . . . . . . . . . . 383.3.2 Gramáticas Baseadas em Casos . . . . . . . . . . . . . . . . . . 39

3.4 Análise Pragmática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4 Processamento da Linguagem Falada 414.1 SCREEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.2 Análise da Linguagem Falada . . . . . . . . . . . . . . . . . . . . . . . 47

4.2.1 Regras e Quadros na Análise Estatística da Linguagem Falada . . 474.2.2 Análise de Segmentos com uso de Redes Neurais Artificiais . . . 49

5 O Processo de Interação Entre A Fala e A Compreensão - A Prosódia 535.1 Elementos Prosódicos do Sinal de Fala . . . . . . . . . . . . . . . . . . . 545.2 Identificação e Classificação de características prosódicas no sinal de fala 56

5.2.1 Modelagem de Entonação . . . . . . . . . . . . . . . . . . . . . 575.3 Uso da prosódia no parsing da linguagem falada . . . . . . . . . . . . . 59

5.3.1 Prosódia na sintaxe . . . . . . . . . . . . . . . . . . . . . . . . . 595.3.2 Prosódia na semântica . . . . . . . . . . . . . . . . . . . . . . . 605.3.3 Prosódia na pragmática - os atos de diálogo . . . . . . . . . . . . 61

3

Page 4: compreensão da linguagem falada

4

6 Conclusões 64

Page 5: compreensão da linguagem falada

Lista de Abreviaturas

ASR Automatic Speech RecognitionANN Artificial Neural NetworkCART Classification and Regression TreesCRF Chunk Relation FinderDM Dialogue ModelF0 Freqüência FundamentalF1 Primeiro Grupo de Formantes (Harmônicas)FST Finit-State TransducerHMM Hidden Markov ModelsIA Inteligência ArtificialIM Intonation ModelLFL Linguistic Feature LabelerLM Language ModelLPC Linear Predictive CodingNLP Natural Language ProcessingRTN Recursive Transition NetworkSCREEN Simbolic Connectionist Robust EnterprisE for Natural languageSLU Spoken Language UnderstandingTBL Transformation-Based LearningTDNN Time Delay Neural Network

5

Page 6: compreensão da linguagem falada

Lista de Figuras

1.1 Áreas em estudo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1 Trato vocal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.2 Secção da laringe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.3 Aparelho auditivo humano. . . . . . . . . . . . . . . . . . . . . . . . . . 192.4 Percurso da onda sonora no aparelho auditivo. . . . . . . . . . . . . . . . 202.5 Corte transversal da cóclea. No centro vêem-se as células ciliadas e a seu

lado as rampas vestibular e timpânica. . . . . . . . . . . . . . . . . . . . 202.6 Células sensórias da membrana tectorial. . . . . . . . . . . . . . . . . . . 202.7 Faixas de recepção do sinal na cóclea. . . . . . . . . . . . . . . . . . . . 212.8 Órgão de pré-processamento auditivo no cérebro. . . . . . . . . . . . . . 212.9 Onda contínua. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.10 Onda discreta (amostrada). . . . . . . . . . . . . . . . . . . . . . . . . . 222.11 Rede neural backpropagation. . . . . . . . . . . . . . . . . . . . . . . . 282.12 Exemplo de modelagem HMM para a palavra about. . . . . . . . . . . . 31

3.1 Componentes do Processamento de Linguagem Natural. . . . . . . . . . 333.2 Árvore de parser. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.3 Árvore de parser com indicações de probabilidade. . . . . . . . . . . . . 373.4 Árvore de parser com anexo semântico. . . . . . . . . . . . . . . . . . . 38

4.1 Sistema de Compreensão da Linguagem . . . . . . . . . . . . . . . . . . 424.2 Esquema completo do sistema SCREEN [WER 97]. . . . . . . . . . . . . 434.3 Rede recorrente utilizada na avaliação sintática de fala [WER 97]. . . . . 444.4 Rede de decisão para correção de palavras redundantes [WER 97]. . . . . 464.5 Rede recorrente da parte de diálogo [WER 96]. . . . . . . . . . . . . . . 474.6 Exemplo de grafo gerado pelo GLR* [LAV 96b]. . . . . . . . . . . . . . 484.7 Seqüencia de construção das RTN (adaptado de [KAY 99a]). . . . . . . . 484.8 Treinamento do FeasPar [BUO 96b]. . . . . . . . . . . . . . . . . . . . . 494.9 Exemplo de rede neural utilizada no etiquetador [BUO 96b]. . . . . . . . 504.10 Exemplo de execução do FeasPar [BUO 96b]. . . . . . . . . . . . . . . . 514.11 Agenda e fragmentos armazenados [BUO 96b]. . . . . . . . . . . . . . . 52

5.1 Trecho de fala com especificação dos elementos prosódicos [KOM 97]. . 555.2 Árvore de Classificação e Regressão [WRI 99]. . . . . . . . . . . . . . . 585.3 Modelagem sintático-prosódica [GAL 02]. . . . . . . . . . . . . . . . . . 605.4 Seqüência de verificação de atos de diálogo. A partir da melhor hipótese

do reconhecedor de palavras (a), são determinados os limites das frasessintáticas (b) e é buscado o ato de diálogo mais adequado (c). . . . . . . . 62

6

Page 7: compreensão da linguagem falada

7

5.5 Conjunto de redes TDNN destinadas a identificar atos de diálogo [KIP 98]. 635.6 Representação da codificação da etiqueta para o token well [KIP 98]. . . . 63

Page 8: compreensão da linguagem falada

Lista de Tabelas

3.1 Tabela de sufixos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.2 Etiquetagem sintática. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

8

Page 9: compreensão da linguagem falada

Resumo

O presente exame trata da compreensão da linguagem falada, que tem por base a compo-sição dos recursos do reconhecimento de fala com o processamento de linguagem natural.Esta abordagem implica no estudo desde a aquisição do sinal de fala até a modelagem dediálogos, passando pela construção de modelos de linguagem.

O estudo do processamento da linguagem falada é distinto da linguagem escrita. Istoporque a linguagem falada é passível de interrupções, não segue regras gramaticais, etende a ser mais espontânea. Portanto, seu processamento é baseado em técnicas estatís-ticas que visam a captura de construções lingüísticas mais ou menos constantes.

É exatamente explorando as características da expressão da fala que novos estudosapontam a prosódia como informação essencial no processo de compreensão da lingua-gem falada. Através do processamento dos sinais prosódicos no sinal de fala é possívelincrementar o reconhecimento das palavras, otimizar o parsing e inferir contextos de diá-logo.

Palavras-chave: reconhecimento automático de fala, processamento de linguagem na-tural, compreensão da linguagem falada.

9

Page 10: compreensão da linguagem falada

Abstract

This work is about the matching between the automatic speech recognition and naturallanguage processing, called spoken language understanding. This approach is result fromstudy of the speech acquisition process, language modelling and act dialogue modelling.

The development of the speech language processing is more difficult than text lan-guage processing. The speech language have disfluencies, it not follows grammar rulesand it is much more spontaneous. This kind of processing is based in statistical methodsto capture linguistic constants.

In this way, the study of the prosody shows that it is an essencial information to in-crease the spoken language understanding process. The use of prosodic signals of speechpermits to better the recognition of words, to guide the parsing and to help the inferenceof dialogue contexts.

Key-words: automatic speech recognition, natural language processing, spoken lan-guage understanding.

10

Page 11: compreensão da linguagem falada

Capítulo 1

Compreensão da Linguagem Falada

Na sociedade atual é inegável a presença de aparelhos eletrodomésticos no dia-a-dia.Chega-se a um alto nível de dependência de máquinas de lavar roupas, televisores, fornosde microondas, telefones celulares e outros utensílios que possuem processadores em seuinterior. Pode-se perceber neste contexto uma sutil comunicação entre o ser humano e amáquina que ainda não foi suficientemente explorada.

Discute-se muito a interação entre o computador e o ser humano, mas é esquecido ofato de que esta mesma interação deve ser investigada em todos os produtos eletrônicos.Para muitas pessoas, a manipulação de produtos como um simples videocassete pode setornar uma tarefa desgastante ou enfadonha. Para outras, a utilização de um terminalbancário proporciona confusão e incerteza acerca de sua movimentação financeira.

Diversas empresas também passam por problemas de produtividade quando da im-plantação de sistemas informatizados. Gasta-se tempo e dinheiro com o treinamento eadaptação dos funcionários à nova cultura. Por vezes esta adaptação leva antigos funci-onários a serem demitidos por sua incapacidade de se relacionarem com uma máquinacomputadorizada. Este é um dos dilemas da sociedade atual onde profissionais experi-entes são afastados em detrimento de novatos com facilidade na manipulação de equipa-mentos eletrônicos.

Uma alternativa viável para tornar a comunicação homem-máquina mais amigável éa utilização da fala. Mesmo para aqueles já adaptados aos computadores, seria inegável obenefício de uma relação falada.

Qualquer usuário de computador poderia - e em algumas línguas já podem - ditartextos ao invés de digitá-los. Só com este exemplo economiza-se tempo e evitam-seproblemas de lesões por esforços repetitivos que costumam a afastar digitadores de seutrabalho.

Uma interface por voz é indubitavelmente útil para o controle de programas de com-putador, mas principalmente máquinas industriais, eletrodomésticos, automóveis, eleva-dores, terminais de informações, sistemas de informações pelo telefone, entre outras inú-meras aplicações.

O presente trabalho tem o intuito de expor que este lapso na comunicação homem-máquina já está sendo preenchido, e que é possível ir muito além. Editores de textosfonéticos e máquinas por comando de voz já são uma realidade, embora necessitem aindamuito aperfeiçoamento.

Há sistemas robustos de reconhecimento da fala pausada, ditada por locutores expe-rientes, que atingem um alto nível de desempenho. Por outro lado, a fala contínua ecoloquial, como a que falamos no dia-a-dia, não é reconhecida satisfatoriamente pelos

11

Page 12: compreensão da linguagem falada

12

mesmos sistemas. Esta constitui-se, portanto, uma fronteira ainda em exploração para oreconhecimento de fala.

O que também ainda não está consolidado é a interpretação da linguagem que, até al-guns anos atrás, era pensada apenas como algo dissociado da fala, sendo apenas analisadacomo língua escrita. A abordagem da linguagem falada abriu um leque bem amplo parao estudo da interpretação semântica, uma vez que características obtidas no sinal da falapodem ser utilizadas na formação do contexto a ser compreendido.

A partir destas preocupações, os novos sistemas de reconhecimento de fala estãosendo desenvolvidos com o objetivo de adquirir mais dados sobre o sinal da locuçãode forma a melhor codificar a fala contínua e satisfazer as necessidades de informaçõescontextuais dos sistemas de interpretação de linguagem.

1.1 Breve históricoA idéia de travar um diálogo com o computador não é recente. Segundo Jurafsky e

Martin, desde os anos 40 o processamento de linguagem e fala tem sido alvo de estudo dediversas áreas.[JUR 00]

Dentro deste estudo, Jurafsky e Martin citam a teoria de autômatos usada por Turinge mais tarde por Kleene, o modelo de neurônio formal de McCulloch e Pitts, modelosprobabilísticos de cadeias de Markov usados por Shannon e a teoria de linguagens formaisaplicada por Chomsky para definir as linguagens livres de contexto. Posteriormente aisso, já no final dos anos 50, Newell e Simon apresentaram o Resolvedor de ProblemasGerais, que buscava a interpretação da linguagem através do casamento de padrões frasaise de regras heurísticas. Ainda nesta época também pode-se citar o trabalho de Bledsoe eBrowning, que era um sistema de reconhecimento ótico de caracteres utilizando uma redede Bayes.

Nos anos 70 e 80, segundo Jurafsky e Martin, iniciaram quatro campos de pesquisaem fala e linguagem: paradigma estocástico, paradigma baseado em lógica, compreensãoda linguagem natural e paradigma da modelagem do discurso. Atualmente percebe-se quetodas estas áreas complementam-se, não há mais um discernimento entre elas. O enfoquedo presente trabalho traz, como carro-chefe deste grupo, o campo da compreensão dalinguagem natural, que será descrito a seguir.

A área de Inteligência Artifícial (IA) buscou romper a barreira da comunicação pelalinguagem natural. Todavia, os sistemas determinísticos concebidos entre as décadas de60 e 80 não alcançaram a funcionalidade esperada. Mais recentemente, o desenvolvi-mento de novas técnicas para o reconhecimento de fala acabaram por juntarem-se à inter-pretação da linguagem, e finalmente à síntese de voz.

Os sistemas computacionais construídos com a finalidade de estabelecer uma comuni-cação oral com o ser humano são chamados de Sistemas de Compreensão de LinguagemFalada (Spoken Language Understanding - SLU). Estes sistemas compreendem duas tec-nologias básicas: Reconhecimento Automático de Fala (Automatic Speech Recognition- ASR) e Processamento de Linguagem Natural (Natural Language Processing - NLP).Veja figura 1.1.

Essas duas técnicas complementam-se. A linguagem natural pode auxiliar no reco-nhecimento de fala através de informações sobre sintaxe e semântica. Por outro lado, oreconhecimento de fala pode enriquecer a compreensão da linguagem com informaçõescontextuais como a entonação das palavras [PRI 96].

Page 13: compreensão da linguagem falada

13

Figura 1.1: Áreas em estudo.

Nos anos 80, o Departamento de Projetos de Pesquisa Avançada dos Estados Unidos(DARPA), baseando-se em métodos estatísticos de representação de linguagem, iniciou odesenvolvimento de sistemas de compreensão de fala, no lugar dos projetos de reconheci-mento de fala desenvolvidos até então [LAR 92]. Esta ação do DARPA mostra o interesseinicial no desenvolvimento de sistemas que não abrangessem apenas o reconhecimentodo sinal da fala, mas também seu contexto semântico.

Desta época, pode-se citar o sistema ATIS (Air Travel Information Services), da Uni-versidade Carnegie Mellon (CMU), que possuía um sistema estatístico para o reconheci-mento do locutor aliado a um parser para interpretação semântica. Este parser utilizavaum sistema hierárquico de frames e regras de inferência para chegar à melhor interpreta-ção possível [LAR 92].

Outros sistemas do mesmo período que podem ser citados são [LAR 92]:

• SUMMIT, sistema de reconhecimento de fala independente do usuário (ao contráriodo CMU-ATIS), e TINA, sistema de interpretação de linguagem que utilizava umagramática livre de contexto com transições probabilísticas. Os sistemas SUMMIT-TINA foi desenvolvido no Instituto Tecnológico de Massachussets (MIT).

• SPICOS II, sistema de compreensão de fala contínua e diálogo, desenvolvido peloconsórcio SIEMENS-PHILIPS-IPO. Este sistema utilizava modelos de Markov parao reconhecimento de fala e redes semânticas para a modelagem da linguagem.

• SUNDIAL, sistema componente do projeto ESPRIT, também tinha o reconheci-mento de fala baseado em modelos de Markov e a interpretação utilizando-se deredes semânticas e frames.

Os sistemas apresentados, apesar de serem grandes projetos de desenvolvimento,possuem módulos de interpretação de linguagem construídos a partir de conteúdos pré-definidos pelos projetistas. Esta explicitação de regras lingüísticas recebe críticas por serum desenvolvimento de IA dito simbólico.

Uma vez que se verificou que a abordagem simbólica não obteve os resultados espera-dos para a representação da linguagem, o paradigma subsimbólico foi considerado como

Page 14: compreensão da linguagem falada

14

uma alternativa para o processamento de frases. Segundo Miikkulainen, sistemas simbó-licos são deficientes para esta tarefa por vários motivos: a arquitetura de processamento,os mecanismos de busca e o conhecimento contido no sistema são construídos à mão,dentro de um enfoque particular de análise; todas as regras de inferência devem ser pre-visíveis; sistemas simbólicos não podem usar as propriedades estatísticas dos dados paraa representação do conhecimento [MII 93]. A grande crítica a este tipo de sistema é a deque são extremamente determinísticos, dependentes da elaboração de seu projetista. Estaé apontada como a grande falha destes sistemas para a interpretação da linguagem, umavez que esta é de difícil representação por regras. Assim, deve-se buscar uma ferramentanão determinística para extração automática de regularidades estatísticas. Esta ferramentaideal pode ser provida por sistemas subsimbólicos da IA.

Citando algumas desvantagens dos sistemas simbólicos chamados de sistemas base-ados em conhecimento, Rosenfeld cita que a intuição dos especialistas que formaram abase de conhecimento é freqüentemente errônea [ROS 94]. Ele cita ainda como um pro-blema a necessidade de cada novo conhecimento necessitar de supervisão para inserçãona base de conhecimento. Por fim, ele coloca que muitos sistemas baseados em conhe-cimento tem processamento intensivo quando da sua utilização, ao contrário de modelosestatísticos.

Numa comparação entre sistemas simbólicos e subsimbólicos realizada por Werm-ter e Weber [WER 97], apresenta-se claramente a incapacidade de sistemas simbólicosreconhecerem frases fora de uma organização pré-estabelecida. O sistema por eles apre-sentado consegue identificar uma frase errada, enquanto um sistema de parser simbólico,utilizando as técnicas tradicionais, não permite a identificação.

Outra desvantagem dos sistemas simbólicos é no tratamento da língua falada, quepossui uma análise mais complexa do que a língua escrita formal [ROS 94]. Apesar dacomplexidade, é a linguagem falada que permite aplicações para o mundo real [WEB 96].Os sistemas atualmente desenvolvidos para este fim têm por base sistemas subsimbólicos,alguns dos quais serão apresentados posteriormente.

Já os sistemas subsimbólicos possuem características importantes para a representaçãoda linguagem: possuem valores contínuos; são coerentes com os contextos; são holográ-ficos, ou seja, uma parte pode ser usada para reconstruir o todo; possuem várias partesdiferentes de conhecimento que são superpostas no mesmo hardware finito [MII 97].

Por outro lado, uma desvantagem dos sistemas subsimbólicos é não permitir a repre-sentação explícita (compreensível) do conhecimento contido no sistema. Apesar disso,Noel e Amanda Sharkey argumentam que redes neurais como o modelo backpropagationsão aproximadores universais de funções, permitindo assim a indução de regras lingüís-ticas [SHA 96]. Eles apresentam formas para análise da representação conexionista doconhecimento e afirmam que uma Teoria Conexionista do Conhecimento está sendo for-mada, o que permitirá, num momento posterior, a explicitação do conhecimento contidonos sistemas subsimbólicos.

Um sistema que representa esta nova e recente abordagem é o sistema SCREEN, deWermter e Weber [WEB 96] [WER 97] e Wermter e Löchel [WER 96], que realiza oreconhecimento de fala, gerando estatísticas para frases possíveis, as quais são analisa-das e corrigidas por um segundo módulo, onde são construídas hipóteses de frases comsignificados pertinentes. Estas frases, num terceiro módulo, são analisadas em contextosde frames e diálogos, visando a construção de esquemas de pergunta-resposta. Eviden-temente, SCREEN é um sistema híbrido, que utiliza tanto recursos subsimbólicos (redesneurais), como simbólicos (frames, bases de conhecimento). Mas o que deve-se ressaltar

Page 15: compreensão da linguagem falada

15

é a capacidade de interpretação da linguagem falada coloquial, muito mais complexa quefrases faladas corretamente.

Os sistemas de reconhecimento automático de fala (ASR) também têm incorporadoredes neurais artificiais ao tradicional paradigma dos modelos de Markov. Embora ambossejam métodos estatíticos, verificou-se a necessidade de um reconhecimento mais robusto.Um exemplo de implementação com estes dois paradigmas - a utilização de cadeias deMarkov juntamente com redes neurais - é o sistema de reconhecimento de fala elaboradona tese de Fritsch [FRI 98].

A técnica elaborada por Fritsch foi utilizar as probabilidades geradas em cadeias deMarkov para estimação do próximo estado. Assim é possível a redução do número depalavras avaliadas no reconhecimento.

Sistemas como os citados têm sido constantemente aperfeiçoados no intuito de otimi-zar o reconhecimento. Wu apresentou uma tese para provar a necessidade de realizar-seo reconhecimento da fala através da unidade silábica, ao invés do fonema, utilizado nossistemas ASR até então [WU 98]. As vantagens da utilização de sílabas estariam na pos-sibilidade de serem extraídas mais informações acerca da construção das palavras, bemcomo seu contexto semântico.

Outra tese realizada no sentido de dar mais robustez ao reconhecimento é a imple-mentada por King, onde ele apresenta a necessidade de utilizarem-se informações sobrea expressão de fala [KIN 98]. King argumenta que o reconhecimento de fala é essenci-almente um problema de busca, para o qual tem sido usado o algoritmo de Viterbi. Umasolução que King aponta é a restrição do espaço de busca a ser aplicado através do mo-delo de linguagem que está sendo utilizado no sistema de compreensão da linguagem.Este modelo de linguagem, por sua vez, deve ser treinado por redes neurais para preverseqüências de palavras, o que define a expressão de fala. Segundo King, através desteprocessamento seriam desnecessárias fases intermediárias como a análise semântica.

Apesar do constante refinamento de técnicas para reconhecimento e compreensão dafala, diversos experimentos têm sido feitos apenas a partir da concatenação de módulosprontos. Andersen, por exemplo, procedeu diversas experiências comparando o uso deredes neurais, sistemas ASR, modelos de linguagem, léxico e modelagem acústica [AND98].

Também têm sido construídas ferramentas de modelagem de sistemas de fala. Nestesentido, Brønsted desenvolveu o sistema Reward, o qual permite ao usuário descrever agramática que será utilizada no reconhecimento de fala [BRO 99a].

Há, ainda, módulos de sistemas para reconhecimento, compreensão e síntese de falaque são distribuídos gratuitamente para disseminar a pesquisa na área. Exemplos disso sãoo sistema aberto CPK NLP distribuído pela Universidade de Aalborg e o CSLU Toolkit,disponível no Oregon Graduate Institute [BRO 99b] [COL 99].

A ênfase destes sistemas, porém, é diversa. O CPK possui uma ênfase para sistemasde compreensão da linguagem falada, enquanto o CSLU Toolkit permite uma pesquisamais ampla incluindo animação facial e sistemas de diálogo.

Apesar de todo o desenvolvimento realizado, o melhor desempenho parece estar nosentido do uso da pronúncia como guia do parsing da linguagem falada, conhecida comoprosódia. Um pesquisador do projeto alemão VERMOBIL, Ralf Kompe, apresentou emsua tese de doutorado uma consistente prova de que a prosódia é a melhor forma pararesolução dos problemas de ambigüidade existentes no processo de análise da linguagem[KOM 97]. Diversos trabalhos atualmente apontam o uso da prosódia como uma metodo-logia indispensável para a compreensão da linguagem falada [STO 98][GAL 02][HAS 02]

Page 16: compreensão da linguagem falada

16

[NOT 02]. A utilização da prosódia pode ser considerada, sem exagero, tão importantepara o reconhecimento da linguagem falada quanto a acentuação e a pontuação o são paraa leitura da linguagem escrita.

1.2 Organização deste trabalhoPara ser possível um estudo completo sobre a Compreensão da Linguagem Falada,

é necessário a abordagem de suas origens nos sistemas de ASR e NLP, além dos siste-mas de SLU propriamente ditos e das teses mais recentes acerca das representações querelacionam o sinal de fala com a compreensão da linguagem.

Uma vez que a SLU é uma intersecção entre as áreas de ASR e NLP, serão estudadasambas as áreas e as novas técnicas oriundas da abordagem de compreensão de linguagemfalada. Os capítulos 2 e 3 a seguir serão uma visão em abrangência destas áreas, enquantoos capítulos 4 e 5 terão uma conotação de aprofundamento em questões de representaçãoe compreensão da linguagem falada.

No capítulo 2 serão estudadas as técnicas de extração de coeficientes e sua classifi-cação. No capítulo 3 serão analisadas as técnicas de NLP, com o detalhamento das fasesde análise morfológica, sintática, semântica e pragmática. No capítulo 4 serão abordadastécnicas de SLU utilizadas para representação da linguagem falada. No capítulo 5 se-rão estudadas novas técnicas que se baseiam na entonação oriunda do sinal de voz comoauxiliar na compreensão do significado da linguagem.

Page 17: compreensão da linguagem falada

Capítulo 2

Reconhecimento Automático de Fala

O reconhecimento do sinal da fala possui 2 grandes fases: a extração das caracterís-ticas de fala do sinal e o reconhecimento propriamente dito. A primeira fase é compostada conversão analógico-digital do sinal, com posterior processamento deste sinal digitalconvertido. Neste processamento, realiza-se a extração de características da fala, o que éfeito através de técnicas que são analisadas na seção 2.2, como a obtenção dos coeficientescepstrais ou dos coeficientes de predição linear.

A segunda fase também possui diversas técnicas, todas baseadas em processamentoestatístico, uma vez que o sinal de fala não possui um comportamento estático passívelde uma comparação direta. Neste contexto, têm sido utilizadas as redes bayesianas, ascadeias de Markov e as redes neurais artificiais, conforme análise na seção 2.3.

Neste capítulo, são estudadas essas duas fases do reconhecimento do sinal de faladentro de um contexto de processamento do sinal físico e de ocorrências de padrões esta-tísticos deste sinal, mas sem esquecer a motivação biológica de como a fala é produzidae de como é realizado o processamento auditivo humano deste sinal falado, o que está naseção 2.1 a seguir.

2.1 Conceitos Elementares da Fala e da AudiçãoA partir da premissa de que um sistema computacional deve simular a compreensão

da fala, deve-se, então, embasar-se em como os sons da fala são criados e como eles sãoprocessados (ouvidos) pelo ser humano.

2.1.1 Formação da FalaOs sons da fala são produzidos no chamado aparelho fonador, a partir da corrente de ar

vinda dos pulmões, fruto da expiração. Essa corrente de ar encontra um obstáculo na suapassagem pela laringe, mais especificamente na glote, onde estão as cordas vocais. Estaspregas musculares são movimentadas como uma tesoura de forma a permitir a passagemde mais ou menos ar, dando formação à onda sonora - veja figura 2.2. Por fim, estaonda chega às cavidades supralaríngeas - formada pela faringe, boca e fossas nasais -,onde encontra ressonância [CUN 82]. Estas cavidades também são chamadas de sistemaressonador de fonação ou trato vocal (veja figura 2.1) [RUS 93].

Ao atingir a faringe, o ar pode ir para o canal bucal ou nasal, que dependendo daabertura do véu palatino, permite que o ar vá para as fossas nasais e a boca ou apenas

17

Page 18: compreensão da linguagem falada

18

Figura 2.1: Trato vocal.

Figura 2.2: Secção da laringe.

Page 19: compreensão da linguagem falada

19

Figura 2.3: Aparelho auditivo humano.

para a boca, formando assim os sons nasais e os sons orais, respectivamente. A bocaainda realiza a alteração de forma e volume da onda através de diversos movimentos dosmaxilares, bochechas, lábios e principalmente da língua [CUN 82].

Em termos de linguagem, as palavras orais são diferenciadas em vogais e consoantes.Os sons vogais são produzidos sem ou com parcial obstrução do ar na boca, enquanto ossons consoantes são resultado da obstrução total momentânea ou a permissão do mínimode passagem do ar [CUN 82][JUR 00]. Estes sons também são conhecidos como períodosde estabilidade (vogais) e transitórios (consoantes) do sinal de fala [RUS 93].

Os sons de fala, assim como os sons de instrumentos musicais, são ondas complexasformadas de uma freqüência fundamental, também chamada de pitch, e suas harmônicasderivadas. Estas harmônicas costumam ser agrupadas em faixas de freqüência chamadasformantes. Em geral, os sons vogais são reconhecidos no primeiro grupo de formantes(F1), que está na faixa entre 300 a 900Hz, e no segundo grupo (F2), que compreende de1200 a 1800Hz. De qualquer forma, dadas as dimensões do trato vocal, qualquer onda defala não ultrapassa a freqüência de 4KHz (embora sons não vocálicos - como a expressãohumm - possam atingir 8KHz) [RAB 78].

Já os sons consoantes não são tratados com base nas formantes, mas em termos dasua intensidade espectográfica. Esta intensidade é obtida no domínio freqüência, ondepode-se verificar se ela é alta ou baixa. Por exemplo, os sons consoantes /f/ e /v/ sãoconsiderados de baixa intensidade espectográfica, enquanto os sons /s/ e /z/ são de altaintensidade.

2.1.2 Audição HumanaO sistema auditivo humano é capaz de perceber vibrações acústicas entre 30Hz e

16KHz, embora na primeira fase de processamento ocorra perda da estrutura temporal dosinal acima de 4KHz [KOV 97]. Esse sistema é composto de três partes distintas: ouvidosexterno, médio e interno - veja figura 2.3.

O ouvido externo vai da orelha, passando pelo conduto auditivo externo até o tím-pano. Quando o som chega à orelha, ele é direcionado ao conduto auditivo, que cria umafreqüência de ressonância em torno de 3KHz que irá fazer vibrar o tímpano [KOV 97][RUS 93].

Após o tímpano está o ouvido médio, que nada mais é do que um acoplamento mecâ-nico entre as membranas do tímpano e a da janela oval da cóclea. Este sistema mecânicoé formado por 3 ossículos chamados martelo, bigorna e estribo. A vibração da membranatimpânica faz vibrar o martelo, que por sua vez, faz a bigorna movimentar o estribo (vejafigura 2.4). O objetivo deste sistema mecânico é casar as impedâncias entre os ouvidos

Page 20: compreensão da linguagem falada

20

Figura 2.4: Percurso da onda sonora no aparelho auditivo.

Figura 2.5: Corte transversal da cóclea. No centro vêem-se as células ciliadas e a seu ladoas rampas vestibular e timpânica.

externo e interno, uma vez que a parte resistiva da impedância da cóclea é cerca de 104

vezes maior que a do ouvido externo [KOV 97].O ouvido interno, formado pela cóclea, é responsável pela análise espectral e codi-

ficação neural do sinal sonoro. A cóclea é um tubo encaracolado que é repartido pelametade por duas membranas, chamadas de membrana vestibular e membrana basilar. In-ternamente à cóclea, há duas áreas interligadas, chamadas de rampa vestibular e rampatimpânica, que são preenchidas com um fluido no qual são propagadas as ondas sonoras(veja figura 2.5). Estas são captadas pelos cerca de 25.000 cílios das células sensórias(veja figura 2.6) situadas na membrana tectorial, que se localiza entre a membrana vesti-bular e a basilar [KOV 97][RUS 93].

As células ciliadas que estão mais próximas da onda hidráulica são sensíveis a freqüên-cias mais altas, enquanto as mais distantes da onda captam freqüências mais baixas - vejafigura 2.7. A essas células sensórias estão ligadas cerca de 30.000 fibras no nervo auditivoque levarão a codificação do som ao processamento cerebral [KOV 97][RUS 93].

Ao chegar ao cérebro, o nervo auditivo liga-se ao núcleo cocleolar (veja figura 2.8),que é composto de vários subnúcleos de redes neurais de topologias diferentes, os quaisvisam o processamento e recodificação da informação auditiva. Alguns destes subnúcleospossuem uma estrutura na qual os neurônios mais dorsais respondem a altas freqüências,enquanto os mais ventrais atendem a baixas freqüências. Esta organização, denominada

Figura 2.6: Células sensórias da membrana tectorial.

Page 21: compreensão da linguagem falada

21

Figura 2.7: Faixas de recepção do sinal na cóclea.

Figura 2.8: Órgão de pré-processamento auditivo no cérebro.

mapeamento monotópico, é reproduzida em outras redes neurais auditivas do sistemanervoso central, inclusive no córtex [KOV 97].

Ligado ao núcleo cocleolar, está um complexo nuclear composto do núcleo colicularinferior e do corpo geniculado médio, este situado no tálamo. Acredita-se que a funçãodeste complexo, e principalmente dos núcleos talâmicos, seja a localização das fontessonoras no espaço. Passado por este complexo, a informação auditiva pré-processadachega ao córtex auditivo primário [KOV 97].

2.2 Processamento do Sinal da FalaO processamento da onda sonora da fala inicia na transformação desta em onda elétrica

através de um transdutor como um microfone, por exemplo. O microfone possui umaplaca sensora que, ao vibrar com as ondas sonoras, gera tensão elétrica em uma pequenabobina. Esta onda elétrica chega a um conversor analógico-digital que a transforma, porsua vez, em códigos binários. A cada instante de tempo t é feita uma medida da tensão dacorrente (equivalente à amplitude da onda elétrica), a qual é codificada em binário. Estamedida realizada num tempo t é chamada de amostra.

As amostras devem ser capturadas numa taxa que seja no mínimo o dobro da freqüên-cia máxima de oscilação da onda a processar, também chamada de freqüência de Nyquist[RAB 78]. Caso a amostragem seja abaixo do dobro da freqüência de Nyquist, ocorre oefeito de sobreposição no espectro de freqüência (aliasing). Caso ocorra a sobreposiçãodas ondas amostradas no domínio freqüência, isso significa que possui dados insuficientespara ser reconstruída como onda analógica. Desta forma, fazendo a amostragem acimado dobro da freqüência de Nyquist, garante-se que a onda discretizada (fig. 2.10) nasamostras corresponde fielmente à onda real contínua (fig. 2.9).

Desta forma, para processamento do sinal da fala, sabe-se que a freqüência das on-das da fala não passam de 4KHz (veja seção 2.1.1) e portanto uma amostragem acima

Page 22: compreensão da linguagem falada

22

Figura 2.9: Onda contínua.

Figura 2.10: Onda discreta (amostrada).

de 8KHz seria adequada. Atualmente, a taxa mínima de amostragem de sinais de falaestabelecida em sistemas computacionais é de 11KHz, suficiente, portanto, para o pro-cessamento de fala a um nível básico.

Após o sinal capturado e gravado em meio digital, há a necessidade de normalizá-lo,uma vez que as gravações podem estar em diferentes intensidades de sinal, muitas vezescausadas pela distância do microfone à boca. Para padronizar as diferentes intensidades,estipula-se uma faixa de variação de amplitude va, que é multiplicado pela amostra A enivelado pelo maior sinal amostrado Amax , na forma:

Ni =Ai ∗ vaAmax

As amostras normalizadas N estarão dentro de uma faixa de amplitude estipulada, emgeral em torno de zero, como por exemplo va = 0,5, uma vez que a tensão elétrica giraentre -0,5V e 0,5V [VAL 00].

Uma vez normalizadas, o trecho falado nas amostras deve ser identificado. Para tanto,utilizam-se técnicas para detecção do início e fim da locução. Esta detecção é feita como cálculo da energia do sinal e do número de cruzamentos por zero [RAB 78]. Quandoa energia cresce, significa que houve o início da locução, quando declina, significa quefinalizou a locução. Porém, há algumas palavras nas quais é sutil a percepção do cresci-mento da energia, para tanto, utiliza-se também a técnica do número de cruzamentos porzero da onda. Quanto mais vezes a onda cruzar o eixo zero num dado período de tempo,mais probabilidade há que esteja ocorrendo uma locução.

Assim, seja x o vetor de amostras de sinal dentro de determinado período de tempoe a uma taxa de refinamento que varia de 0 a 1, tem-se o cálculo da energia como sendo[RAB 78]:

En = aEn−1 + x2(n)

Page 23: compreensão da linguagem falada

23

Mas como o cálculo de energia pode variar muito de uma amostra n para outra,calcula-se apenas a magnitude média [RAB 78]:

Mn = aMn−1 + |x(n)|Estipula-se, então, um limiar para identificação do início e fim da locução. Em geral,

este limiar é verificado experimentalmente conforme as gravações das locuções que sepretende processar.

Para verificar o número de cruzamentos por zero, necessita-se contabilizar a diferençaentre duas amostras, primeiramente marcando se a amostra é positiva ou negativa:

y(n) =

{1, se x(n) ≥ 0−1, se x(n) < 0

Desta forma, faz-se a contagem para determinado período de tempo t:

Zm =t∑

i = 1y(i)

A partir da contagem da variação do cruzamento por zero em m instantes de tempo,estipula-se novamente um limiar para consideração do número mínimo de cruzamentosque indicaria início da locução.

Uma vez computados os dados, pode-se fazer a comparação com os valores obtidosno processamento da energia no mesmo período e proceder a identificação dos pontosde início e de fim da locução. Com base nestes pontos, apenas as amostras no intervalodefinido continuarão a ser processadas.

2.2.1 Extração de CoeficientesO sinal discreto da locução, após ter sido devidamente processado, serve como base

para a extração das características que permitirão a sua identificação por sistemas classi-ficatórios do sinal de fala. Serão descritas algumas técnicas amplamente difundidas paraextração das características da locução: coeficientes cepstrais e codificação por prediçãolinear (Linear Predictive Coding - LPC).

Coeficientes Cepstrais

A técnica da extração do cepstrum baseia-se na idéia de que há sinais superpostos,formando um sinal só, composto. Estes sinais combinados são chamados de sistemashomomórficos, por vários sinais diferentes comporem uma só forma. A superposiçãode sinais é matematicamente conhecida como convolução e obedece à formulação geral[RAB 78]:

y(n) =∞∑

k = −∞x(k)h(n− k) = h(n) ? x(n)

onde x e h são os sinais superpostos (convoluídos).No que se refere ao sinal de fala, acredita-se que haja uma superposição de sinais

do trato vocal, pulso glotal e radiação (movimento dos lábios) com a excitação (fluxo

Page 24: compreensão da linguagem falada

24

de ar dos pulmões) [RAB 78]. Para separação destes sinais, utiliza-se a deconvoluçãohomomórfica, também chamada de extração do cepstrum.

Para este processo de deconvolução, é necessário que se converta o sinal do domínotempo (amplitude do sinal x tempo) para o domíno freqüência (amplitude da freqüênciax freqüência). Para tanto, é necessária a aplicação de uma transformada do tipo Z, quefaz a transposição do plano cartesiano para o plano radial. A transformada do tipo Z maisutilizada no processamento de fala é a transformada de Fourier.

A transformada de Fourier é a decomposição de uma onda através de cossenóides esenóides. As cossenóides formadas representam a amplitude (magnitude) e as senóidesseriam a fase da onda decomposta. O cálculo das decomposições da magnitude e da faseé feito pelas equações [SMI 99]:

M(k) =N − 1∑

i = 0x(i) cos(2πki/N)

e

F (k) = −N − 1∑

i = 0x(i) sen(2πki/N)

onde N seria o número de amostras de uma janela k de tempo. Esta janela de tempo podeser fixa ou variável conforme o tempo total. Para o preenchimento de todo o tempo dalocução são necessárias, portanto, diversas janelas, ou seja, o janelamento do sinal emprocessamento.

As janelas utilizadas neste processo devem ser sobrepostas para realizar uma sincroniatemporal, uma vez que a aplicação da transformada de Fourier não faz nenhuma corres-pondência do domínio tempo. Para que seja possível uma correspondência em termos detempo, as janelas devem sobrepor-se no mínimo em 50% para janelas retangulares e 75%para outras [VAL 00].

As janelas retangulares são aquelas onde simplesmente utilizam-se os valores de amos-tra dentro do intervalo da janela. As demais são filtragens, ou seja, convoluções dasamostras com uma equação de filtragem que proporciona decaimento do sinal nas mar-gens da janela. O objetivo deste decaimento é reduzir a distorção da onda causada pelojanelamento.

Um exemplo de filtro de janelamento é a chamada janela Hamming [RAB 78]:

h(n) =

{0, 54− 0, 46 cos(2πn/(N − 1)), 0 ≤ n ≤ N − 1

0 caso contrario

onde N é o número de amostras da janela e n a amostra calculada.Uma vez escolhido o método para o janelamento, calcula-se a transformada de Fourier

X(k) = ={x(n)}e, para obtenção do cepstrum, aplica-se o logaritmo sobre a magnitude

X(k) = log |X(k)|ou, para efeitos práticos, calcula-se somente a magnitude e seu logaritmo, conforme ana-lisada anteriormente

M(k) = log(M(k))

Page 25: compreensão da linguagem falada

25

Por fim, aplica-se a transformada inversa:

x(n) = =−1{X(k)

}

ou seja [RAB 78][SMI 99]:

x(n) =N/2∑

k = 0M(k) cos(2πki/N) +

N/2∑

k = 0F (k) sen(2πki/N)

Para a representação da locução com base no cepstrum calculado, tem-se interesse nosvalores dos 10 a 20 primeiros elementos de x, o que deve corresponder ao sinal da glotee trato vocal, como comentado anteriormente [VAL 00].

Codificação por Predição Linear

A predição linear é o método que modela o trato vocal como um filtro linear do sinalproveniente da excitação, do tipo [RAB 78][SAY96]:

y(n) =p∑

k = 1a(k) y(n− k) + e(n)

onde a(k) são os coeficientes do filtro e e(n) é o erro (diferença) existente entre um trechode p valores y anteriores e o valor y atual.

Desta forma, pode-se estimar o próximo valor com base numa combinação linear dosvalores anteriores, calculando-se o y futuro [RAB 78]:

y(n) =p∑

k = 1a(k) y(n− k)

e o erroe(n) = y(n)− y(n)

A codificação por predição linear é o processo de cálculo dos coeficientes a que per-mitirão a estimativa do sinal futuro. Para tanto, calculam-se aproximações dos valores deerro através do método da autocorrelação, que calcula o erro médio quadrado mínimo, eo método da covariância, que calcula o erro médio quadrado.

O erro médio por autocorrelação é calculado, dentro de uma janela j de tempo, naforma [RAB 78]:

E(j) = R(j)(0)−p∑

k = 1a(k)R(j)(k)

sendo que [RAB 78][OLI 98]:

R(j)(k) =1

N − k

N − 1− k∑

n = 0y(j)(n) y(j)(n+ k)

Page 26: compreensão da linguagem falada

26

onde N é o tamanho da janela j e k o elemento que está sendo calculado. Estas equaçõespodem ser resolvidas por [RAB 78][SAY96][OLI 98]:

p∑

k = 1a(k)R(j)(|i− k|) = R(j)(i)

o que representa o sistema para uma janela j de p valores:

a(1)a(2)a(3)

...a(p)

R(0) R(1) R(2) · · · R(p− 1)R(1) R(0) R(1) · · · R(p− 2)R(2) R(1) R(0) · · · R(p− 3)

......

... . . . ...R(p− 1) R(p− 2) R(p− 3) · · · R(0)

=

R(1)R(2)R(3)

...R(p)

Este sistema pode ser resolvido com o algoritmo Levinson-Durbin, que realiza o cál-culo de constantes chamadas coeficientes de reflexão ou correlação parcial (PARCOR -parcial correlation). O algoritmo segue os passos [SAY96]:

1. Inicialize com zero o vetor de erro médio E, a matriz R e o índice i que correspondeà ordem do filtro;

2. incremente i em 1;

3. calcule k(i) =(∑i−1

j=1 a(j)(i−1)R(i− j + 1)−R(i)

)/E(i− 1);

4. inicialize a(i)i = k(i);

5. calcule a(j)(i) = a(j)(i−1) + k(i) a(i− j)(i−1), para j = 1, 2, ..., i-1;

6. calcule E(i) = (1− k(i)2)E(i− 1);

7. Se i < p volte ao passo 2.

Assim, são obtidos os coeficientes no método de autocorrelação, que serão passíveis deuso para posterior identificação da locução.

Já para o método de covariância, é usado o cálculo do erro médio quadrado para umajanela j de tempo, cujo tamanho é N [RAB 78]:

E(j) =N − 1∑

k = 0e(j)(k)2

que pode ser descrita da forma [RAB 78][OLI 98]:

φ(j)(i, k) =1

N

N − 1∑

m = 0y(j)(m− i) y(j)(m− k)

1 ≤ i ≤ p0 ≤ k ≤ p

Esta fórmula pode ser satisfeita, de forma semelhante à autocorrelação, pela equação[RAB 78]:

p∑

k = 1a(k)φ(j)(i, k) = φ(j)(i, 0) i = 1, 2, ..., p

Page 27: compreensão da linguagem falada

27

que corresponde ao sistema para uma janela j de p valores:

a(1)a(2)a(3)

...a(p)

φ(1, 1) φ(1, 2) φ(1, 3) · · · φ(1, p)φ(2, 1) φ(2, 2) φ(2, 3) · · · φ(2, p)φ(3, 1) φ(3, 2) φ(3, 3) · · · φ(3, p)

......

... . . . ...φ(p, 1) φ(p, 2) φ(p, 3) · · · φ(p, p)

=

φ(1, 0)φ(2, 0)φ(3, 0)

...φ(p, 0)

Este sistema matricial αΦ = ψ (matrizes de coeficientes a, φ(i, j) e φ(i, 0)) podeser resolvido através da decomposição Cholesky, que transforma a matriz simétrica Φ emduas matrizes diagonais e uma simétrica na forma Φ = V DV t, onde V é uma matriztriangular, V t sua transposta e D uma matriz diagonal, calculados na forma:

v(i, j) d(j) = φ(i, j)−j − 1∑

k = 1v(i, k) d(k) v(j, k) 1 ≤ j ≤ i− 1

e os elementos diagonais:

d(i) = φ(i, i)−i− 1∑

k = 1v(i, k)2 d(k) i ≥ 2

Uma vez resolvido Φ, passa-se à resolução de α. Sabendo que V DV tα = ψ, pode-se definir que Y = DV tα e atribuir V Y = ψ e calcular Y. A partir daí, resolve-se αfazendo V tα = D−1Y , de onde serão obtidos os coeficientes para posterior classificaçãode padrões de fala.

2.3 Métodos Classificatórios do Sinal da FalaAs características extraídas do sinal de fala podem ser classificadas através de modelos

probabilísticos derivados das Redes de Bayes. As redes bayesianas são conhecidas porsua capacidade de inferência estatística, nas quais são estabelecidas relações de probabi-lidades entre os nodos da rede, que constituem estados de um autômato finito.

Redes bayesianas podem funcionar como classificadores estatísticos de funções pa-ramétricas. O objetivo é ajustar os parâmetros destas funções de forma a representar osvetores de padrões de características do sinal de fala [KOM 97]. O classificador realiza,com base na probabilidade de um vetor V pertencer a uma classe C, a minimização doerro de representação dos parâmetros.

Dentro do processo de reconhecimento de fala, dois tipos de classificadores baye-sianos são utilizados: Redes Neurais Artificiais (Artificial Neural Networks - ANNs) eModelos de Markov Ocultos (Hidden Markov Models - HMMs). Redes neurais são exce-lentes para realizar a identificação dos padrões acústicos, enquanto modelos de Markovocultos descrevem com eficácia a seqüência temporal de ocorrência dos padrões identifi-cados pela rede neural [TEB 95][MOR 95][KOM 97].

Pelas características descritas, os classificadores neural e markoviano geralmente sãoutilizados em conjunto na forma de sistemas híbridos, combinando suas potencialidades.

Page 28: compreensão da linguagem falada

28

ES

Figura 2.11: Rede neural backpropagation.

2.3.1 Redes Neurais ArtificiaisAs redes neurais artificiais são amplamente utilizadas para o treinamento e posterior

reconhecimento de padrões. Para os sistemas de reconhecimento de fala, os modelos maisutilizados são o backpropagation (perceptron multicamadas) e a rede neural de atrasotempo (Time Delay Neural Network - TDNN).

Uma vez que o processamento de fala contínua tem muita utilidade como interface ecomunicação, a utilização mais comum de redes neurais tem sido voltadas para o reconhe-cimento de fonemas para posterior processamento por modelos de Markov, que realizama análise temporal da composição destes fonemas [MOR 95].

Backpropagation

É um modelo cujos neurônios são compostos por três ou mais camadas de adalinesinterconectados, como pode ser visualizado na figura 2.11. Estes adalines têm uma di-ferença fundamental: eles utilizam uma função do tipo sigmoid como função de limiar.Esta é uma função não-linear para ampliar o potencial de classificação de um modelo.Essa variação foi o que possibilitou a este e outros modelos realizarem representaçõescomplexas. A função sigmoid tem a forma:

sgm(Si) = 1/(1 + e−(Si−θ))

onde S é a saída linear resultante da soma ponderada do nodo i e θ é o coeficiente delimiar.

Neste modelo, o erro obtido na saída é transferido para as camadas intermediárias.Daí o nome retropropagação (backpropagation). Isso se dá pela necessidade de ajustedos neurônios que não têm contato com a saída, necessitando, assim, de algum parâmetropara atualização dos pesos.

O cálculo do erro começa na última camada, ele tem a forma:

εsi(t) = S(t)(1− S(t))(di(t)− S(t))

onde S é a saída linear, d a saída desejada, e i o nodo atual. A partir deste erro sãoajustados os pesos da última camada:

Pi(t+ 1) = Pi(t) + αεsi(t)En(t)

onde P é o vetor de pesos, α é o coeficiente de aprendizado e En o vetor resultante dasaída da camada anterior.

Page 29: compreensão da linguagem falada

29

O erro da(s) camada(s) intermediária(s) é feito a partir do erro da camada de saída:

εi(t) = En(t)(1− En(t))∑

k

εkpik(t)

onde En é o vetor resultante da saída da camada anterior até esta camada intermediária;k é o número de nodos conectados a seguir do atual; ε é o erro do nodo k; p é o pesocorrespondente à conexão do nodo atual com o nodo k. A partir deste erro, são calculadosos pesos:

Pi(t+ 1) = Pi(t) + αεi(t)En(t) + µ(Pi(t)− Pi(t− 1))

onde µ é um coeficiente de aceleração de convergência denominado momentum.O algoritmo utilizado consiste nos passos:

1. Inicializar os pesos e coeficientes de limiar com valores pequenos e randômicos.

2. Apresentar o vetor de entrada (padrão) e a saída desejada.

3. Calcule a saída:

S(t) =n−1∑

i=0

Pi(t)Ei(t)− θ

4. Aplique a função sigmoid vista anteriormente:

Sq(t) = sgm(S(t))

5. Atualize os pesos da última camada:

Pi(t+ 1) = Pi(t) + αεi(t)En(t)

6. e o cálculo do erro:

εsi(t) = S(t)(1− S(t))(di(t)− S(t))

7. Atualize os pesos da(s) camada(s) intermediária(s):

Pi(t+ 1) = Pi(t) + αεi(t)En(t) + µ(Pi(t)− Pi(t− 1))

e o erro:εi(t) = En(t)(1− En(t))

k

εkpik(t)

8. Voltar ao passo 2 até que atinja um valor próximo ao da saída desejada.

O algoritmo apresentado é considerado clássico, existindo atualmente versões maisotimizadas de treinamento, tal como counterpropagation e quickpropagation.

Page 30: compreensão da linguagem falada

30

TDNN

A rede neural por atraso de tempo foi projetada para simular a simetria do tempo de umespectograma [HAY 01]. Isso é feito construindo-se uma rede backprogation, como des-crita anteriormente, mas os neurônios da camada de entrada, ou ainda da camada oculta,são replicados n vezes para armazenar padrões de entrada anteriores (z−1, z−2, ...). Destaforma, a cada apresentação de um padrão (fonema), são também apresentadas simultane-amente os n padrões anteriores.

Em sistemas desenvolvidos, comprovou-se que redes TDNN necessitam de menorquantidade de pesos que redes perceptron multicamadas, reduzindo, portanto, a quanti-dade de memória e o tempo de treinamento. Além disso, as TDNNs têm obtido taxas dereconhecimento superiores ao de redes perceptron multicamadas, tal como o backpropa-gation [CAS 99].

2.3.2 Modelos de Markov Ocultos 1

Os modelos de Markov ocultos são redes bayesianas com variáveis ocultas [BIL 99].Estas são ditas ocultas por não serem reconhecidos os estados intermediários do autômato,devendo ser estimados. Um exemplo clássico de modelagem markoviana é a estimaçãode um cara-ou-coroa, onde joga-se uma moeda e há 50% de chance de ser cara e 50%de ser coroa. Neste caso, as variáveis são ditas observáveis. Mas, caso o cara-ou-coroaesteja sendo jogado atrás de uma cortina e não seja possível saber quantas moedas estãosendo utilizadas, então a modelagem necessita de variáveis ocultas [RAB 93].

A modelagem do jogo cara-ou-coroa necessita da definição preliminar de quantos es-tados possuem o sistema: se dois (para uma moeda ou duas), três (para 3 moedas) oumais. Para saber quais dos modelos (para 1, 2, 3 ou mais moedas) é o mais adequado e,conseqüentemente, quais estados foram utilizados, deve-se escolher qual deles adequa-seàs seqüências de resultados a cada jogada. Por fim, deve-se descobrir qual é a probabili-dade de cada estado ocorrer, para que seja possível a classificação de futuras seqüências.Nesta última etapa são realizados ajustes (treinamento) das variáveis de probabilidades daocorrência de cada estado [RAB 93].

Para o caso do reconhecimento de fala, assume-se que o sinal de fala pode ser ca-racterizado como um processo randômico com parâmetros que podem ser estimados deforma a prever adequadamente uma seqüência de fonemas. No processo de reconheci-mento, várias seqüências são avaliadas e a melhor delas (com mais alta probabilidade)será convertida numa seqüência de símbolos (caracteres) [RAB 93][JUR 00].

Um modelo de Markov oculto é formado por um conjunto N de estados. Como estessão ocultos, criam-se modelos baseados em dados empíricos. Como no exemplo do cara-ou-coroa existem suposições de quantas moedas existem atrás da cortina, no caso doreconhecimento de fonemas vão ser modeladas seqüências de palavras que se pretendeserem reconhecidas.

Na figura 2.12 tem-se o exemplo de uma modelagem para a palavra inglesa about(sobre), extraída de [JUR 00].

Para se indicar a ordem de avaliação dos estados modelados devem ser também defini-das as transições entre os estados existentes do sistema. Estas transições são organizadas

1Foi traduzido Modelos de Markov Ocultos ao invés do corrente Modelos Ocultos de Markov por esteautor entender que os modelos não são ocultos, mas sim as suas variáveis.

Page 31: compreensão da linguagem falada

31

t

dx

start end

ax

ix.12

.68

.20 b

aw

ae

0.85

0.15 .16

.30.54

.37

.63

Figura 2.12: Exemplo de modelagem HMM para a palavra about.

numa matriz A de probabilidades de transição entre estados, ou seja

A = aij = P [et+1 = j|et = i], 1 ≤ i, j ≤ N

onde et é o estado avaliado no tempo t. Estas transições vão indicar, por exemplo, que émais provável de ocorrer a seqüência de letras ac do que ax.

Para se definir uma determinada seqüência de estados que ocorrerão, utiliza-se umvetor B de probabilidades de M símbolos observados, ou seja

B = bj(k) = P [ot = sk|et = j], 1 ≤ k ≤M

onde ot é o estado observado (novo fonema apresentado ao sistema) e sk é o símbolo cor-respondente ao fonema (letra). Por exemplo, caso a palavra maraca tenha sido observadae a palavra macaca esteja modelada, o fonema /r/ será convertido para /c/. Isto porque,dada a probabilidade da seqüência modelada, é mais provável que o símbolo correto sejac e não r.

O processamento de um modelo de Markov oculto para reconhecimento de fala dá-senormalmente através de um dos três 3 métodos [TEB 95]:

• uso do algoritmo de avanço (foward) para identificação de uma única palavra;

• uso do algoritmo de Viterbi para identificação de um conjunto de palavras (falacontínua);

• uso do algoritmo de avanço-retrocesso (foward-backward ou Baum-Welch) paratreinamento do modelo.

O algoritmo de avanço define qual é a melhor seqüência de estados existente para dadaseqüência observada. Para tanto, são calculadas as probabilidades α para cada estado jnum tempo t:

αj(t) =

iαi(t− 1)aijbj(st)

Na inicialização do algoritmo, é feito αj(0) = 1.0 para o estado inicial e 0.0 para osdemais estados. Para cada instante t de tempo é gerado o estado com maior probabilidade,de forma a gerar uma seqüência de T estados, os quais podem corresponder a uma palavra,por exemplo.

O algoritmo de Viterbi é uma alternativa viável para o reconhecimento de palavras emfala contínua, por serem infinitas as possibilidades de modelagem através do algoritmode avanço. O algoritmo de Viterbi realiza uma aproximação da melhor seqüência desímbolos. Assim, ao invés de serem calculadas as probabilidades através do somatório,este é substituído pela função de máximo:

Page 32: compreensão da linguagem falada

32

νj(t) = maxi

[νi(t− 1)aijbj(st)]

A funcionalidade deste algoritmo é idêntica ao de avanço, embora deva-se observarque as seqüências T devem variar devido ao diferente tamanho das palavras. Desta forma,o algoritmo deve ser chamado recursivamente para analisar as possíveis derivações descri-tas na gramática de estados. Aquela seqüência derivada que obtiver maior probabilidadeserá admitida como a reconhecida.

O algoritmo de avanço-retrocesso é um treinamento dos modelos de Markov segundoas seqüências observadas. O algoritmo de avanço é realizado a partir de seqüências es-timadas. Para uma modelagem mais robusta, é necessário realizarem-se os cálculos dasprobabilidades das seqüências efetivamente ocorridas após as observações.

Para tanto, calcula-se o retrocesso β para a obtenção das probabilidades dos estadosjá ocorridos, na forma:

βj(t) =

iβi(t+ 1)ajibi(st+1)

Com base nas probabilidades α anteriormente obtidas no processo de avanço e nasβ agora calculadas, é possível a estimação da transição de estados Υ dada seqüência desímbolos s:

Υij(t) =αi(t)aijbj(st+1)βi(t+ 1)

kαk(t)

A partir das novas transições de seqüências, as probabilidades podem ser otimizadasatravés da estimação de novos valores para o modelo. Para tanto, deve ser feita a reesti-mação das probabilidades de transição do modelo e de símbolos observados.

Para reestimar as transições entre estados calcula-se o número de ocorrências de umacerta transição sobre o número total de ocorrências:

aij = P (i→ j) =N(i→ j)

N(i→ ∗) =

∑t Υij(t)∑

j

∑t Υij(t)

E para nova estimação dos símbolos observados, calcula-se o número de vezes queocorreu dado símbolo u sobre o total de observações:

bij = P (i, u) =N(i, u)

N(i)=

∑t:(yt=u)

∑j Υij(t)∑

j

∑t Υij(t)

A partir dos novos parâmetros, é possível reaplicar o algoritmo, num refinamento pro-gressivo dos parâmetros, ajustando-os adequadamente para que melhor reconheça futurosnovos padrões (fonemas) não-treinados.

Como comentado anteriormente, o objetivo da modelagem de Markov é obter a me-lhor seqüência possível de fonemas, permitindo a identificação de uma palavra por apro-ximação estatística. Desta forma, podem ser construídos sistemas híbridos de reconhe-cimento de fala, onde as características do sinal são adquiridas com redes neurais e amodelagem temporal dos fonemas feita por modelos de Markov.

Page 33: compreensão da linguagem falada

Capítulo 3

Processamento de Linguagem Natural

Normalmente, um sistema de processamento de linguagem natural é abordado do pontode vista da análise do conhecimento morfológico, sintático, semântico e pragmático. Aanálise morfológica estuda a construção das palavras, com seus radicais e afixos, quecorrespondem a partes estáticas e variantes das palavras, como as inflexões verbais. Aanálise sintática diz respeito ao estudo das relações formais entre palavras [JUR 00]. Aanálise semântica é um processo de mapeamento de sentenças de uma linguagem visandoa representação de seu significado, baseado nas construções obtidas na análise sintática[ABR 96]. A pragmática diz respeito ao processamento da forma que a linguagem éutilizada para comunicar, como os significados obtidos na análise semântica agem sobreas pessoas e seu contexto. Veja figura 3.1.

Para a implementação de analisadores sintáticos é necessária a construção de um par-ser para que seja procedida a verificação da posição da palavra na frase. Porém, antesdisso, é necessária uma prévia classificação das palavras.

No português, por exemplo, temos 10 classes de palavras: substantivo, verbo, adje-tivo, artigo, numeral, pronome, advérbio, preposição, conjunção e interjeição [CUN 82].Cada uma dessas palavras possuem combinações coerentes com a sintaxe definida pelalinguagem. Não é coerente, por exemplo, a colocação de um adjetivo antes de um artigo.A verificação disto é tarefa da análise sintática.

Para a análise semântica são definidos modelos de léxico onde são associados sig-nificados a palavras ou expressões. Na implementação de analisadores semânticos sãoutilizadas diversas técnicas, como redes semânticas, gramáticas semânticas e modelosconexionistas (em geral, redes neurais).

A análise pragmática geralmente é implementada através de quadros (frames), casos(cases) e roteiros (scripts), associando os significados obtidos a um determinado contexto.

Análi se Mor fológi ca

Análi se Si n t át i ca

An ál i se Sem ân t i ca

Análi se Pragm át i ca

Figura 3.1: Componentes do Processamento de Linguagem Natural.

33

Page 34: compreensão da linguagem falada

34

Tabela 3.1: Tabela de sufixos.sufixo substantivo (radical) palavra derivada-zinho boné bonezinho

botão botãozinho-zinha árvore árvorezinha

flor florzinha

Normalmente casos de ambigüidade da linguagem são resolvidos neste nível, uma vez queo contexto permite a diferenciação necessária.

Apesar das diversas etapas de processamento da linguagem, há pesquisadores queacreditam ser muito tênue a separação entre reconhecimento sintático, semântico e prag-mático. Neal e Shapiro afirmam que alguns aspectos da sintaxe não deveriam ser sepa-rados da semântica, uma vez que a mudança de uma palavra que está na frente de outrapode alterar-lhe o sentido. Por exemplo a palavra areia na frase Eu usei areia, ao colocarum artigo na frente, muda seu significado: Eu usei a areia. A primeira frase indica umaareia qualquer, mas a segundo especifica uma determinada areia [NEA 87].

Por outro lado, a semântica também tem íntima relação com a pragmática, uma vezque há palavras que somente encontram seu significado no contexto, como por exemploa palavra banco na frase Eu tropecei no banco. Dependendo do contexto, banco podeindicar o móvel ou a agência bancária. Este tipo de ambigüidade só pode ser resolvida anível de análise pragmática.

No decorrer deste capítulo serão abordadas todas as fases do processamento da lin-guagem natural, desde a análise morfológica até a análise de discurso.

3.1 Análise morfológicaEste tipo de análise é necessário para que o tamanho do dicionário não fique muito

extenso, uma vez que é mais simples o armazenamento do radical da palavra e seus afixos.Estes são os componentes que formam uma palavra juntamente com o radical, comoprefixos e sufixos. Um exemplo de prefixo é des na palavra desesperança e de sufixoé mos na palavra calamos.

O tratamento computacional deste tipo de análise é relativamente simples. Baseia-se em regras que analisam as palavras e as classificam segundo tabelas de afixos. Porexemplo, a entrada zinho de uma tabela de sufixos está associada a um diminutivo deum substantivo, portanto, a palavra bonezinho é o diminutivo da palavra boné, que é seuradical. Desta forma, são reconhecidas as palavras que não estão na sua forma padrão, jáadequando-as para a fase posterior de análise sintática. A tabela 3.1 apresenta o uso dedois sufixos.

Jurafsky e Martin chamam o sistema que realiza a passagem da palavra escrita para aforma classificada de Conversor de Estados Finitos (Finit-State Transducer - FST). Estetipo de sistema é o que passa uma palavra de sua forma como é normalmente escrita parauma forma etiquetada, ou seja, com identificação de seu radical e afixo [JUR 00]. Na se-ção 3.2.1 será apresentado o nível de etiquetagem sintática, complementar à morfológica.

Um exemplo de analisador morfológico para o português é o sistema Palavroso, querealiza a identificação do afixo e pré-classifica as palavras em quatro grupos: verbos,nomes e adjetivos, classes fechadas e advérbios [WIT 98]. A implementação desse sis-

Page 35: compreensão da linguagem falada

35

tema tem por base o que foi anteriormente descrito, mas possui ainda outro módulo dedicionário que verifica a existência da palavra construída através das regras morfológicas.

3.2 Análise sintáticaNo contexto do processamento da linguagem, as gramáticas utilizadas na análise

sintática têm sido chamada de Modelos de Linguagem (Language Models - LM). Estadefinição está associada ao amplo universo de frases possíveis de serem modeladas pararepresentação de determinado domínio de análise.

No seguimento, serão abordadas algumas técnicas utilizadas na identificação e etique-tagem dos elementos sintáticos e na organização da construção sintática.

3.2.1 EtiquetagemO primeiro processamento que é efetuado na análise sintática é a identificação das

classes das palavras (também conhecidas como classes morfológicas, etiquetas lexicaisou partes de fala). Para proceder esta classificação, são implementados parsers que iden-tificam nas frases as classes das palavras que as compõem. Esta classificação de palavrastambém é conhecida como etiquetagem (tagging).

Por exemplo, a frase Eu tropecei na pedra, poderia ser etiquetada da seguinte forma:Eu/PPE tropecei/VP na/PAF pedra/SSF. Esta representação segue a tabela 3.2, onde sãoapresentadas as etiquetas, sua descrição e a palavra correspondente na frase apresentada.

Basicamente, a etiquetagem dos atuais parsers sintáticos que vem sendo implemen-tados constituem-se de três tipos: os que usam regras, os que utilizam estatísticas e oshíbridos, que utilizam as duas anteriores [PAC 96][JUR 00]. A primeira, que utiliza re-gras, também é chamada de lexicalista, uma vez que ela se preocupa em seguir regras dedicionário e de gramáticas para verificação da consistência da linguagem.

A segunda abordagem chama-se probabilística, uma vez que utiliza cadeias de Mar-kov (veja seção 2.3.2) para descobrir qual é a seqüência mais provável de palavras. Dentrodeste contexto, a técnica que tem sido mais utilizada em parsers sintáticos probabilísticosé chamada de n-gramas, que consiste em estabelecer uma estatística a cada n palavras.Normalmente é implementado n=3, sendo que são analisadas 2 palavras para a previsão daterceira. Desta forma, é estabelecida uma estatística de construção de frases, permitindoa descoberta de qual é a palavra de combinação mais provável, permitindo a verificação ecorreção da construção frasal.

A última abordagem é chamada de funcionalista e reúne tanto características referen-tes ao uso de regras, quanto ao uso de probabilidades. Uma das técnicas mais utilizadasé conhecida como Transformation-Based Learning (TBL), ou Aprendizado Baseado emTransformação, que faz a indução de regras a partir de exemplos de palavras apresentadas.Baseando-se em regras básicas, procura-se inferir a categoria de construção das frases da-das para aprendizado. Sobre este aprendizado, são construídas estatísticas que podem darorigem a novas regras de construção de frases não previstas no modelo básico.

A etiquetagem das palavras, contudo, não basta para a análise sintática. Por vezesocorre situações ambíguas onde é necessário recorrer-se a mais um nível, uma vez que,dependendo onde se encontra a palavra na frase, ela pode ter a função de advérbio oude substantivo (ex.: branco), de verbo ou conjunção (ex.: como), e assim por diante. Opróximo passo, portanto, é a análise da construção gramatical da frase para a definição dacategoria sintática.

Page 36: compreensão da linguagem falada

36

Tabela 3.2: Etiquetagem sintática.etiqueta descrição palavra

PPE Pronome PEssoal euVP Verbo no Passado tropeceiPAF Preposição+Artigo Feminino naSSF Substantivo Singular Feminino pedra

Frase

Sintagma Nominal Sintagma Verbal

Sujeito

Objeto Indireto

Preposição SubstantivoVerbo

Eu/PPE tropecei/VP na/PAF pedra

Figura 3.2: Árvore de parser.

3.2.2 Construção GramaticalApós a etiquetagem, passa-se à verificação da construção gramatical da frase. Para

tanto, as linguagem é modelada por gramáticas livres de contexto, que divide as frases emárvores de sintagmas nominal e verbal e, a partir daí, verifica que classe enquadra-se emcada sintagma (veja figura 3.2). Neste sentido, há duas correntes de desenvolvimento: aconstrução de árvores de parser e de parsers probabilísticos [JUR 00].

Árvores de Parser

Árvores de Parser utilizam técnicas de busca em árvore para determinar a correção daconstrução frasal, realizando a comparação entre a frase e a estrutura da árvore. Uma téc-nica bastante difundida que busca resolver os problemas de busca em árvore é o algoritmode Earley, que baseia-se na transição de estados para estabelecer qual é a classe mais pro-vável de se seguirá à classe atual [SIK 97][JUR 00]. Este algoritmo possui 3 operadores:predictor, scanner e completor. O primeiro estabelece as transições de estado possíveis,o segundo realiza a comparação entre as transições possíveis e a palavra em análise, e oterceiro módulo realiza o registro final da classe na frase etiquetada. O maior problemadeste tipo de parser é a incapacidade de resolver casos de ambigüidade.

Algoritmo de Earley

O algoritmo de Earley realiza uma busca top-down numa gramática estruturada emárvore. Ele começa com a varredura de um vetor chamado mapa (chart), contendo tan-tos elementos quantos forem as palavras da frase em análise. Cada uma destas entradasdo vetor contém uma lista de estados gerados pelo parsing até aquela palavra. A listade estados gerados é composta de uma subárvore que representa uma regra gramatical,de informação sobre o preenchimento da subárvore (regras satisfeitas) e da posição nasubárvore de acordo com a palavra do mapa (vetor).

Page 37: compreensão da linguagem falada

37

Frase

Sintagma Nominal Sintagma Verbal

Sujeito

Objeto Indireto

Preposição Substantivo

Verbo

Eu/PPE tropecei/VP na/PAF pedra

F -> SN SV: 0.4

SN -> S: 0 .4

S -> Eu: 0.4

SV -> V OI: 0.3

V->tropecei : 0.4 P->na:0 .3 S - > 0 . 4

OI->P S: 0 .5

Figura 3.3: Árvore de parser com indicações de probabilidade.

Neste contexto, o operador predictor é que cria a subárvore a partir da regra gramati-cal. Ele aloca as folhas na árvore para estados não-terminais da gramática.

O operador scanner verifica qual das ramificações geradas é compatível com a palavraem análise, gera uma nova folha e marca no mapa o atual estado da busca.

Por fim, o operador completer é necessário quando uma regra terminou de ser ava-liada e deve-se realizar o retrocesso (backtracking) para concluir a avaliação das demaisramificações da árvore.

Parsing Probabilístico

O parsing probabilístico utiliza uma gramática cujas entradas possuem ponderaçõesestatísticas (pesos). Estas ponderações são colocadas com base na observação da pro-babilidade de ocorrência das regras gramaticais no corpus (base de palavras). Atravésdestes pesos é possível a resolução de ambigüidades, sendo indicadas as frases de maiorprobabilidade.

Assim, a probabilidade de uma regra R não terminal (a → b | a) ocorrer numa fraseF é a divisão do número de ocorrências de R na avaliação de F pelo número de repetiçõesdo símbolo avaliado (a):

P (R) = P (a→ b | a) =cont(a→ b)

cont(a)

E a probabilidade de uma árvore de parser A para o cálculo da melhor F é o produtode todas as regras envolvidas na construção de A:

P (A) =

n ∈ A P (Rn)

A partir destas equações é possível saber se as regras usadas para a construção deuma árvore é mais adequada que outra. Veja um exemplo de árvore com probabilidadesna figura 3.3. Isto resolve grande parte dos problemas de ambigüidade nos casos daspalavras que podem pertencer a mais de uma classe, como visto na seção 3.2.1.

Um dos algoritmos empregados para a execução deste tipo de parsing é o Earley pro-babilístico, que segue o mesmo algoritmo analisado na seção anterior, acrescido dos va-lores de probabilidades das regras, o que permite a desambigüação.

O maior problema do parser probabilístico é a colocação de pesos iguais a construçõesfrasais diferentes, embora com as mesmas palavras (ex.: eu tropecei na pedra poderia ter

Page 38: compreensão da linguagem falada

38

Frase

Sintagma Nominal Sintagma Verbal

Sujeito

Objeto Indireto

Preposição Substantivo

Verbo

Eu/PPE tropecei/VP na/PAF pedra

{ é_um(x,tropeçar)^tropeça(x, eu)^tropeçado(x,pedra) }

Figura 3.4: Árvore de parser com anexo semântico.

igual peso de tropecei na pedra eu). A solução para este caso está na utilização de indi-cadores lexicais (lexical heads), que permite ao algoritmo de busca identificar diferentesramificações dos sintagmas.

Os indicadores lexicais são palavras que ficam junto das raízes de uma determinadasubárvore de parsing. Isso serve para indicar a palavra principal de uma parte da frase (osujeito num sintagma nominal, por exemplo) e alterar o peso de construções frasais quepoderiam ter pesos iguais.

3.3 Análise SemânticaApesar do extenso processamento realizado nas análises morforlógica e sintática,

apenas com estas não é possível distinguir certas categorias de palavras e muito menosprecisar o objetivo da frase. Para tanto, são acrescentadas nas árvores de parser os chama-dos anexos semânticos (semantic attachments) [JUR 00]. Este tipo de análise semânticatradicional pode ser construído ainda em tempo de análise sintática, à medida que a árvorede parser vai sendo completada (veja figura 3.4).

O anexo semântico apresentado na árvore da figura 3.4 é uma composição de umarede semântica onde é definido o verbo tropeçar. A definição diz que este verbo necessitade um agente (aquele que tropeça) e um paciente (algo em que o agente tropeça).

Por outro lado, há outras formas de análise semântica: gramáticas semânticas (seman-tic grammar), gramáticas baseadas em caso (case-based grammars) e outros métodospara casos específicos [CAR 87].

3.3.1 Gramáticas SemânticasAs gramáticas tradicionais são utilizadas apenas para definir regras de sintaxe. Por

outro lado, podem ser definidas regras associadas a frases-padrão, onde variam as palavrasenvolvidas. É uma forma viável quando existe uma hierarquia de diferentes contextos enecessita-se diferenciá-los através de padrões. Infelizmente, para cada frase analisada,é necessária uma regra distinta, dificultando sua utilização em diferentes domínios doconhecimento [CAR 87][PAC 96][MIN 98] [JUR 00].

A construção de gramática semânticas baseia-se na colocação de variáveis que serãopreenchidas de acordo com a afirmação ou questionamento do usuário ao sistema. Umexemplo de regras de uma gramática semântica poderia ser:

QUESTÃO -> quem tropeçou ONDE

Page 39: compreensão da linguagem falada

39

RESP_QUEST -> QUEM tropeçou ONDEQUEM -> euONDE -> PREPOSIÇÃO LUGARPREPOSIÇÃO -> naLUGAR -> pedraCaso fosse questionado Quem tropeçou na pedra?, a resposta seria eu tropeçou na

pedra, pela associação da expressão na pedra com a variável ONDE e o pronome eu coma variável QUEM.

3.3.2 Gramáticas Baseadas em CasosEsta forma de análise usa gramáticas semânticas não-terminais para formar padrões.

Caso uma dada frase encaixe na construção padrão, ela poderá ser reconhecida dentro deum contexto. Este contexto em geral é estruturado na forma de quadros (frames), casos(cases) [CAR 87][MIN 98][BAR 98].

São construídas gramáticas semânticas para identificar os elementos da frase e indicaro caso (ou quadro) que melhor se aplica a estes elementos. Um exemplo de gramática,para uma aplicação de leitura de correio eletrônico, pode ser o seguinte:

<mensagem> -> <?artigo cabeça-mensagem *caso-mensagem><caso-mensagem> -> <%de Pessoa><caso-mensagem> -> <%sobre Assunto><caso-mensagem> -> <%desde Data>Onde ? indica um item opcional, * um item passível de repetição e % significa que

qualquer palavra da mesma classe daquela indicada a seguir pode ser utilizada; artigoindica que pode haver um artigo antecedendo a cabeça da frase; cabeça-mensagem é apalavra-chave que indica ser uma mensagem do correio eletrônicos; caso-mensagem é areferência para o caso que irá tratar daquela parte da frase; Pessoa, Assunto e Data sãovariáveis que recebem os dados sobre a mensagem.

Uma frase que poderia se encaixar neste modelo seria as mensagens de João sobremodelagem desde segunda-feira. Neste caso, as palavras João, modelagem e segunda-feira servirão de guia para o caso a ser utilizado na resposta do sistema.

A construção de casos para análise semântica antecipa um tipo de processamentogeralmente utilizado apenas na análise pragmática, usado para descrever contextos espe-cíficos. Na implementação de casos são utilizados quadros, que são estruturas utilizadaspara caracterizar os elementos semânticos que compõem a frase em análise. Casos são,portanto, estruturas contendo quadros utilizados em dado contexto que identificam pro-blemas e ainda outros quadros que identificam soluções para estes problemas. Estas estru-turas podem ser usadas na análise semântica para resolver ambigüidades não esclarecidasno processo convencional, baseado em regras.

Um caso para o exemplo citado anteriormente poderia ser o seguinte:[Nome: MensagemEsquema:

[Emissor: &PessoaAssunto: &AssuntoData: &Data]

Page 40: compreensão da linguagem falada

40

Sintaxe:[Tipo: Frase-nominalCabeça: (mensagem mensagens mail carta)Caso:

(<%de Pessoa><%sobre Assunto><%desde Data>)

]]Por outro lado, há quem argumente que a análise pragmática deva ser feita junto com

a análise semântica através do uso de casos . A justificativa para isso está na abordagemdo estudo das relações existentes na frase de um caso. Dependendo da relação, define-se a função da frase dentro do caso, obtendo-se, ao mesmo tempo, o aspecto semântico(significado) e pragmático (contexto).

3.4 Análise PragmáticaEste tipo de análise foge à estrutura de apenas uma frase. Ela busca nas demais frases

a compreensão do contexto que falta à frase em análise. Em geral, não há estruturaspré-definidas que atendam a uma representação adequada de problemas de referênciaspronomiais (por exemplo os pronomes la, seu e o no contexto: João pegou a rosa. Aopegá-la, seu espinho o espetou), coerência textual e análise de discurso. Por outro lado,as estruturas mais utilizadas na análise pragmática são os casos, conforme descritos naseção 3.3.2, que por sua característica já permitem a identificação de contexto.

Para se ter uma noção dos algoritmos utilizados na análise pragmática, pode-se pegarum conhecido algoritmo de resolução de referências pronomiais, proposto por Lappin eLeass em 1994 [JUR 00]. Neste algoritmo, são atribuídos pesos aos pronomes encon-trados em frases. Esses pesos são chamados de valores de saliência e são atribuídos aosujeitos encontrados na mesma frase ou nas frases precedentes. Quanto mais próximo dopronome estiver o sujeito encontrado, maior será o valor a ele atribuído como referênciaao pronome.

Após ser atribuído pesos aos sujeitos de referência encontrados, retiram-se aquelesque não combinam em gênero e número, e são levadas em conta outras característicascomo o tipo de pronome, se a frase tem objeto indireto ou advérbio, entre outros fatores.Cada uma dessas características podem influir no cálculo do peso da referência, de formaa que o sujeito com maior peso será o selecionado para substituição do pronome. Assim,num contexto como o exemplo citado anteriormente, o pronome la, seu e o terá comosujeito mais próximo a rosa, mas o último pronome (o) não combina com o gênero,sendo, então, atribuído ao próximo sujeito, João.

Há ainda muitos outros algoritmos citados na literatura acerca de resolução de refe-rências pronomiais, porém a maioria é dependente de uma estrutura sintática previamentedeterminada ou pouco flexível a diferentes construções frasais. Por esta dificuldade deser identificada a construção frasal é que tem sido cada vez mais usadas estruturas depreenchimento como casos para análise pragmática.

Page 41: compreensão da linguagem falada

Capítulo 4

Processamento da Linguagem Falada

Conforme analisado no capítulo 2, sistemas de reconhecimento de fala estão limitadosà identificação de palavras, através da transcrição do fonema para a grafia escrita. Poroutro lado, os sistemas puramente de processamento de linguagem natural, como visto nocapítulo 3, estão limitados à linguagem escrita. Assim, sistemas ASR (reconhecimentode fala) são usados somente para acionamento de comandos e sistemas NLP (linguagemnatural) são utilizados como interpretadores e tradutores aplicados sobre bases de textosou páginas html.

Estes dois paradigmas esgotam-se quando há a necessidade de um sistema de diálogofalado com o computador. Para tanto, necessita-se a união do reconhecimento de falacom o processamento da linguagem, aliados à síntese de fala, para uma resposta vocaldo sistema. Como dissertado no capítulo 1, este tipo de sistema busca a compreensão dalinguagem falada, técnica esta derivada do ASR e do NLP.

Uma vez que o processamento da linguagem falada é diverso da linguagem escrita,e o reconhecimento de fala é apenas um primeiro nível de análise deste tipo de lingua-gem, pode-se dizer que a compreensão da linguagem falada é um novo paradigma dedesenvolvimento de sistemas computacionais.

Em geral, sistemas SLU (compreensão da linguagem falada) são utilizados em in-terfaces de voz, tal como navegadores de voz (voice browsers) e tradutores interlínguas.Normalmente, como mostra a figura 4.1, são compostos de um módulo de reconheci-mento de fala, um módulo de parser estatístico, um módulo de processamento de discurso(pragmático) e um módulo de síntese de fala. O primeiro módulo utiliza técnicas comoas descritas no capítulo 2, uma vez que o segundo módulo trabalhará sobre a transcriçãográfica da linguagem. Apesar disto, o processamento da linguagem difere da aborda-gem vista no capítulo 3, pois a língua falada possui uma organização diferente da línguaescrita, sujeita a grandes variações de estrutura. Neste sentido, são amplamente usadasgramáticas probabilísticas que utilizam HMM para sua estruturação.

Apesar do processamento mais comum ser embasado apenas na linguagem, há siste-mas que utilizam a prosódia para uma análise mais precisa do contexto semântico, comoserá abordado no capítulo 5. Isso significa que na entonação dada às palavras possui umaquantidade de informação ainda pouco explorada pelos sistemas computacionais.

O módulo de um SLU que é dada maior ênfase após o parser é o processamento dodiscurso, pois é nele que será analisado o contexto das frases proferidas pelo usuárioe produzida a resposta coerente a este contexto. É comum a utilização de sistemas dequadros (frames) organizadas em bases de dados contendo as palavras-chave e estruturasfrasais dos contextos de pergunta e resposta.

41

Page 42: compreensão da linguagem falada

42

Reconhecimento

de Fala

Parser

Estatístico

Pr ocessamentode Discur so

Síntese de Fala

Figura 4.1: Sistema de Compreensão da Linguagem

Por fim, utiliza-se um módulo de síntese de fala para a permitir a saída auditiva daresposta gerada no processamento do discurso. A síntese de fala baseia-se num processosimples, de mapeamento palavra-fonema, ou seja, determinada quantidade de letras sig-nificam um determinado fonema a ser emitido ao usuário. Um problema nos sistemasatuais é novamente a prosódia, uma vez que são utilizados apenas recursos de análise depontuação para variação da entonação das palavras, sem análise do contexto semântico.Esta abordagem será melhor discutida no capítulo 5.

Nas próximas seções serão analisadas técnicas de análise de linguagem falada e dediálogo. Neste sentido, será descrito um sistema completo, chamado SCREEN, desen-volvido na década passada pelos pesquisadores Stefan Wermter e Volker Weber no depar-tamento de Ciência da Computação da Universidade de Hamburgo [WEB 96] [WER 96][WER 97]. Ele será descrito em toda a sua extensão por ser um sistema cujos módulosabrangem a análise da linguagem falada e do diálogo.

Serão também descritas diversas técnicas de análise da linguagem falada, como odesenvolvimento de parsers como Phoenix, FeasPar e GLR, entre outras abordagens.

4.1 SCREENO sistema SCREEN (Simbolic Connectionist Robust EnterprisE for Natural language)

foi criado para provar ser possível criar um sistema de análise de linguagem capaz de sertreinado para fazer um sistema robusto de interpretação de fala espontânea. A entradadeste sistema é o resultado de um reconhecedor de fala, ou seja, palavras reconhecidase sua respectiva probabilidade. A saída do sistema são conjuntos de frases, devidamenteidentificadas confome seu contexto, permitindo assim a construção de um sistema dediálogo por computador.

Ele é constituído de seis grandes partes, conforme figura 4.2: de construção da seqüên-cia de fala, de avaliação da fala, de categoria, de correção, de casos e de diálogo. Cada

Page 43: compreensão da linguagem falada

43

Figura 4.2: Esquema completo do sistema SCREEN [WER 97].

uma das partes gera hipóteses de frases para a parte seguinte, num nível crescente deabstração da linguagem.

A primeira parte é a construção da seqüência da fala (speech sequence constructionpart), a qual é realizada a partir do resultado de um reconhecedor HMM. Para cada frase,são geradas diversas hipóteses de formação de frases através da combinação das palavrascontidas no léxico do sistema. Essas hipóteses são feitas com base em quatro fatores:

1. tempo de início;

2. tempo de fim;

3. string da palavra provável;

4. probabilidade indicada pelo reconhecedor de fala.

Page 44: compreensão da linguagem falada

44

Figura 4.3: Rede recorrente utilizada na avaliação sintática de fala [WER 97].

A comparação destes fatores indicarão as melhores combinações entre palavras, for-mando conjuntos de possíveis frases. Uma vez construídas as frases, passa-se à sua avali-ação.

A parte de avaliação da fala (speech evaluation part) realiza uma estimativa de errosprovocados pela fala. Para tanto, utilizam-se as probabilidades geradas pelo reconhece-dor e de avaliações anteriores realizadas pela parte de categoria, a ser explicada poste-riormente. As hipóteses de palavras oriundas do reconhecedor são avaliadas sintática esemanticamente através de redes neurais recorrentes, como a da figura 4.3.

As redes neurais recorrentes não foram citadas na seção 2.3.1 por não serem utilizadasno contexto de reconhecimento de fala. Cabe aqui alguns comentários sobre sua consti-tuição, uma vez que é utilizada no sistema SCREEN. Redes recorrentes são perceptronsde múltiplas camadas, tal como o modelo backpropagation, porém possuem um módulode atraso para uma ou mais camadas. Este módulo de atraso consiste num conjunto deneurônios - e, portanto, pesos associados - que realimenta a camada ao qual está ligado.Os neurônios deste módulo são chamados de unidades de contexto.

As unidades de contexto armazenam os pesos de uma camada oculta por um passo detempo, realimentando-os na entrada da rede ou de volta à camada oculta. Esta caracte-rística permite à rede realizar o armazenamento do estado do sistema, que será utilizadono reforço do aprendizado do próximo estado [HAY 01]. Wermter e Weber afirmam queeste método é mais consistente que modelos de n-gramas (ver seção 3.2.1), que arma-zenam apenas n palavras anteriores, enquanto a rede recorrente não possui limite para oarmazenamento [WER 97].

Na figura 4.3, vê-se uma rede recorrente simples, onde a camada de contexto rea-limenta a camada oculta, permitindo o armazenamento das características das palavrasanalisadas anteriormente. As redes recorrentes são utilizadas nas diversas partes do sis-tema SCREEN, como pode ser observado na figura 4.2, mas especificamente na parte deavaliação de fala são usadas para identificação das classes sintáticas e semânticas, comoo processo de etiquetagem probabilística (ver seção 3.2.1). Exemplos de classes sintá-ticas no SCREEN, também chamadas de categorias sintáticas básicas, são substantivos,verbos, preposições, pronomes, etc. e classes semânticas básicas são movimento, tempo,localização, entre outros termos.

Foi utilizada uma rede para a avaliação sintática, ou seja, as palavras identificadaspelo reconhecedor de fala e organizadas em frases pela parte de construção da seqüência

Page 45: compreensão da linguagem falada

45

de fala são classificadas dentro de categorias previamente estabelecidas. Este mesmoprocedimento é feito para avaliação semântica, realizada em outra rede recorrente.

Estes módulos de redes recorrentes irão realizar mais uma seleção de prováveis frases,eliminando parte daquelas geradas. As melhores frases passarão a ser avaliadas na partede categoria (category part), visando a retirada de ambigüidades quando da classificaçãosintática e semântica realizada na parte de avaliação da fala.

Para uma avaliação adequada da categoria são utilizadas redes recorrentes treinadas noprocesso de retirada de ambigüidades. São apresentados padrões de construções ambíguase treinados resultados de sua desambigüação.

Desta forma, existem duas redes recorrentes, uma para desambigüar a sintaxe e outrapara a semântica. O resultado destas redes serão utilizados posteriormente na parte decorreção de fala e são também passados a outras duas redes ainda na parte de categoria quefarão uma classificação em termos de categorias sintáticas e semânticas. Estas categoriassão grupos de palavras com funções similares no contexto da frase, permitindo, segundoWermter e Weber, uma classificação flexível e, portanto, robusta. Exemplos de categoriassintáticas, também chamadas categorias abstratas sintáticas, são grupo verbal, grupo desubstantivo, grupo de advérbios, etc. e categorias abstratas semânticas são ação, agenteda ação, objeto da ação, tempo de início da ação, tempo final da ação, etc.

Ainda na parte de categoria, há mais uma rede recorrente responsável por delimitar ascategorias. Isso é feito identificando, pelo lado sintático, indicadores como as preposiçõese, pelo lado semântico, os substantivos envolvidos na frase.

Os resultados obtidos com a avaliação das categorias são levados para a parte decorreção (correction part), que identifica pausas, interjeições e corrije as palavras e aestrutura da frase. As pausas e interjeições não são essenciais no reconhecimento dafrase, mas tornam-se importantes em recursos de tradução. Caso não seja necessário atradução, estes elementos podem ser marcados como apagados.

A correção de palavras é feita com base na comparação das classes sintáticas básicasentre duas palavras. Para isso utiliza-se uma rede neural perceptron multicamada, cujasentradas são classes desambigüadas na parte de categoria. A saída da rede é simples-mente o resultado de que a palavra é equivalente ou não. O mesmo processo é feito paracomparação da classe semântica das palavras.

Além destas duas redes, há um módulo simbólico que utiliza regras de simples com-paração léxica das palavras. Os resultados dos três módulos são recebidos na entrada deuma rede recorrente que fará a ponderação destes fatores e terá em sua saída a palavracorrigida.

Na parte de correção há ainda a reorganização da frase, assim como na correção dapalavra, com base no início léxico de duas frases consecutivas, na categoria abstrata sin-tática e semântica. Novamente, a comparação léxica é simbólica e as comparações decategorias são com redes perceptron multicamada. A correção final é feita com uma rederecorrente que recebe os resultados dos três módulos de comparações e dá como saída afrase corrigida segundo os fatores de entrada.

A frase corrigida é passada para parte de casos, com as palavras mantendo a eti-quetagem recebida dos classificadores sintáticos e semânticos básicos e abstratos. Estasinformações são utilizadas no parser de segmentação que faz o preenchimento de quadros(frames) que compõem os casos. As classes sintáticas e semânticas básicas são usadaspara identificar a estrutura das frases e, portanto, auxilia na identificação de um quadro,enquanto as categorias abstratas são utilizadas para o preenchimento internos dos escani-nhos (slots) dos quadros.

Page 46: compreensão da linguagem falada

46

Figura 4.4: Rede de decisão para correção de palavras redundantes [WER 97].

Apesar de todas as características envolvidas, ainda pode haver ambigüidade quantoao preenchimento de um quadro, mas Wermter e Löchel afirmam que só informações deprosódia permitiriam a solução deste tipo de caso [WER 96].

Há ainda outra informação que auxilia a definir o contexto de diálogo, recebida daparte de diálogo, referente ato tipo de ação de diálogo: aceitação, questionamento, rejei-ção, comando, etc. Esta informação auxilia na reorganização dos quadros, otimizando ainterpretação das frases no diálogo.

A parte de diálogo é uma rede recorrente (veja fig. 4.5) que é treinada para determinarque tipo de ação de diálogo há numa frase. Como entrada na rede, são apresentadasponderações das palavras que constituem a frase, baseadas em vetores de plausibilidade.Estes são estatísticas de que palavras ocorrem mais em dado tipo de ação de diálogo. Porexemplo, a palavra proponho ocorre com mais freqüência em ações de sugestão, a palavramau ocorre em frases de rejeição, e assim sucessivamente.

Dada a característica da rede recorrente de armazenamento do contexto, as frases sãoclassificadas de acordo com as ocorrências de todo o conjunto de frases. Desta forma, arede possui em sua saída uma nova classificação das palavras da frase, que pode ou nãoser a mesma da entrada, como pode ser observado na figura 4.5.

Esta reclassificação de frases irá auxiliar na reorganização dos quadros da parte decasos, otimizando as informações obtidas a partir das demais partes do SCREEN. Por fim,o resultado final do sistema é um conjunto de quadros com frases devidamente etiquetadase classificadas conforme o contexto de diálogo.

O sistema todo, portanto, recebe os resultados de um reconhecedor de fala e disponi-biliza a organização de uma fala espontânea numa base de conhecimento, disponível parautilização por outros sistemas interativos.

Page 47: compreensão da linguagem falada

47

Figura 4.5: Rede recorrente da parte de diálogo [WER 96].

4.2 Análise da Linguagem FaladaTodos os pesquisadores que desenvolvem sistemas para a linguagem falada concordam

que sua análise é mais complexa que a linguagem escrita. Neste sentido, a linguagemfalada espontânea é a mais problemática, por não seguir as regras gramaticais. Por estarazão, afirma-se que a análise da linguagem escrita é um subconjunto da análise da lin-guagem falada, uma vez que esta pode ser falada seguindo as regras gramaticais correntesna língua.

Normalmente, os parsers de linguagem falada são construídos a partir de regras gra-maticais básicas que são otimizadas pelo sistema através de esquemas probabilísticos, deforma a adaptar a máquina de estados finitos da gramática original. Após a adaptação,são realizados diversos procedimentos de identificação de elementos genéricos, de formaa forçar a identificação de uma construção frasal ou contexto semântico, o que geralmenteé realizado através de estruturas de quadros (frames).

Nas seções que seguem, serão abordados diferentes formas de análise da linguagem,porém sempre com a utilização regras, quadros ou estruturas similares que identificama organização da frase e seus elementos, entremeadas de uma reorganização através demodelos de Markov ou redes neurais artificiais.

4.2.1 Regras e Quadros na Análise Estatística da Linguagem FaladaA partir de 1995 cresceu a preocupação com a análise da linguagem falada, dada a evo-

lução dos sistemas de reconhecimento de fala. Antigos sistemas de parser de linguagemnatural foram sendo otimizados para acompanhar esta evolução e proporcionar o proces-samento da linguagem falada. Isso exigiu muito trabalho dos pesquisadores, uma vez quea análise da linguagem falada é de maior complexidade que a linguagem escrita, como jácomentado.

Um dos parsers que sofreu esta otimização foi o GLR*, que é uma evolução diretado parser GLR (Generalized LR) que, por sua vez, é o sucessor do LR (Left-Right)[LAV 96a]. Este tipo de parser vem dos anos 1960, onde eram descritas gramáticas sim-ples de avaliação da esquerda para direita, na forma de autômatos determinísticos.

Já o parser GLR é uma extensão do LR que permite a avaliação de gramáticas não-determinísticas. Para tanto, ele usava uma pilha de grafo estruturado (Graph Strutured

Page 48: compreensão da linguagem falada

48

Figura 4.6: Exemplo de grafo gerado pelo GLR* [LAV 96b].

50

Figura 4.7: Seqüencia de construção das RTN (adaptado de [KAY 99a]).

Stack - GSS) que permitia a representação de múltiplas pilhas de parsing, correspondendoa diferentes ações de avaliação de frases (veja fig. 4.6).

O parser GLR* foi uma otimização para permitir a análise da fala espontânea, comênfase na interpretação de palavras desconhecidas e nas limitações de uma avaliação pu-ramente gramatical. Para resolver estes problemas, foi dado acrescentado um módulo detratamento de exceção, que processa as palavras retiradas do processo convencional, queantes eram tidas como erradas.

O processamento do GLR* é basicamente a redução das palavras de uma expressão auma tabela de parser, rejeitando-se os elementos que não se ajustam a estas tabelas. Alémdisso, há um módulo estatítico para o tratamento de ambigüidades, onde é usado ummodelo probabilístico de estados finitos treinado para corrigir a etiquetagem das palavrassegundo as ações do parser. Desta forma, o GLR* proporciona uma adequada avaliaçãoda linguagem falada espontânea, conforme comprovado com sua validação no sistemaJANUS, que realiza tradução falada interlínguas [LAV 96a][LAV 96b].

De forma muito similar ao GLR*, o parser PHOENIX também foi construído comuma gramática de regras, que é compilada numa estrutura de grafos chamada Rede deTransição Recursiva (Recursive Transition Network - RTN) [MIN 99][KAY 99a]. Cadaregra cria uma RTN, que, uma vez constituída, tem seus nodos não terminais extraídos esão acrescentados pesos para as conexões dos vértices através de regras heurísticas (vejafig. 4.7).

As expressões, antes de serem apresentadas à RTN, têm retiradas as palavras desco-nhecidas pelo léxico do sistema. Após a avaliação pelas diversas RTNs, são mantidas asredes de maior compatibilidade entre a expressão e seus pesos. As expressões resultantes

Page 49: compreensão da linguagem falada

49

Figura 4.8: Treinamento do FeasPar [BUO 96b].

são então encaixadas em quadros (frames) de uma gramática de casos para etiquetagemsemântica (veja seção 3.3.2).

Após, o conjunto de expressões etiquetadas são comparadas com modelos de Mar-kov (veja seção 2.3.2) treinados para reconhecimento de frases, visando a escolha dasmelhores seqüências semânticas [MIN 98][MIN 99]. Estas expressões avaliadas semanti-camente são a saída do parser, as quais podem ser utilizadas posteriormente em sistemasde diálogo.

4.2.2 Análise de Segmentos com uso de Redes Neurais ArtificiaisA análise de segmentos (chunk parsing) é baseada na verificação de partes das sen-

tenças faladas [BUO 96a][ZEC 98a]. Os referidos pedaços das sentenças podem ir desimples palavras até sintagmas inteiros (nominais ou verbais). Em geral, a análise de seg-mentos é apenas um módulo de grandes sistemas de parser, mas a seguir será apresentadoo FeasPar, que utiliza esta técnica como base do sistema.

O parser FeasPar faz a geração de quadros (frames) de segmentos através de redesneurais artificiais. Inicialmente são treinados pela rede conjuntos de quadros chamadosestruturas de características . Nestas, as sentenças estão devidamente repartidas nossegmentos modelados nos quadros [BUO 96a][BUO 96b].

Estes quadros construídos manualmente são os padrões de treinamento das redes neu-rais, cujo objetivo é ensinar ao sistema a construção automática de novos quadros, con-forme mostra a figura 4.8.

O FeasPar possui três grandes módulos, todos constituídos de redes neurais: o segmen-tador (Chunker), o etiquetador de características lingüísticas (Linguistic Feature Labeler- LFL) e o buscador de relações entre segmentos (Chunk Relation Finder - CRF). O seg-mentador possui três redes neurais que são treinadas para reconhecer números e palavras,frases, segmentos e sentenças. O etiquetador são diversas redes neurais treinadas paraclassificar características, identificando quais delas pertencem a quais segmentos. Umexemplo de rede neural utilizada no etiquetador é mostrada na figura 4.9.

O buscador cria uma rede neural para identificar que tipo de segmento existe em de-terminada sentença. Uma vez identificados os segmentos, o buscador cria uma outra redeneural para fixar a relação entre eles. Todas as redes neurais utilizadas são backpropaga-tion de uma camada oculta.

Page 50: compreensão da linguagem falada

50

Figura 4.9: Exemplo de rede neural utilizada no etiquetador [BUO 96b].

Todas as redes neurais são criadas numa etapa de treinamento, uma vez que a utili-zação prática se dá posteriormente, conforme pode ser observado na figura 4.10. Paranível de segmento, são aplicados o etiquetador e o buscador para, ao final do processo, seraplicado um algoritmo de busca para preenchimento de um conjunto de possíveis quadros(estruturas de características) para a sentença de entrada. Para decidir qual é o melhorquadro, aplica-se um algoritmo de comparação entre eles (quadro converter da figura4.10).

O algoritmo de busca realiza a montagem dos quadros prováveis a partir de partesdos segmentos, chamados fragmentos. Estes são armazenados durante o processo numaestrutura chamada agenda (veja fig. 4.11).

A agenda realiza o armazenamento da saída das redes neurais e faz uma composiçãocoerente dos fragmentos, para posterior construção do quadro. Ao final do parsing, aagenda possui o conjunto de quadros que serão avaliados para escolha da melhor estruturade características da sentença apresentada ao sistema.

Page 51: compreensão da linguagem falada

51

Figura 4.10: Exemplo de execução do FeasPar [BUO 96b].

Page 52: compreensão da linguagem falada

52

Figura 4.11: Agenda e fragmentos armazenados [BUO 96b].

Page 53: compreensão da linguagem falada

Capítulo 5

O Processo de Interação Entre A Fala eA Compreensão - A Prosódia

Há determinadas características do sinal de fala que definem os limites de início e fimde uma frase, sua entonação principal e a acentuação das palavras [KOM 97]. Estes fenô-menos acústicos que não são representados na linguagem escrita são conhecidos como aprosódia da linguagem.

A entonação de uma frase pode mudar seu sentido, como a maneira de dizer “ não”,que pode ter conotação tanto negativa, como afirmativa. A palavra forma pode ser faladatanto como fôrma, quando se refere a um molde, quanto fórma, quando se refere a umfeitio, embora seja a mesma grafia. Em suma, a prosódia é essencial para uma adequadacompreensão da linguagem falada.

A história da linguagem escrita, aliás, começou pela prosódia. A cultura mesoameri-cana desenhava objetos para compor palavras sonoras [FER 01]. Era como, por exemplo,colocar uma imagem representando um sol seguida de um desenho de um dado para indi-car a palavra soldado.

A pausa entre as unidades lingüísticas - como as palavras - escritas pelos povos antigosnão era feito por espaços, mas por outros símbolos [FER 01]. Em determinado momentode sua história, os gregos abandonaram os marcadores e a escrita passou a ser contínua,influenciando outros povos como os romanos. O problema da escrita contínua é que asonoridade das expressões gráficas deveria ser falado para que o leitor pudesse encontraro sentido do texto através da audição. O espaço entre as palavras só foi introduzido noséculo VIII como recurso didático para facilitar a leitura silenciosa de textos [ILI 95].

Como a pausa, a pontuação dos textos foi também uma evolução histórica. Na RomaClássica, por exemplo, apenas os leitores especializados sabiam como ler corretamenteos textos [FER 01], resolvendo eles mesmos os problemas de interpretação, de formasemelhante ao que hoje é feito no processo de compreensão de fala, como analisado nocapítulo 4.

No sentido de resolução dos problemas de compreensão da linguagem falada, a pro-sódia é um conhecimento imprescindível para uma boa interpretação. De fato, ela podeser usada como informação em todos os processos analisados no decorrer deste trabalho.

No processamento do sinal de fala (seção 2.2), a prosódia pode auxiliar com in-formações sobre a freqüência fundamental (pitch), que pode variar conforme o locutor[KOM 97]. A partir desse dado, pode-se adequar o processamento do sinal a diferen-tes níveis de freqüências formantes, melhorando o resultado da extração de coeficientescepstrais.

53

Page 54: compreensão da linguagem falada

54

No reconhecimento de fala, analisado no capítulo 2, a prosódia pode ser utilizadapara identificação da acentuação da palavra e do tempo entre os fonemas [KOM 97]. Aacentuação pode ser importante para o caso da palavra forma anteriormente citado e otempo é importante para definir agrupamentos de palavras e frases.

Na análise sintática, vista na seção 3.2, pode se utilizar da prosódia para decidir pontu-ações de texto, facilitando a desambigüação [KOM 97]. Também nas análises semântica epragmática (seções 3.3 e 3.4) a prosódia pode ser utilizada para identificar o ápice de umaentonação frasal [KOM 97]. Em geral, a palavra de maior entonação na frase correspondeà mais importante. Por exemplo, na frase o professor chegou dá-se ênfase à pessoa quechegou, porém, enfatizando na forma o professor chegou, corresponde ao momento emque a pessoa chegou.

Além de todos estes processos, há o fenômeno paralingüístico dos acentos enfáticos,que não foram abordados até o momento neste trabalho. Estes acentos determinam aemoção contida na fala [KOM 97]. Talvez o texto em itálico ou negrito, ou ainda os ino-vadores smiles1 das mensagens eletrônicas (e-mails), sejam formas gráficas de expressareste tipo de acento. Mas como estes acentos não são normalmente registrados na lín-gua escrita, perde-se uma valiosa informação, contida apenas na linguagem falada, nãoprocessada pelos métodos analisados anteriormente.

5.1 Elementos Prosódicos do Sinal de FalaA prosódia, no nível do sinal de fala, possui elementos básicos e compostos. Os

elementos básicos são as características do sinal como a energia (loudness), freqüênciafundamental (pitch), qualidade vocal, duração e pausa. Os elementos compostos nadamais são do que a ação dos elementos básicos sobre o tempo [KOM 97]. A figura ilustracomo os elementos básicos são analisados numa seqüência de fala, onde se observa aonda original, as etiquetas de prosódia, as palavras (em alemão), as sílabas, a freqüênciafundamental (F0), a duração e a energia.

Os conceitos básicos de freqüência fundamental e energia foram estudados nas se-ções 2.1 e 2.2, respectivamente. A qualidade vocal refere-se à estrutura espectral dosfonemas, a partir da qual são investigados efeitos como a laringealização, que são pe-ríodos da fala com excitação irregular, e a vogal central, que é uma vogal que perde suaacentuação por estar sobre o centro do intervalo de freqüência coberto sobre todas asvogais.

A duração da fala depende da velocidade com que os fonemas são pronunciados.Como cada fonema possui uma média e desvio padrão próprios a ele, deve ser feita umanormalização dos valores para se obter uma velocidade média de uma palavra. Por outrolado, podem ser construídos modelos para reconhecimento dependentes da duração decada fonema, visando a previsão de construções de palavras.

A pausa pode ser simplesmente um silêncio ou um ruído de fundo que entremeia afala, o que é chamado de pausa não-preenchida. Mas a pausa pode ser também vocali-zada, através de expressões como humm, ao que é chamada de pausa preenchida.

O elementos prosódicos compostos são a entonação, a acentuação, a frase prosódica,o ritmo e a hesitação [KOM 97]. A entonação é basicamente a variação da freqüênciafundamental. Como os valores da onda fundamental são dependentes do locutor, vari-

1As expressões criadas por usuários de e-mail para representar seu estado de espírito. Exemplos delessão os caracteres :-) (felicidade / bom humor), :-( (tristeza), 8-0 (espanto), entre outros.

Page 55: compreensão da linguagem falada

55

Figura 5.1: Trecho de fala com especificação dos elementos prosódicos [KOM 97].

Page 56: compreensão da linguagem falada

56

ando conforme sexo e idade por exemplo, é avaliada apenas o comportamento da envol-tória desta onda. Este comportamento é uma informação prosódica que é rotulada paraposterior processamento. Exemplos de etiquetas são: descida (fall) - F; subida (rise) -R; continuação-subida (continuation-rise) - CR. Estas etiquetas são extensamente usadosnos demais elementos compostos, como analisado na acentuação a seguir.

A acentuação refere-se a uma sílaba acentuada dentro de um contexto. A acentu-ação pode vir da própria palavra onde a sílaba está inserida ou da entonação dada pelolocutor. Em geral, são etiquetados o acento primário ou frasal (primary ou phrase accent- PA), o acento enfático ou forte (emphatic ou strong accent - EA) e o acento secundá-rio ou fraco (secondary ou weak accent - NA). A sílaba tônica pode ser detectada, porexemplo, através de uma descida (F) seguida de uma subida (R) da onda fundamental.Caso a tonicidade da sílaba não seja a usual de determinada palavra, diz-se que houve umacento léxico. Isto ocorre normalmente por variações de dialeto ou por acentos enfáticosindicando emoções.

As frases prosódicas são unidades de fala limitadas por palavras que possuem vari-ações F, R ou CR da onda fundamental, ou ainda possui as sílabas terminais estendidasno tempo. Kompe define dois tipos de delimitação de frases prosódicas: limites por cláu-sulas prosódicas (etiqueta B3) e limites por constituintes prosódicos (B2) [KOM 97]. Alimitação por cláusulas prosódicas é dada por entonação e duração, além de pausas. Já oslimites por constituintes prosódicos são marcados por pequenos movimentos de entona-ção e nunca possuem pausas.

O conceito de ritmo difere com a linguagem. Em linguagens acentuadas (stress ti-med), ritmo refere-se à contagem do número de sílabas acentuadas em relação ao tempo.Já em linguagens silábicas (syllable timed), como o português, o ritmo depende do nú-mero de sílabas por período de tempo. A análise do ritmo pode ser importante paraverificação da estrutura do discurso e para a análise semântica das palavras, uma vez queo ritmo imposto a uma pode alterar seu sentido.

A hesitação marca um conflito entre a o planejamento da fala e sua produção. Umapausa preenchida ou uma sílaba pronunciada de forma prolongada geralmente referem-se a uma hesitação. Quando uma hesitação é muito longa, ela é chamada de hesitaçãocomprida (hesitation lengthening) e recebe a etiqueta B9 [KOM 97].

A etiquetagem e determinação dos elementos prosódicos constituem-se num processominuncioso, uma vez que eles ocorrem muito próximos no tempo, podem ocasionar umerro na identificação de um elemento. Também há variações que são dependentes dolocutor que podem provocar erros de etiquetagem. Informações destas variações terãoque acompanhar a etiquetagem para que sirvam de base na determinação de expressõesnão-lingüísticas envolvidas no processo de parsing da linguagem falada.

5.2 Identificação e Classificação de características prosó-dicas no sinal de fala

Todo o processo de identificação de elementos prosódicos do sinal de fala é guiado pelocomportamento da onda fundamental. Desta forma, é essencial a representação adequadada envoltória dessa onda para que todo o processamento não seja comprometido.

Segundo Kompe, um bom algoritmo para determinação da freqüência fundamental éaquele baseado no fato que a harmônica de maior freqüência dividida pela fundamentalresulta num valor inteiro [KOM 97]. Assim, para cada quadro analisado no sinal de fala

Page 57: compreensão da linguagem falada

57

são calculados os pontos médios do espectro na tentativa de ser obtidos os pontos dafundamental. A partir dos pontos gerados é realizado o cálculo da envoltória da ondaestimada. Esta envoltória da onda fundamental deverá ter um comportamento que refletea prosódia do sinal de fala, como foi mostrado na figura 5.1.

Com base no comportamento da onda fundamental, pode ser inferenciada a inflexãode uma sentença, ou seja, é possível identificar se uma frase pronunciada é uma afirma-ção, questão ou possui uma pausa (como uma indicada por vírgula ou uma hesitação). Aafirmação é indicada por uma subida da onda (R); questão é marcada por uma descida(F) e a pausa é uma continuação seguida de subida (CR) [KOM 97]. Este tipo de dado éessencial em diálogos, e importante para determinação de pontuação de textos. A identi-ficação da inflexão da frase pode ser feita automaticamente pelo treinamento de uma redeneural.

Já a acentuação e os limites da frase prosódica possui uma complexidade maior paradeterminação de seus elementos, necessitando informações de duração e energia, além daonda fundamental. O intervalo de tempo que irá guiar o processamento pode depender devários fatores: número de sílabas; núcleo da sílabas; palavras; limites das frases prosódi-cas [KOM 97]. A partir da determinação de um destes parâmetros, será possível retirardo sinal as características desejadas.

As características podem ser sintetizadas em: duração, onda fundamental, energia,pausa e léxico. A duração refere-se à velocidade de fala e duração média do fonemaem dado intervalo. Características da onda fundamental são a média, a mediana, seusvalores mínimo e máximo, seu deslocamento no tempo, posição no tempo relativo à sí-laba/palavra/frase fonética, entre outros. Da energia pode-se obter as mesmas proprieda-des da onda fundamental, com exceção do deslocamento em função do tempo. O tamanhoda pausa pode ser determinado em milissegundos antes ou depois de uma sílaba ou pa-lavra. Características léxicas podem ser obtidas através da classificação de um fonemado núcleo silábico, identificação da sílaba tônica ou determinação da sílaba final de umapalavra [KOM 97].

5.2.1 Modelagem de EntonaçãoOs elementos compostos da prosódia, como visto, são composições dos elementos

básicos. Para sua identificação, é necessária a modelagem estatística para previsão daocorrência dos elementos compostos. Helen Wright (hoje Helen Wright Hastie) definiuisto em sua tese com sendo uma modelagem de entonação [WRI 99][HAS 02]. Este tipode modelagem serve para prever a ocorrência de indicações de surpresa, dúvida, formali-dade, entre outras características que podem ser utilizada na identificação de contextos dediálogo em jogos.

Os estudos de Wright utilizaram três abordagens estatísicas para modelagem de en-tonação: Árvores de Classificação e Regressão (Classification and Regression Trees -CARTs), Modelos de Markov e Redes Neurais Artificiais. Segundo Wright, a primeiratécnica obteve desempenho superior em seus testes de identificação de contextos de diá-logo.

As CARTs são árvores binárias utilizadas para classificação dos movimentos dos jo-gos, dadas as características da entonação. Seu método de classificação é baseado nafreqüência de ocorrência de determinada característica prosódica, como pode ser obser-vado na figura 5.2.

Page 58: compreensão da linguagem falada

58

Figura 5.2: Árvore de Classificação e Regressão [WRI 99].

Page 59: compreensão da linguagem falada

59

A modelagem por Markov segue os mesmos princípios que vêm sendo discutidos nodecorrer deste trabalho. Nesta abordagem em particular, são modeladas combinações dascaracteríscas prosódicas, que são treinadas para identificar o tipo de movimento do jogo.Quanto às redes neurais, Wright utilizou-se do método backpropagation para treinamentodo tipo de movimento, dadas características prosódicas de entrada.

Apesar das CARTs terem obtido melhor desempenho neste sistema, Wright salientaque foi apenas um pequeno ganho, o que não permite descartar as demais abordagens emoutros contextos de aplicação.

5.3 Uso da prosódia no parsing da linguagem faladaApesar da prosódia não ser um dado explícito da linguagem, é ela que guia atualmente

o parsing da linguagem falada. Os problemas de ambigüidade apresentados anteriormenteneste trabalho, são resolvidos agora com o uso das marcas prosódicas contidas na fala.

Os sistemas de reconhecimento da fala incorporam, além do reconhecimento dos fo-nemas/sílabas, também a identificação das características prosódicas. Desta forma sãogerados grafos de probabilidades semelhantes ao da figura 4.6, mas acrescidos de eti-quetas prosódicas. Estas etiquetas auxiliarão na desambigüação nos níveis de sintaxe,semântica e pragmática.

Como os limites prosódicos nem sempre combinam com os limites sintáticos, é neces-sária a colocação de etiquetas sintático-prosódicas, chamadas de limites M (de Modelo delinguagem). Estes limites podem ser denominados limites ambíguos (MU), limites inexis-tentes (M0) ou limites principais (M3). Normalmente, dentro dos limites M são mapeados5 subclasses de limites sintáticos: limite inexistente (S0), com partículas (S1), com frases(S2), com cláusulas (S3), com cláusulas principais ou frases livres (S4) [NOT 02].

Com relação a frases na forma de questão também pode haver disparidade prosódico-sintática. Desta forma, questões prosódicas são indicadas por PQ e questões sintáticas sãoindicadas por SQ [NOT 02]. Isto é necessário, uma vez que nem sempre uma descida naonda fundamental (etiqueta prosódica F) indica uma questão na sua forma sintática.

Não foi encontrado na literatura a existência de etiquetas semânticas, mas há etiquetaspragmáticas, utilizadas para indicar limites de contextos de diálogos, também chamadosde atos de diálogo. Estas etiquetas dependem do sistema, mas em geral D0 indica aausência de limite e Di é o diálogo do contexto i [HAS 02][NOT 02].

Para a inserção das etiquetas prosódicas, há diferentes formas de processamento quepodem ou não estarem relacionadas. Há técnicas de análise de atos de diálogo que nãorealiza o parsing prosódico-sintático, por exemplo. Apesar disso, a compreensão da lin-guagem falada envolve todas as etapas de parsing, que serão analisadas a seguir.

5.3.1 Prosódia na sintaxeUma vez que um sistema que use prosódia se utiliza deste conhecimento para melhor

realizar o reconhecimento das palavras, os grafos gerados já possuem etiquetas prosódicasque guiarão o resto do processo. Ou seja, uma vez reconhecidas as hipóteses de palavras,é necessário um caminhamento no grafo de hipóteses para que seja encontrada a melhorseqüência de palavras.

A varredura do grafo de hipóteses pode ser feita por um algoritmo como A* ou deViterbi. Kompe indica que A* possui desempenho superior neste tipo de processamento[KOM 97].

Page 60: compreensão da linguagem falada

60

Figura 5.3: Modelagem sintático-prosódica [GAL 02].

A sintaxe utiliza-se da prosódia basicamente para duas operações: verificação da acen-tuação e otimização da busca da melhor seqüência de palavras [KOM 97]. A acentuaçãosimplesmente verifica as etiquetas prosódicas a ela referentes. Já a seqüência de palavrasterá de ser devidamente pontuada, estabelecendo as frases sintáticas. Para tanto, serãoutilizadas as etiquetas de frases prosódicas e pausas anteriormente identificadas.

A partir das características prosódicas, também podem ser identificados os tipos defrases e quebras da seqüência de fala. Por exemplo, seja a frase falada: vamos nos en-contrar na ter... na quarta. Obviamente que a hesitação encontrada entre ter(ça) e naserá um fator determinante para uma adequada correção sintática: vamos nos encontrarna quarta.

Cada sistema desenvolvido pode utilizar as caracteríticas prosódicas que forem úteispara sua análise sintática. Gallwitz e outros, por exemplo, segmentaram o sinal de falaem quadros de 10ms, calculando para cada um 24 características prosódicas. Estas sãoapresentadas a uma rede neural para determinação dos limites das frases prosódicas. Esteslimites auxiliarão o processo de reconhecimento de palavras por um sistema baseado emcadeias de Markov, uma vez que este poderá ser modelado a partir das frases prosódicas,e não de um contexto sem determinação de pausas [GAL 02].

O sistema de Gallwitz baseia-se no fato de que os limites sintático-prosódicos ocor-rem freqüentemente junto a sons de fundo, silêncio (pausas não-preenchidas) ou pausaspreenchidas. Para identificação destes limites, foram treinados modelos de Markov paradetecção dos eventos sintático-prosódicos, compondo as etiquetas prosódicas com as sin-táticas, como demonstra a figura 5.3.

A modelagem prosódico-sintática otimiza o reconhecimento das palavras, como pro-vado no sistema de Gallwitz. Uma vez que a construção das frases prosódicas seguemuma regularidade dentro de uma língua, ela pode ser adequadamente modelada para oreconhecimento das palavras componentes destas frases. Este tipo de processo permiteque o reconhecimento de palavras e a classificação prosódica sejam compostos num sósistema, o que não ocorre normalmente.

5.3.2 Prosódia na semânticaPara a resolução de ambigüidades semânticas, utiliza-se da etiquetagem prosódico-

sintática. Para dada seqüência de palavras, é verificada a acentuação do conjunto. Combase em regras, são avaliadas as melhores hipóteses de frases, segundo sua fluência.

Segundo Kompe, a prosódia auxilia na análise semântica no que se refere ao foco deuma pronúncia [KOM 97]. O foco ou acento focal refere-se à ênfase dada a determinadapalavra na sentença devido a sua importância. Por exemplo, na frase vamos lá hoje, aênfase dada à palavra hoje define urgência, tendo, portanto, um significado diferente damesma frase sem a ênfase.

Page 61: compreensão da linguagem falada

61

Mesmo numa mesma frase, sua pronúncia pode ter diferentes focos, ou seja, o focopode ser deslocado. No início deste capítulo foi dado um exemplo de deslocamento defoco, com a frase o professor chegou. O foco pode estar em professor, em chegou ousimplesmente não existir. Cada uma destas hipóteses gera um significado diferente parauma mesma frase.

Outra informação semântica, já discutida anteriormente, é a inflexão de uma frase.Esta pode ter o sentido de uma questão ou afirmação, o que muda completamente o sentidoda frase: agora posso ir? é muito diferente de agora posso ir.

A análise semântica resulta em mais anotações no grafo com as hipóteses de frases,o qual, por sua vez, será analisado a nível pragmático. O processamento realizado peladesambigüação semântica será muito relevante para a escolha do contexto de diálogo.

5.3.3 Prosódia na pragmática - os atos de diálogoO diálogo tem sido uma área extensamente abordada em sistemas de compreensão

da linguagem falada. Portanto, é natural que a análise sintática e semântica seja deixadanum segundo plano, uma vez que, neste contexto, a correção ortográfica não é importante.Nesta perspectiva, pode-se utilizar as etiquetas prosódicas diretamente na escolha de umcontexto de diálogo, otimizando o processamento através da queima de etapas desneces-sárias.

Como comentado anteriormente, os contextos da análise pragmática são chamados deatos de diálogo. Cada sistema define estes atos, que podem ser, por exemplo: requisição,aceitação, despedida, cumprimento, sugestão, opinião, etc. Os atos podem ser, inclusive,extremamente específicos, como para controles de jogos [HAS 02].

Nöth e seus colegas pesquisadores mostraram as vantagens da unificação das análisesde parsing [NOT 02]. Eles mostraram que é possível utilizar-se do grafo gerado peloreconhecedor de palavras com etiquetas prosódicas e processá-lo diretamente em funçãoda sintaxe e da semântica contida nos atos de diálogo.

Como mostra a figura , um caminho ótimo é fornecido pelo reconhecedor (a). Após,é avaliada sintaticamente o melhor limite para o final de uma frase, que é mostrada pelaseta contínua (b). A partir de uma frase estabelecida, são avaliados os possíveis atos dediálogo que combinariam com sua estrutura (c).

Neste sistema, os limites de frases são classificados por redes neurais do tipo per-ceptron multicamada e a busca dos possíveis atos de diálogo é feita no grafo através doalgoritmo A*. Para que seja possível encontrar o ato de diálogo certo a equipe de Nöthnecessitou implementar um parser probabilístico de n-gramas (ver seção 3.2.1) para serum previsor de conceitos semânticos. Em outras palavras, foi treinado um sistema paraidentificar uma ocorrência de determinadas expressões que identifiquem contextos. A es-colha destas expressões é feita com base na ênfase dada à pronúncia de certas palavras,que vão definir o foco do contexto semântico. Para cada contexto treinado no previsor,é feita uma gramática de fragmentos que identifica a que atos de diálogo pertencem asfrases.

Numa outra abordagem, Stolcke e outros desenvolveram um sistema que identificaatos de diálogo com base numa gramática de discurso, no reconhecimento de palavras enas características prosódicas da fala [STO 98]. A gramática de discurso refere-se a umparser de n-gramas treinado com base nos 42 atos de diálogos definidos. O reconhecedorde palavras foi treinado com trigramas para reconhecer palavras seguindo a modelagemdos 42 atos de diálogo.

Page 62: compreensão da linguagem falada

62

Figura 5.4: Seqüência de verificação de atos de diálogo. A partir da melhor hipótese doreconhecedor de palavras (a), são determinados os limites das frases sintáticas (b) e ébuscado o ato de diálogo mais adequado (c).

As características prosódicas utilizadas são a duração, pausa, onda fundamental, ener-gia e gênero (masculino/feminino). Estas características foram classificadas em árvoresde decisão, cujos nodos possuem estatísticas de ocorrências de determinada característicaprosódica.

Essas três abordagens têm suas probabilidades comparadas ao final do processamento.A maior probabilidade define o ato de diálogo que será associado à pronúncia de entradado sistema.

Num sistema baseado inteiramente em redes neurais TDNN, Kipp mostrou que é pos-sível a inferência de atos de diálogo a partir de etiquetas prosódicas [KIP 98]. Nestesistema, há um conjunto de redes TDNN, cada uma destinada a representar determinadoato de diálogo, confome o esquema da figura 5.5.

No sistema de Kipp, a entrada para as redes seria uma codificação de uma janelade etiquetas prosódicas de dada sentença. Como as redes possuem um número fixo deentradas, é necessário um esquema de janelamento, onde são avaliadas apenas as etiquetasconstantes na janela (veja figura 5.6). Estas etiquetas são codificadas e treinadas para oreconhecimento de determinado ato de diálogo.

O reconhecimento final do ato de diálogo é dado por uma rede especialmente treinadapara identificar a maior probabilidade dentre as redes treinadas. Esta rede dará a saídafinal para a identificação do ato de diálogo.

Muitas outras análises podem ser feitas através da utilização da prosódia. Este recursovem se concretizando como a otimização necessária que os sistemas de compreensão defala necessitavam para ultrapassar as técnicas do processamento da linguagem escrita.Com o uso combinado da prosódia guiando o processo de parsing, têm sido obtidos exce-lentes resultados, mostrando que esta é a técnica que faltava para a criação de verdadeirossistemas de diálogo.

Page 63: compreensão da linguagem falada

63

Figura 5.5: Conjunto de redes TDNN destinadas a identificar atos de diálogo [KIP 98].

Figura 5.6: Representação da codificação da etiqueta para o token well [KIP 98].

Page 64: compreensão da linguagem falada

Capítulo 6

Conclusões

Na década de 1950, quando ainda nem havia teclado e monitor acoplado ao compu-tador, já havia a idéia da comunicação através da linguagem falada entre o homem e amáquina. Filmes de ficção científica fantasiavam (e fantasiam até hoje) conversas entrepessoas e computadores. Talvez estas imagens do futuro estejam bem próximas.

Uma das primeiras linguagens de programação, LISP, foi uma tentativa inicial dese estabelecer uma forma de interpretar a linguagem natural, para que ela pudesse seruma interface entre as pessoas e o computador. Acreditava-se que, através de regras deinferência, seria possível a avaliação de frases escritas (ou até faladas) de uma forma maisou menos espontânea.

Esta crença continuou até meados de 1980, quando então foi reforçada com a cri-ação da linguagem Prolog. Buscava-se, sempre, uma linguagem de programação quefacilitasse a organização de regras que, em tese, deveriam auxiliar na representação dalinguagem natural. Até mesmo projetos japoneses de arquiteturas especialmente criadaspara o processamento Prolog diziam que a comunicação natural com o computador seriapossível nos anos 1990.

Hoje sabemos que os caminhos trilhados com o processamento da linguagem naturalescrita foram insuficientes para a representação de um processo natural de comunicação.Apenas no final da década de 1990 foi possível uma melhor representação da linguagem,devido ao desenvolvimento alcançado com os sistemas de reconhecimento da fala, quepassaram a incorporar a análise da linguagem para incrementar as taxas de sucesso noreconhecimento.

Os sistemas de reconhecimento de fala remontam à década de 1970, quando eramentão simples sistemas de identificação de palavras isoladas, em geral na forma de co-mandos falados ao computador. Na década seguinte, já começaram a surgir as máquinasde escrever fonéticas, que permitiam o reconhecimento de fonemas concatenados numafala contínua.

Finalmente, no final dos anos 1980 e início dos 1990, foram desenvolvidos robustossistemas de fala contínua, agora com a preocupação de realizar uma análise da lingua-gem, visando sua interpretação. De início houve a idéia de um simples acoplamento entresistemas de reconhecimento de fala (veja cap. 2) e processamento da linguagem natu-ral (confira cap. 3), mas os sistemas geravam cadeias de strings sem pontuação e compalavras muitas vezes erradas. E os sistemas de linguagem escrita estavam adaptados àsimples avaliação de regras gramaticais, o que não é viável com uma comunicação fa-lada e espontânea. A transcrição da leitura de um texto seria viável neste sentido, mas acomunicação natural ainda não.

64

Page 65: compreensão da linguagem falada

65

Neste sentido, no final da década de 1990 houve uma maior preocupação com a falaespontânea, exigindo melhores reconhecedores, robustos a ruídos de fundo e alteraçõesna voz do locutor, e sistemas de processamento da linguagem falada, levando em conta aredundância e variações existentes na fala espontânea. Até então os sistemas de reconhe-cimento de fala eram treinados e utilizados em ambientes silenciosos - o que restringiamuito sua utilização pela maioria dos usuários de computador. E a análise da lingua-gem, seguindo regras gramaticais, também não servia ao uso diário de comunicação entrepessoas e computadores.

Desta forma, consolidaram-se os sistemas de compreensão da linguagem falada (vejacap. 4), que são a composição do reconhecimento da fala com o processamento da lin-guagem natural numa nova forma de processamento, agora integrados. Obviamente aindaexistem sistemas apenas de reconhecimento de fala e de processamento textual. A di-ferença é que os sistemas de reconhecimento de fala possuem agora módulos para mo-delagem da linguagem e o processamento de textos realiza um tratamento basicamenteestatístico, baseados em partes de fala (parts of speech). Esta evolução é bem clara nosnovos livros de Sadaoki Furui [FUR 01], sobre reconhecimento e síntese de fala e deChristopher Manning e Hinrich Schütze [MAN 01], sobre processamento estatístico dalinguagem natural.

Sistemas voltados apenas ao reconhecimento de comandos não necessitam de um tra-tamento de diálogo. Assim como sistemas de busca de informações em bases textuais nãonecessitam preocupar-se com a linguagem falada. Por outro lado, sistemas que visam acomunicação falada entre o computador e seu usuário, necessitam preocupar-se com o re-conhecimento da fala, com o processamento da linguagem e com a síntese da fala - estessão os sistemas de compreensão da linguagem falada.

Talvez o maior diferencial dos sistemas de linguagem falada hoje seja a prosódia.Como visto no capítulo 5, a prosódia não só permite a resolução das ambigüidades dalinguagem, mas também a definição de contextos de diálogo. A parte do sinal de falaque antes era ignorada pelos sistemas de reconhecimento de fala agora é essencial aossistemas de compreensão da linguagem falada.

Anteriormente, a maior preocupação era com a identificação de fonemas, sílabas epalavras. Hoje se vê que a variação da pronúncia é um fator essencial para um completoreconhecimento da fala. Através da prosódia, verifica-se desde a acentuação correta daspalavras até a ênfase dada a uma frase.

A prosódia torna-se, portanto, um campo de estudo essencial no caminho da comu-nicação humano-computador. Se a busca desta comunicação sempre foi o carro-chefe dainteligência artificial, pode-se afirmar que o estudo da prosódia em sistema de compreen-são da linguagem falada é hoje a fronteira desta área da computação.

Por outro lado, ainda há muito que evoluir em todo o processo de análise da fala e dalinguagem. Os paradigmas atuais estão calcados apenas em sistemas de redes neurais emodelos de Markov, devido a suas características de serem, respectivamente, identifica-dores de invariantes estatísticos e modeladores de estados temporais. Não há registro desistemas que incluam técnicas como algoritmos genéticos ou lógica difusa (fuzzy), apesardestas também terem propriedades probabilísticas semelhantes aos paradigmas utilizados.

Algoritmos genéticos poderiam ser utilizados na geração de frases ótimas a partir deseus dados fonéticos e prosódicos. Sistemas fuzzy seriam adequados para a construçãode regras fonéticas e prosódicas baseadas no comportamento do sinal. Neste caso, porexemplo, poderiam ser construídas regras fuzzy para inferência semântica diretamente apartir dos componentes do sinal de fala.

Page 66: compreensão da linguagem falada

66

Na própria extração de coeficientes do sinal de fala, transformadas como wavelets sãoainda pouco exploradas. A transformada wavelet, por exemplo, permite a extração decoeficientes sem a perda do domínio tempo, como ocorre com a transformada de Fourier.Um processamento de coeficientes mantendo o domínio tempo ainda não suficientementeexplorado.

As próprias informações prosódicas, como a onda fundamental e a energia, são ex-traídas diretamente da onda contínua, sem a realização de transformadas. Ainda hão deserem desenvolvidos sistemas que unifiquem o processamento temporal nos aspectos fo-nológicos e prosódicos.

Esta unificação temporal não é feita hoje no nível de sinal, mas no nível de análise,como visto na seção 5.3. Uma unificação dos componentes já no nível de processamentode sinal daria margem a uma maior velocidade do sistema, por ser baseado em cálculos,e confiança no resultado, por não estar sujeito a uma modelagem errônea da linguagem.

Apesar do processamento de sistemas de compreensão de fala terem um reconheci-mento automático da fala, da linguagem e do contexto, a sua modelagem ainda é basica-mente manual, principalmente neste último aspecto. Quem define o contexto de análise éo projetista do sistema. Os diálogos que comporão o sistema certamente são baseados emdados reais, mas o processo de escolha dos modelos ainda é manual.

Os sistemas também são orientados ao reconhecimento de certos modelos de diálogo,dentro de contextos específicos. Não são conhecidos sistemas que permitam variar ocontexto ou modelo de diálogo. Tudo o que é conhecido pelo sistema gira em tornode modelos escolhidos pelo projetista. Em outras palavras, os sistemas atuais não sãopassíveis de aprendizado de novos contextos.

Assim como não são aprendidos novos contextos, também não o são novas formas delinguagem. Um dialeto dificilmente será reconhecido adequadamente num sistema quenão foi modelado para atendê-lo. É evidente que um processamento baseado na inferênciada inflexão da fala e em palavras-chave poderá ter um bom desempenho, mesmo no casodo dialeto, mas ainda será um sistema insensível a aprender novas formas da linguagem.

Esta limitação do auto-aprendizado é um fato devido às características dos paradigmashoje utilizados. Tanto redes neurais como modelos de Markov necessitam de treinamentoprévio para posterior reconhecimento das variações estatísticas. Não há um paradigmaadaptativo de tempo real. Em suma, os sistemas funcionam, mas não são passíveis deevolução.

Como se percebe, a compreensão da linguagem falada é uma área muito nova, commuito o que desenvolver, mas que será a guia para novas formas de comunicação entre aspessoas e as máquinas. Há muitos outros desafios, além dos citados, a serem desenvolvi-dos, seja no reconhecimento da fala ou no processamento da linguagem. Espera-se queeste trabalho tenha chamado a atenção da importância destes estudos para o desenvolvi-mento da Computação a futuras gerações.

Neste trabalho foram abordados dois grandes tópicos em abrangência. O conheci-mento consolidado do reconhecimento de fala e do processamento de linguagem natural.Foram analisados os conceitos mais conhecidos e utilizados em sistemas destas grandesáreas.

Foram também desenvolvidos dois tópicos em profundidade. O desenvolvimento desistemas que processam a linguagem falada e os que utilizam a prosódia para a compre-ensão da linguagem falada. Assim, por um lado, foram discutidas as técnicas mais impor-tantes para a composição das áreas estudadas em abrangência. Por outro lado, foi dada a

Page 67: compreensão da linguagem falada

67

ênfase no tópico mais importante para o atual estágio de desenvolvimento de sistemas decompreensão da linguagem falada, que é a prosódia.

Com relação à prosódia, foram apresentadas as técnicas utilizadas para extração destascaracterísticas do sinal, bem como sua utilidade para o incremento das taxas de reconheci-mento de fala e como guia do parsing do processamento da linguagem falada. Observa-se,portanto, que a prosódia é uma técnica fundamental para os atuais e futuros sistemas decompreensão da linguagem falada.

Por fim, foram levantados questionamentos acerca de otimizações e problemas exis-tentes nos atuais sistemas. Espera-se que isto sirva de motivação a futuros pesquisadoresque buscam uma comunicação mais natural entre as pessoas e os computadores.

Page 68: compreensão da linguagem falada

Referências Bibliográficas

[ABR 96] ABRAHÃO, P. R.; LIMA, V. L. S. Um Estudo Preliminar de Metodologias deAnálise Semântica da Linguagem Natural. In: Anais do II Encontro para oProcessamento Computacional de Português Escrito e Falado. XIII SBIA`96. Curitiba: CEFET-PR, 1996.

[AND 98] ANDERSEN, J M. Baseline System for Hybrid Speech Recognition onFrench (Experiments on BREF). In: IDIAP-Communications. IDIAP-Com98-07, 1998.

[ARA 99] ARAI, K. et al. Grammar Fragment acquisition using syntactic and semanticclustering. In: Speech Communication, [s.l.], 27, 1999, p. 43-62.

[BAR 98] BARKER, K. Semi-Automatic Recognition of Semantic Relationships inEnglish Technical Texts. University of Ottawa, 1998. PhD Thesis.

[BIL 99] BILMES, J. A. Natural Statistical Models for Automatic Speech Recog-nition. University of Berkeley, 1999. PhD Thesis.

[BRO 99a] BRØNDSTED, T. The Natural Language Processing Modules in REWARDand IntelliMedia 2000+. In: Kirchmeier-Andersen, S.; Thomsen, T. E. (eds.).LAMBDA 25. Copenhagen Business School, Dep. of Computational Lin-guistics, March 1999, pp. 91-108.

[BRO 99b] BRØNDSTED, T. The CPK NLP Suite for Spoken Language Understanding.In: Eurospeech, 6th European Conference on Speech Communication andTechnology. Budapest September 1999, pp. 2655-2658.

[BUO 96a] BUØ, F. D.; WAIBEL, A. Search in a Learnable Spoken Language Parser. In:European Conference on Artificial Intelligence. New York: John Wiley &Sons, 1996.

[BUO 96b] BUØ, F. D. FeasPar - A Feature Structure Parser Learning to ParserSpontaneous Speech. Universität Karlsruhe, 1996, PhD Thesis.

[CAR 87] CARBONEL, J. G.; HAYES, P. J. Robust Parsing Using MultipleConstruction-Specific Strategies. In: BOLC, L. (ed.) Natural LanguageParsing Systems. Berlim: Springer-Verlag, 1987.

[CAS 99] CASAGRANDE, R. Redes Neurais do tipo TDNN. In: CABRAL, E. F. (ed.).Redes Neurais Artificiais. São Paulo: edição dos autores, 1999.

68

Page 69: compreensão da linguagem falada

69

[COL 99] COLE, R.A.; SERRIDGE, B.; HOSOM, J.P.; CRONK, A.; KAISER, E. Aplatform for multilingual research in spoken dialogue systems. In: Multi-lingual Interoperability in Speech Technology (MIST), Leusden, Septem-ber 1999.

[CUN 82] CUNHA, C. F. Gramática da Língua Portuguesa. Rio de Janeiro: Fename,1982.

[FER 01] FERREIRO, E. Cultura escrita e educação. Porto Alegre: Artmed, 2001.

[FRI 98] FRITSCH, J.; WAIBEL, A. Hierarchies of neural networks for connectionistspeech recognition. In: Proceedings of European Symposium on ArtificialNeural Networks (ESANN’98). Brugges: [S. e.], April 1998.

[FUR 01] FURUI, S. Digital Speech, Processing, Synthesis, and Recognition. NewYork: Marcel Dekker, 2001.

[GAL 02] GALLWITZ, F. et al. Integrated recognition of words and prosodic phraseboundaries. In: Speech Communication, [S. l.], 36, p. 81-95, 2002.

[GRE 98] GREENBERG, S. Recognition in a new key - Towards a science of spokenlanguage. In: Proceedings of the International Conference on Acoustics,Speech and Signal Processing. Seattle, EUA, 1998, p. 1041-1045.

[HAS 02] HASTIE, H. W.; POESIO, M.; ISARD S. Automatically predicting dialoguestructure using prosodic features. In: Speech Communication, [S.l.], 36,2002, p. 63-79.

[HAY 01] HAYKIN, S. Redes Neurais: princípios e prática. Porto Alegre: Bookman,2001.

[ILI 95] ILLICH, I. Um apelo à pesquisa em cultura escrita leiga. In: OLSON, D.R.; TORRANCE, N. (eds.) Cultura Escrita e Oralidade. São Paulo: Ática,1995, cap. 2.

[JUR 00] JURAFSKY, D.; MARTIN, J. H. Speech and Language Processing - An In-troduction to Natural Language Processing, Computational Linguistics, andSpeech Recognition. Upper Saddle River: Prentice Hall, 2000.

[KAY 99a] KAISER, E. C. et al. PROFER: Predictive, Robust Finite-state Parsing forspoken language. In: Proceedings of ICASSP 99. [S.l], March, 1999, v. 2,p. 629-632.

[KAY 99b] KAISER, E. C. Robust Finite-state Parsing for Spoken Language Understan-ding. In: Proceedings of ACL 99. Mariland: [s.e.], june 1999.

[KIP 98] KIPP, M. The Neural Path to Dialogue Acts. In: ECAI 98 - 13th EuropeanConference on Artificial Intelligence. [S.l.]: John Wiley & Sons, 1998. p.175-179.

[KOM 97] KOMPE, R. Prosody in Speech Understanding Systems. Berlin: Springer-Verlag, 1997.

Page 70: compreensão da linguagem falada

70

[KOV 97] KOVÁCS, Z. L. O Cérebro e a sua mente: uma introdução à neurociênciacomputacional. São Paulo: Edição Acadêmica, 1997.

[KIN 98] KING, S. A. Using Information Above the Word Level for AutomaticSpeech Recognition. University of Edinburgh, 1998, PhD Thesis.

[LAM98] LAMEL, L. Spoken Language Dialog System Development and Evaluationat LIMSI. In: ISSD 98. [S.l.], [s.e.], 1998.

[LAM 00] LAMEL, L. et al. The LIMSI ARISE system. In: Speech Communication,[S.l.], 31, 2000, p. 339-353.

[LAR 98] LARSEN, L. B. (ed.); Brøndsted T.; DYBKJÆR, H.; DYBKJÆR, L. BradMusic, Claus Povlsen: State-of-the-art of Spoken Language Systems. A Sur-vey. In: Spoken Dialogue System Reports No 1. University of Copenhagen,1992, R 92-1003, 82 p.

[LAV 96a] LAVIE, A. GLR*: A Robust Parser For Spontaneously Spoken Language.In: Proceedings of ESSLLI 96. Praga: [s.e.], August 1996.

[LAV 96b] LAVIE, A. GLR*: A Robust Grammar-Focused Parser For Spontane-ously Spoken Language. Carnegie Mellon University, 1996, PhD Thesis.

[MAN 01] MANNING, C. D.; SCHÜTZE, H. Foundations of Statistical Natural Lan-guage Processing. Cambridge: MIT Press, 2001.

[MII 93] MIIKKULAINEN, Risto. Subsymbolic Natural Language Processing.Cambridge: MIT Press, 1993.

[MII 97] MIIKKULAINEN, Risto. Natural Language Processing with SubsymbolicNeural Networks. In: Browne, A. (ed.). Neural Network Perspectives onCognition and Adaptive Robotics. Bristol: Institute of Physics Publishing,1997. p. 120-139.

[MIN 98] MINKER, W. Stochastic versus rule-based speech understanding for infor-mation retrieval. In: Speech Communication, [S.l.], 25, Sep. 1998, p. 223-247.

[MIN 99] MINKER, W.; GAVALDÀ, M.; WAIBEL, A. Stochastically-based seman-tic analysis for machine translation. In: Computer Speech and Language,[s.l.], 13, 1999, p. 177-194.

[MOR 95] MORGAN, N.; BOULARD, H. An Introduction to HybridHMM/Connectionist Continuous Speech Recognition. In: IEEE Sig-nal Processing, [s.l.], pp. 25-42, May 1995.

[NEA 87] NEAL, J. G.; SHAPIRO, S. C. Knowledge-Based Parsing. In: BOLC, L.(ed.) Natural Language Parsing Systems. Berlim: Springer-Verlag, 1987.

[NOT 02] NÖTH, E. et al. On the use of prosody in automatic dialogue undestanding.In: Speech Communication, [s.l.], 36, 2002, p. 45-62.

[OLI 98] OLIVEIRA, P. M. T. Auxílio Visual À Oralização de Surdos. Rio de Ja-neiro, UFRJ, 1998. Dissertação de Mestrado.

Page 71: compreensão da linguagem falada

71

[PAC 96] PACHECO, H. C. F.; DILLINGER, M.; CARVALHO, M. L. B. Uma novaabordagem para a análise sintática do português. In: Anais do II Encontropara o Processamento Computacional do Português Escrito e Falado.Curitiba: CEFET-PR, 1996.

[PIT 87] PITRAT, J. Using Declarative Knowledge for Understanding Natural Lan-guage. In: BOLC, L. (ed.) Natural Language Parsing Systems. Berlim:Springer-Verlag, 1987.

[PRI 96] PRICE, P. Spoken Language Understanding. In: R. A. Cole, J. Mariani, H.Uszkoriet, A. Zaenen, and V. Zue (eds.). Survey of the State of the Artin Human Language Technology. Stanford: Cambridge University Press,1996.

[RAB 78] RABINER, L. R.; SCHAFER, R. W. Digital Processing of Speech Signals.Upper Saddle River: Prentice-Hall, 1978.

[RAB 93] RABINER, L. R.; JUANG, B. H. Fundamentals of Speech Recognition.Englewood Cliffs: Prentice Hall, 1993.

[ROS 94] ROSENFELD, Ronald. Adaptive Statistical Language Modelling. Pitts-burg: Carnegie Mellow University, 1994.

[RUS 93] RUSSO, I. C. P. Acústica e psicoacústica aplicados à fonoaudiologia. SãoPaulo: Lovise, 1993.

[SAY96] SAYOOD, K. Introduction to data compression. San Francisco: MorganKaufmann, 1996.

[SIK 97] SIKKEL, K. Parsing Schemata: A Framework for Specification andAnalysis of Parsing Algorithms. Berlin: Springer Berlag, 1997.

[SHA 96] SHARKEY, Noel, E; SHARKEY, Amanda, J. C. Separating Learning andRepresentation. In: Wermer, S; Riloff, E.; Scheler, G. (eds.). Connectionist,Statistical and Symbolic Approaches to Learning for Natural LanguageProcessing. Berlin: Springer-Verlag, 1996. p. 17-32.

[SMI 99] SMITH, S. W. The scientist and engineer’s guide to digital speech signalprocessing. San Diego: California Technical Publishing, 1999.

[STO 98] STOLCKE, A. et al. Dialog Act Modeling for Conversational Speech. In:Applying Machine Learning to Discourse Processing. Menlo Park: AAAIPress, 1998, pp. 98-105.

[TEB 95] TEBELSKIS, J. Speech Recognition using Neural Networks. CarnegieMellon University, 1995, PhD Thesis.

[VAL 00] VALIATI, J. F. Reconhecimento de voz para comandos de direcionamentopor meio de redes neurais. Porto Alegre: PPGC da UFRGS, 2000. Disser-tação de Mestrado.

Page 72: compreensão da linguagem falada

72

[WEB 96] WEBER V.; WERMTER, S. Using hybrid connectionist learning for spe-ech/language analysis. In: Wermter, S., Riloff, E., Scheler, G. (eds.). Con-nectionist, Statistical and Symbolic Approaches to Learning for NaturalLanguage Processing. Berlin: Springer Verlag, 1996. pp. 87-101.

[WER 96] WERMTER S.; LÖCHEL M. Learning Dialog Act Processing. In: Proce-edings of the International Conference on Computational Linguistics.Kopenhagen: [s.e.], 1996. p. 740-745.

[WER 97] WERMTER S.; WEBER, V. SCREEN: Learning a flat syntactic and seman-tic spoken language analysis using artificial neural networks. In: Journal ofArtificial Intelligence Research, [s.l.], 6(1), 1997. p. 35-85.

[WIT 98] WITTMANN, L. H.; RIBEIRO, R. D. Recursos Lingüísticos e Proces-samento Morfológico do Português: o PALAVROSO e o projecto LE-PAROLE. In: Lima, V. L. S. (ed.) Anais do II Encontro para o Proces-samento Computacional do Português Escrito e Falado. Porto Alegre:Todeschini, 1998.

[WRI 99] WRIGHT, H. F. Modelling Prosodic and Dialogue Information for Auto-matic Speech Recognition. University of Edimburg, 1999. PhD thesis.

[WU 98] WU, S.L. Incorporating Information from Syllable-length Time Scalesinto Automatic Speech Recognition. UC Berkeley, 1998. Ph.D. Thesis.

[ZEC 98a] ZECHNER, K.; WAIBEL, A. Using Chunk Based Partial Parsing of Spon-taneous Speech in Unrestricted Domains for Reducing Word Error Rate inSpeech Recognition. In: Proceeding of the COLING/ACL 98. Montreal:[s.e.], 1998.

[ZEC 98b] ZECHNER, K. Automatic Construction of Frame Representations for Spon-taneous Speech in Unrestricted Domains. In: Proceeding of the CO-LING/ACL 98. Montreal: [s.e.], 1998.

[ZEC 01] ZECHNER, K. Automaric Summarization of Spoken Dialogs in Unres-tricted Domains. Carnegie Mellon University, 2001, PhD Thesis.