caracterização prosódica das disfluências e suas ... · • como e quando ... – convenção...
TRANSCRIPT
technology from seed"
Caracterização prosódica das disfluências e suas implicações para
o processamento de fala
Helena Moniz CLUL/INESC-ID
2
Resenha • Conceitos prosódicos • Sistemas de anotação prosódica • Diferenciação de estruturas linguísticas por mecanismos
prosódicos • Prosódia e processamento automático de língua natural • Área de aplicação: as disfluências • Caracterização segmental e prosódica das disfluências • Natureza fluente/disfluente • Teste percetivo e CART • Conclusões
Conceitos prosódicos
• Prosódia: – estudo das sequências que vão da sílaba à frase (nível
suprassegmental) – ritmo e entoação da língua
• Prosódia constituída por 3 propriedades/traços: – duração (medida em milissegundos) – intensidade (medida em decibéis, corresponde à energia de um
som) – acento (proeminência de uma palavra em relação às adjacentes)
Organização prosódica
• diferentes propostas de hierarquização de constituintes prosódicos, mas um princípio comum: a sequência fónica é constituída por proeminências distintas.
– enunciado – sintagma entoacional – sintagma fonológico – palavra prosódica – sílaba
• línguas podem ter uma organização fonológica diferente
(Japonês vs Português).
Línguas tonais e línguas entoacionais
• Línguas tonais – distinção entre significados de palavras – contrastes gramaticais – distinções pragmáticas e discursivas – Chinês standard, Cantonês, Thai, etc.
• Línguas entoacionais – distinção entre tipos frásicos – distinções pragmáticas e discursivas – Línguas Românicas (Português, Castelhano, Francês, Italiano),
Inglês, etc..
Configuração de diferentes significados
• Informação nova/já dada • fraseamento e desambiguação sintáctica • mecanismos discursivos • funções pragmáticas • emoções
– Contorno entoacional, – localização e tipo de tom, – amplitude e gama de variação de F0, – velocidade de fala
ToBI
• Sistema de anotação de tons (Tones) e índices de ruturas (Break Indices), inicialmente usado para descrever o inglês americano.
• 4 fiadas:
– ortografia – tons – índices de ruturas – miscelânea (efeitos paralinguísticos, disfluências e comentários)
ToBI
• Eventos tonais – H (high) e L (low) – monotonais ou bitonais – acentos tonais e tons de constituinte ou de fronteira.
• Índices de ruptura – níveis de relação entre as palavras: da co-articulação máxima ou
ruptura 0 a níveis de disjunção 4 (e.g., fim de enunciado).
“Por que razão devem os engenheiros importar-se com a prosódia?” E. Shriberg (2008)
• Crescente interesse nas áreas do processamento automático – síntese de fala – reconhecimento de fala – sistemas de diálogo
Extração de pistas prosódicas
• Software público (Praat e snack) • Extracção de F0 e energia do áudio (pistas a serem pós-
processadas) – interpolação para retirar efeitos de micro-prosódia – normalização de F0 e energia
• Alinhamento de F0 e energia com as palavras e os fones reconhecidos automaticamente
Áreas de aplicação
• Detecção de “frases faladas” /enunciados para tarefas de pontuação (Batista, 2008; 2009): – extracção de informação, – tradução automática, – sumariação extractiva
• Computação realizada com pistas prosódicas e lexicais combinadas – prosódicas ( F0, duração, energia) – modeladas, e.g., com árvores
de decisão; – lexicais (n-gramas de palavras e marcas de pontuação) – modelos
de língua; – combinação através, e.g., modelos de máxima entropia
Motivação
• Área de aplicação que não estava descrita linguisticamente para o português
• Controvérsia: erros vs mecanismos linguísticos fluentes • Padrões regulares em diferentes línguas • Caracterização importante para diferentes áreas:
Linguística, ASRU, TTS, Diálogos e Agentes Conversacionais, etc.
• Pausas preenchidas – <aa> Houve um marco fundamental na evolução da indústria informática
• Alongamentos – regularização de existências e= o que é que aconteceu agora?
• Repetições – é preciso codificar <não é> não é directo
• Fragmentos
– porque não há <direcç-> direccionalidade na relação
• Substituições – que, aliás, <sai> saiu na vossa ficha
Exemplos de disfluências em aulas univeritárias
18
• Apagamentos – <significa isto que se nós considerarmos nós temos aqui> Ah, e no fim,
e no fim, diz aí que vocês tinham ainda um stock de cento e cinquenta traves,
• Sequências complexas – O ano passado houve uns colegas vossos da matemática que <fizeram
o projecto só qua-> queriam fazer o projecto quase só com strings.
• Marcadores de edição – esta cobra <que une que vai que não é que une> que vai depois
Exemplos de disfluências em aulas univeritárias
19
Modelo de auto-monitorização Levelt (1983; 1989)
• O falante monitoriza o seu próprio discurso e o dos seus interlocutores: – Conceção da mensagem pretendida (clarificação ou correcção da
mensagem); – Estruturação formal da mensagem (coesão e coerência); – Erros lexicais (seleção lexical); – Erros sintáticos ou morfológicos (concordâncias); – Erros fonológicos (seleção de fones, comutação de sílabas); – Inadequação à situação comunicativa (contexto apropriado, estatuto social
dos interlocutores).
Modelo de auto-monitorização de Levelt (1983; 1989)
• Como e quando interrompe o seu discurso: – Regra Geral de Interrupção – o falante interrompe o discurso assim
que detecta um erro, não respeitando fronteiras de palavra. – As auto-correcções podem ser explícitas (são produzidas) e não-
explícitas (não chegam a ser produzidas). – Uso de marcadores de edição e de pausas preenchidas, para
sinalizar que vai ser feita uma correção.
Modelo de auto-monitorização de Levelt (1983; 1989)
• A forma como o corrige (restrições linguísticas várias): – Boa formação de constituintes (são respeitados e reconstituídos):
seguem as regras das estruturas coordenadas. – Convenção da identidade da palavra e/ou a convenção da categoria
da palavra (ex. manter a preposição e introduzir uma outra palavra). – Marcação prosódica (diferença de valores da frequência
fundamental, amplitude e duração) dos constituintes que são erros, semanticamente motivada.
24
Corpora
• CPE-FACES (Mata, 1999) – apresentações orais no 3º ciclo – 2h de fala espontânea e preparada (4 alunos e 1 professora) – anotação manual de disfluências (Shriberg, 1994; Eklund, 2004),
anotação morfo-sintática e prosódica • LECTRA (Trancoso et al. 2008)
– aulas universitárias – 10h de fala preparada e espontânea (5 professores) – anotação manual de disfluências (Shriberg, 1994; Eklund, 2004),
anotação morfo-sintática e prosódica
Análise de frequência das disfluências
• % de disfluências – 13,24% (1569 disfluências e 11.851palavras) no corpus do
básico – 7,0% professora do básico (341 em 4530 palavras) – 3,16% no já tratado do universitário (273 em 8636 palavras) – Valores estão de acordo com os reportados na literatura:
• intervalo de 5% a 10% em diálogos humanos (Shriberg, 2001) • média de 6% (Fox Tree, 1995) em diferentes aplicações
– Alongamentos, pausas preenchidas e repetições são mais frequentes.
Frequência no corpus do básico
Categoria Sequência complexa Isolada ou mesma categoria
Alongamentos 497/31,68% 288/45,93%
Repetições 485/30,91% 94/14,99%
Pausas Preenchidas 274/17,46% 198/31,58%
Substituições 177/11,28% 23/3,67%
Apagamentos 112/7,14% 24/3,83%
Marcadores de edição 20/1,28% 0/0%
Inserções 4/0,25% 0/0%
Total 1569/100% 627/100%
Frequência nas aulas universitárias s1 s2 s3 s4 s5 Total
pausas preenchidas
163 98 589 164 246 1260
complexas 123 70 107 132 214 646
repetições 111 134 68 123 101 502
alongamentos 70 32 109 125 101 437
apagamentos 55 105 18 76 47 301
substituições 55 53 29 43 36 214
fragmentos 38 34 22 18 36 148
total 613 526 942 681 746 3508
Frequência por falante e situação
• Frequência superior de disfluências na situação preparada: – evidência para uma maior monitorização e adaptação por parte do
falante à situação específica.
• Classificação de Shriberg: falantes como repeaters vs deleters. – falantes são mais repetidores.
• Professora produz – mais pausas preenchidas do que os alunos, mas com maior controlo
na sua distribuição; – repetições com inserções, como estratégia pedagógica de reforço.
Caracterização linguística
5 formas distintas <anotação ortográfica> • uma vogal central alongada: <aa> <ee> • um murmúrio nasal: <mm> • combinação de ambas: <aam> <eem>
Qualidade da vogal central: [ @: ] ou [ 6: ] (mais frequente) • Alguns falantes usam consistentemente [ 1: ] em vez de [ @: ] / [ 6: ] • Outros ambas, por vezes no mesmo enunciado Contrariamente ao observado para outras línguas não se comportam como palavras plenas – não estão sujeitas à mesma variação contextual O mesmo parece acontecer com os alongamentos
Pausas preenchidas e alongamentos (isolados)
Aluno Professora
Funções distintas como afirmam Clark & Fox Tree (2002) e Eklund (2004)? Acústica e funcionalmente similares, como sugerem os dados? <mm> - categoria separada ou recurso linguístico ao serviço do prolongamento de pausas preenchidas e alongamentos?
Distribuição contextual de pausas preenchidas e alongamentos
(Dis)FLs
Constit.s
Oração
Frase
aam
7,5%
15,0%
77,5%
aa
30,3%
25,7%
44,0%
mm
7,7%
92,3%
0%
Alonga/.s
34,2%
56,5%
9,3%
Padrões temporais
• Diferenças significativas (ANOVA: p<001):
– entre aa e aam – entre alongamentos e mm, – mas não entre mm e aam, sendo que
este último par permite ganhar mais tempo do que os restantes.
• Pausas silenciosas antes e depois com
comportamento similar ao verificado para estes pares.
(Dis) Fluência
s
Pausas Silenc. Antes
Duração das
(Dis)FLs
Pausas Silenc. Após
aam
800 ms
655 ms
616 ms
aa
603 ms
378 ms
166 ms
mm
651 ms
585 ms
744 ms
Alonga/
s
416 ms
392 ms
277 ms
36
Teste percetivo
• 30 estímulos • Classificação manual de momentos de facilidade de
expressão (fluência/disfluência, H. Riggenbach ed., 2000) numa escala de 5 níveis por 3 anotadores independentes – 95% de concordância
• 40 participantes – 20 engenheiros e 20 professores de português
• 5 vezes cada estímulo
37
Teste percetivo
(Dis)fluency Ratings
0102030405060708090100
PRL PRLs FP FPs SUB DEL FRAG REP Varia REPs
Categories
%
38
Teste percetivo
• Concordância de 80% com os juízos dos anotadores • Participantes rejeitam todas as sequências com disfluências
complexas • Participantes preferem alongamentos e pausas preenchidas • Alongamentos julgados fluentes:
– ocorrem em conjunções coordenativas ou completivas – não perturbam o contorno global de F0
• Pausas preenchidas julgadas fluentes: – têm contorno estacionário – ocorrem em fronteiras de sintagmas entoacionais – comportam-se como parentéticas – não perturbam o contono global de F0
39
CART
• Objectivo: quais as pistas linguísticas mais salientes quando se classificam todos os tipos ditos de disfluências como fluentes ou disfluentes?
40
CART
• Resultados apontam 2 pistas: índices de ruptura e contono de
F0 – Eventos produzidos numa
fronteira 3/4 são considerados fluentes vs. eventos dentro de um constituinte
– Eventos com contornos estacionários ou ascendentes vs descendente
41
Conclusões
• Resultados apontam para padrões regulares na produção das disfluências (fraseamento e contorno de F0).
• Fraseamento prosódico (rupturas 3 e 4) é crucial para realizar uma tarefa de avaliação de níveis de fluência/disfluência.
• Contorno estacionário ou ascendente também influencia a classificação vs. descendente e com efeitos glotais.
• Características são salientes tanto no teste perceptivo quanto na CART.
Contribuições para uma definição de fluência
• A fala espontânea é regulada, estruturada, organizada e hierarquizada em função do todo discursivo.
• A produção consciente dos fenómenos (dis)fluentes
envolve condicionantes linguísticas (contextualização, localização, padrões temporais e funções).
• As categorias não são todas disfluentes e podem mesmo
contribuir para o planeamento on-line dos enunciados. • A fluência pode ser entendida, também, como: a
propriedade e mestria no uso e integração de disfluências no todo discursivo.
Reflexão
Somos diariamente cirurgiões da mensagem que ouvimos e/ou produzimos, sem nunca atendermos realmente a todos os contornos que podem estar contemplados na mera produção e na perceção de uma (dis)fluência.
Referências Beckman, M. (2003). “The meaning of intonational structure.” Proc. of ICPhS. Barcelona. Blaauw, E. (1995). On the perceptual classification of spontaneous and read speech. Utrecht: Led. Bolinger, D. (1986). Intonation and its parts: melody in spoken English. Stanford: Stanford University
Press. Clark, H. (2002). “Speaking in time”. Speech Communication, 36, 5-13. Cruz-Ferreira (1998). “Intonation in European Portuguese”. In Hirst, D & A. Di Cristo (eds.). Intonation
systems. Cambridge: Cambridge University Press, 167-178. Cruz-Ferreira (1983). Non-native comprehension of intonation patterns in Portuguese and in English.
Dissertação de Doutoramento. University of Manchester. Falé, I. (2006). “Categorical perception of intonation contrasts in European Portuguese”. In ICPhS. Falé, I. (2005). Percepção e reconhecimento da informação entoacional em Português Europeu.
Dissertação de Doutoramento. Universidade de Lisboa. Falé, I. (1995). Fragemnto da prosódia do Português Europeu: as estruturas coordenadas. Dissertação
de Mestrado. Universidade de Lisboa. Frota, S. (no prelo). “The intonation of European Portuguese”. In Jun, Sun-Ah (ed.). Prosodic Typology
II: the Phonology and Intonation of Phrasing. Oxford University Press. Frota, S. (2002). “Nuclear falls and rises in European Portuguese: a phonological analysis of declarative
and question intonation.” Probus, 14, 113-146. Frota, S. (2000) Prosody and focus in European Portuguese. Phonological phrasing and intonation.
New York: Garland Publishing. Frota, S. (1998). Prosody and Focus in European Portuguese. Dissertação de Doutoramento.
Universidade de Lisboa. Frota, S. (1991). Para a Prosódia da Frase: Quantificador , Advérbio e Marcação Prosódica. Tese de
Mestrado. Universidade de Lisboa.
Referências
Hirschberg, J. (2003). "Pragmatics and Intonation“. Handbook of Pragmatics, L. Horn & G. Ward (eds), Blackwell.
Ladd, R. (1996). Intonational phonology. Cambridge: Cambridge University Press. Martins, F. (1986). Entoação e organização do enunciado. Dissertação de Mestrado. Universidade de
Lisboa. Mata, I. (1999). Para o estudo da entoação em fala espontânea e preparada em Português Europeu.
Metodologia, resultados e implicações didácticas. Dissertação de Doutoramento. Universidade de Lisboa.
Mata, I. (1992). “Questão da entoação e interrogação em Português. «Isso é uma pergunta?»”. In Pereira, I., Mata, I. & M. Freitas. Estudos em prosódia. Lisboa: Edições Colibri, 33-73.
Mata, I. (1990). Questões de entoação e interrogação em Português. «Isso é uma pergunta?». Dissertação de Mestrado. Universidade de Lisboa.
Mateus et al. (2003). Gramática da Língua Portuguesa. Lisboa: Editorial Caminho. Nespor & Vogel (1986). Prosodic phonology. Dordrecht: Foris publications. Ostendorf et al (2008). “ Viana, M. C. (1987). Para a síntese da entoação do Português. Dissertação de Carreira de
Investigação. Universidade de Lisboa. Vigário, M. (1995). Aspectos da prosódia do Português Europeu. Estruturas com advérbios de exclusão
e negação frásica. Dissertação de Mestrado. Universidade do Minho.