caracterização prosódica das disfluências e suas ... · • como e quando ... – convenção...

46
technology from seed Caracterização prosódica das disfluências e suas implicações para o processamento de fala Helena Moniz CLUL/INESC-ID

Upload: phamcong

Post on 01-Dec-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

technology from seed"

       

       

Caracterização prosódica das disfluências e suas implicações para

o processamento de fala  

Helena Moniz CLUL/INESC-ID

2

Resenha •  Conceitos prosódicos •  Sistemas de anotação prosódica •  Diferenciação de estruturas linguísticas por mecanismos

prosódicos •  Prosódia e processamento automático de língua natural •  Área de aplicação: as disfluências •  Caracterização segmental e prosódica das disfluências •  Natureza fluente/disfluente •  Teste percetivo e CART •  Conclusões

Juízos de valor sobre oradores: fundamentos prosódicos?

https://www.youtube.com/watch?v=X7SWS4RoUYU

Conceitos prosódicos

•  Prosódia: –  estudo das sequências que vão da sílaba à frase (nível

suprassegmental) –  ritmo e entoação da língua

•  Prosódia constituída por 3 propriedades/traços: –  duração (medida em milissegundos) –  intensidade (medida em decibéis, corresponde à energia de um

som) –  acento (proeminência de uma palavra em relação às adjacentes)

Organização prosódica

•  diferentes propostas de hierarquização de constituintes prosódicos, mas um princípio comum: a sequência fónica é constituída por proeminências distintas.

–  enunciado –  sintagma entoacional –  sintagma fonológico –  palavra prosódica –  sílaba

•  línguas podem ter uma organização fonológica diferente

(Japonês vs Português).

Línguas tonais e línguas entoacionais

•  Línguas tonais –  distinção entre significados de palavras –  contrastes gramaticais –  distinções pragmáticas e discursivas –  Chinês standard, Cantonês, Thai, etc.

•  Línguas entoacionais –  distinção entre tipos frásicos –  distinções pragmáticas e discursivas –  Línguas Românicas (Português, Castelhano, Francês, Italiano),

Inglês, etc..

Configuração de diferentes significados

•  Informação nova/já dada •  fraseamento e desambiguação sintáctica •  mecanismos discursivos •  funções pragmáticas •  emoções

–  Contorno entoacional, –  localização e tipo de tom, –  amplitude e gama de variação de F0, –  velocidade de fala

ToBI (Tones and Break Indices)

ToBI

•  Sistema de anotação de tons (Tones) e índices de ruturas (Break Indices), inicialmente usado para descrever o inglês americano.

•  4 fiadas:

–  ortografia –  tons –  índices de ruturas –  miscelânea (efeitos paralinguísticos, disfluências e comentários)

ToBI

•  Eventos tonais –  H (high) e L (low) –  monotonais ou bitonais –  acentos tonais e tons de constituinte ou de fronteira.

•  Índices de ruptura –  níveis de relação entre as palavras: da co-articulação máxima ou

ruptura 0 a níveis de disjunção 4 (e.g., fim de enunciado).

11

Exemplo de declarativa neutra

http://www.ling.ohio-state.edu/~tobi/

12

Exemplo de interrogativa global

http://www.ling.ohio-state.edu/~tobi/

Melodias e interpretação de significados

Interrogativa global vs concordância-continuação

“Por que razão devem os engenheiros importar-se com a prosódia?” E. Shriberg (2008)

•  Crescente interesse nas áreas do processamento automático – síntese de fala – reconhecimento de fala – sistemas de diálogo

Extração de pistas prosódicas

•  Software público (Praat e snack) •  Extracção de F0 e energia do áudio (pistas a serem pós-

processadas) –  interpolação para retirar efeitos de micro-prosódia –  normalização de F0 e energia

•  Alinhamento de F0 e energia com as palavras e os fones reconhecidos automaticamente

Áreas de aplicação

•  Detecção de “frases faladas” /enunciados para tarefas de pontuação (Batista, 2008; 2009): –  extracção de informação, –  tradução automática, –  sumariação extractiva

•  Computação realizada com pistas prosódicas e lexicais combinadas –  prosódicas ( F0, duração, energia) – modeladas, e.g., com árvores

de decisão; –  lexicais (n-gramas de palavras e marcas de pontuação) – modelos

de língua; –  combinação através, e.g., modelos de máxima entropia

Motivação

•  Área de aplicação que não estava descrita linguisticamente para o português

•  Controvérsia: erros vs mecanismos linguísticos fluentes •  Padrões regulares em diferentes línguas •  Caracterização importante para diferentes áreas:

Linguística, ASRU, TTS, Diálogos e Agentes Conversacionais, etc.

•  Pausas preenchidas –  <aa> Houve um marco fundamental na evolução da indústria informática

•  Alongamentos –  regularização de existências e= o que é que aconteceu agora?

•  Repetições –  é preciso codificar <não é> não é directo

•  Fragmentos

–  porque não há <direcç-> direccionalidade na relação

•  Substituições –  que, aliás, <sai> saiu na vossa ficha

Exemplos de disfluências em aulas univeritárias

18

•  Apagamentos –  <significa isto que se nós considerarmos nós temos aqui> Ah, e no fim,

e no fim, diz aí que vocês tinham ainda um stock de cento e cinquenta traves,

•  Sequências complexas –  O ano passado houve uns colegas vossos da matemática que <fizeram

o projecto só qua-> queriam fazer o projecto quase só com strings.

•  Marcadores de edição –  esta cobra <que une que vai que não é que une> que vai depois

Exemplos de disfluências em aulas univeritárias

19

Modelo de auto-monitorização Levelt (1983; 1989)

•  O falante monitoriza o seu próprio discurso e o dos seus interlocutores: –  Conceção da mensagem pretendida (clarificação ou correcção da

mensagem); –  Estruturação formal da mensagem (coesão e coerência); –  Erros lexicais (seleção lexical); –  Erros sintáticos ou morfológicos (concordâncias); –  Erros fonológicos (seleção de fones, comutação de sílabas); –  Inadequação à situação comunicativa (contexto apropriado, estatuto social

dos interlocutores).

Modelo de auto-monitorização de Levelt (1983; 1989)

•  Como e quando interrompe o seu discurso: –  Regra Geral de Interrupção – o falante interrompe o discurso assim

que detecta um erro, não respeitando fronteiras de palavra. –  As auto-correcções podem ser explícitas (são produzidas) e não-

explícitas (não chegam a ser produzidas). –  Uso de marcadores de edição e de pausas preenchidas, para

sinalizar que vai ser feita uma correção.

Modelo de auto-monitorização de Levelt (1983; 1989)

•  A forma como o corrige (restrições linguísticas várias): –  Boa formação de constituintes (são respeitados e reconstituídos):

seguem as regras das estruturas coordenadas. –  Convenção da identidade da palavra e/ou a convenção da categoria

da palavra (ex. manter a preposição e introduzir uma outra palavra). –  Marcação prosódica (diferença de valores da frequência

fundamental, amplitude e duração) dos constituintes que são erros, semanticamente motivada.

Estrutura de uma sequência disfluente

24

Corpora

•  CPE-FACES (Mata, 1999)‏ –  apresentações orais no 3º ciclo –  2h de fala espontânea e preparada (4 alunos e 1 professora) ‏–  anotação manual de disfluências (Shriberg, 1994; Eklund, 2004),

anotação morfo-sintática e prosódica •  LECTRA (Trancoso et al. 2008) ‏

–  aulas universitárias –  10h de fala preparada e espontânea (5 professores) ‏–  anotação manual de disfluências (Shriberg, 1994; Eklund, 2004),

anotação morfo-sintática e prosódica

Análise de frequência das disfluências

•  % de disfluências –  13,24% (1569 disfluências e 11.851palavras) no corpus do

básico –  7,0% professora do básico (341 em 4530 palavras) –  3,16% no já tratado do universitário (273 em 8636 palavras) –  Valores estão de acordo com os reportados na literatura:

•  intervalo de 5% a 10% em diálogos humanos (Shriberg, 2001) •  média de 6% (Fox Tree, 1995) em diferentes aplicações

–  Alongamentos, pausas preenchidas e repetições são mais frequentes.

Frequência no corpus do básico

Categoria Sequência complexa Isolada ou mesma categoria

Alongamentos 497/31,68% 288/45,93%

Repetições 485/30,91% 94/14,99%

Pausas Preenchidas 274/17,46% 198/31,58%

Substituições 177/11,28% 23/3,67%

Apagamentos 112/7,14% 24/3,83%

Marcadores de edição 20/1,28% 0/0%

Inserções 4/0,25% 0/0%

Total 1569/100% 627/100%

Frequência nas aulas universitárias s1   s2   s3   s4   s5   Total  

pausas preenchidas  

163   98   589   164   246   1260  

complexas   123   70   107   132   214   646  

repetições   111   134   68   123   101   502  

alongamentos   70   32   109   125   101   437  

apagamentos   55   105   18   76   47   301  

substituições   55   53   29   43   36   214  

fragmentos   38   34   22   18   36   148  

total   613   526   942   681   746   3508  

Frequência por falante e situação

•  Frequência superior de disfluências na situação preparada: –  evidência para uma maior monitorização e adaptação por parte do

falante à situação específica.

•  Classificação de Shriberg: falantes como repeaters vs deleters. –  falantes são mais repetidores.

•  Professora produz –  mais pausas preenchidas do que os alunos, mas com maior controlo

na sua distribuição; –  repetições com inserções, como estratégia pedagógica de reforço.

Caracterização linguística

5 formas distintas <anotação ortográfica> •  uma vogal central alongada: <aa> <ee> •  um murmúrio nasal: <mm> •  combinação de ambas: <aam> <eem>

Qualidade da vogal central: [ @: ] ou [ 6: ] (mais frequente) •  Alguns falantes usam consistentemente [ 1: ] em vez de [ @: ] / [ 6: ] •  Outros ambas, por vezes no mesmo enunciado Contrariamente ao observado para outras línguas não se comportam como palavras plenas – não estão sujeitas à mesma variação contextual O mesmo parece acontecer com os alongamentos

Pausas preenchidas: tipologias de línguas

Inventário extraído de Clark & Fox Tree (2002)

Pausas preenchidas e alongamentos (isolados)

Aluno Professora

Funções distintas como afirmam Clark & Fox Tree (2002) e Eklund (2004)? Acústica e funcionalmente similares, como sugerem os dados? <mm> - categoria separada ou recurso linguístico ao serviço do prolongamento de pausas preenchidas e alongamentos?

Distribuição contextual de pausas preenchidas e alongamentos

(Dis)FLs

Constit.s

Oração

Frase

aam

7,5%

15,0%

77,5%

aa

30,3%

25,7%

44,0%

mm

7,7%

92,3%

0%

Alonga/.s

34,2%

56,5%

9,3%

Padrões temporais

•  Diferenças significativas (ANOVA: p<001):

–  entre aa e aam –  entre alongamentos e mm, –  mas não entre mm e aam, sendo que

este último par permite ganhar mais tempo do que os restantes.

•  Pausas silenciosas antes e depois com

comportamento similar ao verificado para estes pares.

(Dis) Fluência

s

Pausas Silenc. Antes

Duração das

(Dis)FLs

Pausas Silenc. Após

aam

800 ms

655 ms

616 ms

aa

603 ms

378 ms

166 ms

mm

651 ms

585 ms

744 ms

Alonga/

s

416 ms

392 ms

277 ms

34

Teste perceptivo

http://www.ling.ohio-state.edu/~tobi/

35

Teste percetivo

http://www.ling.ohio-state.edu/~tobi/

36

Teste percetivo

•  30 estímulos •  Classificação manual de momentos de facilidade de

expressão (fluência/disfluência, H. Riggenbach ed., 2000) numa escala de 5 níveis por 3 anotadores independentes –  95% de concordância

•  40 participantes –  20 engenheiros e 20 professores de português

•  5 vezes cada estímulo

37

Teste percetivo

(Dis)fluency Ratings

0102030405060708090100

PRL PRLs FP FPs SUB DEL FRAG REP Varia REPs

Categories

%

38

Teste percetivo

•  Concordância de 80% com os juízos dos anotadores •  Participantes rejeitam todas as sequências com disfluências

complexas •  Participantes preferem alongamentos e pausas preenchidas •  Alongamentos julgados fluentes:

–  ocorrem em conjunções coordenativas ou completivas –  não perturbam o contorno global de F0

•  Pausas preenchidas julgadas fluentes: –  têm contorno estacionário –  ocorrem em fronteiras de sintagmas entoacionais –  comportam-se como parentéticas –  não perturbam o contono global de F0

39

CART

•  Objectivo: quais as pistas linguísticas mais salientes quando se classificam todos os tipos ditos de disfluências como fluentes ou disfluentes?

40

CART

•  Resultados apontam 2 pistas: índices de ruptura e contono de

F0 –  Eventos produzidos numa

fronteira 3/4 são considerados fluentes vs. eventos dentro de um constituinte

–  Eventos com contornos estacionários ou ascendentes vs descendente

41

Conclusões

•  Resultados apontam para padrões regulares na produção das disfluências (fraseamento e contorno de F0).

•  Fraseamento prosódico (rupturas 3 e 4) é crucial para realizar uma tarefa de avaliação de níveis de fluência/disfluência.

•  Contorno estacionário ou ascendente também influencia a classificação vs. descendente e com efeitos glotais.

•  Características são salientes tanto no teste perceptivo quanto na CART.

Contribuições para uma definição de fluência

•  A fala espontânea é regulada, estruturada, organizada e hierarquizada em função do todo discursivo.

•  A produção consciente dos fenómenos (dis)fluentes

envolve condicionantes linguísticas (contextualização, localização, padrões temporais e funções).

•  As categorias não são todas disfluentes e podem mesmo

contribuir para o planeamento on-line dos enunciados. •  A fluência pode ser entendida, também, como: a

propriedade e mestria no uso e integração de disfluências no todo discursivo.

Reflexão

Somos diariamente cirurgiões da mensagem que ouvimos e/ou produzimos, sem nunca atendermos realmente a todos os contornos que podem estar contemplados na mera produção e na perceção de uma (dis)fluência.

Referências Beckman, M. (2003). “The meaning of intonational structure.” Proc. of ICPhS. Barcelona. Blaauw, E. (1995). On the perceptual classification of spontaneous and read speech. Utrecht: Led. Bolinger, D. (1986). Intonation and its parts: melody in spoken English. Stanford: Stanford University

Press. Clark, H. (2002). “Speaking in time”. Speech Communication, 36, 5-13. Cruz-Ferreira (1998). “Intonation in European Portuguese”. In Hirst, D & A. Di Cristo (eds.). Intonation

systems. Cambridge: Cambridge University Press, 167-178. Cruz-Ferreira (1983). Non-native comprehension of intonation patterns in Portuguese and in English.

Dissertação de Doutoramento. University of Manchester. Falé, I. (2006). “Categorical perception of intonation contrasts in European Portuguese”. In ICPhS. Falé, I. (2005). Percepção e reconhecimento da informação entoacional em Português Europeu.

Dissertação de Doutoramento. Universidade de Lisboa. Falé, I. (1995). Fragemnto da prosódia do Português Europeu: as estruturas coordenadas. Dissertação

de Mestrado. Universidade de Lisboa. Frota, S. (no prelo). “The intonation of European Portuguese”. In Jun, Sun-Ah (ed.). Prosodic Typology

II: the Phonology and Intonation of Phrasing. Oxford University Press. Frota, S. (2002). “Nuclear falls and rises in European Portuguese: a phonological analysis of declarative

and question intonation.” Probus, 14, 113-146. Frota, S. (2000) Prosody and focus in European Portuguese. Phonological phrasing and intonation.

New York: Garland Publishing. Frota, S. (1998). Prosody and Focus in European Portuguese. Dissertação de Doutoramento.

Universidade de Lisboa. Frota, S. (1991). Para a Prosódia da Frase: Quantificador , Advérbio e Marcação Prosódica. Tese de

Mestrado. Universidade de Lisboa.

Referências

Hirschberg, J. (2003). "Pragmatics and Intonation“. Handbook of Pragmatics, L. Horn & G. Ward (eds), Blackwell.

Ladd, R. (1996). Intonational phonology. Cambridge: Cambridge University Press. Martins, F. (1986). Entoação e organização do enunciado. Dissertação de Mestrado. Universidade de

Lisboa. Mata, I. (1999). Para o estudo da entoação em fala espontânea e preparada em Português Europeu.

Metodologia, resultados e implicações didácticas. Dissertação de Doutoramento. Universidade de Lisboa.

Mata, I. (1992). “Questão da entoação e interrogação em Português. «Isso é uma pergunta?»”. In Pereira, I., Mata, I. & M. Freitas. Estudos em prosódia. Lisboa: Edições Colibri, 33-73.

Mata, I. (1990). Questões de entoação e interrogação em Português. «Isso é uma pergunta?». Dissertação de Mestrado. Universidade de Lisboa.

Mateus et al. (2003). Gramática da Língua Portuguesa. Lisboa: Editorial Caminho. Nespor & Vogel (1986). Prosodic phonology. Dordrecht: Foris publications. Ostendorf et al (2008). “ Viana, M. C. (1987). Para a síntese da entoação do Português. Dissertação de Carreira de

Investigação. Universidade de Lisboa. Vigário, M. (1995). Aspectos da prosódia do Português Europeu. Estruturas com advérbios de exclusão

e negação frásica. Dissertação de Mestrado. Universidade do Minho.

46  

Obrigada. Perguntas?