as interfaces da fala: a teoria linguística e a linguística tecnológica

26
© 2005, it - instituto de telecomunicações. Todos os direitos reservados. Sara Candeias Lab de Processamento de Fala Universidade de Coimbra, DEEC, Portugal 13 a 15 setembro 2012 São Carlos SP, Brasil AS INTERFACES DA FALA A TEORIA LINGUÍSTICA E A LINGUÍSTICA TECNOLÓGICA XI Encontro de Linguís2ca de Corpus

Upload: danilo-sousa

Post on 09-Aug-2015

60 views

Category:

Education


5 download

TRANSCRIPT

Page 1: As interfaces da fala: a teoria linguística e a linguística tecnológica

© 2005, it - instituto de telecomunicações. Todos os direitos reservados.

Sara  Candeias    

Lab  de  Processamento  de  Fala  Universidade  de  Coimbra,  DEEC,  Portugal  

 

13  a  15  setembro  2012  São  Carlos  -­‐  SP,  Brasil  

AS  INTERFACES  DA  FALA  A  TEORIA  LINGUÍSTICA  E  A  LINGUÍSTICA  TECNOLÓGICA  

XI  Encontro  de  Linguís2ca  de  Corpus  

Page 2: As interfaces da fala: a teoria linguística e a linguística tecnológica

2

PLANO  §  A  QUESTÃO:  A  TEORIA  LINGUÍSTICA  E  A  LINGUÍSTICA  TECNOLÓGICA?  

§  CONHECIMENTO  LINGUÍSTICO  E  TECNOLOGIAS  DA  FALA:    

§  ATITUDES  

§  OBSTÁCULOS  AO  DIÁLOGO  

§  CONSEQUÊNCIAS  DA  FALTA  DE  DIÁLOGO  

§  A  INTEGRAÇÃO  

§  NECESSIDADES  DO  MERCADO  

§  MUDANÇAS  NECESSÁRIAS  

ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

Page 3: As interfaces da fala: a teoria linguística e a linguística tecnológica

3 ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

"Every  2me  I  fire  a  linguist,    the  performance  of  the  speech  recognizer  goes  up"  

Frederick  Jelinek  

A      TEORIA  LINGUÍSTICA  E  A  LINGUÍSTICA  TECNOLÓGICA  

Page 4: As interfaces da fala: a teoria linguística e a linguística tecnológica

4

TECNOLOGIA  DA  FALA  ABORDAGENS  §  Baseada  no  conhecimento  teórico  –  human  expert/knowleadge  driven  

A  combinação  de  abordagens  é  possível?  

§  Baseada  em  dados  estaRsScos  –  machine  learning/data  driven  

LINGUÍSTICA  

ENGENHARIA  

ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

Page 5: As interfaces da fala: a teoria linguística e a linguística tecnológica

5

Can  we  leave  it  to  the  computer  to  learn  

about  speech  or  shall  we  insist  on  

developing  our  own  insights  in  the  many  

dimensions  of  the  speech  code?  (1983)  

 

ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          sept.  13-­‐15,  2012  

Gunnar  Fant    (1919-­‐2009)  

A      TEORIA  LINGUÍSTICA  E  A  LINGUÍSTICA  TECNOLÓGICA  

Page 6: As interfaces da fala: a teoria linguística e a linguística tecnológica

6 ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

UMA  ATITUDE…  

CONHECIMENTO  LINGUÍSTICO  NA  TECNOLOGIA  DA  FALA  

§  Baseada  no  conhecimento  fonéSco-­‐fonológico  §  Conhecimento  formalizado  como  regras  

FONETICISTA  fornecedor  de  

conhecimento  acerca  do  código  de  fala    

Page 7: As interfaces da fala: a teoria linguística e a linguística tecnológica

7 ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

OUTRA  ATITUDE…  

CONHECIMENTO  LINGUÍSTICO  NA  TECNOLOGIA  DA  FALA  

§  Baseada  no  conhecimento  fonéSco-­‐fonológico  §  Conhecimento  formalizado  como  regras  

FONETICISTA  fornecedor  de  

conhecimento  acerca  do  código  de  fala    

Trabalho  dispendioso,  demorado,  subje2vo,  exigente,  sem  fim...  POUCO  EFICIENTE  !?  

Page 8: As interfaces da fala: a teoria linguística e a linguística tecnológica

8 ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

OUTRA  ATITUDE…  

“in  the  last  decades  we  have  witnessed  a  decrease  in  the  amount  of  phone=c  knowldege  used  in  ASR  and  TTS”  

(2005)  

Helmer  S2k  

CONHECIMENTO  LINGUÍSTICO  NA  TECNOLOGIA  DA  FALA  

Page 9: As interfaces da fala: a teoria linguística e a linguística tecnológica

9 ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

OUTRA  ATITUDE…  

CONHECIMENTO  LINGUÍSTICO  NA  TECNOLOGIA  DA  FALA  

“The  linguis=c  approach  soon  lost  terrain,  in  recogni=on  applica=ons  at  least,  to  (nonlinguis=cally  oriented)  engineers  who  were  less  concerned  with  formal  

linguis=c  insights,  trea=ng  the  signal  as  a  paFern  just  like  any  other”  

(2005)  

William  Barry  

Page 10: As interfaces da fala: a teoria linguística e a linguística tecnológica

10 ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

UMA  OUTRA  ATITUDE  CONHECIMENTO  LINGUÍSTICO  NA  TECNOLOGIA  DA  FALA  

§  Baseada  na  informação  adquirida  automaScamente  de  corpora:  machine  learning  

§  Conhecimento  dentro  dos  corpora    

e2quetador  (manual)  de  corpora  FONETICISTA  

Page 11: As interfaces da fala: a teoria linguística e a linguística tecnológica

11 ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

UMA  OUTRA  ATITUDE…  

CONHECIMENTO  LINGUÍSTICO  NA  TECNOLOGIA  DA  FALA  

§  Material  anotado  manualmente  é  a  base:  §  para  a  caracterização  estaRsSca  da  

fala  §  Para  treinar  sistemas  de  

eSquetagem  automáSca  para  o  reconhecimento  de  fala  

§  Corpus-­‐centric  perspec=ve  on  spoken  language  

“Most  manual  annota=on  focuses  on  the  lexical  level  and  seeks  to  derive  labels  and  segmenta=on  for  the  lower  =ers  (par=cularly  segments)  via  automa=c  methods”    (Greenberg,  2005)  

Page 12: As interfaces da fala: a teoria linguística e a linguística tecnológica

12 ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

MUNDOS  DIFERENTES…  

CONHECIMENTO  LINGUÍSTICO  NA  TECNOLOGIA  DA  FALA  

§  PORQUE  DECRESCEU  O  USO  DE  CONHECIMENTO  LINGUÍSTICO  EM  TECNOLOGIA  DA  FALA  AO  LONGO  DOS  ANOS?    

§  PORQUE  A  TRANSFERÊNCIA  DE  CONHECIMENTO  LINGUÍSTICO  PARA  A  TECNOLOGIA  DE  FALA  É  TÃO  DIFÍCIL?  

Page 13: As interfaces da fala: a teoria linguística e a linguística tecnológica

13 ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

OBSTÁCULOS  AO  DIÁLOGO    ENTRE  LINGUÍSTICA  (FONÉTICA)  E  TECNOLOGIA  (ENGENHARIA)  

§  A  natureza  do  conhecimento  fonéSco  

§  A  natureza  abstrata  dos  modelos  linguísScos  

§  A  falta  de  treino  de  interdisciplinaridade  

CONHECIMENTO  LINGUÍSTICO  NA  TECNOLOGIA  DA  FALA  

Page 14: As interfaces da fala: a teoria linguística e a linguística tecnológica

14 ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

A  NATUREZA  DO  CONHECIMENTO  FONÉTICO  

OBSTÁCULOS  AO  DIÁLOGO  

§  Menos  detalhado  em  termos  da  natureza  do  sinal  

§  Menos  quanSficado  

§  Menos  necessitado  de  formalização  lógica  

“phone=cs  does  not  provide  ready-­‐made  quan=ta=ve  models  that  can  be  plugged  directly  into  a  system”    

(Strik,  2005:  177)  

Page 15: As interfaces da fala: a teoria linguística e a linguística tecnológica

15 ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

A  NATUREZA  DO  CONHECIMENTO  FONÉTICO  

§  Menos  detalhado  em  termos  da  natureza  do  sinal  

§  Menos  quanSficado  

§  Menos  necessitado  de  formalização  lógica  

§  Maioritariamente  baseado  em  “fala  de  laboratório”  devido  à  

necessidade  de  controlar  variáveis  num  ambiente  experimental  

OBSTÁCULOS  AO  DIÁLOGO  

Page 16: As interfaces da fala: a teoria linguística e a linguística tecnológica

16 ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

A  NATUREZA  ABSTRATA  DOS  MODELOS  LINGUÍSTICOS  

§  Fonologia  vs  fonéSca  

§  Sílaba  

§  ...  

OBSTÁCULOS  AO  DIÁLOGO  

“Phonological  systems  like  the  ToBI  approach  only  introduce  a  quan=sa=on  error:  the  whole  variety  of  F0  values  available  in  

acous=cs  is  reduced  to  a  mere  binary  opposi=on  L  vs.  H,  and  to  some  few  addi=onal,  diacri=c  dis=nc=ons”  

(Batliner  &  Möbius,  2005)  

Page 17: As interfaces da fala: a teoria linguística e a linguística tecnológica

17 ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

A  FALTA  DE  TREINO  INTERDISCIPLINAR  

OBSTÁCULOS  AO  DIÁLOGO  

“a  successful  phone=cian  working  on  a  spoken  language  system  will  need  some  knowledge  ofcomputers,  algorithms,  sta=s=cs  and  signal  

processing”  (Acero,  1995)  

 “linguist  speech-­‐technology  engineer”  “speech  technology  linguist”  

(Barry  et  al.,  2005)  

Page 18: As interfaces da fala: a teoria linguística e a linguística tecnológica

18 ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

“the  phone=cs  community  has  not  focused  on  ques=ons  most  relevant  for  speech  technology  while  the  speech  technology  

community  has  not  developed  algorithms  and  data  structures  that  are  op=mally  recep=ve  for  the  incorpora=on  of  phone=c  knowledge”  

(van  Santen,  2005)  

CONSEQUÊNCIAS  DA  FALTA  DE  DIÁLOGO  

§  Diferentes  focos  de  interesse  §  Dificuldades  em  entender  as  necessidades  ‘do  outro’  §  Tecnologia  ‘imperfeita’  

 

CONHECIMENTO  LINGUÍSTICO  NA  TECNOLOGIA  DA  FALA  

Page 19: As interfaces da fala: a teoria linguística e a linguística tecnológica

19 ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

CONSEQUÊNCIAS  DA  FALTA  DE  DIÁLOGO  

§  Diferentes  focos  de  interesse  §  Dificuldades  em  entender  as  necessidades  ‘do  outro’  §  Tecnologia  ‘imperfeita’  

 “The  majority  of  the  difficul=es  I  have  had  in  the  past  when  

coopera=ng  with  linguists  stemmed  from  the  fact  that  they  gave  me  sugges=ons  that  were  either  very  hard  to  incorporate  in  a  computer  program,  or  would  probably  not  make  any  impact  in  overall  system’s  

performance.”  (Acero,  1995)  

CONHECIMENTO  LINGUÍSTICO  NA  TECNOLOGIA  DA  FALA  

Page 20: As interfaces da fala: a teoria linguística e a linguística tecnológica

20

A  INTEGRAÇÃO  

ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

NECESSIDADES  DE  MERCADO  

§  Fala  sintéSca  mais  natural  e  expressiva  

§ Modelação  prosódica  

§ Expressão  de  emoções  

Page 21: As interfaces da fala: a teoria linguística e a linguística tecnológica

21

A  INTEGRAÇÃO  

ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

NECESSIDADES  DE  MERCADO  

§  Reconhecimento  de  fala  espontânea  

§ Muito  dependente  da  disponibilidade  de  training  data:  corpora  

de  fala  espontânea  anotado  a  todos  os  níveis  

§ Robustez  com  fala  de  crianças  e  de  idosos,  de  não  naSvos,  fala  

rápida,  ‘adoentada’,  sussurrada,  ...  

Page 22: As interfaces da fala: a teoria linguística e a linguística tecnológica

22

A  INTEGRAÇÃO  

ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

NECESSIDADES  DE  MERCADO  

§  Sistemas  de  fala  com  adequação  comunicaSva  

(pragmáSca)  

§ Atos  de  fala  (diálogos)  e  prosódia  § Emoções  e  estados  do  falante  

Page 23: As interfaces da fala: a teoria linguística e a linguística tecnológica

23

A  INTEGRAÇÃO  

ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

MUDANÇAS  NECESSÁRIAS  

§  Treino  de  interdisciplinaridade  entre  foneScistas  e  engenheiros  

§  Estruturas  académicas  capazes  de  promover  a  colaboração  

interdisciplinar  e  o  trabalho  com  a  indústria  

§  Indústrias  capazes  de  considerar  invesSr  em  projetos  de  

invesSgação  e  desenvolvimento  a  longo  tempo  

§  Mudanças  na  ‘mentalidade’  e  na  ‘cultura’  

Page 24: As interfaces da fala: a teoria linguística e a linguística tecnológica

24

"Compu=ng  power  can  not  subs=tute  

crucial  knowledge"    (Fant,  2004)  

ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

CONHECIMENTO  LINGUÍSTICO  NA  TECNOLOGIA  DA  FALA  

Page 25: As interfaces da fala: a teoria linguística e a linguística tecnológica

25

REFERÊNCIAS  Fant,  G.  (1983).  PhoneScs  and  speech  technology.  Speech  Transmission  Laboratory  -­‐  Quarterly  Progress  and  Status  

Report,  2-­‐3,  20-­‐35.  Retrieved  from  hzp://www.speech.kth.se/prod/publicaSons/files/qpsr/1983/1983_24_2-­‐3_020-­‐035.pdf  

Strik,  H.  (2005).  Is  phoneSc  knowledge  of  any  use  for  speech  technology?  In  W.  J.  Barry  &  W.  A.  van  Dommelen  (Eds.),  The  integraSon  of  phoneSc  knowledge  in  speech  technology.  (pp.  167-­‐80).  Dordrecht:  Springer.  Retrieved  from  hzp://lands.let.kun.nl/literature/strik.2005.1.pdf  

Barry,  W.  J.,  Dommelen,  W.  A.,  &  Koreman,  J.  (2005).  PhoneSc  knowledge  in  speech  technology  -­‐  and  phoneSc  knowledge  from  speech  technology?  In  W.  J.  Barry  &  W.  A.  van  Dommelen  (Eds.),  The  integraSon  of  phoneSc  knowledge  in  speech  technology.  (pp.  1-­‐12).  Dordrecht:  Springer.  Retrieved  from  hzp://www.coli.uni-­‐saarland.de/~koreman/PublicaSons/2005/Eurospeech2001.pdf    

Greenberg,  S.  (2005).  From  here  to  uSlity  -­‐  melding  phoneSc  insight  with  speech  technology.  In  W.  J.  Barry  &  W.  A.  van  Dommelen  (Eds.),  The  integraSon  of  phoneSc  knowledge  in  speech  technology.  (pp.  107-­‐32).  Dordrecht:  Springer.  Retrieved  from  hzp://www.icsi.berkeley.edu/~steveng/PDF/PhoneSc_Insight.pdf    

Batliner,  A.  &  Möbius,  B.  (2005).  Prosodic  models,  automaSc  speech  understanding,  and  speech  synthesis:  Towards  the  common  ground?  In  W.  J.  Barry  &  W.  A.  van  Dommelen  (Eds.),  The  integraSon  of  phoneSc  knowledge  in  speech  technology.  (pp.  21-­‐44).  Dordrecht:  Springer.  

Acero,  A.  (1995).  The  role  of  phoneScians  in  speech  technology.  In  G.  Bloothoo�,  V.  Hazan,  D.  Huber,  &  J.  Llisterri  (Eds.),  European  studies  in  phoneScs  and  speech  communicaSon.  (pp.  170-­‐5).  Utrecht:  OTS  PublicaSons.  Retrieved  from  hzp://research.microso�.com/pubs/77752/Acero-­‐PhoneScian.pdf    

van  Santen,  J.  P.  H.  (2005),  PhoneSc  knowledge  in  text-­‐to-­‐speech  synthesis,  in  The  integraSon  of  phoneSc  knowledge  in  speech  technology.  (W.  J.  Barry  &  W.  A.  van  Dommelen,  editors),  Dordrecht:  Springer,  149-­‐166.  

Fant,  G.  (2004).  More  than  half  a  century  in  phoneScs  and  speech  research.  In  Speech  acousScs  and  phoneScs:  Selected  wriSngs.  (pp.  1-­‐14).  Dordrecht:  Kluwer.  (Original  work  published  2000)  Retrieved  from  hzp://www.speech.kth.se/gunnarfant/halfcentury.pdf    

    ELC2012          –          São  Carlos-­‐SP,  Brasil          -­‐          set.  13-­‐15,  2012  

Page 26: As interfaces da fala: a teoria linguística e a linguística tecnológica

© 2005, it - instituto de telecomunicações. Todos os direitos reservados.

Sara  Candeias  [email protected]  

   

Lab  de  Processamento  de  Fala  Universidade  de  Coimbra,  DEEC  -­‐  Portugal  

 

13  a  15  setembro  2012  São  Carlos  -­‐  SP,  Brasil  

XI  Encontro  de  Linguís2ca  de  Corpus  

AS  INTERFACES  DA  FALA  A  TEORIA  LINGUÍSTICA  E  A  LINGUÍSTICA  TECNOLÓGICA