technology from seed
CONTRIBUTOS DAS TECNOLOGIA S DA LÍNGUA
PARA A GLOBALIZAÇÃO DO PORTUGUÊS
Colóquio Português Língua Global
Centro de Estudos Lusíadas da Universidade do Minho 15 de novembro de 2013
Isabel Trancoso Luísa Coheur Anabela Barreiro
Laboratório de Sistemas de Língua Falada (L2F)
2
Equipa
www.l2f.inesc-id-pt
L2F
Transcrição
Multimedia
Diálogo
Tradução
Fala-para-fala
Texto
Saúde à distância
E-Health
Ensino à distância
E-Learning
3
4
Transcrição Multimédia
5
Transcrição Multimédia
• O que é?
A transcrição enriquecida é muito mais que a simples conversão
fala texto
Há que incluir pontuação, capitalização, informação sobre mudança de orador, tópico, língua, sotaque, emoção …
• Como funciona?
Segmentação áudio + Reconhecimento + Pontuação + Capitalização + …
• Alguns desafios: • Fala espontânea
• Ruído ambiente / distância ao microfone
• Sotaques muito marcados
• Palavras fora do vocabulário
• Domínios: Noticiários, aulas, reuniões, tribunais, …
L2F
Transcrição
Multimedia
Diálogo
Tradução
Fala-para-fala
Texto
Saúde à distância
E-Health
Ensino à distância
E-Learning
6
7
O projecto FALACOMIGO
• O que é?
Projecto QREN, que teve como
um dos alvos a criação de um
agente que responde a perguntas
sobre Monserrate
• Como funciona?
Reconhecimento +
Compreensão de Língua Natural +
Síntese áudio-visual
• Alguns desafios: • Construção da base de Conhecimento
• Variabilidade Linguística
O agente virtual Edgar Smith
8
Fala Comigo em Monserrate
9
Parceiros
10
L2F
Transcrição
Multimedia
Diálogo
Tradução
Fala-para-fala
Texto
Saúde à distância
E-Health
Ensino à distância
E-Learning
11
12
O projecto PT-STAR
• O que é?
Projecto em cooperação com a CMU, que teve como alvo a tradução de fala para fala de e para Português
• Como funciona?
Reconhecimento + Tradução Automática + Síntese
• Alguns desafios: – Adaptação ao domínio
– Erros de reconhecimento
Como funciona? Tradução de Centauri para Arcturan [Knight 97]
1a. ok-voon ororok sprok .
1b. at-voon bichat dat .
7a. lalok farok ororok lalok sprok izok enemok .
7b. wat jjat bichat wat dat vat eneat .
2a. ok-drubel ok-voon anok plok sprok .
2b. at-drubel at-voon pippat rrat dat .
8a. lalok brok anok plok nok .
8b. iat lat pippat rrat nnat .
3a. erok sprok izok hihok ghirok .
3b. totat dat arrat vat hilat .
9a. wiwok nok izok kantok ok-yurp .
9b. totat nnat quat oloat at-yurp .
4a. ok-voon anok drok brok jok .
4b. at-voon krat pippat sat lat .
10a. lalok mok nok yorok ghirok clok .
10b. wat nnat gat mat bat hilat .
5a. wiwok farok izok stok .
5b. totat jjat quat cat .
11a. lalok nok crrrok hihok yorok zanzanok .
11b. wat nnat arrat mat zanzanat .
6a. lalok sprok izok jok stok .
6b. wat dat krat quat cat .
12a. lalok rarok nok izok hihok mok .
12b. wat nnat forat arrat vat gat .
Traduzir para Arcturan: farok crrrok hihok yorok clok kantok ok-yurp
Como funciona? Tradução de Centauri para Arcturan [Knight 97]
1a. ok-voon ororok sprok .
1b. at-voon bichat dat .
7a. lalok farok ororok lalok sprok izok enemok .
7b. wat jjat bichat wat dat vat eneat .
2a. ok-drubel ok-voon anok plok sprok .
2b. at-drubel at-voon pippat rrat dat .
8a. lalok brok anok plok nok .
8b. iat lat pippat rrat nnat .
3a. erok sprok izok hihok ghirok .
3b. totat dat arrat vat hilat .
9a. wiwok nok izok kantok ok-yurp .
9b. totat nnat quat oloat at-yurp .
4a. ok-voon anok drok brok jok .
4b. at-voon krat pippat sat lat .
10a. lalok mok nok yorok ghirok clok .
10b. wat nnat gat mat bat hilat .
5a. wiwok farok izok stok .
5b. totat jjat quat cat .
11a. lalok nok crrrok hihok yorok zanzanok .
11b. wat nnat arrat mat zanzanat .
6a. lalok sprok izok jok stok .
6b. wat dat krat quat cat .
12a. lalok rarok nok izok hihok mok .
12b. wat nnat forat arrat vat gat .
Traduzir para Arcturan: farok crrrok hihok yorok clok kantok ok-yurp
Como funciona? Tradução baseada Modelos de Tradução
extraídos de textos paralelos 1a. Garcia and associates .
1b. Garcia e associados .
7a. the clients and the associates are enemies .
7b. os clientes e os associados são inimigos .
2a. Carlos Garcia has three associates .
2b. Carlos Garcia tem três associados .
8a. the company has three groups .
8b. a empresa tem três grupos .
3a. his associates are not strong .
3b. os seus associados não são fortes .
9a. its groups are in Europe .
9b. os seus grupos estão na Europa .
4a. Garcia has a company also .
4b. Garcia também tem uma empresa .
10a. the modern groups sell strong pharmaceuticals .
10b. os grupos modernos vendem remédios fortes .
5a. its clients are angry .
5b. os seus clientes estão zangados .
11a. the groups do not sell zenzanine .
11b. os grupos não vendem zanzanina .
6a. the associates are also angry .
6b. os associados também estão zangados .
12a. the small groups are not modern .
12b. os grupos pequenos não são modernos .
Como funciona? Combinação de Modelos de Língua com Modelos
de Tradução
T̂ = argmaxT fluência(T)fidelidade(T,S)
Modelo de Tradução Modelo de Língua
Estou cansado Fluência Fidelidade
I’m exhausted 5 3
Tired me 2 5
I love cookies 5 0
Tradução de Microblogs
A todos vocês apresento meu amigo Gabrielzinho, olha so o
vídeo que ele me mandou !!
Tradução de Microblogs
A todos vocês apresento meu amigo Gabrielzinho, olha so o
vídeo que ele me mandou !!
Translate
To all of you my friend
Gabrielzinho present,
the video looks so he sent me!
Normalização de Microblogs
A todos vocês, apresento meu amigo Gabrielzinho, olha só o
vídeo que ele me mandou !!
Translate
To all of you, I present
my friend Gabrielzinho,
look at the video he sent me!
Vale a pena traduzir tweets?
【2013.9.7】It was an important result for #Portugal in a
very special date for me. I would like to dedicate this
victory to my father that has left us 8 years ago. 这是一场重要的胜利,在今天这个对我来说很特别的日子.我要把这场胜利献给我的父亲,他八年前离开了我们.
A todos vocês apresento meu amigo Gabrielzinho, olha so o
vídeo que ele me mandou !! | To all of you i introduce my
friend Gabrielzinho. Take a look at the vídeo he sent me !! |
我给你们所有人介绍我朋友Gabrielzinho. 看看他给我发来的视频 !! http://t.cn/SyaY6a
Desafios à Tradução Automática
– Tradução automática - não é um problema resolvido
– Aproximações ao problema:
• Sistemas estatísticos (SMT) - enormes quantidades de corpora paralelos
(inexistentes ou de má qualidade para muitas línguas)
• Sistemas por regras (RBMT) - grande investimento de tempo e recursos
humanos (= dinheiro)
– Novas linhas de investigação – construção de sistemas híbridos:
• Aplicação de modelos estatísticos a conhecimento linguístico
• Aplicação de técnicas estatísticas de alinhamento a sistemas de
regras
Modelo híbrido de Tradução Automática (em curso)
– Novas tecnologias, recursos e técnicas, que contribuem para um
desenvolvimento mais fácil e rápido de novos pares de línguas.
• Computação em nuvem
• Grandes volumes de dados (big data )
• Técnicas avançadas de alinhamento
Aprendizagem automática
• Inteligência coletiva (crowdsourcing) especializada
para aumentar a qualidade da TA
Modelo híbrido de Tradução Automática (em curso)
OpenLogos
• Alta qualidade, grande ênfase na semântica (análise da língua de forma
a ser “entendida” pelo sistema computacional)
• A aproximação assemelha-se em espírito à aproximação estatística - as
regras são aplicadas com base em padrões em contexto
• Componente de regras e representação linguística - plataforma ideal
para um sistema híbrido de TA linguisticamente mais sofisticado
• O conhecimento linguístico envolvido no sistema permite
complementar a TA estatística colmatando dificuldades e fraquezas
apresentadas pelos métodos estatísticos.
Modelo híbrido de Tradução Automática (em curso)
– Processamento semântico
• Tabela Semântica (= SEMTAB) contém milhares de regras
transformacionais
– Características de interlíngua
– Linguagem de Abstração Semântico-Sintática (representação SAL)
• Taxonomia hierárquica com características ontológicas
• SAL é a força motriz do processo de tradução no sistema OpenLogos
• Todas as frases da língua natural (LN) que entram no sistema são
imediatamente convertidas para frases SAL
• O parser consegue melhores resultados do que um analisador
puramente sintático devido à SAL
Modelo híbrido de Tradução Automática (em curso)
SAL - Semantico-syntactic Abstraction Language
Taxonomia SAL: 3 níveis, organizados hierarquicamente
Superconjuntos (supersets)/ Conjuntos (sets)/ Subconjuntos (subsets)
Continuum semântico-sintáctico da palavra da LN até à categoria gramatical (POS)
• Palavra: airport
• Morfema raíz: port
• SAL Subset: Agfunc (agentive functional location)
• SAL Set: func (functional location)
• SAL Superset: PL (place)
• Categoria: N
Tanto o fluxo de entrada, como as regras são expressas em SAL
Modelo híbrido de Tradução Automática (em curso)
Linguagem de representação SAL em interação com SEMTAB
SEMTAB possibilita uma tradução que se sobrepõe à tradução do dicionário para o verbo “raise”
Sequência LN Regra SEMTAB Tradução em Português
raise a child V(‘raise’) N(ANdes) criar. . .
raise corn V(‘raise’) N(MAedib) cultivar. . .
raise the rent V(‘raise’) N(MEabs) aumentar. . .
27
Uma única regra em estrutura profunda é mapeada a múltiplas
estruturas de superfície e produz traduções corretas na língua-alvo
he raised the rent ele aumentou a renda V+Objecto
the raising of the rent o aumento da renda Gerúndio
the rent, raised by … a renda, aumentada por… ADJ Part.
a rent raise um aumento de renda Substantivo
Modelo híbrido de Tradução Automática (em curso)
L2F
Transcrição
Multimedia
Diálogo
Tradução
Fala-para-fala
Texto
Saúde à distância
E-Health
Ensino à distância
E-Learning
28
29
O projecto VITHEA
• O que é?
Terapeuta virtual para doentes com afasia.
Projecto financiado pela FCT, em conjunto com o Hospital de Santa Maria
• Como funciona?
Reconhecimento (keyword spotting ) + Síntese A/V
• Alguns desafios: – Dar aos terapeutas a possibilidade de monitorizarem
remotamente os exercícios dos seus doentes
– Dar-lhes a possibilidade de criarem novos exercícios
– Alargar a outras doenças (Alzheimer, Parkinson, ALS,…)
L2F
Transcrição
Multimedia
Diálogo
Tradução
Fala-para-fala
Texto
Saúde à distância
E-Health
Ensino à distância
E-Learning
32
33
O projecto REAP.PT
• O que é?
Aplicação das tecnologias da língua à área do ensino da língua.
Projecto financiado pela FCT, em conjunto com a Univ. Carnegie Mellon
• Como funciona?
Usa virtualmente TODAS as tecnologias da língua
• Alguns desafios:
Tutores inteligentes para ensinar outras matérias
Gamificação
REAP.PT .
34
REAP.PT Cooperação com Carnegie Mellon Univ.
35
Jogos sérios
36
Jogos sérios
A
B
C D E
37
L2F
Transcrição
Multimedia
Diálogo
Tradução
Fala-para-fala
Texto
Saúde à distância
E-Health
Ensino à distância
E-Learning
39
40
Obrigada!