félix do carmo e luís trigo - tradutores e máquinas de tradução
DESCRIPTION
Apresentação do Dr. Félix do Carmo e do Dr. Luís Trigo na I Conferência Internacional de Tradução e Tecnologia, 13 e 14 de Maio, Faculdade de Letras do Porto.TRANSCRIPT
O que querem os tradutores das máquinas de tradução?
Félix do Carmo (TIPS e CLUP) e Luís Trigo (CLUP e INESC)
Faculdade de Letras do Porto Maio 2013
Plano
• A tradução é uma corrida • E as máquinas correm mais do que nós
• Diferentes formas de inteligência • Diferentes papéis e formas de interacção
• O que querem os tradutores • Sugestões e soluções tecnológicas
A tradução é uma corrida
E as máquinas correm mais do que nós
A tradução já não é o que era
Clicar aqui para referência.
A tradução é uma corrida
• Volumes, capacidades, métricas, bitolas, tempo, dinheiro…
• A importância das ferramentas de produtividade
Onde fica a qualidade?
• A qualidade deixou de ser discutida em termos de
subjectividade.
• A qualidade é objectiva e mensurável: • A medida é a tradução humana.
• A responsabilidade pela qualidade é dos tradutores.
E as máquinas correm muito…
Apesar de …
• O Google Translate poluir a água do seu próprio poço (recolhe, alinha e insere nos modelos de aprendizagem traduções produzidas automaticamente) (clicar aqui para referência);
• Ter atingido o limite de aumento de qualidade: a duplicação dos (biliões de) dados produz só uma melhoria de 0,5% nos índices BLEU (referência);
• Apenas 1% das necessidades mundiais de tradução profissional são satisfeitas por tradução automática (referência)…
Os números não mentem…
• A tradução automática traduz 195 vezes mais depressa do que uma pessoa (referência);
• O Google Translate traduz todos os dias 1 milhão de livros por dia (o mesmo que todos os tradutores do mundo fazem num ano) (referência).
Diferentes formas de inteligência
Diferentes papéis e formas de interacção
Inteligência artificial e tradução
• Tradução automática estatística – Aplicação de princípios da Inteligência artificial
• Modelo de aprendizagem de línguas pelo reconhecimento de unidades mínimas e reutilização nos contextos certos
• Produz modelos descritivos de duas línguas e da tradução entre elas
• Integração de conhecimento linguístico (anotação morfológica, sintática e semântica) em modelos factorizados
• Algoritmos eficientes de pesquisa em campos de pesquisa com várias dimensões
• Algoritmos de smoothing e pruning (duas técnicas de limpeza dos dados)
Ferramentas de tradução
• CATs comerciais que podem receber dados de TA:
• SDL Studio, DéjàVu, memoQ, OmegaT, etc…
• Ferramentas comerciais de TA por regras (ou híbridas):
• Systran, ProMT…
• Serviços empresariais baseados em TA estatística:
• Asia Online, Prompsit, Pangeanic…
• Plataformas online de acesso livre:
• OpenTrad (regras); Google Translate, Bing Translator, etc…
• Interfaces de pós-edição de TA online:
• Google Translator Toolkit, KantanMT…
• Ferramentas de pós-edição de TA estatística:
• PET (Universidade de Sheffield)
Fazer depressa e bem
2 modelos de interacção:
máquina/homem OU homem/máquina
• Modelo de pós-edição (máquina/homem)
• A máquina produz rapidamente e em quantidade
• O homem corrige
Risco: tradução voluntária e gratuita (modelo da “computação humana”)
• Modelo de produtividade (homem/máquina)
• TA como ferramenta de produtividade para tradução humana
Modelo de produtividade • O que faz um tradutor?
• PESQUISA
• DECIDE
• ESCREVE/EDITA
• VERIFICA
• As CATs auxiliam e são eficientes nestas tarefas?
• Limites dos segmentos e das bases de dados terminológicas
• Limites das funções de verificação de qualidade (QA) – números, pontuação e pouco mais…
• Que suporte dão à revisão?
Papel da máquina • Em que são úteis os métodos estatísticos?
• Classificar e ordenar dados linguísticos
• Identificar agrupamentos de textos
• Encontrar correspondências com extensões variáveis em grandes volumes de dados
• Aprender operações e repeti-las
O que querem os tradutores
Sugestões e soluções tecnológicas
Do que precisamos?
• Uma nova geração de ferramentas CAT que:
• Facilitem a gestão do conhecimento
• Classifiquem e ordenem dados linguísticos
• Identifiquem agrupamentos de textos
• Encontrem correspondências com extensões variáveis em grandes volumes de dados
• Auxiliem as tarefas repetitivas de correcção
• Aprendam operações executadas e lhes dêem suporte
• Projectos de investigação destas ferramentas:
• Caitra; MateCAT; CasmaCAT; QTLaunchPad; EXPERT…
Duas áreas tecnológicas
• Gestão contextual do conhecimento
• PESQUISAR e DECIDIR
• Organização automática do conhecimento textual recolhido e produzido
• Aprendizagem de edição
• EDITAR e VERIFICAR
• Ferramentas que aprendem as nossas correcções
Contextualização, please!
• PESQUISAR e DECIDIR
• E se houvesse uma tecnologia que apenas pela análise estatística separasse na nossa TM de “Informática” os textos e os segmentos de “software de contabilidade” dos que pertencem a “manuais de utilizador de impressoras”?
• E que agrupasse as nossas pesquisas na web, em núcleos de referências temáticas?
• Essa tecnologia existe.
Information Retrieval
• Segmentação de termos
• Extracção de domínios para treino de modelos de tradução e línguas
• Procura automática - grafos de dependências de termos
• Extracção automática de tópicos através da semelhança entre os termos, por Clustering de Documentos e Termos, Análise da Semântica Latente (LSA) e Relevance Feedback
Information Extraction
• Segmentação de termos
• Reconhecimento de entidades nomeadas
• Procura
• Extracção automática de ontologias (aproveitando os grafos de dependências extraídos com Information Retrieval)
Mapas visuais de recursos
• Information Retrieval
• Clustering de Documentos e Termos
• Expansão/colapso de clusters
• MDS - Multidimensional Scaling
• Técnicas estatísticas para visualização de informação através da exploração das semelhanças nos dados
Trabalho em equipa
• Gestão de recursos
• Identificação de equipas de tradutores e revisores com a mesma especialização
• Atribuição de projectos por domínio de especialização
• Integração com ferramentas de gestão automática de projectos
• Revisão
• Identificação de fontes de referência para validação das traduções
I shall say this only once…
• EDITAR e VERIFICAR
• E se cada vez que nós corrigimos um sintagma nominal, a ferramenta fizesse essa alteração sempre?
• E se cada vez que movemos um adjectivo para depois de um substantivo, de cada vez que inserimos um artigo, que mudamos o género de uma ou várias palavras, que mudamos o número de um verbo, ou que inserimos um “que” para criar uma oração subordinada, a ferramenta pudesse fazer essa alteração novamente no mesmo contexto?
• Yes, they can…
Aprendizagem interactiva
• Extracção de um modelo estatístico online do texto original
• Adicionado aos modelos de tradução e de língua
• Identificação de unidades e sub-unidades
• Usado como modelo de correcção
• À medida que o texto é editado, aprende novos alinhamentos sub-segmento e corrige o modelo de tradução
• Aplica os alinhamentos aprendidos ao modelo de texto, à medida que o tradutor avança
• Pode ou não adicionar os novos alinhamentos ao modelo de tradução global
Aprendizagem de edição
• Tradução automática interactiva
• Projecto Caitra (Universidade de Edimburgo)
• Correcção dos alinhamentos com base na edição
• PET - Post-editing tool
• Editor para pós-edição de tradução automática e avaliação humana das traduções
• SMARTedit - Simple MAcro-Recognition Tool editor
• Paradigma de programação por demonstração
• A aplicação grava operações de edição do utilizador para posterior aplicação em situações semelhantes
Correcção por guias de estilo
Language Tool • Corrector gramatical e de estilo
• Fácil geração de regras
• Pode ser definido para cada um dos projectos de edição/tradução
• Corrector gramatical com regras em Galego
CoGrOO • Corrector gramatical para OpenOffice com regras PT-BR
Conclusões
• Neste momento estão a ser desenvolvidas as ferramentas de tradução do futuro.
• Se os tradutores não participarem na definição do “caderno de encargos”, estas ferramentas vão ter muitos níveis de controlo, mas podem não servir para as necessidades dos tradutores.
• Desde que cumpram as 3 leis da robótica, as máquinas são nossas amigas.
Obrigado.
Félix do Carmo (TIPS / CLUP)
Luís Trigo (CLUP / INESC)