1
Universidade de Lisboa
Faculdade de Letras
Italiano controlado para a tradução automática
(italiano – português)
Linguagem especializada: informática
Annalisa Zamagni
Dissertação
Mestrado em Tradução
2014
2
Universidade de Lisboa
Faculdade de Letras
Italiano controlado para a tradução automática
(italiano – português)
Linguagem especializada: informática
Annalisa Zamagni
Dissertação orientada pela Prof.ª Doutora Palmira Marrafa
Mestrado em Tradução
2014
3
AGRADECIMENTOS
À Professora Doutora Palmira Marrafa, pela orientação científica deste projeto, pela
disponibilidade e interesse com que me acompanhou desde o início e pelas opiniões e
críticas diretas e sempre valiosas. Acima de tudo, agradeço-lhe por me ter encorajado a
continuar os estudos e por estimular constantemente o meu interesse pelo
conhecimento.
Ao Matteo, ouvinte atento de todas as minhas dúvidas, um agradecimento especial pela
extrema paciência, apoio e dedicação mas sobretudo pelo amor profundo durante estes
anos todos. Sem ele não teria sido possível levar a cabo este projeto.
À minha família, que sempre me encorajou a seguir os meus sonhos apoiando-me
incondicionalmente, que me ensinou a não desistir e que sempre acreditou em mim. Em
particular, à minha irmã e melhor amiga Claudia que partilhou comigo os momentos
finais da redação desta dissertação e à minha prima Eleonora pela força e o apoio nos
momentos mais difíceis.
A todos os amigos e colegas que ao longo destes anos longe de casa ouviram as minhas
histórias, os meus desabafos e os meus sucessos, amigos esses que são agora a minha
nova família. Gostaria, em particular, de agradecer ao Gonçalo por todas as horas em
que teve a paciência de me apoiar nas revisões e no melhoramento do meu português.
Mas acima de tudo pelo sorriso e pela amizade durante este caminho universitário em
Portugal.
4
Italiano controlado para a tradução automática
(italiano – português)
Linguagem especializada: informática
ÍNDICE
Agradecimentos ............................................................................................... 3
Resumo............................................................................................................. 6
Abstract ............................................................................................................ 7
1. Introdução ............................................................................................................................. 8
1.1 Objeto de estudo ..................................................................................................................... 8
1.2 Objetivos e motivação .......................................................................................................... 10
1.3 Metodologia e obtenção de dados ......................................................................................... 12
1.4 Organização da dissertação ................................................................................................... 14
2. A tradução automática ....................................................................................................... 16
2.1 Tradução automática: perspetiva histórica ........................................................................... 17
2.1.1 Os primeiros dicionários eletrónicos ............................................................................... 18
2.1.2 Os avanços subsequentes à Segunda Guerra Mundial: o papel de Warren Weaver ....... 21
2.1.3 Bar-Hillel: a impossibilidade da tradução automática ..................................................... 23
2.1.4 1952: a primeira conferência sobre a tradução automática ............................................ 24
2.1.5 Os anos 60 e o relatório ALPAC ..................................................................................... 26
2.1.6 1967–1976: a década da estagnação ................................................................................ 28
2.1.7 Os anos 80: um novo interesse ........................................................................................ 30
2.1.8 Os anos 90: o ponto de viragem ...................................................................................... 31
2.1.9 Desde 2000: estado da arte .............................................................................................. 32
2.2 Os diferentes tipos de sistemas de tradução automática ....................................................... 33
2.3 Os problemas da tradução automática .................................................................................. 40
2.4 O sistema SYSTRAN ........................................................................................................... 42
2.4.1 SYSTRANet .................................................................................................................... 45
5
3. As linguagens controladas.................................................................................................. 48
3.1 Classificação e história das linguagens controladas ............................................................. 49
3.2 Limites e desvantagens das linguagens controladas ............................................................. 61
3.3 Linguagens controladas e controlo da qualidade .................................................................. 63
4. Os limites da tradução automática: estudo de casos ....................................................... 75
4.1 Predicados complexos .......................................................................................................... 77
4.2 Orações participiais .............................................................................................................. 83
4.3 Coordenação e subordinação ................................................................................................ 87
4.3.1 Coordenação .................................................................................................................... 87
4.3.2 Subordinação ................................................................................................................... 95
4.4 Ortografia e Omissão de partes de constituintes ................................................................. 102
4.5 Léxico informático .............................................................................................................. 106
4.5.1 A função “Meu dicionário” do sistema SYSTRANet .................................................. 107
4.5.2 Glossário bilingue italiano-português (informática)...................................................... 114
4.5.3 Terminologia: formação de novos termos e manutenção do dicionário ........................ 123
5. Conclusão .......................................................................................................................... 127
5.1 Regras em italiano controlado para a tradução e para o Controlo da Qualidade (Linguagem
Especializada Informática: impressoras) .................................................................................. 127
REGRAS GERAIS ................................................................................................................. 128
REGRAS ESPECÍFICAS ....................................................................................................... 128
5.2 Considerações finais ........................................................................................................... 130
Bibiliografia ................................................................................................. 133
6
RESUMO
As linguagens controladas são conjuntos de restrições cuja utilização contribui para a
realização de textos homogéneos e simplificados que facilitam, além do mais, a sua
análise por parte dos sistemas de tradução automática que podem, desta maneira, gerar
outputs de melhor qualidade.
O presente estudo tem como objetivo demonstrar que é possível a organização de um
conjunto de regras (sintáticas, morfológicas, lexicais, etc.), para a redação de templates
técnicos num italiano controlado capazes de responder às necessidades de
processamento da informação por parte dos sistemas de tradução automática sendo,
igualmente, de utilidade para o controlo da qualidade dos emails num contexto
empresarial de suporte técnico prestado ao utente final e baseado nas regras da escrita
técnica. O domínio de referência é o da informática (mais especificamente o das
impressoras) e o par de línguas trabalhado é italiano-português. O sistema de tradução
automática de referência é o SYSTRANet disponível online. O fragmento de linguagem
controlada elaborado, dada a sua dupla funcionalidade, embora prevalentemente
Machine-Oriented controlled language (MOCL) envolve alguns aspetos das Human-
Oriented controlled languages (HOCL) no que diz respeito ao controlo da qualidade.
Palavras chave: tradução automática, linguagem controlada, italiano controlado,
escrita técnica, controlo da qualidade.
7
ABSTRACT
Controlled languages are sets of restrictions used to create standardized and simplified
inputs that facilitates, especially, their analysis into machine translation systems
allowing in this way the creation of better quality outputs.
In this study we demonstrate the possibility of creating a set of rules (syntactical,
morphological, lexical, etc.) for the redaction of technical templates in controlled Italian
capable to answer to machine translation needs and, secondarily, to business email
quality control standards, which are based on technical writing rules, in a context of
technical support for end users.
The referring technical domain is computer science (more specifically printers sub-
domain) and the linguistic pair used is Italian-Portuguese (EU). The machine
translation system used is SYSTRANet, available online. The controlled language
fragment elaborated is classified as Machine-Oriented controlled language (MOCL)
taking however into consideration some of the aspects of Human-Oriented controlled
languages (HOCL) for what concerns quality control.
Keywords: machine translation, controlled language, controlled italian, technical
writing, quality assurance.
8
1. INTRODUÇÃO
1.1 OBJETO DE ESTUDO
Esta dissertação tem como principal objetivo o estabelecimento de um conjunto restrito
de regras para um italiano controlado para tradução automática, no domínio da
informática, sendo que, subsidiariamente, se tem igualmente em vista a exploração de
tais restrições no controlo da qualidade na criação de templates técnicos.
Estabelecer regras de composição para a criação de inputs numa dada língua, tem como
objetivo facilitar e acelerar a tradução de textos nessa língua para outra ou outras
línguas. Este trabalho toma como base a observação das traduções automáticas para
português de templates técnicos redigidos em italiano a fim de constituir um conjunto
restrito de regras que permitam regular a criação dos inputs na língua de partida com
vista a melhorar a sucessiva tradução efetuada pelo sistema de tradução automática
escolhido.
As linguagens controladas apresentam terminologia e regras sintáticas bem definidas e
reduzem, eliminando-as, se possível, as ambiguidades típicas da escrita não restringida.
A realização de inputs homogéneos e simplificados facilita a análise dos textos por parte
dos sistemas de tradução automática, produzindo assim outputs de melhor qualidade e
reduzindo, por consequência, a necessidade da intervenção humana.
Decidiu-se limitar o âmbito de trabalho ao domínio da informática (nomeadamente das
impressoras) para alargar o estudo das vantagens das linguagens controladas não só para
a tradução automática mas também para a produção de textos simples de compreender e
ler, caraterística essa crucial para textos do tipo informático destinados a utilizadores
com diferentes conhecimentos técnicos. Como sabemos, a língua das tecnologias é o
inglês e muitas empresas (nomeadamente norte-americanas) têm de fazer face à
globalização pensando também na parte de mercado constituída por falantes de outras
9
línguas que não o inglês. As estratégias das empresas podem variar mas prendem-se
principalmente com a “globalização” e a “localização”. Enquanto a primeira visa uma
simplificação do conteúdo para o tornar mais simples e acessível a mais pessoas, a
segunda trata da tradução e adaptação do conteúdo para ir ao encontro de todos aqueles
clientes que não têm o inglês como língua materna, ou que não falam esta língua. A
produção de material “globalizado” (globalized) prende-se com a restrição e o controlo
da língua e acarreta custos menores em fase de localização.
O desenvolvimento das linguagens especializadas está desde sempre ligado aos
domínios técnicos, mais especificamente à criação e simplificação de material técnico
na língua de partida, surgindo mais tarde a necessidade da uma tradução multilingue.
Por um lado, o utilizador humano beneficia no que diz respeito à compreensão e, por
outro, as empresas conseguem poupar tempo e recursos para a transposição para outras
línguas. À partida, é considerada a hipótese de que as regras das linguagens controladas
vão de encontro às diretrizes do controlo da qualidade da redação de templates técnicos
(em particular na área da informática) e que é possível criar uma linguagem controlada
capaz de responder às necessidades de redação e de tradução neste dado contexto.
Com o objetivo de testar esta hipótese, serão verificados os pontos de encontro entre a
linguagem técnica empresarial e as linguagens controladas orientadas para a tradução
automática através da análise de um corpus de textos informáticos com vista à criação
de regras de redação (e de um glossário bilingue italiano-português da informática) que
possam responder em primeiro lugar às necessidades da tradução automática de italiano
para português e, subsidiariamente, que possam contribuir para a simplificação de
templates técnicos em italiano tendo em conta as regras do controlo da qualidade.
10
1.2 OBJETIVOS E MOTIVAÇÃO
O trabalho resulta de uma integração dos conhecimentos profissionais e dos
conhecimentos universitários adquiridos com vista à elaboração de um italiano
controlado que possa ser utilizado para a tradução para português de templates técnicos
no domínio da informática e, subsidiariamente, para simplificar o input em italiano de
modo a produzir documentos que estejam de acordo com os padrões de controlo da
qualidade das empresas informáticas.
A escolha do par de línguas de trabalho italiano português, prende-se principalmente
com a deslocalização massiva de serviços de help desk técnicos de Itália para Portugal.
Os mercados italianos presentes em território português têm, na maioria dos casos, um
volume de trabalho muito mais elevado em comparação com o do mercado português,
levando os agentes italianos a uma produção de textos técnicos em italiano mais
elevada, textos estes que são sucessivamente traduzidos para português. Trata-se, no
caso em apreço, de templates de apoio técnico cujos destinatários são os utilizadores
finais, ou seja, os clientes que adquiriram o produto ao qual a empresa presta suporte.
Assim sendo, é interessante ver como o duplo benefício das linguagens controladas
pode contribuir para a otimização, ao máximo, do tempo de trabalho, aumentando
simultaneamente a produtividade. De facto, reparou-se que, ao utilizar uma linguagem
controlada, não apenas se trabalha a uma velocidade mais elevada no que respeita à
tradução multilingue mas, igualmente, produzem-se textos mais simples para os utentes
de um dado serviço (numa dada língua), respondendo assim à realidade dos centros de
suporte técnico que oferecem serviços em várias línguas e que, cada vez mais, tentam
reduzir os custos e aumentar a velocidade de produção.
Sabe-se, no entanto, que o uso de uma linguagem controlada pode levar a problemas
associados com a capacidade de expressão, que pode ser tanto menor quanto mais
restritivas forem as regras impostas. A velocidade de redação é também reduzida ao
11
escrever-se numa linguagem controlada: o uso das regras requer muito cuidado no que
diz respeito à seleção de uma estrutura em vez de outra, à organização sintática da frase
ou à escolha do léxico. Finalmente, aprender a escrever numa linguagem controlada
pode requerer um tempo de formação significativo. Contudo, em fase da elaboração do
fragmento em objeto, verificou-se que muitos dos conceitos e das regras-base de uma
linguagem controlada, coincidem com regras de redação dos templates impostas por
empresas fabricantes de impressoras e usadas como referência para este estudo.
O objetivo geral deste trabalho é, então, agilizar a tradução para o português de
templates redigidos em italiano, respeitando ao mesmo tempo e sempre que possível os
padrões de redação internos estabelecidos por empresas desta área. Se, por um lado, ao
utilizar o italiano controlado se traduz mais fácil e rapidamente assegurando uma maior
produtividade, por outro, é possível tentar cumprir todas as regras assegurando um alto
nível de qualidade.
Devido às restrições ditadas pela vontade de responder tanto às necessidades de
melhoria do input em italiano e do output traduzido automaticamente para português
como ao cumprimento das regras de controlo da qualidade, trata-se de um trabalho
baseado numa amostra restrita de fenómenos linguísticos e constituído por um conjunto
de regras limitado, que visa demonstrar a possibilidade de desenvolver uma linguagem
controlada que tenha em conta os desafios da tradução automática, da escrita técnica e
do controlo da qualidade. Em fase de elaboração das restrições, de facto, a necessidade
de obter um input gramatical e de boa qualidade, gerou dificuldades e impôs limitações
relevantes. Cabe mencionar, a este propósito, os desafios encontrados aquando da
criação de um Português Controlado para Tradução Automática e para utilização no
ensino/aprendizagem do Português (L2, LE não elementar e LM) (Marrafa et al. 2011),
no qual a linguagem controlada devia também responder simultaneamente a duas
necessidades.
12
1.3 METODOLOGIA E OBTENÇÃ O DE DADOS
Para a organização do conjunto de regras é necessário introduzir um elevado número de
textos no sistema de tradução automática e analisar os outputs produzidos pelo mesmo
para, deste modo, identificar as suas falhas e escolher a estratégia para as contornar.
O conjunto de textos recolhidos para a elaboração do corpus utilizado na redação desta
tese é constituído por textos específicos da área da informática e relativos à manutenção,
instalação e utilização de impressoras de vários tipos. Se bem que o trabalho se focalize
na tradução e redação de templates para utentes finais, estes são muitas vezes criados a
partir de instruções inseridas em manuais ou material de formação técnica escritos em
inglês e depois traduzidos pela própria empresa. Tratando-se de textos de elevado
conteúdo técnico e escritos, muitas vezes, com base em regras de redação específicas,
apresentam muitas das caraterísticas dos textos simplificados acarretando um número
consideravelmente menor de erros no sistema de tradução automática quando
comparado com textos mais genéricos.
A recolha de textos foi feita através das secções de suporte de diferentes empresas de
informática e fabricantes de impressoras.
As tipologias dos textos analisados e que constituem o corpus dividem-se em:
- templates em italiano redigidos a partir de documentos técnicos em inglês ou
português ao longo da experiência de trabalho como Quality Assurance Manager na
empresa Lexmark. Muitos destes textos contêm informação adicional não
disponibilizada online e adquirida durante formação pontual na empresa. A seleção dos
templates centrou-se naqueles textos que respondiam melhor aos padrões de Qualidade
de redação estabelecidos pela Lexmark para verificação das propostas apresentadas
nesta dissertação.
13
- textos das diferentes secções de recolha de documentos técnicos dos sites de
fabricantes de impressoras (Lexmark, HP, Canon, Epson, Xerox, Brother). A maioria
dos textos consultados não é disponibilizada em português.
- manuais técnicos e guias do utilizador dos diferentes fabricantes de impressoras
(Lexmark, HP, Canon, Epson, Xerox, Brother) disponíveis nas duas versões (italiano e
português) nos sites.
- fóruns sobre configuração, problemas e manutenção de impressoras (consultados em
italiano e português).
Após recolha e análise dos textos, passou-se à tradução dos mesmos na ferramenta de
tradução automática SYSTRANet (http://www.systranet.com/translate) para
levantamento dos problemas e seleção dos fenómenos linguísticos a considerar.
Cabe lembrar que a estratégia desta analise visa, em primeiro lugar, a melhoria do
output, ou seja o mesmo deverá ser gramaticalmente correto e respeitar todos ou a maior
parte dos padrões de qualidade e, em segundo lugar, a melhoria do input, que deverá ser
simples e respeitar todos ou a maior parte dos padrões de qualidade. Enquanto para a
tradução automática a qualidade do input é irrelevante e é possível utilizar frases
agramaticais para obter bons resultados no output, no caso aqui apresentado há
restrições a esse nível, que se prendem com a dupla funcionalidade da linguagem
controlada desenvolvida, não sendo permitidos inputs agramaticais.
No que diz respeito à criação do glossário informático, apresentado no parágrafo acerca
da terminologia (4.5.2), foram selecionados 67 termos da área da informática (dos quais
a maioria do domínio específico das impressoras) não presentes nos dicionários
utilizados pelo sistema SYSTRANet ou não processados corretamente em fase de
14
tradução. Além da introdução manual de algumas entradas, foi utilizado o software SDL
MultiTerm Extract 2011 para extração de terminologia de manuais e guias do utilizador.
Para introdução da correspondência em português foi realizado, em alguns casos, o
alinhamento de manuais bilingues italiano-português disponibilizados online pelas
mesmas empresas através do SDL Trados Studio 2011, fazendo-se igualmente uso do
conhecimento pessoal adquirido durante os anos de trabalho na área.
1.4 ORGANIZAÇÃO DA DISSER TAÇÃO
A tese está organizada em 5 capítulos. O primeiro capítulo é introdutório e apresenta os
objetivos e as metodologias seguidas para a realização da dissertação.
O segundo capítulo visa apresentar a história da tradução automática de modo a
fornecer uma base para a compreensão do desenvolvimento e dos objetivos da mesma
ao longo do tempo, assim como dos diferentes tipos de sistemas de tradução. As
referências bibliográficas fundamentais para a realização desta parte da dissertação
foram, principalmente, os trabalhos de Slocum, Hutchins e Arnold. Pretende-se dar a
conhecer o caminho da tradução automática desde os primeiros anos (1930-40) até ao
dia de hoje. Para melhor compreendermos em que medida uma linguagem controlada
pode melhorar a tradução dum texto, serão também apresentados os diferentes tipos de
sistema de tradução automática apontando para as limitações e as vantagens de cada um.
O terceiro capítulo aborda os diferentes tipos de linguagens controladas para a tradução
automática e a sua história, apresentando alguns exemplos de linguagens controladas
bem sucedidas. Apresenta-se, também, a ligação entre as linguagens controladas e o
controlo da qualidade na área do equipamento informático (impressoras) com referência
a diretrizes comuns a várias empresas e com base nos manuais de estilo para a escrita
técnica que muitas empresas da área têm construído ao longo dos anos para auxiliar os
15
seus autores técnicos. É nesta secção que serão apresentadas as correspondências e as
diferenças entre as linguagens controladas para a redação e para a tradução.
O quarto capítulo apresenta a amostra de fenómenos linguísticos selecionados. É neste
capítulo que são apresentados os limites do sistema de tradução utilizado com base no
corpus selecionado. Os fenómenos linguísticos analisados estão divididos em secções
distintas. A última acerca do léxico informático contém um glossário de termos
recolhidos durante a realização dos testes e a consulta dos materiais.
Em jeito de conclusão, será apresentado o fragmento de regras elaborado assim como os
resultados do estudo e os possíveis desenvolvimentos.
16
2. A TRADUÇÃO AUTOMÁTICA
“[Machine translation] was one of the earliest applications suggested for digital
computers, but turning this dream into reality has turned out to be a much harder, and
in many ways a much more interesting task than at first appeared”
Arnold et al. (1994)
A tradução automática é a tradução de um dado texto numa dada língua para outra
língua através do uso de um computador que é, portanto, o único responsável pelo
desempenho da tarefa de tradução (Slocum, 1999). Reifler (1960) definia-a deste modo:
"[...] the very purpose of MT is the high-speed mass translation by machine from one
language into one or more other languages -- that is, the surmounting of the language
barrier by automatic devices [...]"
Neste capítulo, apresenta-se uma breve panorâmica histórica da tradução automática,
mostram-se as diferenças entre os vários tipos de sistemas de tradução e alguns dos
problemas mais comuns destes mesmos sistemas.
Em 2.1, traça-se a história da tradução automática dividida em vários parágrafos que
representam as etapas mais significativas para os avanços na área.
Em 2.2, serão apresentados os diferentes tipos de sistemas de tradução automática e o
seu funcionamento.
Em 2.3, apresentam-se os problemas mais comuns relacionados com os sistemas de
tradução automática com base no trabalho de Arnold (1994).
17
Em fim, o último parágrafo 2.4, visa traçar uma breve história do sistema SYSTRAN
assim como apresentar as caraterísticas da versão online (SYSTRANet) utilizada no
específico para a realização dos testes à base do trabalho em objeto.
2.1 TRADUÇÃO AUTOMÁTICA : PERSPETIVA HISTÓRICA
Ao longo da história, as apostas na área da tradução automática não têm sido regulares.
Durante os primeiros anos da década de 50, o interesse e o apoio dispensados à tradução
automática, eram alimentados pela ideia da consecução de tradução de alta velocidade e
de elevada qualidade. Foi sobretudo após a segunda Guerra Mundial, durante a época da
Guerra Fria, que os americanos e os ingleses interessados em terem um acesso rápido às
informações científicas soviéticas, começaram a financiar projetos para o
desenvolvimento de aplicações computacionais capazes de efetuar tradução automática
do russo para o inglês. Tratava-se de tradução palavra a palavra sem preocupações de
análise sintática ou lexical. O objetivo primário era ter uma ideia geral do conteúdo dos
textos, sem querer divulgar a tradução, fator que implicava um desinteresse total pela
qualidade do output.
Em meados dos anos 60, o entusiasmo da década anterior deu lugar à desilusão: o
número e a dificuldade dos problemas de tradução não pareciam ser resolúveis de uma
maneira totalmente automatizada. Em 1966, o Automatic Language Processing
Advisory Committee (ALPAC), encarregado de avaliar os progressos na linguística
computacional e, mais especificamente, na tradução automática, apresentou um relatório
em que criticou veementemente a área. O relatório mostrava ceticismo quanto aos
progressos na tradução automática e levou ao cancelamento de muitos projetos na área,
já que os governos começaram a querer cortar os financiamentos para o efeito.
18
A ideia disseminada nos anos 50 de que o computador poderia traduzir de forma
satisfatória sem intervenção humana foi completamente afastada nos anos 80, existindo
contudo um ressurgimento do interesse pela área. Foi nesta década que se passou a
querer desenvolver aplicações computacionais que pudessem auxiliar o tradutor durante
a sua tarefa. A partir dos anos 90 até hoje, graças ao advento da Internet, o uso dos
sistemas de tradução automática tem vindo a ganhar cada vez maior relevo, devido ao
facto de estes programas desempenharem um papel crucial na disseminação da
informação numa era de globalização.
Nos parágrafos seguintes, procede-se à apresentação mais detalhada das várias etapas da
evolução da tradução automática, assim como do estado da arte, com base,
principalmente, nas obras de Hutchins e Slocum. Sendo o foco central deste trabalho as
linguagens controladas, será dedicado mais espaço aos linguistas, matemáticos,
filósofos e a todos os que contribuíram para a área da tradução automática, com
particular interesse na fase da pré-edição e no controlo do input.
2.1.1 OS PR IMEI ROS DIC IONÁ R IO S ELETRÓNI CO S
As primeiras tentativas de “tradução automática” que merecem ser assinaladas foram
realizadas nos anos 30 quando Georges Artstruni, engenheiro francês de origem
arménia, criou uma máquina para a tradução de línguas chamada “cerveau mécanique”
(cérebro mecânico) e Pëtr Smirnov-Troyanskii apresentou, na Rússia, o primeiro
protótipo de tradutor automático (Zarechnak, 1979).
O dispositivo criado por Artstruni e em desenvolvimento desde 1929, tinha sido
realizado para executar uma grande variedade de tarefas entre as quais contabilidade,
decifração e encriptação de mensagens e, também, produção de tabelas de horários de
comboios e listas telefónicas (Zarechnak, 1979). Durante a Exposição Universal de
19
Paris de 1937, o dispositivo suscitou grande interesse por parte do público: foram várias
as organizações estatais que assinaram contratos com o inventor para o
desenvolvimento de protótipos que pudessem responder às suas necessidades
empresariais internas. Entre as empresas interessadas havia, por exemplo, o serviço dos
correios, para a gestão das encomendas monetárias, e o serviço dos comboios, para a
impressão de bilhetes. O que impediu a continuação dos projetos foram a guerra e a
ocupação territorial da França (Hutchins, 1986).
Logo no início, o inventor tinha a ideia de utilizar a sua máquina também para a
tradução e, de facto, já em 1933 o mesmo descrevia o dispositivo como capaz de
“translate from one foreign language into any one of three other languages registered"
(Hutchins, 2004, p. 13, citando Corbe, M. "La Machine a Traduire Français Aura Bientot
Trente Ans." in Automatisme, 1960, 5, No. 3 (Dunod, Paris))
O dispositivo era constituído por quatro componentes (Hutchins, 2014, p. 13):
- a “bande des réponses”, que constituia a memória da máquina;
- a “tête de lecture”, um teclado para a inserção das palavras;
- o “sélecteur”, um mecanismo de pesquisa;
- a “sortie”, um mecanismo de saída.
A peça central era constituída pela memória, ou seja um rolo de papel largo 40 cm e de
40 metros de comprimento, armazenado em dois cilindros. As entradas do dicionário
eram registadas em linhas de quatro colunas, uma coluna para cada uma das línguas: era
possível inserir até 40.000 linhas, ou seja, 40.000 itens lexicais para 4 línguas (Ibidem).
Para iniciar a pesquisa na memória era suficiente digitar o termo desejado no teclado
que estava ligado ao “sélecteur”: o dicionário mecânico puxava este último para fazer
20
com que encontrasse o termo correspondente e puxava o rolo de papel da memória para
mostrar o resultado da pesquisa numa pequena janela do teclado.
No primeiro modelo o “sélecteur” e a memória conseguiam deslocar-se entre as 40.000
linhas em 60 segundos, nos modelos sucessivos isso podia ser feito com uma média de
três segundos (Ibidem): o primeiro dicionário eletrónico estava lançado.
Hoje em dia estes tipos de sistemas pouco têm a ver com a tradução automática em si,
estando mais relacionados, como acima mencionado, com o conceito de ‘dicionário
eletrónico’. É contudo de salientar o impacto que esta tecnologia, desenvolvida no início
dos anos 30, teve na realização de muitos dos sistemas de tradução automática dos anos
60.
Outro precursor foi Pëtr Smirnov-Troyanskii, acima mencionado, que patenteou um
dispositivo para a “selection and typing of words while translating from one language
into another" (extraído do Certificado de autoria e invenção original traduzido para
inglês por Evgenii Lovtskii). Troyanskii organizou a tarefa de tradução em três etapas
(Hutchins, 1986):
1. – Pre-edição: um utente nativo apenas da língua de partida identificava os morfemas
básicos e os seus afixos e desinências separando-os e deixando apenas os morfemas
lexicais sem desinências e os verbos no infinitivo;
2. - Etapa mecânica: a máquina encontrava as correspondências na língua de chegada;
3. - Pós-edição: um utente nativo apenas da língua de chegada corrigia as formas
morfologicamente corretas substituindo os morfemas básicos (ou seja, introduzindo
as desinências, conjugando os verbos, etc.).
É interessante ver como desde o início a “simplificação” dos constituintes dos inputs
introduzidos era a estratégia para contornar os limites das máquinas quando o
21
desenvolvimento das mesmas era ainda muito básico, estratégia esta que, a um outro
nível, naturalmente, ainda hoje está na base das linguagens controladas, que visam
contornar os problemas de que as máquinas não conseguem ainda dar conta.
Se bem que a ideia de utilizar o computador para a tradução tenha sido lançada, as
comunidades científicas da Europa e da União Soviética decidiram, naquela altura, não
apostar ainda na pesquisa, que estava longe de ter bases técnicas fortes e se encontrava
num estado embrionário em comparação com a tecnologia da tradução automática que
começou a ser desenvolvida nos Estados Unidos a partir dos primeiros anos 50.
2.1.2 OS A VA NÇ OS S UBS EQUENT ES À SEGU ND A GUERR A M UND IAL : O P APEL DE WAR REN
WEAVE R
Os primeiros grandes computadores para suportar as ações militares foram
desenvolvidos, principalmente, depois da Segunda Guerra Mundial. As pesquisas no
campo da informática foram divulgadas ao público em geral só no fim dos anos 40
suscitando um grande interesse para as mais variadas aplicações, uma das quais foi, sem
dúvida, a tradução automática. Em março de 1947, depois de vários anos passados a
refletir sobre a possibilidade de realizar um computador capaz de traduzir
automaticamente, Warren Weaver (matemático americano) escreveu a seguinte carta ao
professor Norbert Wiener do MIT (Massachussetts Institute of Techonology) para pedir
o parecer de um especialista em linguística e em informática acerca da questão da
tradução automática:
“Uma das coisas que lhe queria perguntar é o seguinte: um problema demasiado sério, para
a UNESCO e para o futuro do planeta, um futuro pacífico e que valha a pena, é o problema
da tradução, uma vez que afeta inevitavelmente a comunicação entre as pessoas. Huxley
disse-me há pouco tempo que estão aterrorizados com a magnitude e a importância da
22
tarefa de tradução. Reconhecendo por completo, mesmo que de forma necessariamente
vaga, as dificuldades semânticas devidas à polissemia, entre outros, pergunto-me se era
impensável conceber um computador que pudesse traduzir. Mesmo que só traduzisse
material científico (onde as dificuldades semânticas são notavelmente menores) e mesmo
que produzisse um resultado deselegante (mas inteligível) parecer-me-ia que valeria a pena.
[...]”
A troca de cartas com o professor Wiener e com outros especialistas foi particularmente
desencorajadora para Weaver que, apesar disso, continuou a acreditar no poder dos
computadores e no apoio que poderiam dar à tarefa da tradução. Cabe aqui sublinhar
como, desde o início, a tradução automática foi, por razões óbvias, associada
principalmente à tradução de textos técnico-científicos e vista mais como um auxílio à
tradução para a aquisição de informações produzindo textos que podem ser,
sucessivamente (no caso das linguagens controladas será precedentemente), editados
por um tradutor humano.
Em julho de 1949, o mesmo Weaver enviou para 30 dos seus conhecidos um
memorando chamado simplesmente “Tradução” (Translation), acerca das possibilidades
de utilizar os computadores, de desenvolvimento recente, para a tarefa de tradução de
documentos. No memorando, o matemático explica como o interesse para a área da
tradução surgiu em relação aos avanços feitos na criptografia e pergunta-se, se bem que
ciente das limitações apresentadas pelos computadores e da necessidade da intervenção
humana em fase de pós-edição, o seguinte (Weaver 1949, p.10):
“It is very tempting to say that a book written in Chinese is simply a book written in
English which was coded into the “Chinese code.” If we have useful methods for solving
almost any cryptographic problem, may it not be that with proper interpretation we already
have useful methods for translation?”
23
Com esta pergunta, e mais em geral com o texto distribuído aos colegas das mais
diversas áreas, Weaver procurava estimular a pesquisa na área da tradução
automática, até aquela altura praticamente inexistente, apostando em que o futuro
da tradução se encontrava mesmo na tradução autómatica.
2.1.3 BAR-H ILLEL : A IM POSSIBIL IDA DE D A TR AD UÇÃ O A UTOMÁTI CA
Em maio de 1951, junto do MIT (Massachusetts Institute of Technology) o investigador
Yehoshua Bar-Hillel começou as suas pesquisas no âmbito da tradução automática.
As necessidades de investigar nesta área prendiam-se principalmente com duas
motivações:
- publicar rapidamente textos científicos, económicos e diplomáticos escritos em línguas
estrangeiras;
- analisar jornais, revistas e folhetos de propaganda de países estrangeiros para controlar
potenciais e atuais inimigos.
Desde o início da sua pesquisa, declarou que a tradução automática sem intervenção
humana apenas era possível em detrimento da qualidade do output, sendo a
ambiguidade semântica o maior obstáculo (Bar-Hillel, 1951):
“It seems obvious that fully automatic MT, i.e. one without human intervention between
putting the foreign text into the reading organ of the mechanical translator and reading off
its output, is achievable only at the price of inaccuracy, if only for the reason that no
method is feasible, for the time being, by which the machine would eliminate semantical
ambiguities.”
Neste sentido, há que sublinhar, no contexto deste trabalho, que devido ao facto de não
acreditar na possibilidade da completa realização da tradução automática sem
24
intervenção humana, Bar-Hillel foi um dos primeiros estudiosos da área a falar mais
concretamente no conceito de “tradução automática mista”, ou seja, na possível
combinação da tradução efetuada por máquinas com a atividade de tradutores humanos.
De facto, se bem que julgasse a ideia da eliminação das ambiguidades impraticável
através da pré-edição, na última parte dum dos primeiros relatórios acerca do estado da
arte da tradução automática (datado de 1951 e apresentado durante a Primeira
Conferência sobre a tradução automática de 1952 no Massachusetts Institute of
Technology) falou da possibilidade do controlo do vocabulário utilizado na redação do
input, assim como do controlo da gramática com vista à tradução automática:
“More important, perhaps, might be the possibility of restricting, by voluntary convention,
the richness of expression in writing abstracts of technical papers, for instance, to such a
degree that sentence-pattern translation might easily and quickly be applied.”
2.1.4 1952: A PR IMEI RA CONFE RÊNC IA S OBRE A TRAD UÇ ÃO A UTOM ÁTIC A
A primeira conferência sobre tradução automática teve lugar em junho de 1952. Até
àquela altura, não existiam muitos relatórios/estudos na área (Hutchins, 1998a). Os mais
interessantes, também considerando o tema central do presente estudo, eram, sem
dúvida, os de Erwin Reifler e o de Abraham Kaplan.
Reifler tinha desenvolvido um estudo acerca dos possíveis papéis dos editores humanos
antes e depois do processo de tradução, o que hoje conhecemos por “pré-edição” e “pós-
edição”. Também foi um dos primeiros a falar em “escrever para a tradução
automática” (Reifler, 1952, p. 4):
“[...] ‘writing for MT’ means that people desirous of a MT of foreign language material are
required to submit these [...] in a specified form, namely a form whose language and/or
script is better suited for MT than their original form. [...] Such a procedure could
25
appreciably simplify the engineering problem and even result in a complete mechanization
of the translation process proper”
No que diz respeito às pesquisas de Kaplan, as mesmas são interessantes no contexto
deste trabalho por terem demonstrado que a “quantidade” de contexto suficiente a uma
máquina de tradução para a desambiguação não ultrapassava as duas palavras,
colocadas antes ou depois da palavra objeto de ambiguidade (Hutchins, 1998a). A
identificação do contexto, como veremos mais especificamente na secção acerca do
léxico (parágrafo 4.5.2), é fundamental para escolha dos termos técnicos em domínios
específicos.
A primeira conferência juntou, portanto, todos aqueles que se tinham interessado pelo
assunto da tradução automática ou que poderiam estar interessados no futuro
propulsionando, assim, o prestígio da área.
Mesmo que muitos dos trabalhos apresentados na conferência não estejam, hoje,
disponíveis, sabemos que a conferência começou com um discurso de abertura feito por
Bar-Hillel (responsável pela organização da conferência e que tinha, nos últimos anos,
analisado de perto os avanços feitos na área por diferentes grupos de investigação), no
qual traçou os maiores problemas da tradução, enfatizando a impossibilidade de obter
uma “tradução perfeita”, como já vimos no parágrafo anterior.
Os sistemas de tradução automática não podiam, segundo Bar-Hillel, fornecer traduções
com níveis aceitáveis, precisando de pré-edição ou pós-edição. A tradução automática é
assim vista como um auxílio para o tradutor humano. Em vários relatórios entre 1951 e
1960, como já vimos, declarou a impossibilidade de uma tradução completamente
automatizada (Bar-Hillel, 1960, p.93):
“Those who are interested in MT as a primarily practical device must realize that full
automation of the translation process is incompatible with high quality. There are two
26
possible directions in which a compromise could be struck; one could sacrifice quality or
one could reduce the self-sufficiency of the machine output. [...] If, however, high quality is
mandatory [...} then the machine output will have to be post-edited, thereby turning, strictly
speaking, machine translation into machine aids to translation”
Bar-Hillel antecipou, deste modo, as ulteriores conclusões do relatório ALPAC, de que
se dá conta na secção seguinte.
2.1.5 OS A NOS 60 E O RELATÓ RIO ALPAC
Uma vez concluída a primeira conferência, decidiu-se tornar públicos os resultados,
para que se pudesse agir em conformidade. Em 1954, o grupo de pesquisa da
Georgetown University realizou uma demonstração pública com o objetivo de mostrar
que a tradução automática era “mecanicamente” possível. A máquina era constituída
por um vocabulário de 250 termos russos, 6 regras de gramática e um conjunto de
frases simples e selecionadas, em russo. Mesmo que não tivesse um grande valor
científico, a máquina revelou que os problemas técnicos ligados à tradução e à sua
relação com a informática tinham sido ultrapassados e que,as dificuldades,se prendiam
mais com a engenharia da máquina em si. A seguir a esta demonstração encorajadora,
os Estados Unidos, nos 10 anos seguintes, financiaram várias pesquisas na área.
Contudo, as traduções eram ainda de baixa qualidade e os problemas linguísticos cada
vez mais difíceis de resolver, o que provou um substantivo decréscimo dos
financiamentos na área. Bar-Hillel, nos anos 60, continuava a afirmar que a ‘fully
automatic high-quality translation’ (FAHQT) era irrealizável (Bar-Hillel, 1960, p. 93)
“unattainability of FAHQT, not only in the near future but altogether”.
A contribuir para o abrandamento dos financiamentos por parte do governo americano
foi, principalmente, o relatório do Automatic Language Processing Advisory Committee
27
(relatório ALPAC) de 1966. O ALPAC tinha sido instituído em 1964 pela National
Science Foundation a fim de avaliar os progressos na área da tradução automática. Com
o relatório publicado em 1966, o ALPAC condenou a tradução automática nos Estados
Unidos, “bloqueando” todos os financiamentos. O relatório, intitulado “Languages and
machines: computers in translation and linguistics” era constituído por 34 páginas e
mais 90 páginas de exemplos (anexados ao texto principal) que serviam para comprovar
o que tinha sido discutido no próprio relatório. Concebido para relatar os avanços na
área da linguística computacional, a tradução automática foi nele apresentada como sem
futuro: demasiado cara em comparação com a tradução humana, muito mais lenta e
muito menos precisa, sendo inevitável a intervenção humana a nível da pós-edição:
“The contention that there has been no machine translation of general scientific text is
supported by the fact that when, after 8 years of work, the Georgetown University MT
project tried to produce useful output in 1962, they had to resort to post-editing. The post-
edited translation took slightly longer to do and was more expensive than conventional
human translation." (ALPAC, 1966, p.19)
Os sistemas de tradução automática dos anos 60 tinham uma abordagem de “tradução
direta” (direct translation), ou seja, tratava-se de sistemas construídos especificamente
para uma combinação linguística (nomeadamente o russo como língua de partida e o
inglês como língua de chegada). A nível da análise linguística, o sistema não ia além do
reconhecimento das categorias das palavras (nomes, verbos, adjetivos, etc.), para lidar
com as palavras homógrafas e de algumas propriedades semânticas, como “sexo
masculino”, “concreto”, “líquido”, etc.
Durante todos os anos 60, os linguistas não foram praticamente envolvidos nos
processos de criação dos sistemas de tradução. Segundo Hutchins (1998a), o interesse
nas áreas da sintaxe e da semântica era pouco relevante nos Estados Unidos naquela
altura. Houve, contudo, investigadores que se dedicaram às duas áreas: um exemplo foi
28
Paul Garvin, académico que trabalhou durante algum tempo na indústria, em tradução
automática, e que desenvolveu uma abordagem de análise semântica baseada nas
estruturas de frases e nas relações de dependência entre os seus constituintes.
Em 1957, outro linguista americano, Noam Chomsky, que viria a ser, como é sabido,
figura maior da Linguística moderna publica Syntactic Structures, obra que
revolucionou o universo da Linguística, logo seguida, em 1965, de Aspects of the
Theory of Syntax, um dos grandes marcos do modelo generativo-transformacional.
Contudo, por esta altura, dominava uma certa descrença relativamente ao
desenvolvimento de sistemas de processamento de linguagem natural com base em
modelos linguísticos (cf., a este propósito, Marrafa, 1993).
2.1.6 1967–1976: A DÉC AD A D A ESTAG NA Ç ÃO
Apesar do impacto que o relatório teve em termos de financiamentos de projetos
relacionados com a tradução automática, as pesquisas não pararam completamente. Até
nos Estados Unidos, onde o relatório tinha sido o primeiro responsável pela cessação da
distribuição de fundos para a investigação, alguns grupos, como os da University of
Texas e da Wayne State University, continuaram a investigar durante alguns anos.
Enquanto nos Estados Unidos os sistemas tinham sido utilizados e desenvolvidos
principalmente para a tradução da combinação linguística russo-inglês (dando mais
importância à tradução no sentido de acesso rápido à informação sem visar a qualidade
do output), no Canadá e na Europa as exigências eram bem diferentes. De facto, quer o
governo bilingue canadiano quer as instituições da então Comunidade Económica
Europeia (CEE), precisavam de um sistema capaz de trabalhar com várias combinações
linguísticas (inglês-francês para o Canadá e tradução multilingue de e para todas as
línguas da CEE, no caso europeu).
29
Um projeto que cabe mencionar no contexto deste trabalho é o sistema METEO,
desenvolvido na Universidade de Montreal, especificamente para a tradução de
relatórios meteorológicos, caraterizados por um vocabulário restrito e uma sintaxe
muito limitada. O sistema de tradução automática tornou-se completamente operacional
em maio de 1977.
Em maio de 1975, o Gabinete de Tradução governamental canadiano confiou ao grupo
TAUM (University of Montreal's Automatic Translation Research Team) um projeto
para o desenvolvimento de um sistema de tradução automática para os relatórios de
meteorologia. Um ano depois, foi realizada a primeira versão do sistema que
demonstrava que a tradução automática na área era perfeitamente realizável. Foi
necessário mais um ano para aperfeiçoar o sistema e passar ao nível operacional.
Definido por Slocum (1984) como “the world’s only example of a truly fully-automatic
MT system”, o sistema era (e ainda é) utilizado para a tradução de inglês para francês:
cada estação metereológica regional canadiana é responsável pela produção do próprio
boletim meteorológico, que é inserido diretamente num terminal conectado à rede
nacional de telecomunicações. Existem mensagens que o sistema METEO consegue
traduzir diretamente sem necessidade de intervenção humana, ou seja, previsões
regionais, previsões marítimas e previsões para a agricultura (Thouin, 1981). Se o
sistema encontrar uma palavra que não consta no dicionário ou uma construção não
presente na gramática, a unidade a ser traduzida é recusada pelo sistema sendo enviada,
diretamente, para um tradutor humano.
Como já referido anteriormente, a Europa também continuou a investir na tradução
automática e, em poucos anos, o sistema SYSTRAN (que tinha sido utilizado em
primeiro lugar na Força Aérea dos Estados Unidos – USAF - em 1970), foi instalado
30
para utilização das instituições europeias para a tradução rápida de grandes volumes de
documentos em várias línguas (1976).
A partir da segunda metade dos anos 70 e com o surgir de multinacionais e
comunidades multilingues (principalmente na Europa, no Canadá e no Japão), não havia
um número de tradutores suficientes para responder às necessidades, tornando a
tradução automática um recurso precioso e fundamental, nomeadamente para a tradução
de documentos do setor comercial (assim como técnico), que fosse o mais barata
possível.
2.1.7 OS A NOS 80: UM N OVO I NTERESSE
Na década de 80, surgiram diferentes sistemas de tradução automática em vários países
do mundo. Além do sistema SYSTRAN que integrou novas combinações linguísticas,
outros sistemas foram desenvolvidos por empresas de informática e outras associações,
sendo os mais importantes: o sistema Logos (alemão-inglês e inglês-francês), o sistema
interno realizado pela Pan American Health Organization (espanhol-inglês/inglês-
espanhol), o sistema Metal (alemão-inglês) e muitos outros sistemas que trabalhavam
com a combinação linguística japonês-inglês e vice-versa desenvolvidos por empresas
de informática japonesas (tal como a Sharp, a NEC, a Oki, a Mitsubishi, a Sanyo)
(Hutchins, 2014)).
A pesquisa também voltou a encontrar o seu lugar: vários foram os projetos relevantes
financiados naqueles anos entre os quais se encontram-o projeto GETA-Arian
(Grenoble), o SUSY (Saarbrücken), o Mu (Kyoto), o DLT (Utrecht) e o Rosetta
(Eindhoven). Também é de salientar a importância de outros dois grandes projetos
multilingues: o Eurotra (financiado pela Comunidade Europeia) e o japonês CICC.
31
A estratégia predominante nesta década foi a da tradução indireta através de
representações intermediárias (interlíngua) incluindo análise morfológica, sintática e
semântica(e os correspondentes módulos de geração.
2.1.8 OS A NOS 90: O P ONTO D E VIR AGEM
As grandes diferenças na área da tradução automática que marcaram os anos 90 estão
principalmente relacionadas com dois eventos: por um lado, a publicação de resultados
de experiências realizadas no sistema Candide (publicado por um grupo de pesquisa da
IBM) e baseado apenas na abordagem estatística e, por outro lado, a utilização de
abordagens baseadas em corpora de textos anteriormente traduzidos apresentada por
grupos de pesquisa japoneses.
Esses factos determinaram um ponto de viragem na abordagem clássica da tradução
automática, baseada em regras, sem que, contudo, esta abordagem tenha deixado de ter
importância.
Outro evento relevante desta década é, sem dúvida, a chegada aos mercados das
primeiras ferramentas que auxiliam o processo da tradução (os chamados “CAT -
Computer Aided Translation - tools”). O mais conhecido de todos, o Trados, começou a
disponibilizar produtos a partir de 1992.
Com o aumento da importância do conceito de tradução automática e de tradução
assistida por computador como ferramentas de auxílio ao tradutor, começaram também
as pesquisas no domínio das linguagens controladas e no dos sistemas restritos e
dedicados a áreas específicas.
As vendas de computadores para uso privado também aumentaram drasticamente nos
anos 90 e, com elas, o interesse dos utilizadores particulares na tradução automática: se
32
até aí a tradução automática era concebida como instrumento empresarial (para eventual
posterior publicação dos textos traduzidos), o público em geral procurava agora uma
tradução de baixa qualidade mas rápida para ter acesso às inúmeras informações
disponíveis na rede, nas mais variadas línguas. Um evento marcante para o futuro da
tradução automática como produto de massas foi, de facto, a introdução de serviços de
tradução automática gratuitos on-line como o Babelfish e, posteriormente, o Google
Tradutor.
Em finais dos anos 90, Hutchins (1999) fez um apanhado do estado da arte da tradução
automática através da Internet prevendo a importância crescente dos sistemas baseados
em corpora:
“The impact of the Internet has been significant in recent years. […] The demand for
immediate translations will surely continue to grow rapidly, but at the same time users are
also going to want better results. There is clearly an urgent need for translation systems
developed specifically to deal with the kind of colloquial (often ill formed and badly
spelled) messages found on the Internet. The old linguistics rule-based approaches are
probably not equal to the task on their own, and corpus-based methods making use of the
voluminous data available on the Internet itself are obviously appropriate.”
2.1.9 DESDE 2000: EST ADO D A ARTE
No campo da pesquisa na área da tradução automática, os anos 80 foram sem dúvida um
ponto de viragem. Hoje em dia, o desenvolvimento de sistemas é fundamentalmente de
base estatística e muito poucos projetos continuam a investigar sobre os métodos
baseados em regras linguísticas. Segundo Hutchins (2014), as razões prendem-se,
principalmente, com:
- a disponibilidade de largos corpora bilingues e monolingues;
33
- a disponibilização online de ferramentas gratuitas para o alinhamento de textos e
outras aplicações para processamento das línguas naturais.
Apesar disso, recorre-se ainda à abordagem baseada em regras para a compreensão e o
estudo de alguns aspetos mais complexos das línguas entre os quais o tratamento das
línguas morfologicamente mais ricas (nomeadamente o russo e o finlandês, bem como
todas as línguas aglutinantes) ou a análise e a ordem dos constituintes em línguas como
o japonês, pelo que muitos pesquisadores optam por uma abordagem “híbrida” que
combina mais do que uma abordagem ao mesmo tempo. A disponibilização online, em
2007, de sistemas como o MOSES (ferramenta de tradução automática estatística que
pode ser alterada e personalizada) aceleraram, sem dúvida, os processos de criação de
sistemas personalizados. De facto, é possível inserir no sistema qualquer tipo de corpus,
tornando mais específica a tradução estatística.
A tradução automática é utilizada hoje em dia em grande escala sobretudo no que diz
respeito às grandes empresas ganhando relevo a pré-edição, nomeadamente na área das
linguagens controladas e do controlo terminológico, assim como na pós-produção dos
outputs. A TA é vista hoje pelos tradutores profissionais como um auxílio à tradução e
não como um concorrente, enquanto, o público em geral recorre diretamente às
ferramentas gratuitas disponibilizadas na Internet (nomeadamente o Google Tradutor do
qual falaremos no próximo parágrafo), para ter acesso rápido às informações da rede.
2.2 OS DIFERENTES TIPOS DE SISTEMAS DE TRADUÇ ÃO AUTOMÁTICA
Os sistemas de tradução automática são concebidos para trabalhar sem a intervenção
humana, como Slocum (1984, p.547) escreveu
34
“[...] an MT system is solely responsible for the complete translation process from input of
the source text to output of the target text without human assistance, using collections of
linguistic rules [...]”
Existem diferentes tipos de sistemas de tradução automática que podem ser
classificados como se segue:
- sistemas de tradução automática baseados em dicionários
- sistemas de tradução automática baseados em regras (tradução direta ou indireta)
- sistemas de tradução automática baseados em corpus (estatísticos)
- sistemas de tradução automática híbridos (baseados em corpus e com componentes
baseadas em conhecimento linguístico)
Os sistemas de tradução automática baseados em dicionários são os sistemas
desenvolvidos entre os anos 40 e metade dos anos 60, como vimos anteriormente. A
tradução é feita através da equivalência de termos presentes em dicionários eletrónicos.
Dentro da categoria dos sistemas de tradução automática baseados em regras é possível
distinguir entre duas abordagens: a abordagem direta e a indireta. Mais em geral estes
sistemas contêm regras linguísticas construídas em volta de informação morfológica,
sintática e semântica. Os sistemas deste tipo conseguem lidar com uma grande
variedade de fenómenos linguísticos e têm por objetivo converter as estruturas da língua
de partida em estruturas da língua de chegada.
A primeira, e mais antiga, é a abordagem da tradução direta (também chamada
‘tradução binária’) na qual o sistema de tradução automática é programado para
funcionar apenas com uma combinação linguística específica. A tradução é feita
diretamente do texto na língua de partida para o texto na língua de chegada (sem passar
35
por outra representação intermediária), sendo o sistema dependente da combinação
linguística escolhida. De facto, como Slocum (1984, p. 548) afirma estes sistemas são
“limited to the minimum work necessary to effect that translation; for example,
disambiguation is performed only to the extent necessary for translation into that one target
language, irrespective of what might be required for another language”
O sistema de base consiste num vocabulário bilingue e um programa para a análise e
produção dos textos (sistemas bilingues e unidirecionais).
língua de partida
FIG. 1 SISTEMA DE TRADUÇÃO AUTOMÁTICA BASEADO EM REGRAS: A ABORDAGEM DIRETA
A análise do texto na língua de partida é feita por um parser que determina a estrutura
gramatical do texto organizando uma estrutura de dados (uma árvore de palavras da
língua de partida com a indicação da categoria e da função). Esta estrutura de dados,
como apresentado na Fig.1 é, em seguida, confrontada com a informação contida nos
dicionário e na gramática da língua de chegada que contêm as indicações (sintáticas,
morfológicas, etc.) necessárias para a realização do texto na língua de chegada.
TEXTO
LÍNGUA
DE
PARTIDA
L
í
n
g
u
a
d
e
p
a
r
t
i
d
a
TEXTO
LÍNGUA
DE
CHEGADA
L
í
n
g
u
a
d
e
c
h
e
g
a
d
a
Análise e síntese
Dicionários e gramáticas da
língua de partida e da língua de
chegada
36
Os outros dois tipos de sistemas de tradução automática acima mencionados podem ser
agrupados na mesma categoria tendo os dois uma abordagem “indireta”: trata-se da
abordagem que envolve “interlingua” ou “transferência”.
A abordagem “interlíngua” pretende converter os textos da língua de partida em
representações conceptuais, em formatos independentes das línguas, a partir das quais
são gerados os textos na(s) língua(s) de chegada.
O processo de tradução está dividido, grosso modo, em duas fases: a primeira sendo a
tradução da língua de partida para a interlíngua e a segunda da interlíngua para a língua
de chegada. Sendo a representação “interlíngua” independente das línguas, revela-se,
dentro das abordagens orientadas para o conhecimento, a mais adequada para a tradução
multilingue (o que justifica o interesse de que foi objeto na altura em que a tradução
multilingue era de interesse crucial, ou seja a partir da década de 70).
FIG. 2 SISTEMA DE TRADUÇÃO INDIRETA: INTERLÍNGUA
Outra abordagem indireta é a da “transferência” que prevê três fases: análise,
transferência e síntese. Na primeira fase o texto na língua de partida é analisado a nível
TEXTO
LÍNGUA
DE
PARTIDA
L
í
n
g
u
a
d
e
p
a
r
t
i
d
a
TEXTO
LÍNGUA
DE
CHEGADA
L
í
n
g
u
a
d
e
c
h
e
g
a
d
a
Representação
interlíngua
Análise Síntese
Dicionários e
gramáticas da língua
de partida
Dicionários e
gramáticas da língua
de chegada
Dicionário língua de
partida – língua de
chegada
37
lexical, morfológico, sintático e semântico o que produz uma representação do texto na
língua de partida. Na segunda etapa, esta mesma representação é transferida para uma
representação na língua de chegada para, na terceira fase, se gerar um output na língua
de chegada através de uma gramática desta última.
FIG. 3 SISTEMA DE TRADUÇÃO INDIRETA: TRANSFERÊNCIA
Se por um lado a vantagem destes sistemas é as regras representarem conhecimento
linguístico, por outro os maiores problemas prendem-se principalmente com a
necessidade de um profundo conhecimento na área da linguística e com a
impossibilidade de escrever regras que consigam dar conta de todos os fenómenos de
uma língua natural.
Nos sistemas estatísticos, as traduções são produzidas na base de modelos estatísticos
cujos parâmetros derivam da análise detalhada de corpora de traduções bilingues
alinhadas.
Nos sistemas baseados em exemplos a tradução é efetuada por semelhança, ou seja, são
selecionados fragmentos linguísticos dentro de conjuntos de traduções paralelas.
Análise TEXTO
LÍNGUA DE
PARTIDA
Lín
gua
de
part
ida
TEXTO
LÍNGUA DE
CHEGADA
L
íng
ua d
e c
heg
ada
Representação
língua de
partida
Dicionários e
gramáticas da língua
de partida
Dicionários e
gramáticas da língua
de chegada
Dicionário língua de
partida – língua de
chegada
Transferência Síntese Representação
língua de
chegada
Regras de
transferência
38
O processo de tradução destes sistemas é articulado em três fases:
- matching: o sistema procura os excertos parecidos na língua de partida num conjunto
de textos monolingues;
- alignment: o sistema identifica porções de traduções correspondentes;
- recombination: o sistema junta os excertos encontrados e constrói a frase na língua de
chegada.
Os sistemas estatísticos utilizam, como o nome o indica, estatísticas de ocorrência de
palavras em grandes corpora bilingues de textos já traduzidos e alinhados. Lopez (2008,
p. 8:2), define-os como se segue:
“SMT [Statistical Machine Translation] treats translation as a machine learning problem.
This means that we apply a learning algorithm to a large body of previously translated text,
known variously as a parallel corpus, parallel text, bitext, or multitext.”
Em menos de duas décadas, os sistemas estatísticos passaram a dominar o campo da
tradução automática tornando-se os mais populares junto do grande público.
O Google Tradutor é, hoje em dia, um dos sistemas estatísticos mais conhecidos e
utilizados. Na secção “Conhecer o Google Tradutor”1 é possível visualizar um vídeo2
que explica de maneira simples como são realizadas as traduções por parte do sistema,
vídeo acompanhado também pela breve explicação aqui reportada
(http://translate.google.pt/about/intl/pt-PT_ALL/):
“Quando o Google Tradutor gera uma tradução, procura padrões em centenas de milhões de
documentos para determinar qual a melhor tradução. Ao detetar padrões em documentos já
1
http://translate.google.pt/about/intl/pt-PT_ALL/ (consultado em 16.07.2014)
2
https://www.youtube.com/watch?v=Rq1dow1vTHY (visualizado em 16.07.2014)
39
traduzidos por tradutores humanos, o Google Tradutor consegue determinar de forma
inteligente uma tradução considerada adequada. Este processo de procura de padrões em
grandes quantidades de texto denomina-se "tradução automática por análise estatística.”
As vantagens desta abordagem, quando comparadas com a abordagem de sistemas
baseados em regras, são múltiplas. Em primeiro lugar, as traduções que compõem os
corpora são realizadas por tradutores falantes nativos das línguas em questão o que
disponibiliza para o computador um vasto leque de exemplos em língua natural que dão
origem, portanto, a traduções mais naturais. Além disso, os sistemas de tradução
estatística, em princípio, não são construídos para nenhum par linguístico
especificamente dependendo apenas da extensão do corpus e da introdução de textos
paralelos no par linguístico desejado. Acerca da criação de sistemas com novas
combinações linguísticas Lopez (2008, p. 8:2), com referência a outros trabalhos, afirma
que:
“ With an SMT toolkit and enough parallel text, we can build an MT system for a new
language pair within a very short period of time—perhaps as little as a day [Al-Onaizan et
al. 1999; Oard and Och 2003; Oard et al.2003].”
Os custos também são reduzidos em comparação com os sistemas “clássicos”: os
sistemas de tradução automática baseados em regras requerem desenvolvimento e
manutenção manual por parte de especialistas em várias áreas.
O Google Tradutor utiliza a abordagem estatística desde 2006, tendo principalmente em
conta os custos elevados que a abordagem baseada em regras acarreta. Os limites do
Google Tradutor assim como dos sistemas estatísticos estão, de facto, ligados a escassez
de corpora em determinadas línguas o que faz com que o sistema tenha de passar por
outra língua (no caso do Google tradutor o inglês) para efetuar a tradução. Além desta
questão, os corpora integrados nos sistemas estatísticos não podem, dado o caráter
recursivo das línguas, integrar todas as frases possíveis não sendo, por essa razão,
40
completamente abrangentes. Nos sistemas híbridos, o modelo estatístico é combinado
com os princípios dos sistemas de tradução automática baseados em regras. O sistema
SYSTRAN, como veremos em 2.4, combina a abordagem baseada em regras com a
abordagem estatística desde 2009.
2.3 OS PROBLEMAS DA TRADUÇÃO AUTOMÁTICA
Nesta secção serão analisados alguns dos problemas mais comuns da tradução com base
na categorização feita por Arnold et al. (1994) e com vista à classificação daquelas
problemáticas que poderão ser resolvidas com recurso à linguagem controlada. Segundo
o autor, os maiores problemas da tradução automática (se bem que não os únicos)
podem ser divididos em três categorias:
- problemas de ambiguidade;
- problemas de não correspondência estrutural e lexical;
- problemas relacionados com as expressões idiomáticas.
No que diz respeito aos problemas ligados à ambiguidade, esta pode surgir em duas
situações: quando uma palavra permite pelo menos
duas interpretações num dado contexto e quando uma frase tem mais do que uma
estrutura possível. No primeiro caso fala-se em “ambiguidade lexical” e no segundo em
“ambiguidade sintática” (ou estrutural). A ambiguidade lexical pode verificar-se
igualmente com palavras homógrafas que pertencem a categorias gramaticais diferentes.
Nestes casos a ambiguidade pode ser mais facilmente resolvida através das regras
gramaticais inseridas no sistema de tradução automática. Um exemplo é ‘a’ que, em
português, pode ser um artigo definido singular feminino, uma preposição que expressa
várias relações ou um pronome pessoal (feminino).
41
A ambiguidade sintática, proveniente da estruturação dos constituintes, pode prender-se
com vários fatores como, por exemplo, com o facto de haver sintagmas preposicionais
que podem modificar vários componentes da frase.
Em muitos casos será possível proceder à desambiguação apenas através do
conhecimento que temos do mundo (ou de um determinado domínio) e com recurso à
pragmática, ou seja, interpretando o enunciado baseando-nos não apenas na informação
linguística, mas também no conjunto de informações para-linguísticas, não linguísticas e
contextuais que condicionam a produção e a interpretação de cada enunciado, dai as
óbvias dificuldades de análise de uma máquina.
Um caso de ambiguidade lexical que veremos mais à frente prende-se, por exemplo,
com o duplo significado do termo italiano “stampa”: o termo pode ser traduzido por
“impressão” em português de Portugal, designando, em informática, a atividade de
transferir um determinado conteúdo para um suporte material qualquer, e por
“imprensa” no domínio do jornalismo, dependendo a sua tradução principalmente da
semântica do contexto.
Outros problemas aos quais os sistemas de tradução automática devem fazer face são os
ligados às diferenças lexicais entre as várias línguas e às maneiras como o mundo é
categorizado nas diferentes línguas e culturas. Cada língua é, de facto, um vasto
sistema diferente dentro do qual são ordenadas culturalmente as formas e as categorias
pelas quais as pessoas comunicam. Em alguns casos, o processo de tradução serve-se do
recurso à imaginação (cf. Arnold, 1994), o que, obviamente, não é realizável por
máquinas.
As expressões idiomáticas estão também, muitas vezes, ligadas à apreensão da realidade
feita por uma dada cultura e colocam portanto desafios para a tradução automática. De
facto, se algumas vezes é possível traduzir estas expressões literalmente como na
42
expressão idiomática italiana “mettere il carro davanti ai buoi” traduzida para português
por “pôr o carro à frente dos bois”, muito mais frequentemente a tradução literal não irá
oferecer os resultados esperados como no caso da expressão italiana “essere al verde”,
literalmente “estar no verde” cujo significado é “não ter dinheiro”. Para obter uma
tradução correta, a expressão terá que ser tratada como unidade (para o tratamento
destas expressões em TA, ver, por exemplo, Arnold (1994).
Ao longo do trabalho, através da construção de regras de linguagem controlada
veremos como limitar a ocorrência de alguns destes problemas através da alteração e
simplificação do input. Cabe salientar que muitos destes problemas são menos
frequentes nas linguagens especializadas que, por esta razão, estão desde sempre mais
associadas à tradução automática.
2.4 O S ISTEMA SYSTRAN
Os testes realizados para a criação das restrições propostas foram efetuados no sistema
de tradução automática SYSTRANet (apresentado em 2.4.1) versão gratúita
desenvolvida pela empresa SYSTRAN (acrónimo para SYStem TRANslation).
Além dos inúmeros desafios que o mesmo coloca quer a nível sintático quer a nível
lexical, o sistema foi escolhido por ser um sistema híbrido que associa portanto o
conhecimento linguístico com a abordagem estatística.
Criado nos Estados Unidos por Peter Toma, o sistema SYSTRAN foi concebido, em
primeiro lugar, para a combinação linguística russo/inglês, em resposta às necessidades
da NASA e, posteriormente, aperfeiçoado e utilizado pelas Instituições Europeias para a
tradução de textos técnicos entre as várias línguas dos países europeus, tornando-se
operacional a partir de 1983. Inicialmente a Comissão das Comunidades Europeias
43
adquiriu o sistema principalmente para a disseminação de informações (em 1975) e, só
mais tarde, surgiu o interesse em traduções de melhor qualidade para fins de revisão
posterior. Nos anos a seguir, a pesquisa continuou e foram adquiridas outras versões do
programa (com outras combinações linguísticas) e os tradutores começaram a beneficiar
do auxílio fornecido pelo sistema. O sistema é utilizado para a tradução automática de
documentos especializados num número restrito de áreas técnicas, com dicionários
altamente especializados (nomeadamente medicina, carvão, aço, petróleo, economia,
etc.) e há cada vez uma maior seleção dos textos a serem traduzidos utilizando o
SYSTRAN.
A terminologia inserida no sistema está portanto, principalmente, relacionada com os
setores acima mencionados e cada empresa adapta o seu dicionário consoante as suas
necessidades (Loffler-Laurien, 1994). De facto, o sistema SYSTRAN foi o primeiro
sistema a apresentar a ideia de Customer Specific Dictionary em 1989, ou seja,
dicionários definidos pelo utilizador que incluem palavras e terminologia do cliente, o
que faz com que o sistema seja mais específico e a qualidade maior.
O sistema foi disponibilizado para a utilização do público em geral entre 1986 e 1987
quando uma empresa francesa que desenvolvia a combinação linguística inglês/árabe
teve a ideia de realizar um sistema para uso generalizado chamado MITRAD, para a
empresa Gachot.
Além das Instituições Europeias, algumas empresas norte americanas com grandes
volumes de traduções utilizam o sistema SYSTRAN (entre as mais conhecidas a
General Motors e a Xerox).
A empresa canadiana General Motors utiliza a versão inglês-francês para traduzir
manuais técnicos aumentando a produtividade dos seus tradutores em 3 a 4 vezes. A
Xerox, desenvolveu uma linguagem controlada em inglês (chamada Multinational
44
Customized English, da qual falaremos mais especificamente no capítulo sobre as
Linguagens Controladas) com um determinado estilo e um vocabulário restrito,
permitindo traduzir mais de 90% dos seus textos técnicos para francês, italiano,
espanhol, alemão e português até 5 vezes mais depressa, através do sistema SYSTRAN.
O funcionamento do sistema está baseado numa sublíngua, dependendo a qualidade do
output principalmente da restrição do texto de entrada, tornando-o a escolha ideal para o
trabalho em apresentação e a criação de uma linguagem controlada. As funcionalidades
e recursos principais das quais o sistema beneficia são o dicionário volumoso e o
análisador morfológico.
A SYSTRAN nunca declarou que o sistema funcionava independentemente da revisão
humana, sendo a qualidade dos outputs limitada (para o público em geral). Na descrição
do sistema SYSTRANet (versão em linha), encontramos esta declaração:
“Translation software does not replace human translators and SYSTRANet translations will
not achieve human translation quality.” (http://www.systranet.com/pt/systranet-help/help-
improve-translation-quality).
Em 1997, o motor de busca AltaVista passou a oferecer um serviço de tradução
automática online através do sistema SYSTRAN: o objetivo principal era a tradução
rápida de páginas web para a aquisição de informações por parte dos utilizadores.
Um ponto de viragem é constituído pelo lançamento da versão 7.0 em 2009 com a
introdução de um novo motor híbrido de tradução com tecnologia híbrida: estatística e
baseada em regras.
Em 2012, o sistema adiciona mais 37 línguas, entre as quais o albanês, o croata, o
checo, o finlandês, o farsi e o turco.
45
2.4.1 SYSTRANET
O SYSTRANet é um sistema de tradução automática da empresa SYSTRAN,
disponível online gratuitamente (http://www.systranet.com/translate) e que traduz de e
para 13 línguas diferentes oferecendo mais de 40 combinações linguísticas. Como já
referido anteriormente o sistema é tradicionalmente baseado em regras, mas tornou-se
um sistema híbrido, passando a utilizar também uma abordagem estatística e
combinando-a com a anterior.
Na secção de suporte, a equipa SYSTRAN disponibiliza um conjunto de regras para
melhorar a qualidade do output, regras essas comuns a muitas linguagens controladas.
As sugestões feitas pela SYSTRAN (http://www.systranet.com/pt/systranet-help/help-
improve-translation-quality) dizem respeito ao comprimento das frases e dos textos, à
presença de todos os elementos dentro de uma frase, ao controlo da gramática e da
grafia, entre outras:
(1) - Translate short and simple texts. Translate proper and complete
sentences with a subject, a verb and a logical sentence structure.
(2) - Always use proper vocabulary. Do not use slang or acronyms.
(3) - Control grammar, spelling, accents and punctuation before you
translate with SYSTRANet.
(4) - Consider the number of words. If the text you translate is too long,
shorten it or you'll need to perform several translations. Always translate
full sentences.
Apresenta-se também outra secção de suporte, que fornece aos utilizadores sugestões de
redação do input com vista a melhorar a qualidade da tradução produzida pelo sistema.
46
A secção chama-se “Writing tips” (http://www.systranet.com/pt/systranet-help/help-
writing-tips) e explica como a qualidade da tradução é determinada pela qualidade do
texto de partida, apresentando um total de 10 sugestões que ajudam o utilizador a limitar
e controlar o texto de partida:
(1) – ‘Be Direct. Write in a Simple, Clear Manner’: aconselha-se a evitar
estruturas de frases complexas, frases ambíguas, frases subordinadas, fragmentos
de frases e palavras não necessárias.
(2) - ‘Be Concise and To The Point’: a segunda sugestão prende-se com o
comprimento das expressões. É aconselhado ao utilizador o uso de frases curtas,
sem porém omitir nenhum dos constituintes.
(3) - ‘Do Not Leave Out Necessary Words’: sugere-se aqui que não sejam
omitidas expressões relevantes, nomeadamente, pronomes, preposições e partes de
verbos.
(4) - ‘Beware of Slang and Colloquialisms’: com esta regra procura-se
alertar os utilizadores para a utilização de frases idiomáticas que, como sabemos,
são dificilmente processadas pelo sistema como unidades de sentido e que, muito
dificilmente, equivalem de língua para língua aquando da tradução palavra a
palavra.
(5) – ‘Insert Proper Punctuation’: esta sugestão prende-se com a importância
da pontuação para o reconhecimento dos limites das frases. É explicado ao utente
como a pontuação facilita a leitura para o tradutor/leitor humano e, por maioria de
razão, o processamento para os sistemas de tradução automática, e sublinha que,
sem a pontuação adequada, as frases podem ser interpretadas de maneiras
diferentes, podendo tornar-se ambíguas.
47
(6) – ‘Check for Accurate Spelling’: no que diz respeito à ortografia, sugere-
se a utilização de um corretor ortográfico antes da introdução do texto no sistema
pois o mesmo poderá interpretar de maneira errada palavras com grafia incorreta,
prejudicando a qualidade da tradução.
(7) – ‘Use Articles Whenever Possible’: outra sugestão que encontramos em
comum em muitas linguagens controladas é o uso dos artigos sempre que
possível, em particular para o reconhecimento de um nome e a consequente
redução da ambiguidade.
(8) – ‘Consistent Use of Terminology and Abbreviations’: com esta sugestão
aconselha-se o uso de uma terminologia uniformizada ao longo do texto em linha,
como conceito base de muitas linguagens controladas: um termo para um
conceito. Sublinha-se aqui a confusão que pode nascer da utilização inconsistente
da terminologia quer a nível humano quer para as máquinas.
(9) – ‘Maintain a Simple Format’ e (10) – ‘Use tabs or indents at the
beginning of a line and to separate paragraph numbering from the text’. As
últimas duas sugestões prendem-se principalmente com fatores técnicos e têm a
ver com o uso de tabelas e gráficos.
No próximo capítulo, acerca das linguagens controladas, será possível constatar como,
muitas destas sugestões, estão na base das regras gerais das linguagens controladas, quer
no sentido de simplificar um texto para a leitura na língua original quer para a sua
tradução automática e, portanto, em termos de processamento por parte da máquina.
48
3 AS LINGUAGENS CONTROLADAS
“A controlled language (CL) is a subset of a natural language
which is created using various rules to restrict the grammar and
vocabulary which can be used in a text. The purpose of a CL is
to reduce ambiguity and complexity in texts and it does this by
limiting the ways in which information can be expressed.”
(Byrne, 2012, p.142)
Neste capítulo, apresenta-se uma breve panorâmica histórica das linguagens
controladas, tentando esclarecer as diferentes razões que levaram muitas empresas à
criação e utilização das mesmas.
Em 3.1, classificam-se as linguagens controladas consoante as suas finalidades e traça-
se a história de algumas das linguagens controladas mais bem sucedidas, apresentando
as motivações que levaram cada empresa ou instituição a integrar a linguagem
controlada na própria escrita técnica.
Em 3.2, serão apresentados alguns dos limites e das desvantagens das linguagens
controladas.
Por fim, em 3.3, apresenta-se, a ligação entre as linguagens controladas e o controlo da
qualidade na área informática, comparando as sugestões contidas em diferentes manuais
de estilo para a escrita técnica, quer com as diretrizes do controlo da qualidade quer
com algumas das regras das linguagens controladas para a tradução.
49
3.1 CLASSIFICAÇÃO E HISTÓRIA DAS LINGUAGENS C ONTROLADAS
Uma linguagem controlada é uma forma de utilização restrita de uma língua segundo
regras de gramática e de vocabulário. O recurso a uma linguagem controlada pode
tornar os textos nela redigidos mais claros e, ao mesmo tempo, mais fáceis de serem
traduzidos. Uma frase complexa e/ou ambígua pode levantar problemas tanto a um
leitor ou a um tradutor como a um sistema de tradução automática. Por esta razão, as
linguagens controladas podem ser utilizadas para fins diferentes, que podem ter a ver
com a simplificação do texto para a tradução ou para a leitura.
Vários são os autores que classificam as linguagens controladas consoante o seu
objetivo final. Huijsen (1998), entre outros, apresenta uma distinção entre Human-
oriented controlled language (HOCL) e Machine-oriented controlled language (MOCL).
Enquanto as do primeiro tipo têm por objetivo melhorar a legibilidade e, portanto,
facilitar a compreensão, no segundo caso trata-se de redigir os textos por forma a
melhorar a sua tradução. Veja-se (Fig. 1), abaixo.
FIG. 4 DIFERENÇA ENTRE HOCL E MOCL (HUIJSEN, 1998)
Machine
translation (MT)
Specialized Dictionaries,
Thesauruses, Trainers
Grammar checkers,
software checkers
Human-Oriented Controlled
Language (HOCL)
Machine-Oriented Controlled
Language (MOCL)
50
Reuthers (2003), realizou uma pesquisa intitulada “Two in One – Can it work?
Readability and Translatability by means of Controlled Language” através da qual
investiga as relações entre as duas diferentes abordagens e as diferentes regras.
Convém aqui apresentar a diferente categorização das linguagens controladas feita pela
autora com base na funcionalidade: melhorar a legibilidade ou melhorar a tradução.
Reuthers (2003, p.124) escreve que a primeira abordagem é aquela que visa a melhorar
“readability, comprehensibility, clarity, and consistency of text.”
A autora também acrescenta que os destinatários desta Linguagem Controlada são
leitores humanos, frequentemente não nativos (como no caso do AECMA
Simplified English – que será analisado no próximo parágrafo), mas também
leitores nativos, normalmente no que respeita a documentos técnicos, enquanto,
para a outra abordagem, a autora explica (ibidem)
“In the other approach towards CL the improvement of translatability,
especially in the case of automated translation, is the main objective. In this
CL application it is important to take into account the translation tool, since
both the type of tool (Translation Memory system vs. Machine Translation
system) and tool specific characteristics have an impact on a related CL”
No seu trabalho, a autora questiona-se acerca da eventual compatibilidade entre as duas
abordagens aquando da realização de conjuntos de regras (as regras seriam
contraditórias ou poderiam ser partilhadas para as duas funcionalidades?) chegando à
conclusão de que
“readability rules are a subset of translatability rules, in other words, translatability
ensures readability. The reverse statement is only true to some extent.” (ibidem,
p.131)
51
De facto, a motivação que levou à elaboração de linguagens controladas residiu,
primeiramente, na ideia de simplificar a comunicação escrita em inglês através do
British American Scientific International Commercial English, mais conhecido por
BASIC English, por volta de 1930. Por ser diferente das tentativas anteriores, sendo
uma parte simplificada de uma língua natural (o inglês), distinguia-se das outras
tentativas completamente artificiais ou híbridas, tal como o Esperanto (primeira versão
em 1887). Na base do movimento pela criação do BASIC English, residia a ideia de que
apenas algumas centenas de palavras eram suficientes para redigir qualquer texto em
inglês: em vez das 75.000 normalmente utilizadas por um falante nativo, o vocabulário
foi reduzido para 850 palavras e as regras gramaticais simplificadas drasticamente. Uma
das estratégias para atingir a simplificação e a economia lexical era, entre outras, a de
substituir os verbos plenos por expressões com os chamados “operator verbs” e os
nomes ou adjetivos correspondentes. Em relação a esta proposta, é interessante ver que
muitos manuais de redação sugerem, de facto, a abordagem contrária, ou seja a
substituição de predicados complexos por expressões atómicas, abordagem essa que foi
também aplicada ao fragmento de linguagem controlada aqui proposto e que será
discutida na secção 4.1. Arnold (1994, p. 147) explica que, no caso do BASIC English,
a econonomia lexical
“was to be achieved in part by using ‘operator verbs’ with the set of nouns and adjectives to
stand in for the vast number of derived verbs which are frequently used. For example,
whereas in ordinary English we might write ‘The disc controller design was perfected over
numerous revisions’, Basic English would say ‘... was made perfect ...’, where ‘make’ is
one of the operator verbs and ‘perfect’ one of the licensed” Basic English adjectives. “
Posteriormente, com a introdução dos sistemas de tradução automática e devido aos
seus limites técnicos, tornou-se também fundamental a adaptação do material a ser
redigido/traduzido ao sistema a ser utilizado (às suas regras, estruturas e, também,
52
falhas). Exemplos na base da adaptação necessária eram instruções acerca de como
evitar uma determinada estrutura, um determinado verbo, construção, termo, etc., uma
espécie de manuais de estilo, como veremos mais à frente em 3.3.
Estas adaptações e “regras” de redação podem ser consideradas como sendo um
primeiro passo para a criação das linguagens controladas (Cremers, 2011). Alguns
exemplos das instruções genéricas nelas contidas são:
1 - escrever frases curtas;
2 - utilizar a pontuação corretamente;
3 - usar a forma ativa;
4 - escrever frases gramaticalmente completas;
5 - utilizar artigos.
As razões que levaram à introdução das Linguagens Controladas para a tradução,
prendem-se, então, com vários fatores: entre os primeiros, sem dúvida, a redução de
custos para o processo de tradução em geral. De facto, se por um lado era preciso
investir na formação dos autores em Linguagem Controlada, por outro a máquina
conseguia traduzir muito mais rapidamente do que um tradutor humano e a revisão
também era muito mais barata.
Outro fator predominante, ligado à redação de textos simples, era o melhoramento do
texto de partida: o aumento da legibilidade (devido às frases mais curtas e à redução de
ambiguidades) tornava os textos técnicos mais acessíveis aos leitores, tornando, por sua
vez, o produto/serviço mais apelativo.
Com a introdução das Linguagens Controladas era igualmente possível conseguir uma
consistência terminológica ao longo dos manuais e do conjunto de textos de uma
53
determinada empresa, o que facilitava consideravelmente a reutilização das memórias
de tradução.
No caso das empresas das áreas mais técnicas, a elaboração de manuais técnicos e a
posterior tradução dos mesmos para o maior número de línguas possíveis foram,
portanto, o motor propulsor da criação de linguagens controladas que permitiam, de
facto, uma diminuição da ambiguidade, uma redução dos termos utilizados e uma
simplificação da sintaxe, tornando esses textos mais adequados para a tradução
automática.
As linguagens controladas (mono e multilingues) que tiveram mais sucesso têm sido,
além do BASIC English já analisado, as seguintes:
- Caterpillar Fundamental English (CFE)
- Bull Global English
- Perkins/Univ Edinburgh PACE
- AECMA Simplified English (SE)
- GIFAS Rationalised French
- Kokak International Service Language
- Smart Controlled English
- General Motors Global English
- Securities and Exchange Commission (SEC) Plain English
- Fight the Fog (Comissão Europeia)
- MultiDoc project Controlled Languages
- Remedios Ruiz/Richard Sutcliffe Controlled Spanish
54
- Xerox Multilingual Customized English
- Scania Swedish
De seguida, serão analisadas algumas das linguagens acima listadas com o objetivo de
identificar as diferentes necessidades das empresas consoante a área técnica de
intervenção, as línguas de trabalho e a dimensão.
A empresa americana Caterpillar Inc., por exemplo, é uma multinacional que fabrica
máquinas, motores e veículos pesados, destinados principalmente à construção civil e
que distribui produtos e peças no mundo inteiro. Cada produto da empresa integra
diferentes subsistemas entre os quais motores, sistemas hidráulicos, sistemas elétricos e
ferramentas diferentes para os quais é necessário realizar e manter vários documentos de
caráter técnico (Kamprath et al., 1998).
Fundado nos anos 70, o Caterpillar Fundamental English era um excelente exemplo de
sistema com vocabulário restrito (cerca de 850 palavras), concebido para ser utilizado
na redação de manuais de serviço destinados a técnicos não nativos do inglês, e visando
evitar, desta forma, a sua tradução para várias línguas. Foi abandonado depois de ter
sido utilizado durante cerca de dez anos, por várias razões que se prendiam
principalmente com os problemas ligados ao facto de o dicionário ser limitado: a rápida
expansão da empresa em áreas como a hidráulica e a eletrónica não eram
suficientemente representadas pelos 850 termos presentes no dicionário (Kamprath et
al., 1998). Outra motivação que levou a empresa a deixar de utilizar a linguagem
controlada foram os custos elevados da formação exigida para escrever no Caterpillar
Fundamental English, assim como o nível de escolarização dos técnicos (destinatários
dos manuais de serviço) nas diferentes partes do mundo, nem sempre conhecedores do
alfabeto latino (ibidem).
55
Em meados dos anos 80, graças aos avanços tecnológicos, às 850 palavras do
Caterpillar Fundamental English que, entretanto tinha sido posto de parte, foram
acrescentadas novas entradas de termos técnicos do domínio do texto a redigir,
chegando-se aos 70.000 termos, e dando origem ao que ainda hoje se chama Caterpillar
Technical English, que devia aumentar não só a legibilidade dos textos técnicos, como
também agilizar a tarefa de tradução. Entre os benefícios apresentados por Kaprath et
al. (1998), encontramos uma maior consistência a nível terminológico, permitindo aos
autores a reutilização dos mesmos termos para os vários produtos levando, portanto, a
uma maior produtividade.
A maior parte dos estudos mais conhecidos sobre linguagens controladas são sobre a
língua inglesa. O inglês, de facto, tornou-se bem cedo a língua das tecnologias e dos
transportes, em particular na aviação, onde a necessidade de comunicar de uma forma
clara e coerente e compreender todas as instruções impunham garantias mínimas de
segurança. Por esta razão foi criada uma linguagem para controlar a escrita técnica
chamada ASD Simplified Technical English, ASD-STE100 (STE).
O projeto começou em 1979 com o nome de AECMA Simplified English quando a
indústria aeroespacial europeia pediu à AECMA (Associação Europeia dos Fabricantes
de Material Aeroespacial) para investigar sobre a possibilidade de utilizar uma forma de
inglês simplificada para a redação de todos os documentos produzidos por todos os
diferentes fabricantes de material aeroespacial. Num primeiro momento a AECMA
investigou outras linguagens controladas já utilizadas por outras empresas com o
objetivo de as adaptar às suas necessidades. Assim, em 1983, decidiu criar a sua própria
linguagem controlada alargando o projeto também aos Estados Unidos. A primeira
versão do AECMA Simplified English, sob forma de simples instruções, foi lançada
em 1986, sendo sucessivamente integrada em todos os manuais de redação dos textos.
56
Em 2004, a associação mudou o nome para ASD (acrónimo para AeroSpace and
Defence Industries Association of Europe) e o Simplified English transformou-se em
ASD-STE100 (adicionando o termo “technical” ao nome).
O Simplified Technical English, se bem que estável e consolidado, precisa de
manutenção constante para se alinhar com as novas tecnologias e ter em conta os
feedbacks dos seus utilizadores. Segundo Chiarello (2012), demonstrou-se que apenas
3% do conteúdo dos documentos técnicos é específico da área da aviação enquanto 97%
pode ser aplicado a qualquer outro contexto sem necessidade de adaptação. Por esta
razão, o interesse pelo STE desenvolve-se para além da clareza das informações
redigidas e da tradução para chegar à área do ensino e de escrita em outros domínios
técnicos.
Outro exemplo de linguagem bem sucedida que cabe apresentar é o Multinational
Customized English, um dos melhores exemplos da aplicação do sistema SYSTRAN.
Trata-se de uma linguagem controlada com a dupla função de melhoria do input e de
tradução rápida e automática realizada pela empresa Xerox Corporation. Como Elliston
(1978, p.152) declara, os primeiros testes com o sistema SYSTRAN para a tradução de
textos técnicos antes da implementação da linguagem controlada não correram como
esperado:
“The system that we are currently using to develop our total translation process is
SYSTRAN. Initially, we did some research with uncontrolled input text which resulted in
unacceptable output in terms of the post edit effort required. The dilemma at this stage was
that if one used a totally free form of input, the computer translation output required a
massive post edit.”
Como o mesmo autor escreveu no seu relatório acerca da escolha da Xerox Corporation
de utilizar uma linguagem controlada, a empresa viu no Multinational Customized
English (e na suas versões anteriores) a solução para os seguintes problemas:
57
Custos - os produtos no mercado aumentavam todos os anos e havia, portanto, uma
necessidade crescente de tradução da documentação multilingue para cada produto. A
única solução era recrutar mais tradutores o que ia acarretar, como é óbvio, mais custos.
A solução que eles procuravam, por outro lado, residia num aumento da produtividade
guardando o mesmo número de recursos, ou seja, utilizando os recursos já disponíveis
de maneira mais eficiente.
Prazos apertados - a documentação era produzida em inglês e para a tradução nas
várias línguas era necessário um período de tempo relativamente extenso, o que limitava
o tempo de os produtos serem devidamente testados nos mercados cuja língua era
diferente do inglês.
Clareza da comunicação - os dois maiores problemas de ambiguidade na empresa
multinacional eram
“- ambiguity - text must be written in a clear manner.
- vocabulary - text should only contain those words that are known to be in the end
users vocabulary.” (ibidem, p. 150)
Os três problemas são, hoje em dia, ainda mais atuais devido à rapidez com que novos
produtos são lançados no mercado e à importância de literatura na língua do utilizador.
A utilização da linguagem controlada garante, portanto:
- redução das ambiguidades no input;
- outputs de boa qualidade;
- consistência terminológica;
- traduções rápidas para várias línguas;
- textos em inglês de fácil compreensão.
58
Portanto, além de a introdução das linguagens controladas diminuir os custos (um dos
problemas principais de todas as empresas), dois grandes benefícios foram também
revelados: em primeiro lugar, a legibilidade e a clareza de um texto redigido usando
uma linguagem controlada parecem mais elevadas mesmo para falantes nativos; em
segundo lugar, estes textos, quando introduzidos num sistema de tradução automática,
produzem melhores resultados garantindo rapidez, fator imprescindível no setor
informático.
Outro projeto interessante é o da Direção Geral de Tradução da Comissão Europeia que,
em 1998, lançou a campanha “Fight the Fog” dirigida a todos os redatores e tradutores
de textos institucionais em língua inglesa, da própria Comissão. Como o nome indica, o
objetivo do projeto era tornar mais clara a comunicação e a compreensão que,
frequentemente, dificultavam a ligação entre as instituições europeias e os cidadãos.
Com o lançamento da campanha foi também elaborado um guia chamado “How to write
clearly” que apresenta sugestões para uma escrita mais clara baseado nas obras de
Martin Cutts "The Plain English Guide" (1996) e de Joseph M. Williams chamada
"Style: Toward Clarity and Grace" (1995).
Entre as sugestões estão o uso das expressões atómicas em favor de predicados
complexos, a preferência da voz ativa à passiva e a redação de frases e textos curtos
(sob o lema ‘KISS: Keep It Short, Keep It Simple’).
Desde então muitos avanços foram feitos e existem agora serviços de controlo da
qualidade dos textos redigidos que permitem verificar o nível de clareza e intervir
quando necessário.
Em março de 2010, uma nova campanha chamada “Clear Writing” foi lançada pela
Direção Geral de Tradução da Comissão Europeia, diferenciando-se da precedente
campanha por não ser específica da língua inglesa mas por ter sido pensada para todas
59
as línguas da União Europeia. O guia realizado, chamado na versão portuguesa “Redigir
com clareza”, foi redigido em 23 línguas e está disponível gratuitamente no EU
bookshop. Além da publicação e difusão online do guia, a campanha abrangia outras
iniciativas, tais como formação, um site interno para discussão e um espaço “Sugestão
da Semana” com dicas adicionais. Em novembro do mesmo ano, também foi realizada
uma conferência à qual participaram vários especialistas da área da “redação clara” com
o título ‘Clear Writing throughout Europe’.
As sugestões apresentadas na versão portuguesa são as seguintes (comuns à língua
italiana):
(1) - Pense antes de escrever
(2) - Dê prioridade ao leitor – seja direto e interessante
(3) - Organize o seu documento
(4) - Seja breve e claro
(5) - Seja coerente – organize as frases
(6) - Elimine os substantivos desnecessários – as formas verbais têm mais ação
(7) - Vá direto ao assunto, evite as abstrações
(8) - Não seja passivo, prefira a voz ativa — e diga quem faz o quê!
(9) - Fuja dos falsos amigos e evite o jargão e as siglas
(10) - Reveja e verifique
Voltando à redação de documentos e manuais técnicos, a empresa sueca Scania,
fabricante de camiões e motores, desenvolveu o Scania Swedish (Scaniasvenska) com o
objetivo primário de facilitar o processo de tradução e harmonizar a terminologia dentro
60
da empresa. Os textos são redigidos utilizando a linguagem controlada para depois
serem traduzidos para inglês (por agências especializadas). Só a partir do inglês é que os
textos são depois traduzidos para outras línguas (Granlund, 2002). Assim que novos
textos forem produzidos, os autores utilizam um sistema controlador chamado “Scania
Checker” como auxílio à verificação da correta utilização do “Scaniasvenska”. O
dicionário contem cerca de 20.000 palavras e chama-se ‘ScaniaLex’ (Axelsson e Blom,
2006).
Hoje em dia as Linguagens Controladas são também utilizadas para o ensino de línguas
estrangeiras ou para a redação de textos destinados a pessoas com necessidades
especiais e não nativas da língua. Em novembro de 2003, por exemplo, o site Internet
Wikipedia lançou um projeto de redação de artigos em inglês simplificado (através da
utilização do Basic English) disponibilizando, para os utilizadores com dificuldades de
aprendizagem ou para estudantes do inglês, um conjunto de artigos de mais simples
compreensão. São vários os projetos deste tipo e não se resumem apenas a tentativas em
inglês: na Suécia existem diferentes projetos que visam à simplificação da língua para ir
ao encontro das necessidades de pessoas com dificuldades promovendo a leitura. Os
projetos mais importantes são o “Klartext” e o “Lättläst” (literalmente “Texto claro” e
“Leitura fácil”). O primeiro é um programa rádio jornalístico que visa informar acerca
das notícias da Suécia, assim como das internacionais, tentando atingir todas as pessoas
que, por razões linguísticas ou cognitivas, não conseguem acompanhar as notícias nas
rádios locais. As várias secções do site são completamente escritas em sueco
simplificado enquanto, no que respeita aos artigos, a linguagem é utilizada
principalmente para a redação de textos orais que não são reportados em versão escrita
no site (ou são-no apenas parcialmente).
61
Começado em 1968, o projeto Lättläst, além de se dedicar também à secção jornalística
(por escrito), envolve também uma casa editora que reescreve romances em sueco
simplificado. Sob o lema de “Vi skriver så att alla förstår” (tr. Escrevemos para todos
perceberem”), a literatura é escrita usando uma linguagem concisa e simples que utiliza
frases curtas e evita as orações subordinadas (permitindo um máximo de uma
subordinada por oração). O centro também propõe cursos de formação básicos e de
especialização para aprender a escrever em sueco simplificado.
No parágrafo 3.3 será possível ver como as linguagens controladas para a tradução de
textos técnicos estão associadas às regras de escrita técnica partilhando o objetivo
comum de simplificação do texto de partida com vista a melhorar a compreensão.
3.2 LIMITES E DESVANTAGENS DA S LINGUAGENS CONTROLADAS
Mitamura e Nyberg (1995) declaram que o conjunto de regras de uma linguagem
controlada é aplicado em três níveis principais: nível lexical, nível sintático e nível
estrutural.
Todas aquelas regras que atuam sobre a seleção do contexto, atuam a nível lexical.
Existem, depois, aquelas regras que influenciam a sintaxe (a nível dos constituintes
frásicos) que são, como o nome o indica, regras sintáticas. Por fim, existem aquelas
regras que atuam a nível textual quer no que diz respeito à estrutura do texto, quer a
nível pragmático. Adriaens (1994) tinha classificado os conjuntos de regras da mesma
forma adicionando, porém, outra categoria: a do controlo da pontuação e das
maiúsculas.
Nenhuma linguagem controlada, contudo, oferece um conjunto de regras
suficientemente exaustivo para poder definir e limitar todos os fenómenos da língua a
que respeita. Organizar um módulo de linguagem controlada capaz de abranger todos
62
os fenómenos linguísticos é, portanto, impossível. Algumas das regras de uma
linguagem controlada também podem revelar-se contraditórias, como será analisado
mais à frente: um dos exemplos mais relevantes aqui apresentado é a regra geral
“escrever frases curtas”, em contradição com o uso de orações participiais que, de facto,
tornam as frases mais curtas mas, ao mesmo tempo, dificultam o processamento por
parte dos sistemas de tradução tornando a sua utilização não aconselhável.
O uso da linguagem controlada facilita, como já visto anteriormente, a leitura por parte
do seu utilizador e a tradução por parte do tradutor. Contudo, a redação por parte do
autor torna-se mais complicada devido ao facto de ser necessário aprender um conjunto
de regras que controlam a linguagem natural. Entre as desvantagens que Elliston (1978,
p.153) tinha constatado com a implementação da linguagem controlada na empresa
Xerox, uma delas prendia-se mesmo com este problema e com os efeitos que, a criação
de regras demasiado complexas podia ter nos autores:
“[...]if the constraints placed on the originator are too severe the increased load would
cancel the productivity benefit of the system. In addition, one runs into the real danger of
author motivation.”
Alguns elementos controlados pela linguagem, assim como os termos a evitar presentes
em listas da mesma linguagem, são de extremo esforço para o autor sem, às vezes,
serem de facto de ajuda para o leitor.
Além disso, o objetivo de uniformização (especialmente no que diz respeito às
linguagens controladas para a tradução automática) pode, com vista a aumentar a
clareza, tornar-se repetitivo levando a um estilo demasiado uniforme que ignora as
diferenças que podem existir entre, por exemplo, um guia do utilizador e um manual de
manutenção para um técnico.
63
Cremers (2011), analisando a implementação das Linguagens controladas na empresa
holandesa Océ Technologies (por volta de 1995), apresenta as vantagens e desvantagens
da sua utilização por parte dos utilizadores, ou seja, os autores dos textos técnicos. Os
efeitos positivos da implementação eram a melhor estrutura dos conteúdos, a maior
brevidade das frases e a maior consistência e coerência a nível de estilo e de
terminologia.
Os autores também se depararam com várias dificuldades, nomeadamente o tempo gasto
na correção de estruturas inapropriadas dentro de alguns contextos ditadas pelas regras
rígidas do verificador da linguagem controlada e o facto de as regras da linguagem
controladas para a escrita não serem sempre compatíveis com as regras para melhorar e
aperfeiçoar o sistema de tradução automática (Cremers, 2011).
Neste contexto, é importante salientar que um conjunto de regras que melhoram a
qualidade de um output para um sistema de tradução específico e uma língua específica,
pode não ter efeitos se utilizado com outro sistema ou outra língua (podendo mesmo ter
efeitos negativos (Kohl, 2008)).
3.3 LINGUAGENS CONTROLADA S E CONTROLO DA QUALIDADE
O uso de regras para a redação de inputs, permite a criação de textos de fácil
compreensão: como é óbvio, quanto mais claro e linear for um texto, mais fácil e rápida
se tornará a sua tradução, principalmente através de um tradutor automático. Devisevic
e Steensland (2005, p.21), citando Haller e Schütz (2001) falam nos seguintes termos do
estilo de redação técnica em que os inputs são redigidios:
“The writing style of technical documentation has a strong effect on readability,
comprehensibility, and translatability into other languages (Haller and Schütz, 2001). In
order to maintain good comprehensibility and readability, and facilitate the translation
64
work, the language rules and terminology used in the user documentation should be
standardized and consistent.”
Como já vimos, muitas das linguagens controladas que foram desenvolvidas pelas
empresas ao longo do tempo, nasceram mesmo para a simplificação do input sem ainda
ter em conta a possível e futura tradução do mesmo. O BASIC English dos anos 30
tinha, de facto, esse mesmo objetivo e tem de ser analisado como sendo separado da
tradução.
A construção das regras para o controlo da qualidade em âmbito informático e para a
tradução, provém sem dúvida dos princípios básicos da escrita de documentação
técnica, como afirma Mitamura (1999, p.47):
“Even if texts are not translated, it may be preferable to follow a set of rules for technical
writing which standardize and improve the readability of source text.”
O’Brien (2003, p.111) também apresenta a questão de algumas linguagens controladas
terem origem nos conjuntos de regras impostos pelas empresas para a redação de textos:
“Sometimes CL rules are generated using existing corporate writing guidelines and this will
obviously influence decisions to include or exclude rules. In addition, if technical writers
are involved in designing the rule sets (as should be the case), then they too will have an
influence depending on how loose or rigid they want the rules to be.”
No seu trabalho acerca das relações entre linguagens controladas para melhorar a
legibilidade e Linguagens Controladas específicas para a tradução, Reuthers
(2003) escreve que, no contexto da redação, as linguagens controladas são
utilizadas com o objetivo de produzir documentação de boa qualidade, em
particular na área do serviço ao cliente.
Cada língua natural tem o seu próprio conjunto de regras e, por conseguinte, cada
conjunto de regras de uma linguagem controlada varia de língua para língua, pois não
65
existem regras que consigam levar a resultados otimizados para todos os pares de
línguas. Contudo, dentro das regras que regulam uma linguagem controlada podemos
distinguir entre regras gerais e regras específicas.
As regras definidas como “gerais” permitem reduzir drasticamente a ambiguidade da
maior parte dos textos redigidos na maior parte das línguas.
Por outro lado, as regras “específicas” são assim chamadas por serem próprias de
algumas línguas específicas e, muitas vezes, aplicáveis somente a determinados
sistemas de tradução automática.
No presente estudo foi observada e analisada a correspondência de algumas das regras
gerais das linguagens controladas para a tradução com algumas das regras de controlo
da qualidade dos templates técnicos de empresas informáticas (no caso específico,
especializadas em impressoras).
Os departamentos de Apoio ao Cliente de qualquer empresa informática têm uma
divisão dedicada ao Controlo da Qualidade cuja responsabilidade primária é verificar a
satisfação do cliente final com o contacto com o help desk e com o produto em si. Uma
das fases mais importantes do controlo da qualidade é a monitorização de chamadas,
chats e emails entre os agentes de 1º nível e o utente final. O agente que presta suporte
ao cliente final é chamado a seguir as linhas guias fornecidas pela empresa, em
particular as respeitantes à redação de textos escritos enviados aos utentes finais. O
responsável pela Qualidade deverá, posteriormente e em fase de monitorização,
verificar que o agente cumpre as regras estipuladas, assim como corrigir o que não
estiver de acordo com essas diretrizes, dando feedback e formação se for necessário.
Todos os agentes recebem uma formação acerca das regras a seguir (iremos analisar
apenas as regras de redação de textos escritos) e têm de respeitar algumas restrições que
66
mais à frente iremos discutir com vista à satisfação do cliente, que deverá perceber
claramente as instruções recebidas.
O controlo da qualidade consiste, então, em analisar os textos produzidos por estes
agentes e garantir, entre outros aspetos, que as informações sejam o mais claras e
completas possíveis, que a estrutura do email seja simples, que não haja erros
gramaticais, etc.
Na maior parte dos casos, os textos enviados para os clientes são redigidos por uma
equipa dedicada à gestão dos pedidos recebidos por email. Cada equipa (correspondente
a cada língua), recebe os seus pedidos e, consoante o tipo de problema, redige o texto.
Muito frequentemente as empresas deslocalizam os serviços de suporte técnico criando
centros que dão suporte em diferentes línguas: a documentação é, portanto, escrita e
disponibilizada na língua da empresa que, especialmente no setor informático, é quase
sempre o inglês. Muitas empresas têm departamentos linguísticos internos que traduzem
a literatura para as diferentes línguas suportadas, se bem que nem toda a informação
seja traduzida para todas as línguas, dados os enormes custos que tal acarreta. Muito
frequentemente, e como já vimos no caso da Xerox (Elliston, 1978), as empresas não
conseguem lidar com a rapidez da tecnologia e das necessidades de tradução
disponibilizando o texto apenas em inglês. Em particular no domínio técnico, pode
acontecer parte dos erros e das falhas das máquinas não serem individualizados em fase
de teste. No momento em que uma falha técnica é identificada, quando a máquina se
encontra já na fase de venda, é necessário alertar com a máxima rapidez todos os
centros de suporte, “saltando” a fase habitual de tradução: é o que acontece, por
exemplo, com os chamados “technical bulletins”, escritos diretamente por técnicos. A
distribuição destes textos é feita em inglês para todos os centros e serve, principalmente,
para formação rápida de todos os agentes. O agente responsável pelos emails deverá, no
67
caso de um cliente apresentar uma dessas anomalias, reformular o conteúdo em inglês
traduzindo-o para a própria língua sem contudo ter formação na área da escrita técnica e
tendo como únicas diretrizes as do controlo da qualidade (diretrizes essas também
pensadas para a língua inglesa e não adaptadas a todas as diferentes realidades
linguísticas).
Como já vimos, as regras gerais de uma linguagem controlada são bastante intuitivas,
estabelecendo que não se escrevam frases com uma estrutura gramatical complexa,
frases que sejam demasiado cumpridas (é aconselhável escrever frases com menos de 25
palavras), frases que sejam gramaticalmente complexas e em que se usem os pronomes
ou não se omitam os artigos.
Em paralelo, as diretrizes definidas por empresas informáticas para o controlo da
qualidade, visam à produção de textos facilmente compreensíveis e redigidos de forma
clara e legível para que os principais destinatários e beneficiários (neste caso os clientes
da empresa em análise) possam perceber sem obstáculos a mensagem que lhes é
dirigida.
É facilmente visível o objetivo comum que as linguagens controladas e o controlo da
qualidade partilham: a simplificação do texto.
De seguida, são apresentadas algumas das regras para o controlo da qualidade dos
emails estabelecidas por uma empresa produtora de impressoras (foram consideradas
apenas as regras relevantes para este estudo). É importante também salientar que se trata
de uma empresa norte-americana e que, como já antecipado, os parâmetros foram
estabelecidos para a redação de templates em inglês sem ter alguma adaptação às
diferentes línguas em que o suporte técnico é feito no mundo.
Controlo da Qualidade dos emails (traduzido do inglês):
68
(1) O agente utiliza gramática e ortografia corretas no email;
(2) O agente escreve frases curtas e simples;
(3) O agente utiliza sempre uma linguagem clara; por exemplo, não recorre ao uso de
nenhuma abreviatura que não seja necessária e que possa atrapalhar a compreensão;
(4) O agente evita utilizar jargão técnico;
(5) O agente utiliza uma linguagem profissional e evita, em qualquer altura, o uso de
linguagem coloquial. Por exemplo, não utiliza emoticons (, , etc.) e não utiliza
calão;
(6) As instruções são simples de seguir e entender;
(7) Os passos de resolução dos problemas estão divididos para conseguir distinguir de
forma simples e rápida as diferentes tarefas a executar (listas com marcadores ou
números em vez de grandes blocos de texto).
As regras acima mencionadas são regras genéricas que podem ser adaptadas a qualquer
empresa de apoio ao cliente. Uma simples e rápida pesquisa na Net irá mostrar como
algumas destas sugestões são consideradas fundamentais para oferecer um serviço de
qualidade ao cliente. De facto, são vários os sites e blogs de profissionais da área do
controlo da Qualidade que fornecem exemplos de como melhorar os emails de apoio ao
cliente e não são raras as referências aos parâmetros acima listados. Alguns exemplos
recolhidos em várias páginas são os seguintes (também traduzidos do inglês):
- O agente utiliza listas com números ou marcadores para separar todos os passos que o
cliente tem de realizar para a resolução do problema ou para efetuar a ação desejada.
- O agente lê o email com atenção para verificar se não há erros de gramática ou
ortografia.
69
Ou noutro site:
- O agente verifica a ortografia, a pontuação e a gramática.
A maior parte destas sugestões foi realizada com base em manuais ou guias de estilo
para a redação de documentação técnica que, ao par dos guias organizados pela Direção
Geral de Tradução da Comissão Europeia, visam apresentar regras para uma “clear
writing” mas num domínio específico.
Na área da informática, os mais interessantes são sem dúvida o ‘Microsoft Manual of
Style for Technical Publications (MSTP)’, o ‘Apple Style Guide’ e, mais
especificamente para as impressoras, o ‘Xerox Publishing Standards – A Manual of
Style and Design’.
Como já visto, o objetivo comum das linguagens controladas e dos parâmetros a seguir
para uma melhor qualidade, é que visam a simplificação do texto. Mas em que medida a
aplicação destas regras pode contribuir nos dois sentidos (tradução automática e
qualidade)? De seguida, iremos analisar mais no detalhe alguns dos parâmetros seguidos
para o controlo da qualidade de templates técnicos acima apresentados para os
confrontar com algumas das regras gerais das linguagens controladas e, ainda, com
sugestões encontradas em manuais de estilo para a escrita técnica (tal como o
‘Microsoft Manual of Style for Technical Publications (MSTP)’ acima mencionado).
Convém aqui apresentar a definição de “manual de estilo” feita por Byrne (2012), para
evidenciar as diferenças entre manuais de estilo e linguagens controladas e para vermos
ao mesmo tempo as semelhanças com as diretrizes do controlo da qualidade. Byrne
(2012, p.142) fala da opção de algumas empresas por manuais de estilo em detrimento
das linguagens controladas:
“Many companies and organizations seek to standardize the language used in their
documents by means of style guides. A style guide is a set of standards, or guidelines which
70
govern the way in which documents are written and presented. They are less strict than
controlled language and their aim is to provide a clear set of guidelined for writers to help
them produce documents which are consistent and which are easy to understand [...]”
No âmbito da redação de emails para utilizadores finais é interessante analisar as regras
de controlo da qualidade para ver os pontos de encontro com a escrita técnica e com as
linguagens controladas para a tradução automática.
Em (1) por exemplo, fala-se na importância da gramática e da ortografia utilizadas pelo
agente no email que devem ser corretas. De facto, os sistemas de tradução automática, e
os computadores em geral, não conhecem o mundo e o reconhecimento das palavras é
feito através da sequência de carateres, daí o sistema não conseguir traduzir se a palavra
for escrita incorretamente. Além disso, no que diz respeito ao controlo da qualidade, o
envio de conteúdos gramaticalmente não corretos é uma demonstração clara de falta de
profissionalismo, o que pode prejudicar a imagem da empresa junto dos seus clientes.
Mais relacionadas com a simplificação do texto são a regra (2) e a (6) que falam
respetivamente do comprimento da frase e da simplificação do conteúdo/layout. Quanto
mais simples for a frase, mais fácil e rapidamente o sistema de tradução automática
conseguirá analisá-la, descodificá-la e traduzi-la. Estruturas complexas fazem com que
o sistema não seja capaz de reconhecer os constituintes e as suas relações.
A simplicidade e comprimento das frases são um tema abordado em todos os manuais
de estilo técnicos analisados. É o caso do manual da Xerox:
“Vary the length and complexity of sentences. Keep most sentences short and simple.”
Isto, mesmo sem ter em vista a posterior tradução, vai simplificar a leitura na língua de
partida também para os falantes nativos permitindo uma compreensão completa.
71
Em (3) aborda-se o tema das abreviaturas que, assim como o uso de palavras ambíguas,
podem contribuir para a complicação do enunciado e podem ser um obstáculo para a
tradução (a lista de abreviaturas de um dicionário pode não ser exaustiva). Outra
alternativa, apenas para a tradução automática, seria inserir estas abreviaturas na
linguagem controlada com a devida atenção à ambiguidade (Mitamura, 1999, p.47) :
“When we design acronyms and abbreviations for controlled language, we need to make
sure that their use will not cause ambiguity problems.”
Para além das abreviaturas, outra barreira para os sistemas de tradução automática é,
sem dúvida, o uso de linguagem coloquial, como especificado na regra (5), devido ao
facto de muitas das palavras não constarem nos dicionários, sendo reservadas ao uso
oral e muitas das estruturas gramaticais nunca terem sido formalizadas e poderem
revelar-se intraduzíveis (sobretudo para sistemas baseados em regras).
Relativamente à regra (4) e à questão de não utilizar jargão técnico, é preciso sublinhar
a importância, no âmbito das linguagens controladas técnicas, do uso de dicionários
específicos da área. Neste caso “evitar o uso de jargão técnico” podia ser visto como
uma tentativa de simplificação para os utentes não experientes e uma menor necessidade
de recorrer a um dicionário específico da área usando palavras de dicionários “comuns”.
Como é óbvio, isso nem sempre é possível, tendo em conta que as bases de dados
terminológicas têm sempre de ser o mais completas possível e que é necessário limitar o
uso de alguns termos sinónimos logo no início da organização do conjunto de restrições.
No ‘Microsoft Manual of Style for Technical Publications (MSTP)’, a empresa explica
a utilização do “technical jargon” dizendo que (Microsoft, 2012, p.66)
“[…] In the right context, for a particular audience, jargon can serve as verbal shorthand for
well-understood concepts. For example, technical terms are normally acceptable in
72
documentation for software developers and information technology professionals, who
expect a higher level of technical rigor.”
A Microsoft (ibidem) também acrescenta o perigo que o “jargon” pode constituir para
os utentes finais que não são especialistas da área e que poderiam ficar confundidos com
a utilização de certos termos da área
“[...] home users and information workers, do not want to learn a new vocabulary to
accomplish their goals. Many such users believe that technical terms make technology
harder to understand and therefore harder to use. They prefer that concepts be explained
plainly in everyday words or (better yet) that the products they use make such explanations
unnecessary.”
A Xerox (1988, p.3-40) também sugere evitar a utilização de termos que possam não ser
familiares aos utentes finais:
“Every trade has its own buzzwords and jargon. Some of these words become standard
because they meet a need—"software" is an example. Others like "feature-rich" are vague
and short-lived.
One way to handle jargon is to identify the intended users of the publication. Be careful in
using words that have special meanings that are not obvious to a customer. For example,
"landscape orientation" is a familiar phrase to those who use electronic printing. To others,
it may suggest a form of art or nothing at all. Either explain such terms or find a substitute
that is clear to everyone.”
Por fim, no manual de estilo da Apple (2013), também há uma referência ao ‘jargon’:
“Avoid jargon whenever possible. Define technical terminology on first occurrence.”
(https://help.apple.com/asg/mac/2013/#apsg1f285953)
A última regra (7), visa a simplificação do layout prevendo a introdução de listas para
distinguir de forma mais simples e rápidas as diferentes tarefas. De facto, através da
organização dos vários passos a executar em forma de lista evita-se a articulação/ligação
73
das frases por meio das conjunções, permitindo uma análise mais linear por parte dos
sistemas de tradução automática.
O ‘Microstof Manual’ também fala da importância da introdução de listas na escrita de
documentos técnicos fazendo uma distinção entre “bulleted” e “numbered”. Segundo a
empresa norte-americana, o primeiro tipo tem de ser utilizado para (Microsoft, 2012,
p.49)
“an unordered series of concepts, items, or options rather than a sequence of events or
steps.”
E o segundo para
“ procedures or other sequential lists”
Para a Apple (2013) a ‘bulleted list’ é a escolha mais adequada para
“to stress the parallelism of a number of options, elements, rules, or instructions that need
not be presented or performed in a particular order.”
(https://help.apple.com/asg/mac/2013/#apsg1f2857c1)
Aconselha-se a ‘numbered list’
“to stress the sequential nature of steps, rules, or instructions. In numbered task lists (steps),
each item should be a complete sentence. Use sentence-style capitalization for each item
and end each item with closing punctuation.” (ibidem)
Como observado, parece possível estabelecer regras para um italiano controlado de
forma a ir ao encontro das diretrizes do controlo da qualidade (e ao mesmo tempo dos
parâmetros de escrita técnica), sendo muitos dos objetivos de base partilhados. Desta
maneira, é possível construir um conjunto de regras que permitam realizar textos de boa
qualidade (inputs) que possam transformar-se em traduções (outputs) com igual nível de
qualidade reduzindo custos e aumentando a produtividade.
74
Cabe salientar que o uso de uma linguagem controlada no contexto do apoio ao cliente
não permitiria apenas a criação de templates ajudando os autores das várias línguas a
redigir textos apropriados e de ótima qualidade mas, sobretudo, facilitaria a tradução em
várias línguas, o que é, sem dúvida, uma mais valia, nomeadamente no que diz respeito
a mercados mais pequenos que têm menor produção de textos e que poderiam beneficiar
das produções dos mercados maiores através do processo de tradução dos textos por
eles já redigidos. Em particular para o par de línguas escolhido (italiano-português) e no
contexto de help desks localizados em Portugal, a utilização de uma linguagem
controlada na redação de templates contribuiria, em fase de tradução, para um aumento
relevante da produtividade sendo a maioria dos templates produzidos em primeiro lugar
em italiano (e em quantidades maiores em comparação com o português) e devendo ser
traduzidos para português de uma maneira rápida, ainda que com a intervenção de um
número restrito de agentes bilingues.
No próximo capítulo iremos analisar os exemplos extraídos do corpus escolhido para a
criação do conjunto de regras do italiano controlado. A escolha dos exemplos e a
formação das regras visam, em primeiro lugar, contornar as falhas e os problemas do
sistema de tradução automática utilizado, o SYSTRANet, e, subsidiariamente, ir ao
encontro das necessidades expostas nas diretrizes do controlo da qualidade discutidas
neste parágrafo quer para o texto em italiano, quer em termos de output de tradução
automática para português.
75
4. OS LIMITES DA TRADUÇÃO AUTOMÁTICA: ESTUDO DE CASOS
Para estabelecer restrições é necessário efetuar testes em sistemas de tradução
automática com vista a identificar os problemas dos outputs e, nessa base construir um
conjunto de restrições/regras capazes de os contornar.
Para efetuar estes testes (do italiano para o português) foi utilizado o sistema de
tradução automática gratuito SYSTRANet (apresentado no parágrafo 2.4.5), o qual
apresenta inúmeros desafios quer a nível sintático quer a nível lexical.
Os resultados obtidos referem-se a testes efetuados em determinados dias (a data dos
testes será referenciada) podendo deixar de fazer sentido no futuro, face às eventuais
atualizações do sistema.
A seguir são apresentados alguns dos fenómenos linguísticos examinados aquando dos
testes no sistema SYSTRANet, assim como a possível resolução dos problemas
encontrados, através da introdução de regras como as acima referidas. Todos os
exemplos são extraídos de templates, manuais, fóruns, sites dos fabricantes de
impressoras mencionados na apresentação desta dissertação. Juntamente com a
apresentação do texto original (ou seja o exemplo do fenómeno a evitar) e da tradução
realizada pelo sistema, o mesmo exemplo será sucessivamente retomado, evidenciando
a aplicação da estratégia enunciada na regra em causa e acompanhado da consequente
tradução oferecida por SYSTRANet. Deste modo será possível ver a contribuição da
linguagem controlada a nível do processo de tradução automática. Além das vantagens
em termos de tradução, serão igualmente analisados os benefícios em termos de
melhoria da qualidade do input segundo as diretrizes de controlo da qualidade aqui já
analisadas.
76
Há que sublinhar que todos os testes foram efetuados no sistema SYSTRANet sem a
criação de uma conta, ou seja com a versão disponibilizada online para qualquer
utilizador. A SYSTRANet permite a criação de uma conta gratuita que dá acesso a
outras funcionalidades que serão exploradas no capítulo acerca do léxico informático e
da terminologia, porém a introdução de termos no dicionário altera a tradução feita pelo
sistema (sejam esses termos utilizados ou não, questão que será analisada no específico
em 4.5.1) e por esta razão, optou-se pela utilização do sistema em regime “livre”.
Em 4.1, será apresentada a questão ligada à simplificação de predicados complexos
através do uso de expressões verbais atómicas.
Em 4.2, falar-se-á das orações participiais e de como, embora ajudando a reduzir o
comprimento da frase, criam dificuldades de processamento ao sistema.
Em 4.3, são apresentadas as conjunções e locuções conjuncionais coordenativas e
subordinativas. Apesar de a subordinação aumentar o grau de complexidade das frases,
são apresentadas algumas estratégias para contornar estes problemas com base nas
falhas do sistema, e especificamente para o par de línguas aqui em causa.
Em 4.4, será abordada a questão da ortografia (nomeadamente no que diz respeito à
correta grafia de acentos) e das omissões de constituintes nas frases.
Em fim, o parágrafo 4.5 aborda a temática do léxico informático apresentando temas
como a importância da consistência terminológica e a criação de novos termos
informáticos, assim como um glossário informático italiano-português e a
funcionalidade ‘Meu Dicionário’ do sistema SYSTRANet.
77
4.1 PREDICADOS COMPLEXOS
A simplificação de um texto facilita, como já discutido anteriormente, a análise dos
constituintes por parte dos sistemas de tradução e a compreensão das informações para
os utilizadores. O uso de predicados complexos pode, portanto, interceder no processo
de tradução constituindo mais uma barreira. Neste caso específico foram introduzidos
testes com predicados complexos de dois tipos: predicados constituídos por verbo leve
seguido de um nome derivado (também chamado ‘nome deverbal’) ou por verbo leve
seguido de sintagma preposicional.
No guia “Redigir com clareza” (2011, p. 8) da Comissão Europeia também encontramos
uma referência a este assunto: propõe-se a substituição de predicados complexos como
‘proceder à avaliação de’, ‘realizar uma investigação’, ‘ter em consideração’ por,
respetivamente, ‘avaliar’, ‘investigar’ e ‘considerar’.
No corpus analisado, são vários os exemplos de verbos seguidos de um nome derivado
que não são processados corretamente pelo sistema. Uma das caraterísticas destas
construções é, como Duarte et al. (2009, p. 49) afirmam numa análise sobre o português
europeu, a
“possibility of paraphrasing the sequence <light V + deverbal N> with a main verb,
morphologically related to the noun”
ou seja, as expressões podem ser simplesmente parafraseadas pelos verbos plenos
correspondentes devido ao facto de estes preservarem parte do significado e da
“estrutura argumental” dos mesmos (Duarte et al., 2009).
Como iremos ver nos exemplos que seguem, esta caraterística também se aplica às
construções em italiano. Repare-se que todos os exemplos apresentados em português
resultam da tradução automática realizada através do sistema SYSTRANet:
78
(1) (a)
IT - Fare clic per scaricare il file.
PT - *Fazer clica para descarregar o ficheiro.
Na tradução da expressão complexa “fare clic” constituída por verbo leve “fare”
(“fazer” em português) mais o substantivo “clic”, decalque do inglês onomatopaico
“click”, e termo oficial em italiano no domínio informático, o sistema SYSTRANet não
a reconheceu como uma única unidade de sentido acabando por traduzir “clic”
incorretamente.
Substituindo a construção em causa por uma expressão atómica, o sistema consegue
processar corretamente o termo (que estará portanto corretamente listado entre as
entradas do dicionário) e apresentar uma tradução correta:
Exemplo (1) (b)
IT - Cliccare per scaricare il file
PT - Clicar para descarregar o ficheiro
O mesmo problema acontece, como expectável, com o “doppio clic” italiano, decalque
do inglês “double-click”:
(2) (a)
IT: Fare doppio clic per scaricare il file
79
PT: *Fazer duplo clica para descarregar o ficheiro
Neste caso o problema foi resolvido utilizando o verbo atómico “cliccare”
(correspondente português de “carregar”) mais a expressão de frequência “duas vezes”
para expressar o “double-click”:
(2) (b)
IT: Cliccare due volte per scaricare il file
PT: Clicar duas vezes para descarregar o ficheiro
Tomemos agora em conta outro exemplo de verbo seguido por nome derivado: a
expressão não atómica “avere accesso”, constituída pelo verbo leve “avere”, “ter” em
português, mais o nome derivado “accesso” (PT: acesso).
(3) (a)
IT - Cliccare per avere accesso al dispositivo.
PT - *Clicar por ter acedido ao dispositivo.
No exemplo (3) (a) o nome derivado italiano “accesso” é traduzido pelo particípio
passado do verbo “aceder” em português. Substituindo, mais uma vez, por uma
expressão atómica o problema desaparece:
80
(3) (b)
IT - Cliccare per accedere al dispositivo.
PT - Clicar para aceder ao dispositivo.
Outro exemplo analisado são as expressões com o verbo “dare” (em português “dar”),
que também é frequentemente utilizado como verbo leve em predicados complexos. A
expressão não atómica “dare avvio” com o significado de “avviare” (“iniciar” em
português) é utilizado nos manuais informáticos, nomeadamente para explicar a fase de
instalação do software. Vejam-se os exemplos:
(4) (a)
IT - Prima di dare avvio alla procedura.
PT - *Antes de dar de partida ao procedimento.
Com introdução do verbo “avviare”:
(4) (b)
IT - Prima di avviare la procedura.
PT - Antes de iniciar o procedimento.
81
Algumas expressões não atómicas, mesmo que processadas corretamente pelo sistema,
são principalmente utilizadas na oralidade e podem ser consideradas “expressões
coloquiais”. Tratando-se, no nosso caso, de uma linguagem que também visa à melhoria
do input para fins de controlo da qualidade, outras expressões com o verbo ‘dare’ usado
como verbo leve que é aconselhável evitar são as seguintes:
Verbo leve + nome derivado:
- ‘dare aiuto’ -> ‘aiutare’ (PT: ajudar)
- ‘dare il via’ -> ‘avviare’ (PT: iniciar)
- ‘dare fine’ -> ‘terminare’ (PT: acabar)
- ‘dare occasione’ -> ‘causare’; ‘provocare’ (PT: causar)
- ‘dare vita’ -> ‘generare’; ‘creare’; ‘organizzare’ (PT: gerir; organizar)
Verbo leve + sintagma preposicional:
- ‘dare luogo a’ -> ‘essere causa di’; ‘originare’ (PT: ocasionar, ser causa de)
Verbo leve + preposição:
- ‘dare per’ -> ‘affermare’ (PT: afirmar)
Em todos os casos apresentados, o uso da construção verbal atómica correspondente deu
resultados melhores, pelo que se lhes dá preferência no italiano controlado que aqui se
propõe.
82
Também no caso de verbos leves seguidos de sintagma preposicional a expressão
atómica é a melhor opção para o correto processamento por parte do sistema
SYSTRAN:
(5) (a)
IT - Mettersi in contatto con l'assistenza tecnica.
PT - Pôr-se em contacto com a assistência técnica.
A versão atómica da expressão é, tipicamente, mais usada neste contexto:
(5) (b)
IT - Contattare l'assistenza tecnica
PT - Contactar a assistência técnica
Neste caso específico, há outra expressão não atómica que poderá ser utilizada para
substituir a italiana “mettersi in contatto” em (5) (a), ou seja, “entrare in contatto”.
Como já visto anteriormente, o sistema não reconhece a expressão como uma unidade
de sentido e opta por uma tradução palavra a palavra que, no caso de “entrare in
contatto” dará bons resultados em português devido ao facto de a expressão também
existir na língua de chegada e selecionar a mesma preposição (IT: “con”; PT: “com”):
(5) (c)
83
IT- Entrare in contatto con l’assistenza tecnica.
PT - Entrar em contacto com a assistência técnica
Tentando também dar conta, no caso específico deste trabalho, da simplificação do texto
de partida para aumentar a legibilidade, optar sempre pela construção atómica parece
ser a melhor opção para ir ao encontro dos objetivos de melhoria da tradução automática
e para respeitar as regras do controlo da qualidade. Como a análise mostrou, os
predicados complexos que integram um verbo leve seguido de um nome ou de um
sintagma preposicional não são reconhecidos no sistema SYSTRAN como unidades de
sentido levando a traduções incorretas. A substituição dos mesmo por expressões
atómicas, contudo, permite o correto processamento, reduz a extensão da frase e, além
disso, aumenta o grau de legibilidade para o utente final constituindo a sugestão ideal
para a construção da linguagem controlada aplicada no contexto do controlo da
qualidade.
4.2 ORAÇÕES PARTICIPIAIS
Como já foi visto anteriormente, para garantir uma tradução de boa qualidade é
necessário utilizar frases o mais curtas possíveis. Quer na escrita técnica, quer nas
sugestões básicas e regras gerais de muitas linguagens controladas, o comprimento
aconselhado ronda as 20 palavras por frase.
O guia de redação de textos da Comissão Europeia também fornece sugestões acerca do
comprimento das frases:
“Os documentos mais curtos têm geralmente mais impacto, como aliás as frases curtas. O
ideal seria: 1 documento = 15 páginas, no máximo; 1 frase = 20 palavras em média (tendo o
84
cuidado de intercalar algumas frases mais curtas). Um dos grandes obstáculos à clareza nos
documentos da Comissão Europeia é o comprimento excessivo das frases. Tente dividi-las
em frases mais curtas.” (Redigir com clareza, 2011, p.6)
Porém, se bem que a divisão em frases mais curtas seja aconselhável, a brevidade de
uma frase pode colocar desafios a nível da estrutura e também da legibilidade. Um
exemplo prático disso é o uso de orações participiais de forma a reduzir o tamanho da
frase.
Mitamura (1999, p.47), apresentando os problemas e os desafios da criação da
linguagem controlada KANT, afirma que
“the use of participial forms, such as –ing and –ed, should be restricted”.
No caso específico do sistema SYSTRANet, no par linguístico italiano-português,
verificou-se um problema a nível da tradução das orações participiais adverbiais
temporais. De seguida apresenta-se um exemplo dos testes introduzidos no sistema:
(6) (a)
IT - Terminata l'installazione, chiudere il programma.
PT - *Terminado a instalação, fechar o programa.
Assim, embora a frase reflita os padrões de brevidade e clareza estabelecidos quer para
as linguagens controladas, quer para o controlo da qualidade, o uso do particípio no
início da frase cria uma dificuldade no processo de tradução. O que aparentemente
apareceria como um problema ligado à oração participial, revela-se, através de
ulteriores testes introduzidos no sistema como um problema nas especificações do
sistema no que diz respeito ao português que não incluem flexão em género dos
85
particípios. Como sabemos, quer em italiano, quer em português o particípio concorda
sempre em número e género com os nomes. Acerca disso é interessante ver que
introduzindo testes com o particípio no plural do masculino o sistema consegue
processar corretamente a informação, sendo esta especificação presente:
(7) (a)
IT: Installati i dispositivi, chiudere la finestra.
PT: Instalados os dispositivos, fechar a janela.
Ao inverter a ordem particípio + SN (IT - “l’installazione terminata”), o sistema
consegue oferecer uma boa tradução (PT - “a instalação terminada”). Assume-se que no
caso de orações participiais com a ordem SN + particípio o sistema interpete o
particípio como um adjetivo fazendo, então, a concordância.
Sempre que possível, portanto, deve evitar-se esta estrutura (particípio + SN) nos casos
de concordância do particípio com um substantivo no feminino e optar por utilizar uma
oração com tempo finito, como no exemplo seguinte:
(6) (b)
IT - Dopo aver terminato l'installazione, chiudere il programma
PT - Após ter terminado a instalação, fechar o programa
86
Veja-se abaixo outro exemplo de uma oração participial extraído de um template de
resposta dirigido a um utente final e no qual o sistema não consegue ligar o particípio
“segnalati” ao substantivo plural “problemas”, sujeito da frase, devido ao facto de os
dois serem divididos por material linguístico (nomeadamente o complemento “di
installazione”):
(8) (a)
IT - I problemi di installazione segnalati.
PT - *Os problemas de instalação assinalada.
Quando os elementos em que a concordância tem de se manifestar não estão em posição
de adjacência, o sistema não consegue fazer a concordância e acaba por relacionar
“assinalada” a “instalação” em vez de “problema”. Este erro do sistema, pode ser
resolvido com recurso à utilização de uma relativa, como no exemplo que segue:
(8) (b)
IT - I problemi di installazione che ci ha segnalato.
PT - Os problemas de instalação que nos assinalou.
Além dos benefícios em termos de tradução, a substituição das construções com
participais por outras que tornem mais óbvia a relação entre os constituintes aumenta
também a clareza do texto de partida.
87
4.3 COORDENAÇÃO E SUBORDINAÇÃO
A coordenação e a subordinação, operações altamente produtivas das línguas naturais,
acarretam, em certos casos, dificuldades ao processamento computacional, em geral, e à
tradução automática, em particular.
Daí que a recomendação de frases simples, como vimos anteriormente, abunde na
literatura sobre controlo da linguagem quer para tradução automática quer para a
redação de textos de acordo com as diretrizes do controlo da qualidade: em 4.3.1 e em
4.3.2 iremos, portanto, ver como o sistema SYSTRANet reage perante a utilização de
determinados elementos de coordenação e de subordinação e como podem ser
substituídos quando os resultados obtidos não são os desejados.
4.3.1 COOR DEN AÇ ÃO
Em quase todos os manuais de estilo e guias de escrita técnicas encontramos referências
à coordenação entre múltiplas frases com vista a alertar acerca dos benefícios de separar
as várias informações dirigidas ao cliente ou aos técnicos de maneira simples.
No caso da conjunção correspondente à portuguesa “nem”, o sistema traduz a conjunção
“né” (com acento agudo) por “nascido” e “nè” (com acento grave) por “nem”. No
dicionário do SYSTRAN aparecem listadas as duas versões da conjunção, mesmo sendo
só a primeira (né), a grafia correta em italiano. De facto, como é possível constatar nas
figuras 1 e 2, as duas versões (correta e errada) da conjunção fazem parte do dicionário
mas em vez de serem traduzidas da mesma maneira como o dicionário indica são, em
fase de tradução, processadas diferentemente.
88
FIG. 5 CONSULTA DO DICIONÁRIO DO SYSTRAN PARA A CONJUNÇÃO COORDENATIVA COPULATIVA
NEGATIVA “NÉ” (ITALIANO -> PORTUGUÊS)
FIG. 6 CONSULTA DO DICIONÁRIO DO SYSTRAN PARA A CONJUNÇÃO COORDENATIVA COPULATIVA
NEGATIVA “*NÈ” (ITALIANO -> PORTUGUÊS)
Devido, provavelmente, a esta dupla entrada no dicionário, o sistema não interpreta o
termo “né” como conjunção coordenativa copulativa negativa, mas sim como o
particípio passado francês do verbo “naître” (“nascer” em português) que, de facto, se
escreve “né” com acento agudo como a conjunção italiana. O facto deixa pressupor que
o sistema se apoie no francês. Mas a confirmação desta hipótese seria necessário
89
despistar outros casos, o que não cabe nos objetivos deste trabalho. Assume-se, assim,
tratar-se de um erro no dicionário do sistema. Veja-se o exemplo:
(9) (a)
IT: Per questo modello non esistono né saranno sviluppati in futuro.
PT: *Para este modelo não existem nascidos serão desenvolvidos em futuro.
Para contornar este problema do sistema, existem várias opções: a primeira seria, como
parece óbvio, corrigir a entrada do dicionário (no parágrafo dedicado à terminologia
iremos ver a utilização de um dicionário pessoal). No contexto deste trabalho, porém, é
uma opção a ser excluída devido ao facto de não serem previstas alterações do sistema
além da utilização do dicionário pessoal como acima mencionado.
A segunda opção, ou seja redigir o texto de partida já com o erro gráfico, seria aceitável
no contexto da tradução automática sendo a qualidade do output irrelevante. Contudo, a
linguagem controlada aqui desenvolvida visa atuar também a nível de melhoria do
input, se bem que não como objetivo primário, não sendo aceitável uma escolha
agramatical em fase de redação.
A alternativa que parece conciliar os objetivos da tradução automática e do controlo da
qualidade é muito simples e consiste em unir duas frases na forma negativa através da
conjunção coordenativa copulativa “e” que, sendo a mais simples, é sempre
devidamente identificada e traduzida para o português. A frase testada acima, escrita
seguindo a regra da linguagem controlada que diz para não utilizar a conjunção
coordenativa copulativa “né”, transformar-se-ia em:
90
(9) (b)
IT - Per questo modello non esistono e non saranno sviluppati in futuro.
PT - Para este modelo não existem e não serão desenvolvidos em futuro.
Outro problema surge com a utilização da locução “non solo...ma anche”, que tem como
correspondente em português “não só...mas também”:
(10) (a)
IT - Il dispositivo Lexmark X2480 include non solo uno scanner ma anche una
fotocopiatrice.
PT - O dispositivo Lexmark X2480 inclui não somente um scanner mas mesmo uma
fotocopiadora.
Os testes efetuados no sistema demonstraram que “anche” é sempre traduzido por
“mesmo”, independentemente da função que assuma.
Simplificar a frase consiste, neste caso também, em juntar as várias proposições com a
conjunção “e” mantendo o mesmo nexo semântico de adição. Veja-se o exemplo:
(10) (b)
IT - Il dispositivo Lexmark X2480 include uno scanner e una fotocopiatrice.
PT - O dispositivo Lexmark X2480 inclui um scanner e uma fotocopiadora.
91
Outros testes efetuados no sistema SYSTRANet demonstram que as maiores
dificuldades em termos de processamento de elementos de coordenação se colocam a
nível das locuções conjuncionais, que não são processadas como um conjunto, mas
antes analisadas separadamente. Vejam-se os exemplos seguintes:
(11) (a)
IT - Lo scanner funziona, nonostante ciò il dispositivo segnala un errore.
PT - *O scanner funciona, contra aquilo o dispositivo assinala um erro.
A utilização de conjunções simples, de apenas uma palavra, facilita a leitura do texto e o
processamento por parte do sistema e oferece melhor resultados de tradução.
Veja-se o resultado da substituição da locução conjuncional “NONOSTANTE CIÒ...”
pela conjunção “TUTTAVIA”:
(11) (b)
IT - Lo scanner funziona, tuttavia il dispositivo segnala un errore.
PT - O scanner funciona, contudo o dispositivo assinala um erro.
Outras conjunções coordenativas adversativas aceites em italiano para a substituição de
“nonostante ciò” são“ eppure” e “però”, podendo ser consideradas alternativas válidas e
aceitáveis caso o autor necessite de um sinónimo para evitar a repetição em fase de
redação:
92
(12) (a)
IT - La luce è arancione, eppure c'è carta.
PT - A luz é cor de laranja, no entanto há papel.
(13) (a)
IT - Nelle immagini si vede un dispositivo Lexmark T65x però le istruzioni (…)
PT - Nas imagens vê-se um dispositivo Lexmark T65x contudo as instruções (…)
A conjunção “però” sendo mais destinada ao uso oral em italiano, é de evitar tendo em
conta também a melhoria do input de acordo com o nível de formalidade exigido no
contexto empresarial.
Outro fenómeno de coordenação analisado é o da locução “SIA...CHE” correspondente,
em português, à locução “QUER...QUER” ou a “SEJA...SEJA”. O sistema
SYSTRANet não consegue identificar a locução por inteiro e, independentemente de a
mesma ser seguida de preposição, verbo ou substantivo, traduz como se segue:
(14) (a)
IT - Selezionare il tipo di carta sia per il vassoio 1 che per il vassoio 2.
PT - *Selecionar o tipo de papel ou seja para a bandeja 1 que para a bandeja 2.
93
(15) (a)
IT - Il dispositivo può sia stampare che fotocopiare.
PT - *O dispositivo pode ou seja imprimir que fotocopiar.
(16) (a)
IT - Il dispositivo é sia uno scanner che una fotocopiatrice.
PT - *O dispositivo é seja um scanner que uma fotocopiadora.
Os testes introduzidos no sistema demonstram que ao utilizar a locução “SIA...SIA”,
sinónima da locução “SIA...CHE”, este problema é facilmente resolvido e que, através
desta alteração, quer o input quer o output são de boa qualidade.
(14) (b)
IT - Selezionare il tipo di carta sia per il vassoio 1 sia per il vassoio 2.
PT - Selecionar o tipo de papel quer para a bandeja 1 quer para a bandeja 2.
(15) (b)
IT - Il dispositivo può sia stampare sia fotocopiare.
PT - O dispositivo pode quer imprimir quer fotocopiar.
(16) (b)
94
IT - Il dispositivo è sia uno scanner sia una fotocopiatrice.
PT - O dispositivo é quer um scanner quer uma fotocopiadora.
No que diz respeito à conjunção “OVVERO” o problema prende-se com o facto de a
mesma poder ter em italiano quer um valor disjuntivo (sinónimos “O”, “OPPURE”),
que pode ser traduzido em português por “OU”, quer um valor explicativo (sinónimo
“OSSIA”), que pode ser traduzido por “OU SEJA”. O SYSTRANet não consegue
atribuir à conjunção o valor explicativo, traduzindo sempre com uma conjunção com
valor disjuntivo, alterando o significado. Não havendo maneira de a máquina
reconhecer o valor explicativo no contexto, é preferível evitar o uso desta conjunção e
substitui-la com a não ambígua “OSSIA”. Vejam-se os exemplos abaixo:
(17) (a)
IT – Rimuovere la parte “B”, ovvero il cilindro verde.
PT - Tirar a parte “B”, ou o cilindro verde.
Substituindo “OVVERO” por “OSSIA”, o significado na língua de origem não é
alterado mas a ambiguidade é reduzida:
(17) (b)
IT – Rimuovere la parte “B”, ossia il cilindro verde.
PT - Tirar a parte “B”, ou seja o cilindro verde.
95
Outra locução coordenativa explicativa que o sistema reconhece e traduz corretamente
por “ou seja”, é a italiana “cioè”. Apesar de o sistema a processar corretamente, a sua
natureza menos formal em comparação com “ossia” faz com que, numa linguagem
controlada orientada também para o controlo da qualidade do input, seja mais
aconselhável optar pela utilização de “ossia”.
4.3.2 SUBO RDI NA ÇÃ O
As estruturas de subordinação colocam vários desafios a nível de processamento do
sistema de tradução automática, em particular no que concerne à seleção do tempo
verbal correto para a frase subordinada com valor condicional.
Em italiano, são subordinadas condicionais todas aquelas frases introduzidas por
conjunções tais como “se”, “qualora”, “purché”, “nel caso che”, “ammesso che”, “posto
che” e exprimem um facto ou uma situação (condição ou hipótese) da qual depende a
possibilidade que aconteça ou não aconteça o evento expresso na frase principal. Os
problemas principais com este tipo de subordinadas prendem-se, de facto, com a seleção
do tempo verbal que, muito frequentemente, difere do italiano para o português.
(18) (a)
IT - Qualora mancasse una parte, contattare l'assistenza tecnica.
PT - *No caso faltasse uma parte, contactar a assistência técnica.
(18) (b)
IT - Nel caso che funzioni, installare il dispositivo.
96
PT - *Ao caso que funciona, instalar o dispositivo.
No exemplo (18) (a), a conjunção italiana “qualora” é traduzida para português por “no
caso”. Além de o sistema não selecionar a preposição “de”, o verbo também permanece
no imperfeito do conjuntivo. Como no caso da coordenação, para a subordinação
também é aconselhável evitar o uso de locuções como em (18) (b): de facto, além de o
sistema não identificar a locução “nel caso che” como um conjunto, o tempo verbal do
italiano (presente do conjuntivo) é traduzido por um presente do indicativo. Procurando
ultrapassar estes problemas foram substituídas a conjunção “qualora” e a locução “nel
caso che” + presente do conjuntivo (18) (b) pela conjunção equivalente “se” (18) (c),
não regendo esta última nenhuma preposição, tanto em português como em italiano: a
escolha de uma conjunção, em vez de uma locução, é, mais uma vez, eficaz.
(18) (c)
IT – Se mancasse una parte, contattare l’assistenza tecnica.
PT – Se faltasse una parte, contactar a assistência técnica.
Contudo, onde o italiano utiliza o imperfeito do conjuntivo para expressar hipóteses em
português, o mesmo tempo verbal é utilizado em contraste com o futuro do conjuntivo
para exprimir contrafactualidade, sendo neste caso mais apropriado o uso do futuro do
conjuntivo.
97
Se bem que com a introdução da conjunção “se” a intervenção na fase de pós-edição
seja facilmente realizável, existe outra opção de edição do input que não só permite um
correto processamento por parte do sistema como também simplifica a leitura.
Em italiano faz-se a distinção entre o chamado “periodo ipotetico della realtà” (oração
hipotética da realidade) e o “periodo ipotetico della possibilità” (oração hipotética da
possibilidade). Enquanto o primeiro caso expressa uma hipótese real ou muito provável,
no segundo é possível mas não certa, contextos estes que o sistema não lê.
Para dar conta desta nuance, no “periodo ipotetico della realtà” utiliza-se o presente do
indicativo, no da “possibilità” o conjuntivo, Ao utilizar o “se” mais o presente do
indicativo na redação do input (18) (d), a frase em italiano é gramatical assim como o
output:
(18) (d)
IT – Se manca una parte, contattare l’assistenza tecnica.
PT – Se faltar uma parte, contactar a assistência técnica.
Outro fenómeno de subordinação ligado ao uso de tempos verbais diferentes em italiano
e português é a tradução da locução “anche se” (“mesmo que” em português), única
locução concessiva que seleciona o indicativo em vez do conjuntivo.
(19) (a)
IT - Sostituire la cartuccia anche se è nuova.
98
PT - *Subtituir o cartucho ainda que é novo.
Utilizando outra locução concessiva que nas duas línguas selecione o conjuntivo, o
sistema, como esperado, oferece bons resultados:
(19) (b)
IT - Sostituire la cartuccia sebbene sia nuova.
PT - Substituir o cartucho embora seja novo.
Assume-se, portanto, que o sistema não tenha especificações integrais dos tempos
verbais que as diferentes conjunções e locuções conjuncionais selecionam.
No que respeita à subordinação com valor final, em italiano e em português, a mesma
pode ser realizada utilizando respetivamente a preposição ‘per/para’ +
‘infinitivo/infinitivo pessoal’ ou utilizando uma locução subordinativa ‘affinchè/a fim
de que’ ou ‘perchè/para que’+ conjuntivo.
No caso da utilização de duas proposições com valor final interligadas por “para”
seguidas de dois pontos verificaram-se problemas de tradução quando a fase final
precede a subordinante, o que é um problema relevante para a linguagem controlada
aqui desenvolvida baseada na escrita técnica e na qual a utilização de listas é
considerável ajudando a simplificar radicalmente a estrutura do texto e a individuação
das várias instruções a seguir.
Veja-se o exemplo:
99
(20) (a)
IT - Per identificare il codice firmware attuale, scegliere una delle seguenti opzioni:
- scaricare l'ultimo firmware
- stampare una pagina interna
PT - *Identificar o código firmware atual, escolher uma das seguintes opções:
- descarregar o último firmware
- imprimir uma página interna
O sistema não reconhece a proposição “per identificare il codice firmware attuale”
como uma proposição final da frase principal “scegliere una delle seguenti opzioni”,
eliminando o “per”. Isto não acontece tirando o sinal de pontuação como no exemplo
que segue.
(20) (b)
IT - Per identificare il codice firmware attuale, scegliere una delle seguenti opzioni
PT - Para identificar o código firmware atual, escolher uma das seguintes opções
Em proposições em que o uso do sinal de pontuação é necessário e para fins de
simplificação dos enunciados através do uso de listas, aconselha-se a ordem frase
principal, frase subordinada. Desta maneira consegue-se contornar o problema do
sistema e continuar a utilizar listas a fim de aumentar o grau de legibilidade. Aplicando
100
a inversão da ordem dos dois enunciados, o sistema processa-os corretamente apesar da
presença dos dois pontos no final da frase:
(20) (c)
IT - Scegliere una delle seguenti opzioni per identificare il codice firmware attuale:
- scaricare l'ultimo firmware
- stampare una pagina interna
PT - Escolher uma das seguintes opções para identificar o código firmware atual:
- descarregar o último firmware
- imprimir uma página interna
Cabe mencionar que em italiano, construções deste tipo privilegiam a ordem frase
subordinada - frase principal. Contudo, sendo aceitável e completamente gramatical a
ordem sugerida para contornar a falha do sistema de tradução, foi incluída no fragmento
de regras.
Outro problema, não ligado desta vez à escolha do tempo verbal ou à pontuação, surge
com a utilização da conjunção italiana “quindi” com valor temporal. A conjunção é, de
facto, utilizada em frases subordinadas temporais tendo o significado de ‘em seguida’ e
em frases coordenativas explicativas com o significado de ‘portanto’, ‘por isso’, ‘por
conseguinte’. Os testes efetuados no sistema revelaram que o primeiro valor não é
101
identificado pelo sistema e que a conjunção, independentemente da sua utilização na
língua de partida, é sempre traduzida por ‘por conseguinte’:
(21) (a)
IT - Attendere 30 secondi, quindi ricollegare il cavo elettrico.
PT - Esperar 30 segundos, por conseguinte reconectar o cabo elétrico.
Sugere-se, portanto, evitar utilizar a conjunção “quindi” com valor temporal,
substituindo-a com uma lista numerada:
(21) (b)
IT – 1. Attendere 30 secondi;
2. Ricollegare il cavo elettrico.
PT – 1. Esperar 30 segundos;
2. Reconectar o cabo elétrico.
Como mencionado na secção 3.3 e aconselhado em vários manuais de escrita técnica de
diferentes empresas informáticas, as listas numeradas simplificam a estrutura dos
enunciados e devem ser utilizadas, sempre que possível, para expressar sequencialidade.
102
4.4 ORTOGRAFIA E OMISSÃO DE PARTES DE CONSTITUINTES
Uma das regras do controlo da qualidade refere-se à importância do uso de uma
gramática e ortografia corretas (Regra nº 1 - O agente utiliza gramática e ortografia
corretas no email).
Como é óbvio, os erros ortográficos devem, por princípio, ser evitados, pois além de
serem considerados uma falta de profissionalismo no contexto empresarial, também
podem dificultar a compreensão, quer para uma pessoa quer para um sistema de
tradução automática.
Ao evitar os erros ortográficos e de digitação cumprem-se os padrões de qualidade
mantendo o nível de profissionalismo adequado, simplifica-se a leitura e, mais
importante para o trabalho em questão, permite-se a tradução automática.
Especialmente para os sistemas de tradução automática disponíveis online, os erros
ortográficos e de digitação são um problema relevante (cf. Galinskaya et al., 2014).
Na mesma pesquisa de Galinskaya et al. (2014, p. 2684), os autores analisam o impacto
dos vários erros que tornam os textos “noisy” dividindo-os em quatro categorias:
1) word breaking errors;
2) misspellings;
3) wrong capitalization;
4) wrong punctuation.
Em italiano o verbo “ser” na terceira pessoa do singular do indicativo escreve-se “è”,
com acento grave. Um dos erros mais frequentes, sobretudo quando se trabalha em
programas com correção automática para o português, é a troca do acento grave para um
acento agudo de acordo com a grafia do português. Introduzindo frases deste tipo no
103
sistema SYSTRANet, verificou-se que a tradução é comprometida ao utilizar uma
ortografia incorreta:
(22) (a)
IT – La porta anteriore é nera.
PT - A porta anterior é preto.
O sistema não consegue, neste caso, perceber que o adjetivo “preto” está relacionado
com “a porta”, traduzindo sem ter em conta que se trata do feminino.
O problema pode ser facilmente contornado, utilizando a ortografia correta:
(22) (b)
IT – La porta anteriore è nera.
PT - A porta anterior é preta.
O sistema utiliza o reconhecimento de sequências de carateres pelo que, se as palavras
contiverem erros ortográficos, não conseguirá encontrar a palavra correspondente no
seu dicionário alterando, assim, a estrutura da frase e as relações entre os seus
constituintes. Passar um texto por um corretor ortográfico da língua de partida costuma
resolver, como é óbvio, a maior parte destes problemas.
As frases também devem ser o mais gramaticalmente completas possíveis, devido ao
facto de o sistema não conseguir analisar a frase corretamente se alguns dos
104
constituintes faltarem. Um dos exemplos mais simples é representado pela omissão dos
artigos, muito frequente nos textos técnicos redigidos em italiano e que é necessário
evitar:
(23) (a)
IT – Cavo elettrico e dispositivo sono nella scatola.
PT – *Cabo elétrico e dispositivo está na caixa.
Com introdução dos artigos:
(23) (b)
IT – Il cavo elettrico e il dispositivo sono nella scatola
PT – O cabo elétrico e o dispositivo estão na caixa
Existem depois outros problemas ligados à ausência de parte dos constituintes que são
causa do não reconhecimento, por parte do sistema, da correta classe gramatical: é o
caso de ‘piano dello scanner’ que designa o ‘vidro do scanner’ mas é traduzido por
“devagar do scanner” quando introduzido no sistema sem artigo (frequente em caso de
listas descritivas de peças/componentes de uma impressora). De facto, ‘piano’ em
italiano pode designar uma surpefície plana, geralmente horizontal, sendo neste caso um
substantivo masculino ou pode ter o significado de ‘devagar’, sendo neste caso um
advérbio. A simples introdução do artigo faz com que o sistema reconheça a sequência
105
‘Det + N’ e, portanto, ‘piano’ como substantivo, traduzindo-o por ‘plano’ (um dos
diferentes sentidos em português sendo mesmo o de superfície lisa e plana3).
No que diz respeito à terminologia, as questões serão abordadas na secção específica
(4.5), contudo, cabe mencionar neste contexto a omissão muito frequente das
preposições nos termos técnicos compostos em italiano (e na formação de nomes
específicos de menu de configuração da impressora), o que não acontece no caso do
português. Veja-se uma lista de exemplos extraídos do corpus:
Italiano Português
1 Supporto carta Suporte do papel
2 Grammatura carta Peso do papel
3 Impostazione formato carta Definição do tamanho do papel
4 Regolazione luminosità Ajustar o brilho
5 Regolazione contrasto Ajustar o contraste
6 Gestione inchiostri Gestão de tinta
7 Recupero Stampa Recuperação da impressão
8 Protezione pagina Proteção de página
9 Destinazione trasferimento Destino do download
10 Allineamento testine Alinhamento das cabeças
11 Dispositivo archiviazione
dati
Dispositivo de armazenamento
de dados
3 Dicionário Priberam da Língua Portuguesa [em linha], 2008-2013,
http://www.priberam.pt/dlpo/plano [consultado em 25-07-2014]
106
De facto, um dos aspetos mais caraterizadores da linguagem informática italiana é a
redução das preposições, vistas pelos especialistas como inúteis e redundantes. As
preposições que mais são objeto de omissão são a preposição “di” (“de” em português)
como no caso “Supporto carta” para “Supporto della carta” e a preposição “per” (‘para’
em português) como em ‘Dispositivo archivazione dati’ per ‘disco per archiviazione dei
dati’ (‘dispositivo de armazenamento de dados’, em português) (Sosnowski, 1998).
A criação de um glossário específico da área (secção 4.5.2) com introdução dos termos
compostos resolve problemas como o apresentado.
4.5 LÉXICO INFORMÁTICO
Uma das caraterísticas fundamentais de um texto técnico é, sem dúvida, a frequente
ocorrência de termos especializados, enquanto, um dos elementos fundamentais de uma
linguagem controlada é a restrição do vocabulário.
Neste parágrafo, será abordada a questão do léxico informático sob estes dois aspetos: a
terminologia própria da área e a restrição do vocabulário, a fim de reduzir as
ambiguidades.
Dada a importância da terminologia no contexto da tradução automática e no das
linguagens especializadas, decidiu-se, proceder a uma análise de vários aspetos que
compreendem o recurso ao empréstimo na língua italiana e a importância da
consistência terminológica no contexto da tradução automática e da escrita técnica e
empresarial.
Acerca da relevância da terminologia no âmbito da tradução automática, Cremers
(2011, p.3) afirma que os sistemas de tradução automática
107
“will only produce high quality translations if the system ‘knows’ the domain terminology
and corresponding translations.”
No que diz respeito às linguagens controladas, Mitamura e Nyberg (1995) indicam que,
para definir um vocabulário controlado, é necessário analisar documentos pré-existentes
no domínio específico da linguagem controlada a desenvolver.
Com base nestas duas afirmações, após análise detalhada do corpus inicialmente
selecionado, procedeu-se à criação de um glossário bilingue da área da informática
(com uma percentagem mais elevada de termos técnicos relativos a impressoras).
Em 4.5.1, será apresentada a função “Meu Dicionário” para a criação de glossários
personalizados mostrando as melhorias e os problemas que derivam da sua utilização
aquando da tradução automática de textos do corpus.
Em 4.5.2, será apresentado o glossário bilingue constituído, assim como será abordada a
questão da importância da consistência terminológica.
Em 4.5.3, falar-se-á da criação de novos termos na área da informática, da utilização dos
empréstimos do inglês no italiano informático e da importância da manutenção dos
dicionários para os sistemas de tradução automática.
4.5.1 A FU NÇ ÃO “M EU DIC ION ÁRI O” DO SISTE MA SYSTRANET
O sistema SYSTRANet permite, através da criação de uma conta gratuita, a organização
e gestão de um dicionário pessoal no qual é possível inserir o termo na língua de
partida, o correspondente na língua de chegada e escolher a categoria gramatical do
mesmo. Outra opção, chamada DNT (Do not translate), quando selecionada deixa
invariável o termo de partida.
As opções listadas para a escolha da categoria gramatical são as seguintes:
108
1 Detect (deteção automática da categoria gramatical correspondente)
2 Noun
3 Proper Noun
4 Acronym
5 Verb
6 Adjective
7 Sequence
8 Preposition
9 Adverb
Tabela nº 1 – lista das categorias gramaticais da função “Meu dicionário” do
sistema SYSTRANet.
A nível da interface, o sistema é de simples utilização: através de uma lista é possível
escolher a língua de partida e de chegada. Para a transposição de um termo da língua de
partida para a língua de chegada (DNT – Do Not Translate) é apenas necessário
selecionar a opção e é possível escolher a categoria gramatical a partir de um menu
drop-down. (veja-se na Figura 7 a interface do sistema)
FIG. 5 INTERFACE DA APLICAÇÃO “MEU DICIONÁRIO” DO SISTEMA SYSTRANET
Cabe salientar que as entradas do dicionário criado pelo utente serão a primeira escolha
do sistema, como a SYSTRAN indica na descrição das funcionalidades da ferramenta:
109
“SYSTRANet lets you quickly create a personal dictionary that supersedes the SYSTRAN
and Larousse dictionaries during the translation process.”
(http://www.systranet.com/pt/systranet-help/help-my-dictionary)
A empresa também apresenta um conjunto de sugestões para uma utilização mais
efetiva do dicionário pessoal. É interessante sublinhar como algumas destas sugestões
são parecidas com as regras gerais de algumas linguagens controladas. Segue o conjunto
de regras retirado do site (http://www.systranet.com/mydictionary, secção “Tips”):
Dictionary Tip nº 1 Enter verbs in infinitive form: [to jump],
instead of [jump] or [jumped].
Dictionary Tip nº 2 If a common noun has a specific meaning
when introduced by a preposition, enter the
whole expression: [en retard=delayed]
instead of [retard=delayed]
Dictionary Tip nº 3 If a common noun has an irregular plural
form, use the clue "plural" to indicate it:
[corpus (plural: corpora)]
Dictionary Tip nº 4 If a multi-word entry gives a coding
error use quotes: instead of [a 128-bit
architecture] use [a "128-bit"
architecture]
Dictionary Tip nº 5 Avoid to enter sequences of words that
do not form a logical unit, as i.e. in this
sentence [sequences of], [words that
do] and [not form a] would be invalid
110
dictionary entries.
Dictionary Tip nº 6 Do not hesitate to add a new translation for a
word or an expression that is already known
by the system. Multiple translations will be
displayed as alternative meanings
Dictionary Tip nº 7 If a word has several meanings, enter several
entries with its different translations.
Dictionary Tip nº 8 Enter nouns in singular form - let the
translator handle pluralization.
Dictionary Tip nº 9 Preface nouns with articles: [a light],
instead of [light].
Dictionary Tip nº 10 Don't capitalize words but proper noun or
acronyms.
Dictionary Tip nº 11 Use a determiner to specify the gender of
ambiguous entries: [le tour] or [la tour] - or
for foreign/unknown words: [un pool], [une
URL]
Dictionary Tip nº 12 Make sure noun/adjectives are in
aggreement as you would find them in
a regular paper dictionary: for instance
[connection sécurisée] and not
[connection sécurisé]
111
Com base nestas regras, foi criado um dicionário pessoal especializado na área da
informática e foram realizados testes que mostram a falta evidente de uma base de
dados terminológica apropriada no sistema utilizado.
Durante a introdução de fragmentos do corpus no sistema SYSTRANet, antes e depois
da aplicação das restrições, foi realizada a recolha das frases que apresentavam apenas
problemas a nível lexical, como em (28) (a) em que o termo “impostazioni” é traduzido
por “posições” em vez de “configurações”:
(24) (a)
IT - Modificare le impostazioni del documento.
PT – Modificar as posições do documento.
Após ter aberto uma conta gratuita, procedeu-se à inserção da seguinte entrada no
dicionário pessoal visando corrigir a tradução e obter, deste modo, uma tradução de boa
qualidade:
Italiano Português Categoria gramatical
<impostazione> <configuração> /noun/
De seguida foram comparadas as duas traduções efetuadas pelo sistema antes e depois
da criação do dicionário pessoal:
112
PT - Sem dicionário pessoal PT - Com dicionário pessoal
Modificar as posições do
documento
Modificar as configurações da acta
Como é possível verificar pelo exemplo acima apresentado, a utilização do dicionário
pessoal resolve corretamente o problema terminológico ligado ao termo <impostazioni>
mas apresenta uma diferença no que respeita ao termo <documento> (corretamente
traduzido pelo correspondente português na utilização do sistema sem recurso ao
dicionário pessoal) que é traduzido por <acta> na versão com recurso à ferramenta em
questão. Outros testes introduzidos no sistema e que serão apresentados de seguida,
mostram várias diferenças a nível das escolhas terminológicas feitas pelo sistema no que
diz respeito a secções de texto que, antes, eram corretamente processadas e traduzidas.
De facto, independentemente das entradas que são inseridas no dicionário pessoal, o
sistema parece não consultar os dois dicionários habituais (SYSTRAN e LaRousse) se a
função “Meu dicionário” estiver ativa. Como já mencionado mais acima, quando o
dicionário pessoal tiver entradas (não interessa quais e quantas), o sistema irá primeiro
procurar um correspondente no dicionário pessoal para, no caso de não encontrar
correspondência, ir procurar nos outros dicionários. A verificação do primeiro
dicionário parece excluir um dos outros dois, limitando deste modo as entradas
consultáveis e fornecendo, muitas vezes, a opção menos apropriada. Assume-se que o
sistema consiga consultar um máximo de dois dicionários de cada vez e, portanto, o uso
do dicionário pessoal sobrepõe-se ao dicionário SYSTRAN (ou ao LaRousse)
excluindo-o e dando origem a resultados diferentes. Em alguns casos estas mudanças
não são aceitáveis a nível semântico sendo necessário incluir estes novos termos não
específicos da área no dicionário pessoal (o que não cabe nos objetivos deste trabalho),
113
como acontece em (24) (a) para o qual o problema pode ser simplesmente resolvido
acrescentando a entrada ‘documento’ (it) correspondente a ‘documento’ (pt) no
dicionário. Outras vezes trata-se apenas de sinónimos igualmente aceitáveis como em
(25) (a).
(25) (a)
IT – Rimuovere il cavo USB e attendere 10 minuti.
PT - #Tirar partes côncavas USB e esperar 10 minutos.
Italiano Português Categoria gramatical
<cavo USB> <cabo USB> /noun/
PT - Sem dicionário pessoal PT - Com dicionário pessoal
#Tirar partes côncavas USB e
esperar 10 minutos
Remover o cabo usb e aguardar 10
minutos
Os testes efetuados no sistema SYSTRANet, revelaram a evidente falta de uma base de
dados terminológica na área da Informática pelo que se decidiu, não obstante as
dificuldades encontradas aquando da utilização da função “Meu Dicionário”, constituir
um glossário que será apresentado na secção que se segue. Isso deve-se ao facto de o
glossário ser igualmente relevante, em termos de consistência terminológica, a nível da
redação do input.
114
4.5.2 GLOSS ÁR IO BILIN GUE IT ALI ANO-P ORTU G UÊS ( I NFOR MÁTI CA)
Devido à falta do termo no dicionário ou à seleção de um termo do dicionário comum
(ex. a palavra “STAMPA” pode ser traduzida para o português com “IMPRENSA” ou
“IMPRESSÃO” dependendo do contexto) o sistema não consegue traduzir corretamente
alguns dos termos específicos da área da informática. Veja-se uma pequena amostra na
tabela que segue:
Italiano (Domínio: informática) Tradução SYSTRANet
1 Stampa Imprensa
2 Cavo USB Partes concavas USB
3 Riavviare Riavviare
4 Drivers Motoristas
5 64 bit 64 lâminas
6 Start (Windows) Partida
7 Sistema operativo Sistema operacional
8 Schermo Mascara
9 Cartella Malinha
10 Aggiornare Adiar
11 Scannerizzre Varrer
12 Menu Ementa
Os exemplos acima mencionados, demonstram a importância de um dicionário
específico da área para a resolução de alguns dos problemas, bem como a necessidade
da leitura do contexto para a resolução de outros.
115
De facto, pode-se observar que o verbo “riavviare” (PT - reinicializar) não consta no
dicionário e simplesmente não é traduzido para português. O verbo “reinicializar” (ou
reiniciar) é específico da área e refere-se ao ato de arrancar novamente um programa ou
um sistema, não tendo outros significados. Assim sendo, a simples introdução da
equivalência “riavviare” -> “reinicializar” no dicionário teria resolvido o problema.
Existem também outros exemplos mais complexos que dizem respeito às palavras
compostas e à não identificação da categoria gramatical de um dos termos, o que pode
levar ao consequente não reconhecimento da categoria gramatical do outro termo. É o
caso de ‘stampante locale’ (‘impressora local’ em português) que serve para designar
uma impressora que está fisicamente conectada ao computador. O sistema SYSTRANet,
não reconhece o termo ‘stampante’ como um substantivo feminino em italiano,
interpretando-o como particípio presente do verbo ‘stampare’ e traduzindo-o para
português como ‘imprimindo’, em (26) (a). Isto faz com que o sistema não consiga
reconhecer o adjetivo que segue (‘locale’) como modificador do substantivo, dado que o
mesmo foi interpretado com categoria gramatical incorreta. O que o sistema faz é ler a
outra interpretação de ‘locale’ em italiano, a do substantivo masculino que designa um
‘espaço’, um ‘ambiente’, um ‘sítio’, traduzindo-o por ‘sala’:
(26) (a)
IT - Installazione della stampante locale tramite il CD.
PT - *Instalação imprimindo sala pelo CD.
116
No exemplo (28) (a) confirma-se que, substituindo o termo ‘stampante’ por outro
substantivo que o sistema reconhece, o adjetivo ‘locale’ também é traduzido
corretamente:
(28) (a)
IT - L’indirizzo IP locale identifica il collegamento con il proprio PC/router nella rete
interna.
PT - O endereço IP local identifica a ligação com o seu PC/router na rede interna.
Não acontece o mesmo com termos como “cartella” que é traduzido por “malinha” em
vez do termo informático clássico “pasta”. Isso acontece porque a palavra “cartella” é
usada em italiano para designar quer uma mala, uma carteira na qual se inserem
documentos, quer (na informática) como a divisão de um disco na qual é possível
organizar os ficheiros. Neste caso, para o SYSTRANet conseguir selecionar este
segundo significado, seria necessário o sistema conseguir ler o contexto.
Podem existir duas maneiras para o sistema fazer o reconhecimento do contexto em que
o texto a traduzir se situa:
- manualmente, selecionando a área de referência antes de começar a tradução;
- automaticamente, analisando a ocorrência das palavras e selecionando, após uma
análise estatística, a área com maior número de palavras;
Não podendo, em fase de realização deste trabalho, efetuar alterações a nível da seleção
do contexto e sendo todos os inputs utilizados para realizar os testes específicos da área
da informática, sub-domínio das impressoras, procedeu-se à criação de um dicionário da
117
área que foi subsequentemente inserido no sistema SYSTRANet através da função
“Meu Dicionário”, previamente apresentada. Desta forma, após ter tratado
minuciosamente da realização do dicionário técnico específico, o sistema foi capaz de
selecionar a entrada que foi indicada como a mais apropriada naquele domínio. Isto foi
possível sem o reconhecimento do contexto devido ao facto do dicionário pessoal
prevalecer na escolha do termo, como já visto anteriormente.
Segue a tabela com a pesquisa terminológica efetuada durante a realização dos testes: na
primeira coluna foram listados os termos da língua de partida assim como extraídos dos
inputs do corpus utilizado, na segunda coluna os correspondentes em português e na
última as traduções oferecidas pelo sistema SYSTRANet. Para realização da coluna em
português recorreu-se ao conhecimento pessoal adquirido durante anos de trabalho na
área e ao alinhamento de textos específicos da área (manuais de impressoras,
documentos de suporte, fóruns informáticos, dicionários informáticos).
Italiano
(domínio: Informática)
Português
(domínio: Informática)
Categoria
gramatical
Traduções
propostas pelo
SYSTRANet
(dicionário
SYSTRAN e
LaRousse)
1 accendere ligar Verb acender
2 acquisire digitalizar Verb adquirir
3 aggiornare atualizar Verb adiar
4 area stampabile área de impressão Noun área imprimível
5 bit bit Noun lâmina
6 bordo margem Noun bordo
7 bozza rascunho Noun prova
8 carta lucida papel plastificado Noun papel lúcido
9 carta patinata papel revestido Noun papel deitado
10 cartella pasta Noun malinha
12 cartuccia tinteiro Noun cartucho
13 cartuccia ad alta resa tinteiro de alto
rendimento
Noun cartucho à
elevada
118
capitulação
14 cartuccia di toner cartucho de toner Noun cartucho de
trovejar
15 cavo USB cabo USB Noun partes concavas
USB
16 coda di stampa fila de impressão Noun rabo de
imprensa
17 comando di avanzamento
riga
comando de controlo de
retorno de carro
Noun comando de
adiantamento
risca-se
18 comunicazione
bidirezionale
comunicação bidirecional Noun comunicação
bidirezionale
19 deframmentare desfragmentar Verb deframmentare
20 deframmentazione desfragmentação Noun deframmentazio
ne
21 drivers controladores Noun motoristas
22 fascicolare agrupar Verb fascicolare
23 finitura in nero acabamento preto Noun conclusão em
preto
24 fotoconduttore fotocondutor Noun fotoconduttore
25 grammatura carta peso do papel Noun grammatura
papel
26 impaginazione paginação Noun aposta em
página
27 impostazione configuração Noun posição
28 impostazione predefinita
di fabbrica
configuração padrão de
fábrica
Noun posição
predefinida de
fábrica
29 inceppamento carta encravamento do papel Noun inceppamento
papel
30 linguaggio pcl interpretador pcl Noun linguagem pcl
31 luminosità brilho Noun luminosidade
32 manutenzione manutenção Noun entrevista
33 materiale di consumo consumível Noun material de
consumo
34 menù menu Noun ementa
35 menù finitura menu acabamento Noun miudamente
conclusão
36 modalità risparmio energe
tico
modo economia de
energia
Noun modalidade pou
po energética
37 pannello di controllo painel de controlo Noun quadro de
controlo
38 piano dello scanner vidro do scanner Noun devagar do
"scanner"
39 rasterizzazione rasterização Noun rasterizzazione
40 reset reinicialização Noun réinitialisation
41 riavviare reinicializar Verb riavviare
119
42 ritorno a capo retorno de carro Noun regresso à chefe
43 rullo di alimentazione rolo do alimentador Noun rolamento de
alimentação
44 scannerizzare digitalizar Verb varrer
45 scheda di memoria placa de memória Noun ficha de
memória
46 scheda di sistema placa do sistema Noun ficha de sistema
47 scheda logica placa lógica Noun ficha lógica
48 schermo ecrã Noun máscaro
49 schermo a sfioramento ecrã tátil Noun mascaro à sfior
amento
50 sistema operativo sistema operativo Noun sistema
operacional
51 spia luz Noun espião
52 spooler di stampa spooler de impressão Noun spooler de
imprensa
53 stampa impressão Noun imprensa
54 stampa ad alta velocità impressão de alta
velocidade
Noun imprime à
elevada
velocidade
55 stampa di opuscoli impressão em livro Noun imprime de
livretos
56 stampa in corso 4 a imprimir Noun imprensa en
cours
57 stampa su due lati impressão frente e verso Noun imprime sobre
dois lados
58 stampante impressora Noun que imprime,
imprimindo,
impressor
59 stampante ad aghi impressora de agulhas Noun imprimindo à
agulhas
60 stampante di rete impressora de rede Noun imprimindo de
rede
61 stampante locale impressora local Noun imprimindo sala
62 stampante multifunzione impressora multifunções Noun imprimindo
multifonction
63 stampante wireless impressora sem fios Noun imprimindo sem
fios
64 Start5 Iniciar Proper Noun partida
65 supporto carta suporte do papel Noun apoio papel
66 tamburo del
fotoconduttore
cilindro fotocondutor Noun tambor do
fotoconduttore
67 ugello jato Noun orifício
4 Terminologia específica do sistema Windows 5 Terminologia específica do sistema Windows
120
A tabela acima mencionada foi organizada, também, como referência a utilizar aquando
da redação dos templates e não contém termos sinónimos para designar o mesmo
conceito. Através da pesquisa terminológica realizada foi possível, de facto, verificar
que até no domínio técnico existem vários termos para designar o mesmo conceito.
Acerca deste tema, Allen (1999, p.3) fala da importância da normalização da
terminologia:
“[...] the standardization of terminology is essential. It is often possible to find in the same
technical manual, or even in the same story about changing antifreeze of a vehicle or
machine, the terms "filler cap", "fill cap" and "radiator cap" for the same object. Such a
multiplicity of terms for the same item is unnecessary and could be confusing to a mechanic
or technician who, while reading a procedural text, may in fact begin looking for a second
cap, although in reality there is only a single cap. CLs therefore aim at standardizing the
terminology with the general idea in mind of one concept—one term. The opposite side of
the same problem is the issue of multiple meanings for a single term. Standardization of
vocabulary and terminology in a CL has been demonstrated to improve the consistency of
the terminology in texts.”
Como Allen (1999) indica no seu trabalho, a presença de mais de um termo para a
designação de um mesmo conceito pode acarretar ambiguidade não só para os leitores
do texto mas também para os sistemas.
Vasconcellos (1994, p.697), também sublinha a importância da introdução de uma base
terminológica apropriada no sistema de tradução automática:
“If the right terminology has been supplied to a machine translation (MT) system, the target
language equivalents are retrieved not only automatically but also in their correct place in
the output document. This is one of the advantages of MT: it dispenses with the need to
look up terms, whether in hard-copy dictionaries or on-line.”
Arnold (1994, p.148) também apresenta a importância da consistência terminológica em
termos de processamento por parte do sistema:
121
“Being consistent about the use of terms will also help to improve the overall consistency
and quality of the texts being translated. After all, one of the simplest and most direct
benefits of MT for technical texts is that terms are always translated consistently because
they are simply looked up in an electronic bilingual term dictionary.”
No caso da linguagem controlada aqui proposta, a coerência terminológica é também
relevante para fins de controlo da qualidade. O conjunto de regras realizado serve, de
facto, de base tanto para a “translation memory” como para a “authoring memory”. A
coerência terminológica está na base da escrita técnica permitindo aumentar a
legibilidade por parte dos utilizadores. A Microsoft, por exemplo, declara:
“Understanding the user interface can be a confusing experience for customers. By using a
consistent set of terminology and style, you can help customers navigate the product user
interface successfully.” (Microsoft, 2012, p.3)
A par desta declaração, Ciola (2008) sublinha a importância da terminologia em fase de
redação de modo a construir, desde o início, um texto de maior qualidade. Além dos
benefícios óbvios para a tradução automática, tratando-se de textos informativos e de
instruções, o uso de uma terminologia consistente ajuda a diminuir a ambiguidade e a
facilitar a consulta por parte de utentes não experientes assim como a reduzir o erro por
parte de técnicos especializados.
Encontram-se referências à consistência de estilo e de terminologia também nos
manuais de estilo de várias companhias de informática. Veja-se o exemplo extraído do
‘Xerox Publishing Style – A manual for Style and Design’:
“The goal of good business writing is to communicate simply and clearly. To make yourself
clear to customers and co-workers, you must use the same words and conventions to mean
the same things.” (Xerox, 1988, p.3)
A nível do controlo da qualidade outro parâmetro importante na redação de textos deste
tipo é a homogeneidade da informação passada ao cliente, que tem que ser vista como
passada por uma entidade (a empresa) e não por múltiplos autores. Na realidade, por
122
causa do elevado número de pedidos a gerir num dia, sabemos como é necessário que
mais autores contribuam para a redação e/ou tradução dos textos pelo que a coerência
terminológica (bem como fraseológica) vá ao encontro das necessidades das empresas.
Devisevic e Steensland (2005, pag.57) também afirmam que:
“when writing technical documents where many writers contribute, it is important to have a
common style in order to make the texts consistent”
Na pesquisa terminológica efetuada para a realização do glossário informático italiano-
português, foram vários os casos de inconsistência terminológica encontrados
(provavelmente devido ao facto de diferentes profissionais serem responsáveis pela
tradução). Veja-se o caso de “cartuccia ad alta capacità” e “cartuccia ad alta resa”: os
dois designam um tinteiro de alto rendimento e são utilizados pela mesma empresa
(Lexmark) em alternância para designar o mesmo conceito, (no manual o primeiro e na
secção de vendas do site o segundo). É claro que a dupla denominação pode acarretar
confusão para o utilizador, assim como para o tradutor que deverá escolher entre manter
a incoerência terminológica ou introduzir coerência. Uma das regras estabelecidas por
Mitamura (1999, p.46) para o desenvolvimento do KANT Controlled English prendia-se
com a ‘codificação do significado’ (encoding the meaning), ou seja limitar os múltiplos
significados de uma mesma palavra:
“Wherever possible, the lexicon should encode a single meaning for each word/part of the
speech pair. This helps dramatically to reduce the amount of ambiguity in the source text,
and helps to achieve higher accuracy in the target language translation”
Sistematizar e uniformizar a terminologia simplifica, então, a leitura por parte do
utilizador indo ao encontro dos padrões da qualidade. Além disso, para processamento
por parte do sistema de tradução automática, a presença de um único termo para
designar um conceito reduz a necessidade de múltiplas entradas no dicionário.
Há que salientar também que os agentes que redigem os templates para os utentes finais
não têm, muito frequentemente, uma formação específica na área, pelo que uma lista de
123
termos técnicos (de preferência um glossário com definições) ajudaria na tarefa de
redação dos templates.
4.5.3 TE RMI NOLOGI A : F ORMA ÇÃ O DE N OVO S TE RMOS E M AN UTENÇ ÃO D O DIC ION ÁR IO
O domínio informático (e tecnológico, mais em geral) é um dos domínios mais férteis
para a criação de novos termos.
No que respeita ao processamento das palavras por sistemas de tradução automática já
analisamos alguns termos que constituem um obstáculo para os sistemas dando origem à
ambiguidade (a nível terminológico) por terem outro significado em outro domínio. Foi
o caso do termo “stampa” e do termo “cartella”, traduzidos respetivamente por
“imprensa” e “malinha” assim como de “menu” traduzido em todos os casos por
“ementa”. Como já referido, para o sistema poder escolher o correspondente correto,
deveria analisar o contexto em que o termo é utilisado.
No que concerne ao italiano informático, além do recurso a termos de outros domínios,
verifica-se também uma tendência a não traduzir muitos dos termos informáticos do
inglês, recorrendo ao empréstimo.
De facto, se bem que o termo “informática” tenha origens no francês “informatique”
não há dúvidas em relação ao facto de o inglês ser a língua da informática. O italiano,
entre as línguas latinas, é o que mais recorre aos empréstimos do inglês para a
denominação de novos conceitos da informática (computer, scanner, mouse, webcam,
etc.).
Como já vimos na secção relativa à história da tradução automática, a informática teve o
seu maior desenvolvimento entre os anos 50 e os anos 60 acarretando consigo a
necessidade de nova terminologia. Naquela altura os empréstimos do inglês não eram
124
muito comuns e recorria-se muito mais frequentemente ao decalque linguístico.
Contudo, alguns termos do inglês começaram, aos poucos, a entrar no italiano para
nunca mais sair (veja-se o caso de “computer” ou ainda “software”).
As razões para a necessidade de utilizar empréstimos estão também ligadas à própria
evolução da informática, como Sosnowski (1998, p.359) afirma:
“[...] il linguaggio segue e riflette lo stato di un settore specialistico cercando di adeguarsi al
progresso tecnologico che nel campo dell'informatica è più rapido rispetto alle altre
discipline"
Apresenta-se abaixo uma tabela de termos do “italiano informático” que em português
foram traduzidos, ao contrário do que acontece em italiano, em que se mantêm na língua
de origem. A coluna nº 3 ‘SYSTRANet’ refere-se ao dicionário do sistema: o símbolo
“” indica que o termo em italiano (ou seja o empréstimo) foi corretamente traduzido
para português, enquanto o símbolo “-“ indica a não presença do termo no dicionário e a
consequente transposição para português. A última coluna, por fim, indica a existência
de um termo correspondente ao empréstimo em italiano.
IT (do
inglês)
PT SYSTRANet
Correspondente
IT
1 Account Conta - -
2 Client Cliente -
3 Desktop Ambiente de
trabalho
- -
4 Driver Controlador - -
5 Hard disk Disco rígido - Disco duro
6 Layout Esquema - -
125
7 Mouse Rato -
8 Start Iniciar - -
9 Wireless Sem fios Senza fili
10 Database Base de
dados
Base dati
11 File Ficheiro -
Como já vimos anteriormente, a ambiguidade é um dos maiores obstáculos da
tradução automática e pode também verificar-se a nível terminológico.
Se bem que não muito frequentemente, também acontece que o mesmo termo técnico
tenha dois significados dentro do mesmo domínio. No caso da informática, um exemplo
disso é o termo “Cartella”. O termo designa em italiano duas coisas distintas: é a
estrutura utilizada para organizar arquivos num computador, traduzindo-se por “pasta”,
mas é também a “folha” de trabalho no Excel. Nem em todos os casos é possível
proceder ao uso de um sinónimo para a desambiguação, como Mitamura (1999, p.46)
sugeriu para o KANT:
“Whenever a lexical item has more than one potential meaning in the domain, we attempt
to identify a single, primary domain meaning to encode. We then try to find different,
synonymous terms for other meanings, which are required in the domain. Such terms are
marked in the lexicon, so that it is possible to determine for any given word whether it has
an alternate meaning which is encoded by a different term in the domain. This information
can be used is support of on-line vocabulary checking.”
Em particular no domínio da informática a introdução no mercado de novos produtos e
novas tecnologias exige uma manutenção constante dos dicionários e da linguagem
controlada como Mitamura (1999, p.49) explica no seu trabalho:
126
“In a typical document production operation [...] there is an ongoing need to update
terminology due to the introduction of new products, new types of documents, etc.”
127
5. CONCLUSÃO
5.1 REGRAS EM ITALIANO CONTROLADO PARA A TRADUÇÃO E PARA O
CONTROLO DA QUALIDADE (LINGUAGEM ESPECIALIZADA INFORMÁTICA:
IMPRESSORAS)
O objetivo desta secção é, a partir das análises e dos testes efetuados no sistema
SYSTRANet, e tendo em conta as diretrizes do controlo da Qualidade, elaborar uma
lista de regras que possam ser utilizadas para melhorar a tradução para português de
inputs em italiano da área informática introduzidos no sistema de tradução automática
SYSTRANet. Visa-se ao mesmo tempo a melhoria da redação dos textos técnicos da
área da informática em italiano tentando conferir-lhes um elevado nível de legibilidade
e fazendo com que respondam a todas ou à maior parte das diretrizes do controlo da
qualidade. Tratando-se de um domínio muito técnico e específico, e tendo uma dupla
funcionalidade, estas regras abrangem apenas alguns dos fenómenos linguísticos que
representam um obstáculo para a tradução automática e constituem, como já discutido,
um fragmento de um futuro possível projeto de italiano controlado para a informática.
Lembra-se que se trata de uma linguagem controlada “machine-oriented” (MOCL) que
considera alguns aspetos das linguagens controladas “human-oriented (HOCL), na
tentativa de ir também ao encontro dos padrões do controlo da qualidade de templates
técnicos, incluindo, por esta razão, algumas regras próprias do controlo da qualidade (na
secção das regras gerais).
O conjunto de regras está dividido em secções dentro das quais são apresentadas as
regras correspondentes aos fenómenos linguísticos analisados ao longo do trabalho.
A primeira secção refere-se às regras gerais e a segunda às regras específicas.
128
REGRAS GERAIS
Regra nº 1 Complexidade da frase
Escrever frases curtas e com uma estrutura simples
Regra nº 2 Omissão de partes de constituintes
Evitar a omissão de partes de constituintes
Regra nº 3 Ortografia
Escrever frases com ortografia correta
Regra nº 4 Léxico informático
Utilizar apenas os termos especificados no dicionário informático
Regra nº 5 Uso de listas
Utilizar listas em vez de grandes blocos de texto ligados por conjunções
REGRAS ESPECÍFICAS
Regra nº 6 Predicados complexos
Evitar os predicados complexos. Sempre que possível, utilizar a
construção verbal atómica correspondente.
Regra nº 7 Orações participiais
Evitar o uso de orações participiais no feminino. Sempre que
possível, substituir por orações com tempo finito.
Regra nº 8 Orações participiais
Evitar o uso de orações participiais quando os elementos em que a
concordância tem de se manifestar não estão em posição de
adjacência. Substituir por orações relativas.
129
Regra nº 9 Coordenação
Não usar a conjunção copulativa negativa “NÉ”. Substituir por
frases na forma negativa ligadas pela conjunção copulativa
afirmativa “E”.
Regra nº 10 Coordenação
Não usar a locução conjuncional copulativa afirmativa “NON
SOLO...MA ANCHE”. Substituir por frases na forma afirmativa
ligadas pela conjunção copulativa afirmativa “E”.
Regra nº 11 Coordenação
Não usar a locução conjuncional coordenativa adversativa
“NONOSTANTE CIÒ”. Substituir pela conjunção coordenativa
adversativa “MA”, “EPPURE” ou “TUTTAVIA”.
Regra nº 12 Coordenação
Não usar a locução conjuncional coordenativa disjuntiva
“SIA...CHE”. Substituir pela locução “SIA..SIA”.
Regra nº 13 Coordenação
Não usar a conjunção coordenativa “OVVERO” com valor
explicativo. Substituir pela conjunção “OSSIA”.
Regra nº 14 Subordinação
Não usar a conjunção subordinativa condicional “QUALORA” +
presente do conjuntivo. Substituir pela conjunção subordinativa
condicional “SE” + presente do indicativo.
Regra nº 15 Subordinação
Não usar a conjunção subordinativa concessiva “ANCHE SE” +
presente do indicativo. Substituir por “SEBBENE” + conjuntivo.
130
Regra nº 16 Subordinação
Em construções subordinativas finais com “PER + INDICATIVO”
seguidas de dois pontos utilizar a ordem frase principal – frase
subordinada.
Regra nº 17 Subordinação
Não usar a conjunção subordinativa “QUINDI” com valor temporal.
Substituir por uma lista numerada.
5.2 CONSIDERAÇÕES FINAIS
O trabalho aqui apresentado teve como principais objetivos demonstrar uma relação
entre as regras gerais das linguagens controladas e as regras do controlo da qualidade
estabelecidas por empresas da área da informática e, ao mesmo tempo, estabelecer
restrições para um fragmento de “italiano controlado” na área da informática
(subdomínio: impressoras) para a tradução automática e para o controlo da qualidade,
com base em testes efetuados no sistema SYSTRANet. Os objetivos justificam-se pela
necessidade de fornecer serviços multilingues rápidos na área do suporte técnico e pela
existência de uma grande quantidade de textos redigidos em italiano em comparação
com o português que poderão, desta maneira, ser traduzidos e disponibilizados para os
falantes do português europeu, indo ao encontro das necessidades de produtividade das
empresas de suporte técnico.
Demonstrou-se que as regras de redação de templates estão baseadas nas regras de
redação de textos técnicos tendo diversos aspetos em comum com as regras das
131
linguagens controladas. É possível, portanto, elaborar um conjunto de restrições que
possam garantir, em primeiro lugar uma tradução automática rápida e de boa qualidade
dos textos introduzidos no sistema e, subsidiariamente, a redação de textos em italiano
que correspondam a estes mesmos critérios de qualidade. O fragmento de regras
apresentado é, então, um fragmento de linguagem controlada para a tradução automática
de textos de italiano para português e, secundariamente, para a redação de textos
técnicos em italiano.
Contribuiu-se também para a realização de um dicionário bilingue da área informática
(italiano-português) com vista a: integrar o dicionário geral utilizado pelo SYSTRANet,
personalizar o sistema consoante as necessidades de uma potencial empresa fabricante
de impressoras e facilitar a escolha dos termos mais apropriados por parte dos autores
dos templates na fase de redação.
O conjunto de regras e o dicionário informático apresentados são, dada a natureza do
trabalho, limitados, pretendendo-se que constituam um ponto de partida para a eventual
elaboração de um italiano controlado que consiga combinar a crescente necessidade de
traduções multilingues realizadas em tempos breves com todos ou com a maior parte
dos padrões de qualidade da redação de textos simples e facilmente compreensíveis.
Muitos fenómenos linguísticos próprios das linguagens controladas não foram
analisados, visando-se apenas analisar tópicos em comum com as regras de redação de
textos técnicos, e, de entre esses, os que mais se prendem com a simplificação dos
enunciados. Deve-se a esse facto um estudo mais extenso em relação à coordenação e à
subordinação. A parte relativa à terminologia também se prende com a necessidade de
coerência terminológica própria das linguagens especializadas, constituindo-se como
uma pequena contribuição para a realização de um futuro e eventual glossário italiano-
português da informática que contenha também as definições dos termos, tema não
abordado nesta dissertação.
132
No seguimento da presente dissertação pretende-se levar por diante o desenvolvimento
do módulo de linguagem controlada (italiano informático) no sentido de tratar mais
fenómenos de linguagem natural especializada na área da informática.
Propõe-se ainda, para uma investigação futura, a possibilidade de realizar um glossário
bilingue da área para utilização dos agentes de suporte técnico que trabalham na área do
apoio ao cliente e com o par de línguas italiano-português, assim como a integração da
formação em linguagem controlada nos módulos de formação acerca da qualidade já
oferecidos pelas empresas em questão.
Em jeito de conclusão, as linguagens controladas desenvolveram-se desde o início na
área das linguagens técnicas e o presente trabalho pretende ser um contributo para a
dupla função que este tipo de linguagem sempre teve, ou seja, tradução automática e
redação, com aplicação no quadro dos padrões de controlo da qualidade.
133
BIBILIOGRAFIA
ABEILLÉ, Anne & GODARD Danièle: Deux types de prédicats complexes dans les
langues romanes LLF, Université Paris 7, In : LYNX
(http://www.llf.cnrs.fr/Gens/Abeille/AG.link.pdf) (2001).
ALLEN, Jeffrey: Adapting the Concept of “Translation Memory” to Authoring Memory”
for a Controlled Language Writing Environment. In: Translating and the Computer 21.
Proceedings. 10-11 November 1999 (London: Aslib) (1999).
ANIS, Jacques: Ordinateurs et traduction: survol d'un demi-siècle. In:Langages, 28e année,
n° 116. dezembro 94. Le traducteur et l'ordinateur. pp. 111-122 (1994).
APPLE Inc.:Apple style guide, disponível em: https://help.apple.com/asg/mac/2013/ (2013)
ARNOLD, David [et al.]: Machine translation: an introductory guide, NCC Blackwell,
Manchester, Oxford, Cambridge, 240 p. (1994).
AXELSSON, Hans, & BLOM, Oskar: Utveckling av ett svensk-engelskt lexikon inom
tåg- och transportdomänen. Dissertação de Mestrado em Linguística Computacional.
Institutionen för lingvistik och filologi, Språkteknologiprogrammet (2006).
BAR-HILLEL, Yehoshua: The Present Status of Automatic Translation of Languages. In:
Advances in Computers, vol. 1, p.91-163 disponível em: http://mt-archive.info/Bar-
Hillel1960.pdf (1960).
BYRNE, John: Scientific and Technical Translation Explained: A Nuts and Bolts Guide for
Beginners (Translation Practices Explained). Jody Byrne. Manchester: St. Jerome, 229 pp.
(2012).
CHIARELLO, Orlando: ASD Simplified Technical English ASDSTE100 an adaptable
and flexible resource for writing accuracy. In: TheBigWave (janeiro 2012).
CHIARELLO,
Orlando:Controlled_Languages_as_Internationally_Recognized_Standards. In: The big
wave (abril 2012) .
CIOLA, Bruno: La terminologia orientata alla traduzione: nuove realtà, nuovi approcci. In:
Atti del convegno La Traduzione. Professione e formazione. Università di Padova, Padova
(2008).
CREMERS, Lou: Controlled Language and Machine Translation. A practical
implementation. In: The big wave , 42 (2011).
DELGADO, Natacha Raquel do Carmo: Tradução Automática – proposta para o
discurso escrito em língua portuguesa, Tese de Mestrado em Tradução, Universidade de
Lisboa (2013).
DERVISEVIC, Dina & STEENSLAND, Henrik Controlled language in software user
documentation. Tese de Mestrado. Universidade de Linköpings (2005).
Directorate-General for Translation: How to write clearly, Fight the fog project,
European Commission (1998).
Direção-Geral da Tradução: Redigir com clareza, Comissão Europeia
(ec.europa.eu/translation/writing/clear.../how_to_write_clearly_pt.pdf) (2011).
DUARTE, Inês et al.: Lexical and syntactic properties of complex predicates of the type
<light verb+deverbal noun>. In: Arena Romanistica. Journal of Romance Studies. The
28th Conference on Lexis and Grammar, 48-57. Bergen: University of Bergen. (2009).
DUPONT, Alexandra. Langage contrôlé et traduction automatique : une application
pratique sur un texte de type touristique / Systran vs. Lucy LT : une évaluation
o
134
comparative. Tese de Mestrado. Université de Genève (2012).
ELLISTON, John S.G.: Computer aided translation: a business viewpoint. Translating
and the Computer: proceedings of a seminar, London, 14 de November de 1978; ed.
Barbara M.Snell (Amsterdam/New York/Oxford: North-Holland Publishing Company,
1979); pp. 149-158. (1978).
GALINSKAYA Irina, GUSEV Valentin, MESHCHERYAKOVA Elena,
SHMATOVA Mariya: Measuring the Impact of Spelling Errors on the Quality of
Machine Translation. The 9th edition of the Language Resources and Evaluation
Conference (LREC) (2014).
GLEDHILL, Christopher : Vers une analyse systémique des locutions verbales,
constructions verbo-nominales et autres prédicats complexes. In : David Banks, Simon
Easton & Janet Ormrod (réds.), La Linguistique systémique fonctionnelle et la langue
française. Paris : L’Harmattan. pp 89-126. (2009).
HUIJSEN, Willem-Olaf: Controlled Language: An introduction, in Mitamura et al. (eds.),
pp 1-15 (1998).
HUTCHINS, John W.: Machine translation and machine-aided translation. Journal of
Documentation 34(2), 119-159. (1978).
HUTCHINS, John W.: Machine Translation: past, present, future (Ellis Horwood Series
in Computers and their Applications) Chichester (UK): Ellis Horwood. 382 pp. (1986).
HUTCHINS, John W.: A new era in machine translation research, In: Aslib Proceedings
47 (1), p.211-219 (1995).
HUTCHINS, John W.: Milestones in machine translation. Part 1: How it all began in
1947 and 1948. Language Today, no.3, p.22-23 (1997a).
HUTCHINS, John W.: Fifty years of the computer and translation. MT News
International 16 (February 1997), 14-15. Repr. in: Machine Translation Review, no.6,
p.22-24. (1997b).
HUTCHINS, John W.: Milestones in machine translation. Part 4: The first machine
translation conference, June 1952. Language Today no.13 ,12-13. (1998a).
HUTCHINS, John W.: Milestones in machine translation. Part 3: Bar-Hillel’s survey,
1951 Language Today no.8, p.22-23 (1998b).
HUTCHINS, John W.: Milestones in machine translation. Part 2: Weaver’s 1949
memorandum. Language Today, no.6, p.22-23 (1998c).
HUTCHINS, John W.: Milestones in machine translation. No. 5: The IBM-Georgetown
demonstration, January 1954. Language Today no.16, 19-20. (1999a).
HUTCHINS, John W.: Retrospect and prospect in computer-based translation. Machine
Translation Summit VII, 13th-17th September 1999, Kent Ridge Digital
Labs, Singapore. Proceedings of MT Summit VII “MT in the Great Translation Era”; pp.
30-34 (1999b).
HUTCHINS, John W.: (ed.) Early years in machine translation (Amsterdam: John
Benjamins), p.299-312. (2000).
HUTCHINS, John W.: Machine translation over fifty years. Histoire, Epistémologie,
Langage. Vol. 23 (1): Le traitement automatique des langues [ed. Jacqueline Léon], 7-31
(2001).
HUTCHINS, John W.: Two precursors of machine translation: Artsrouni and
Trojanskij. International Journal of Translation 16 (1), Jan-June 2004; pp.11-31. (2004).
HUTCHINS, John W.: Machine translation: history of research and use. In: Encyclopedia
of Languages and Linguistics. 2nd edition, edited by Keith Brown, vol.7, pp.375-
383.(2006).
135
HUTCHINS, John W.: Machine translation: a concise history, Journal of Translation
Studies, vol.13, nos.1-2 . Special issue: The teaching of computer-aided translation, ed.
Chan Sin Wai. (Chinese University of Hong Kong, 2010); pp.29-70. (2010).
HUTCHINS, John W.: The history of machine translation in a nutshell [Unpublished];
5pp. disponível em http://www.hutchinsweb.me.uk/Nutshell-2005.pdf (2014).
KAMPRATH, Christine, ADOLPHSON, Eric, MITAMURA Teruko, & NYBERG,
Eric: Controlled Language for Multilingual Document Production: Experience with
Caterpillar Technical English. In: Proceedings of the Second International Workshop on
Controlled Language Applications, CLAW 98. Pittsburgh, PA, pp. 51–61 (1998).
KOHL, John R.: The Global English Style Guide: Writing Clear, Translatable
Documentation for a Global Market, SAS Institute Inc., Cary, North Carolina, USA (2008).
LOFFLER-LAURIAN, Anne-Marie. La traduction automatique : son utilisation par le
"grand public". In: Langages, 28e année, n° 116. dezembro ‘94. Le traducteur et l'ordinateur.
pp. 87-94. (1994).
LOPEZ, Adam: Statistical Machine Translation, University of Edimburgh. Em ACM
Computing Surveys, Vol. 40, No. 3, Article 8, (2008).
MARRAFA, Palmira, Predicação Secundária e Predicados Complexos em Português:
Análise e Modelização, Dissertação de Doutoramento, Universidade de Lisboa (1993).
MARRAFA, Palmira, AMARO, Raquel, MENDES, Sara, IBRAHIMO, Náheda: CLG
- Controlled Portuguese: Controlled Portuguese for Machine Translation and for Portuguese
teaching/learning. CLUL/Instituto Camões (2011).
MARRAFA, Palmira & MENDES, Sara: Using WordNet.PT for translation:
disambiguation and lexical selection decisions. University of Lisbon, Portugal (2007).
MIRTO, Ignazio Mauro: OGGETTI INTERNI E REACTION OBJECTS COME NOMI
PREDICATIVI DI COSTRUTTI A VERBO SUPPORTO. Università di Palermo (2011).
MITAMURA, Teruko: Machine Translation Summit VII, 13th-17th September 1999, Kent
Ridge Digital Labs, Singapore. Proceedings of MT Summit VII “MT in the Great
Translation Era”; pp. 46-52. (1999).
NYBERG, Eric H. & MITAMURA, Teruko: Controlled English for Knowledge-Based
MT:Experience with KANT system. In: Proceedings of the 6th international workshop on
theoretical and methodological issues in machine translation (TMI ) 95, Leuven, Bélgica,
julho 5.7. (1995).
NYBERG, Eric & MITAMURA, Teruko: Controlled language and knowledge-based
machine translation: principles and practice. [CLAW 1996] Proceedings of the first
international workshop on controlled language applications: CLAW 96. Leuven: Centre for
Computational Linguistics, Katholieke Universiteit Leuven; pp.74-83 (1996).
O'BRIEN, Sharon: Controlling Controlled English: An Analysis of Several Controlled,
Language Rule Sets, EAMT-CLAW 2003. http://www.mt-archive.info/CLT-2003-
Obrien.Pdf (2003).
ODGEN, Charles K.: BASIC English – A general introduction with rules and grammar,
London, Kegan Paul, Trench, Trubner & Co. Ltd., (1930).
REIFLER, Erwin : Mechanical translation with a preeditor, and writing for MT.
Conference on Mechanical Translation, June 1952, Massachusetts Institute of
Technology. (Studies on Mechanical Translation, no.3) (1952).
REIFLER, Erwin: Machine language translation. II. The fundamental problems.
[In] Linguistic and engineering studies in the automatic translation of scientific Russian into
English. Seattle: University of Washington Press, 1960; pp. 21-33. (1960).
136
REUTHER, Ursula: Two in one -- can it work? Readability and translatability by means of
controlled language Controlled language translation, EAMT-
CLAW03, Dublin City University, 15-17 May 2003; pp.124-132. (2003).
ROGERS, Margaret: Consistency in Terminological Choice: Holy Grail or False Prophet?
University of Surrey, UK. (2008).
RUFFINO, J. Richard: Coping with machine translation. In: Lawson (1982), pp. 57-60
(1982).
SI-TAL: ItalWordNet - Manuale Operativo, Consorzio Pisa Ricerche - (CPR) Istituto
Trentino di Cultura - Istituto per la Ricerca Scientifica e Tecnologica - (ITC-irst).
SLOCUM, Jonathan: Machine Translation: its History, Current Status, and Future
Prospects (1984).
SOSNOWSKI, Roman: Modi di arrichimento lessicale nel linguaggio informatico
italiano, em: AA. VV., in L’italiano oltre frontiera, por S. VANVOLSEM, D.
VERMANDERE, Y. D’HULST, F. MUSARRA, Volume I., Franco Cesati, Leuven. (1998).
THOUIN, Benoît: The METEO system. Practical experience of machine
translation. Proceedings of a conference, London, 5-6 de novembro de 1981. Ed.Veronica
Lawson (Amsterdam, New York, Oxford: North-Holland Publishing Company, 1982); pp,
39-44. (1981).
TRIPATHI, Sneha & KRISHNA SARKHEL, Juran: Approaches to machine translation.
In: Annals of Library and Information Studies. Vol. 57, dezembro 2010, pp. 388-393 (2010).
VASCONCELLOS, Muriel: Terminology and Machine Translation. In: Wright, Sue-
Ellen/Budin, Gerhard (eds) Handbook of Terminology Management, Valume II
Application-oriented Terminology Management. Amsterdam/Philadelphia: John Benjamins.
697-723. (2001).
WINDOWS Corporation: Microsoft® Manual of Style, Fourth Edition, 464 p. (2012)
XEROX Corporation: Xerox Publishing Standards A Manual of style and design, Watson-
Guptill Publications, New York, (1988).
Sites corpus:
Lexmark: www.lexmark.it (versão em italiano) & www.lexmark.pt (versão em português)
HP: http://www8.hp.com/it/it/home.html (versão em italiano) &
http://www8.hp.com/pt/pt/home.html (versão em português)
Epson: www.epson .it (versão em italiano) & www.epson.pt (versão em português)
Brother: http://www.brother.it/ (versão em italiano) & www.brother.pt (versão em
português)
Canon: http://www.canon.it/ (versão em italiano) & www.canon.pt (versão em
português)