Download - Italiano controlado para a tradução automática (italiano ...repositorio.ul.pt/bitstream/10451/18390/1/ulfl179137_tm.pdf · 4.5.1 A função “Meu dicionário” do sistema

1

Universidade de Lisboa

Faculdade de Letras

Italiano controlado para a tradução automática

(italiano – português)

Linguagem especializada: informática

Annalisa Zamagni

Dissertação

Mestrado em Tradução

2014

2

Universidade de Lisboa

Faculdade de Letras




Annalisa Zamagni

Dissertação orientada pela Prof.ª Doutora Palmira Marrafa

Mestrado em Tradução

2014

3

AGRADECIMENTOS

À Professora Doutora Palmira Marrafa, pela orientação científica deste projeto, pela

disponibilidade e interesse com que me acompanhou desde o início e pelas opiniões e

críticas diretas e sempre valiosas. Acima de tudo, agradeço-lhe por me ter encorajado a

continuar os estudos e por estimular constantemente o meu interesse pelo

conhecimento.

Ao Matteo, ouvinte atento de todas as minhas dúvidas, um agradecimento especial pela

extrema paciência, apoio e dedicação mas sobretudo pelo amor profundo durante estes

anos todos. Sem ele não teria sido possível levar a cabo este projeto.

À minha família, que sempre me encorajou a seguir os meus sonhos apoiando-me

incondicionalmente, que me ensinou a não desistir e que sempre acreditou em mim. Em

particular, à minha irmã e melhor amiga Claudia que partilhou comigo os momentos

finais da redação desta dissertação e à minha prima Eleonora pela força e o apoio nos

momentos mais difíceis.

A todos os amigos e colegas que ao longo destes anos longe de casa ouviram as minhas

histórias, os meus desabafos e os meus sucessos, amigos esses que são agora a minha

nova família. Gostaria, em particular, de agradecer ao Gonçalo por todas as horas em

que teve a paciência de me apoiar nas revisões e no melhoramento do meu português.

Mas acima de tudo pelo sorriso e pela amizade durante este caminho universitário em

Portugal.

4




ÍNDICE

Agradecimentos ............................................................................................... 3

Resumo............................................................................................................. 6

Abstract ............................................................................................................ 7

1. Introdução ............................................................................................................................. 8

1.1 Objeto de estudo ..................................................................................................................... 8

1.2 Objetivos e motivação .......................................................................................................... 10

1.3 Metodologia e obtenção de dados ......................................................................................... 12

1.4 Organização da dissertação ................................................................................................... 14

2. A tradução automática ....................................................................................................... 16

2.1 Tradução automática: perspetiva histórica ........................................................................... 17

2.1.1 Os primeiros dicionários eletrónicos ............................................................................... 18

2.1.2 Os avanços subsequentes à Segunda Guerra Mundial: o papel de Warren Weaver ....... 21

2.1.3 Bar-Hillel: a impossibilidade da tradução automática ..................................................... 23

2.1.4 1952: a primeira conferência sobre a tradução automática ............................................ 24

2.1.5 Os anos 60 e o relatório ALPAC ..................................................................................... 26

2.1.6 1967–1976: a década da estagnação ................................................................................ 28

2.1.7 Os anos 80: um novo interesse ........................................................................................ 30

2.1.8 Os anos 90: o ponto de viragem ...................................................................................... 31

2.1.9 Desde 2000: estado da arte .............................................................................................. 32

2.2 Os diferentes tipos de sistemas de tradução automática ....................................................... 33

2.3 Os problemas da tradução automática .................................................................................. 40

2.4 O sistema SYSTRAN ........................................................................................................... 42

2.4.1 SYSTRANet .................................................................................................................... 45

5

3. As linguagens controladas.................................................................................................. 48

3.1 Classificação e história das linguagens controladas ............................................................. 49

3.2 Limites e desvantagens das linguagens controladas ............................................................. 61

3.3 Linguagens controladas e controlo da qualidade .................................................................. 63

4. Os limites da tradução automática: estudo de casos ....................................................... 75

4.1 Predicados complexos .......................................................................................................... 77

4.2 Orações participiais .............................................................................................................. 83

4.3 Coordenação e subordinação ................................................................................................ 87

4.3.1 Coordenação .................................................................................................................... 87

4.3.2 Subordinação ................................................................................................................... 95

4.4 Ortografia e Omissão de partes de constituintes ................................................................. 102

4.5 Léxico informático .............................................................................................................. 106

4.5.1 A função “Meu dicionário” do sistema SYSTRANet .................................................. 107

4.5.2 Glossário bilingue italiano-português (informática)...................................................... 114

4.5.3 Terminologia: formação de novos termos e manutenção do dicionário ........................ 123

5. Conclusão .......................................................................................................................... 127

5.1 Regras em italiano controlado para a tradução e para o Controlo da Qualidade (Linguagem

Especializada Informática: impressoras) .................................................................................. 127

REGRAS GERAIS ................................................................................................................. 128

REGRAS ESPECÍFICAS ....................................................................................................... 128

5.2 Considerações finais ........................................................................................................... 130

Bibiliografia ................................................................................................. 133

6

RESUMO

As linguagens controladas são conjuntos de restrições cuja utilização contribui para a

realização de textos homogéneos e simplificados que facilitam, além do mais, a sua

análise por parte dos sistemas de tradução automática que podem, desta maneira, gerar

outputs de melhor qualidade.

O presente estudo tem como objetivo demonstrar que é possível a organização de um

conjunto de regras (sintáticas, morfológicas, lexicais, etc.), para a redação de templates

técnicos num italiano controlado capazes de responder às necessidades de

processamento da informação por parte dos sistemas de tradução automática sendo,

igualmente, de utilidade para o controlo da qualidade dos emails num contexto

empresarial de suporte técnico prestado ao utente final e baseado nas regras da escrita

técnica. O domínio de referência é o da informática (mais especificamente o das

impressoras) e o par de línguas trabalhado é italiano-português. O sistema de tradução

automática de referência é o SYSTRANet disponível online. O fragmento de linguagem

controlada elaborado, dada a sua dupla funcionalidade, embora prevalentemente

Machine-Oriented controlled language (MOCL) envolve alguns aspetos das Human-

Oriented controlled languages (HOCL) no que diz respeito ao controlo da qualidade.

Palavras chave: tradução automática, linguagem controlada, italiano controlado,

escrita técnica, controlo da qualidade.

7

ABSTRACT

Controlled languages are sets of restrictions used to create standardized and simplified

inputs that facilitates, especially, their analysis into machine translation systems

allowing in this way the creation of better quality outputs.

In this study we demonstrate the possibility of creating a set of rules (syntactical,

morphological, lexical, etc.) for the redaction of technical templates in controlled Italian

capable to answer to machine translation needs and, secondarily, to business email

quality control standards, which are based on technical writing rules, in a context of

technical support for end users.

The referring technical domain is computer science (more specifically printers sub-

domain) and the linguistic pair used is Italian-Portuguese (EU). The machine

translation system used is SYSTRANet, available online. The controlled language

fragment elaborated is classified as Machine-Oriented controlled language (MOCL)

taking however into consideration some of the aspects of Human-Oriented controlled

languages (HOCL) for what concerns quality control.

Keywords: machine translation, controlled language, controlled italian, technical

writing, quality assurance.

8

1. INTRODUÇÃO

1.1 OBJETO DE ESTUDO

Esta dissertação tem como principal objetivo o estabelecimento de um conjunto restrito

de regras para um italiano controlado para tradução automática, no domínio da

informática, sendo que, subsidiariamente, se tem igualmente em vista a exploração de

tais restrições no controlo da qualidade na criação de templates técnicos.

Estabelecer regras de composição para a criação de inputs numa dada língua, tem como

objetivo facilitar e acelerar a tradução de textos nessa língua para outra ou outras

línguas. Este trabalho toma como base a observação das traduções automáticas para

português de templates técnicos redigidos em italiano a fim de constituir um conjunto

restrito de regras que permitam regular a criação dos inputs na língua de partida com

vista a melhorar a sucessiva tradução efetuada pelo sistema de tradução automática

escolhido.

As linguagens controladas apresentam terminologia e regras sintáticas bem definidas e

reduzem, eliminando-as, se possível, as ambiguidades típicas da escrita não restringida.

A realização de inputs homogéneos e simplificados facilita a análise dos textos por parte

dos sistemas de tradução automática, produzindo assim outputs de melhor qualidade e

reduzindo, por consequência, a necessidade da intervenção humana.

Decidiu-se limitar o âmbito de trabalho ao domínio da informática (nomeadamente das

impressoras) para alargar o estudo das vantagens das linguagens controladas não só para

a tradução automática mas também para a produção de textos simples de compreender e

ler, caraterística essa crucial para textos do tipo informático destinados a utilizadores

com diferentes conhecimentos técnicos. Como sabemos, a língua das tecnologias é o

inglês e muitas empresas (nomeadamente norte-americanas) têm de fazer face à

globalização pensando também na parte de mercado constituída por falantes de outras

9

línguas que não o inglês. As estratégias das empresas podem variar mas prendem-se

principalmente com a “globalização” e a “localização”. Enquanto a primeira visa uma

simplificação do conteúdo para o tornar mais simples e acessível a mais pessoas, a

segunda trata da tradução e adaptação do conteúdo para ir ao encontro de todos aqueles

clientes que não têm o inglês como língua materna, ou que não falam esta língua. A

produção de material “globalizado” (globalized) prende-se com a restrição e o controlo

da língua e acarreta custos menores em fase de localização.

O desenvolvimento das linguagens especializadas está desde sempre ligado aos

domínios técnicos, mais especificamente à criação e simplificação de material técnico

na língua de partida, surgindo mais tarde a necessidade da uma tradução multilingue.

Por um lado, o utilizador humano beneficia no que diz respeito à compreensão e, por

outro, as empresas conseguem poupar tempo e recursos para a transposição para outras

línguas. À partida, é considerada a hipótese de que as regras das linguagens controladas

vão de encontro às diretrizes do controlo da qualidade da redação de templates técnicos

(em particular na área da informática) e que é possível criar uma linguagem controlada

capaz de responder às necessidades de redação e de tradução neste dado contexto.

Com o objetivo de testar esta hipótese, serão verificados os pontos de encontro entre a

linguagem técnica empresarial e as linguagens controladas orientadas para a tradução

automática através da análise de um corpus de textos informáticos com vista à criação

de regras de redação (e de um glossário bilingue italiano-português da informática) que

possam responder em primeiro lugar às necessidades da tradução automática de italiano

para português e, subsidiariamente, que possam contribuir para a simplificação de

templates técnicos em italiano tendo em conta as regras do controlo da qualidade.

10

1.2 OBJETIVOS E MOTIVAÇÃO

O trabalho resulta de uma integração dos conhecimentos profissionais e dos

conhecimentos universitários adquiridos com vista à elaboração de um italiano

controlado que possa ser utilizado para a tradução para português de templates técnicos

no domínio da informática e, subsidiariamente, para simplificar o input em italiano de

modo a produzir documentos que estejam de acordo com os padrões de controlo da

qualidade das empresas informáticas.

A escolha do par de línguas de trabalho italiano português, prende-se principalmente

com a deslocalização massiva de serviços de help desk técnicos de Itália para Portugal.

Os mercados italianos presentes em território português têm, na maioria dos casos, um

volume de trabalho muito mais elevado em comparação com o do mercado português,

levando os agentes italianos a uma produção de textos técnicos em italiano mais

elevada, textos estes que são sucessivamente traduzidos para português. Trata-se, no

caso em apreço, de templates de apoio técnico cujos destinatários são os utilizadores

finais, ou seja, os clientes que adquiriram o produto ao qual a empresa presta suporte.

Assim sendo, é interessante ver como o duplo benefício das linguagens controladas

pode contribuir para a otimização, ao máximo, do tempo de trabalho, aumentando

simultaneamente a produtividade. De facto, reparou-se que, ao utilizar uma linguagem

controlada, não apenas se trabalha a uma velocidade mais elevada no que respeita à

tradução multilingue mas, igualmente, produzem-se textos mais simples para os utentes

de um dado serviço (numa dada língua), respondendo assim à realidade dos centros de

suporte técnico que oferecem serviços em várias línguas e que, cada vez mais, tentam

reduzir os custos e aumentar a velocidade de produção.

Sabe-se, no entanto, que o uso de uma linguagem controlada pode levar a problemas

associados com a capacidade de expressão, que pode ser tanto menor quanto mais

restritivas forem as regras impostas. A velocidade de redação é também reduzida ao

11

escrever-se numa linguagem controlada: o uso das regras requer muito cuidado no que

diz respeito à seleção de uma estrutura em vez de outra, à organização sintática da frase

ou à escolha do léxico. Finalmente, aprender a escrever numa linguagem controlada

pode requerer um tempo de formação significativo. Contudo, em fase da elaboração do

fragmento em objeto, verificou-se que muitos dos conceitos e das regras-base de uma

linguagem controlada, coincidem com regras de redação dos templates impostas por

empresas fabricantes de impressoras e usadas como referência para este estudo.

O objetivo geral deste trabalho é, então, agilizar a tradução para o português de

templates redigidos em italiano, respeitando ao mesmo tempo e sempre que possível os

padrões de redação internos estabelecidos por empresas desta área. Se, por um lado, ao

utilizar o italiano controlado se traduz mais fácil e rapidamente assegurando uma maior

produtividade, por outro, é possível tentar cumprir todas as regras assegurando um alto

nível de qualidade.

Devido às restrições ditadas pela vontade de responder tanto às necessidades de

melhoria do input em italiano e do output traduzido automaticamente para português

como ao cumprimento das regras de controlo da qualidade, trata-se de um trabalho

baseado numa amostra restrita de fenómenos linguísticos e constituído por um conjunto

de regras limitado, que visa demonstrar a possibilidade de desenvolver uma linguagem

controlada que tenha em conta os desafios da tradução automática, da escrita técnica e

do controlo da qualidade. Em fase de elaboração das restrições, de facto, a necessidade

de obter um input gramatical e de boa qualidade, gerou dificuldades e impôs limitações

relevantes. Cabe mencionar, a este propósito, os desafios encontrados aquando da

criação de um Português Controlado para Tradução Automática e para utilização no

ensino/aprendizagem do Português (L2, LE não elementar e LM) (Marrafa et al. 2011),

no qual a linguagem controlada devia também responder simultaneamente a duas

necessidades.

12

1.3 METODOLOGIA E OBTENÇÃ O DE DADOS

Para a organização do conjunto de regras é necessário introduzir um elevado número de

textos no sistema de tradução automática e analisar os outputs produzidos pelo mesmo

para, deste modo, identificar as suas falhas e escolher a estratégia para as contornar.

O conjunto de textos recolhidos para a elaboração do corpus utilizado na redação desta

tese é constituído por textos específicos da área da informática e relativos à manutenção,

instalação e utilização de impressoras de vários tipos. Se bem que o trabalho se focalize

na tradução e redação de templates para utentes finais, estes são muitas vezes criados a

partir de instruções inseridas em manuais ou material de formação técnica escritos em

inglês e depois traduzidos pela própria empresa. Tratando-se de textos de elevado

conteúdo técnico e escritos, muitas vezes, com base em regras de redação específicas,

apresentam muitas das caraterísticas dos textos simplificados acarretando um número

consideravelmente menor de erros no sistema de tradução automática quando

comparado com textos mais genéricos.

A recolha de textos foi feita através das secções de suporte de diferentes empresas de

informática e fabricantes de impressoras.

As tipologias dos textos analisados e que constituem o corpus dividem-se em:

- templates em italiano redigidos a partir de documentos técnicos em inglês ou

português ao longo da experiência de trabalho como Quality Assurance Manager na

empresa Lexmark. Muitos destes textos contêm informação adicional não

disponibilizada online e adquirida durante formação pontual na empresa. A seleção dos

templates centrou-se naqueles textos que respondiam melhor aos padrões de Qualidade

de redação estabelecidos pela Lexmark para verificação das propostas apresentadas

nesta dissertação.

13

- textos das diferentes secções de recolha de documentos técnicos dos sites de

fabricantes de impressoras (Lexmark, HP, Canon, Epson, Xerox, Brother). A maioria

dos textos consultados não é disponibilizada em português.

- manuais técnicos e guias do utilizador dos diferentes fabricantes de impressoras

(Lexmark, HP, Canon, Epson, Xerox, Brother) disponíveis nas duas versões (italiano e

português) nos sites.

- fóruns sobre configuração, problemas e manutenção de impressoras (consultados em

italiano e português).

Após recolha e análise dos textos, passou-se à tradução dos mesmos na ferramenta de

tradução automática SYSTRANet (http://www.systranet.com/translate) para

levantamento dos problemas e seleção dos fenómenos linguísticos a considerar.

Cabe lembrar que a estratégia desta analise visa, em primeiro lugar, a melhoria do

output, ou seja o mesmo deverá ser gramaticalmente correto e respeitar todos ou a maior

parte dos padrões de qualidade e, em segundo lugar, a melhoria do input, que deverá ser

simples e respeitar todos ou a maior parte dos padrões de qualidade. Enquanto para a

tradução automática a qualidade do input é irrelevante e é possível utilizar frases

agramaticais para obter bons resultados no output, no caso aqui apresentado há

restrições a esse nível, que se prendem com a dupla funcionalidade da linguagem

controlada desenvolvida, não sendo permitidos inputs agramaticais.

No que diz respeito à criação do glossário informático, apresentado no parágrafo acerca

da terminologia (4.5.2), foram selecionados 67 termos da área da informática (dos quais

a maioria do domínio específico das impressoras) não presentes nos dicionários

utilizados pelo sistema SYSTRANet ou não processados corretamente em fase de

http://www.systranet.com/translate

14

tradução. Além da introdução manual de algumas entradas, foi utilizado o software SDL

MultiTerm Extract 2011 para extração de terminologia de manuais e guias do utilizador.

Para introdução da correspondência em português foi realizado, em alguns casos, o

alinhamento de manuais bilingues italiano-português disponibilizados online pelas

mesmas empresas através do SDL Trados Studio 2011, fazendo-se igualmente uso do

conhecimento pessoal adquirido durante os anos de trabalho na área.

1.4 ORGANIZAÇÃO DA DISSER TAÇÃO

A tese está organizada em 5 capítulos. O primeiro capítulo é introdutório e apresenta os

objetivos e as metodologias seguidas para a realização da dissertação.

O segundo capítulo visa apresentar a história da tradução automática de modo a

fornecer uma base para a compreensão do desenvolvimento e dos objetivos da mesma

ao longo do tempo, assim como dos diferentes tipos de sistemas de tradução. As

referências bibliográficas fundamentais para a realização desta parte da dissertação

foram, principalmente, os trabalhos de Slocum, Hutchins e Arnold. Pretende-se dar a

conhecer o caminho da tradução automática desde os primeiros anos (1930-40) até ao

dia de hoje. Para melhor compreendermos em que medida uma linguagem controlada

pode melhorar a tradução dum texto, serão também apresentados os diferentes tipos de

sistema de tradução automática apontando para as limitações e as vantagens de cada um.

O terceiro capítulo aborda os diferentes tipos de linguagens controladas para a tradução

automática e a sua história, apresentando alguns exemplos de linguagens controladas

bem sucedidas. Apresenta-se, também, a ligação entre as linguagens controladas e o

controlo da qualidade na área do equipamento informático (impressoras) com referência

a diretrizes comuns a várias empresas e com base nos manuais de estilo para a escrita

técnica que muitas empresas da área têm construído ao longo dos anos para auxiliar os

15

seus autores técnicos. É nesta secção que serão apresentadas as correspondências e as

diferenças entre as linguagens controladas para a redação e para a tradução.

O quarto capítulo apresenta a amostra de fenómenos linguísticos selecionados. É neste

capítulo que são apresentados os limites do sistema de tradução utilizado com base no

corpus selecionado. Os fenómenos linguísticos analisados estão divididos em secções

distintas. A última acerca do léxico informático contém um glossário de termos

recolhidos durante a realização dos testes e a consulta dos materiais.

Em jeito de conclusão, será apresentado o fragmento de regras elaborado assim como os

resultados do estudo e os possíveis desenvolvimentos.

16

2. A TRADUÇÃO AUTOMÁTICA

“[Machine translation] was one of the earliest applications suggested for digital

computers, but turning this dream into reality has turned out to be a much harder, and

in many ways a much more interesting task than at first appeared”

Arnold et al. (1994)

A tradução automática é a tradução de um dado texto numa dada língua para outra

língua através do uso de um computador que é, portanto, o único responsável pelo

desempenho da tarefa de tradução (Slocum, 1999). Reifler (1960) definia-a deste modo:

"[...] the very purpose of MT is the high-speed mass translation by machine from one

language into one or more other languages -- that is, the surmounting of the language

barrier by automatic devices [...]"

Neste capítulo, apresenta-se uma breve panorâmica histórica da tradução automática,

mostram-se as diferenças entre os vários tipos de sistemas de tradução e alguns dos

problemas mais comuns destes mesmos sistemas.

Em 2.1, traça-se a história da tradução automática dividida em vários parágrafos que

representam as etapas mais significativas para os avanços na área.

Em 2.2, serão apresentados os diferentes tipos de sistemas de tradução automática e o

seu funcionamento.

Em 2.3, apresentam-se os problemas mais comuns relacionados com os sistemas de

tradução automática com base no trabalho de Arnold (1994).

17

Em fim, o último parágrafo 2.4, visa traçar uma breve história do sistema SYSTRAN

assim como apresentar as caraterísticas da versão online (SYSTRANet) utilizada no

específico para a realização dos testes à base do trabalho em objeto.

2.1 TRADUÇÃO AUTOMÁTICA : PERSPETIVA HISTÓRICA

Ao longo da história, as apostas na área da tradução automática não têm sido regulares.

Durante os primeiros anos da década de 50, o interesse e o apoio dispensados à tradução

automática, eram alimentados pela ideia da consecução de tradução de alta velocidade e

de elevada qualidade. Foi sobretudo após a segunda Guerra Mundial, durante a época da

Guerra Fria, que os americanos e os ingleses interessados em terem um acesso rápido às

informações científicas soviéticas, começaram a financiar projetos para o

desenvolvimento de aplicações computacionais capazes de efetuar tradução automática

do russo para o inglês. Tratava-se de tradução palavra a palavra sem preocupações de

análise sintática ou lexical. O objetivo primário era ter uma ideia geral do conteúdo dos

textos, sem querer divulgar a tradução, fator que implicava um desinteresse total pela

qualidade do output.

Em meados dos anos 60, o entusiasmo da década anterior deu lugar à desilusão: o

número e a dificuldade dos problemas de tradução não pareciam ser resolúveis de uma

maneira totalmente automatizada. Em 1966, o Automatic Language Processing

Advisory Committee (ALPAC), encarregado de avaliar os progressos na linguística

computacional e, mais especificamente, na tradução automática, apresentou um relatório

em que criticou veementemente a área. O relatório mostrava ceticismo quanto aos

progressos na tradução automática e levou ao cancelamento de muitos projetos na área,

já que os governos começaram a querer cortar os financiamentos para o efeito.

18

A ideia disseminada nos anos 50 de que o computador poderia traduzir de forma

satisfatória sem intervenção humana foi completamente afastada nos anos 80, existindo

contudo um ressurgimento do interesse pela área. Foi nesta década que se passou a

querer desenvolver aplicações computacionais que pudessem auxiliar o tradutor durante

a sua tarefa. A partir dos anos 90 até hoje, graças ao advento da Internet, o uso dos

sistemas de tradução automática tem vindo a ganhar cada vez maior relevo, devido ao

facto de estes programas desempenharem um papel crucial na disseminação da

informação numa era de globalização.

Nos parágrafos seguintes, procede-se à apresentação mais detalhada das várias etapas da

evolução da tradução automática, assim como do estado da arte, com base,

principalmente, nas obras de Hutchins e Slocum. Sendo o foco central deste trabalho as

linguagens controladas, será dedicado mais espaço aos linguistas, matemáticos,

filósofos e a todos os que contribuíram para a área da tradução automática, com

particular interesse na fase da pré-edição e no controlo do input.

2.1.1 OS PR IMEI ROS DIC IONÁ R IO S ELETRÓNI CO S

As primeiras tentativas de “tradução automática” que merecem ser assinaladas foram

realizadas nos anos 30 quando Georges Artstruni, engenheiro francês de origem

arménia, criou uma máquina para a tradução de línguas chamada “cerveau mécanique”

(cérebro mecânico) e Pëtr Smirnov-Troyanskii apresentou, na Rússia, o primeiro

protótipo de tradutor automático (Zarechnak, 1979).

O dispositivo criado por Artstruni e em desenvolvimento desde 1929, tinha sido

realizado para executar uma grande variedade de tarefas entre as quais contabilidade,

decifração e encriptação de mensagens e, também, produção de tabelas de horários de

comboios e listas telefónicas (Zarechnak, 1979). Durante a Exposição Universal de

19

Paris de 1937, o dispositivo suscitou grande interesse por parte do público: foram várias

as organizações estatais que assinaram contratos com o inventor para o

desenvolvimento de protótipos que pudessem responder às suas necessidades

empresariais internas. Entre as empresas interessadas havia, por exemplo, o serviço dos

correios, para a gestão das encomendas monetárias, e o serviço dos comboios, para a

impressão de bilhetes. O que impediu a continuação dos projetos foram a guerra e a

ocupação territorial da França (Hutchins, 1986).

Logo no início, o inventor tinha a ideia de utilizar a sua máquina também para a

tradução e, de facto, já em 1933 o mesmo descrevia o dispositivo como capaz de

“translate from one foreign language into any one of three other languages registered"

(Hutchins, 2004, p. 13, citando Corbe, M. "La Machine a Traduire Français Aura Bientot

Trente Ans." in Automatisme, 1960, 5, No. 3 (Dunod, Paris))

O dispositivo era constituído por quatro componentes (Hutchins, 2014, p. 13):

- a “bande des réponses”, que constituia a memória da máquina;

- a “tête de lecture”, um teclado para a inserção das palavras;

- o “sélecteur”, um mecanismo de pesquisa;

- a “sortie”, um mecanismo de saída.

A peça central era constituída pela memória, ou seja um rolo de papel largo 40 cm e de

40 metros de comprimento, armazenado em dois cilindros. As entradas do dicionário

eram registadas em linhas de quatro colunas, uma coluna para cada uma das línguas: era

possível inserir até 40.000 linhas, ou seja, 40.000 itens lexicais para 4 línguas (Ibidem).

Para iniciar a pesquisa na memória era suficiente digitar o termo desejado no teclado

que estava ligado ao “sélecteur”: o dicionário mecânico puxava este último para fazer

20

com que encontrasse o termo correspondente e puxava o rolo de papel da memória para

mostrar o resultado da pesquisa numa pequena janela do teclado.

No primeiro modelo o “sélecteur” e a memória conseguiam deslocar-se entre as 40.000

linhas em 60 segundos, nos modelos sucessivos isso podia ser feito com uma média de

três segundos (Ibidem): o primeiro dicionário eletrónico estava lançado.

Hoje em dia estes tipos de sistemas pouco têm a ver com a tradução automática em si,

estando mais relacionados, como acima mencionado, com o conceito de ‘dicionário

eletrónico’. É contudo de salientar o impacto que esta tecnologia, desenvolvida no início

dos anos 30, teve na realização de muitos dos sistemas de tradução automática dos anos

60.

Outro precursor foi Pëtr Smirnov-Troyanskii, acima mencionado, que patenteou um

dispositivo para a “selection and typing of words while translating from one language

into another" (extraído do Certificado de autoria e invenção original traduzido para

inglês por Evgenii Lovtskii). Troyanskii organizou a tarefa de tradução em três etapas

(Hutchins, 1986):

1. – Pre-edição: um utente nativo apenas da língua de partida identificava os morfemas

básicos e os seus afixos e desinências separando-os e deixando apenas os morfemas

lexicais sem desinências e os verbos no infinitivo;

2. - Etapa mecânica: a máquina encontrava as correspondências na língua de chegada;

3. - Pós-edição: um utente nativo apenas da língua de chegada corrigia as formas

morfologicamente corretas substituindo os morfemas básicos (ou seja, introduzindo

as desinências, conjugando os verbos, etc.).

É interessante ver como desde o início a “simplificação” dos constituintes dos inputs

introduzidos era a estratégia para contornar os limites das máquinas quando o

21

desenvolvimento das mesmas era ainda muito básico, estratégia esta que, a um outro

nível, naturalmente, ainda hoje está na base das linguagens controladas, que visam

contornar os problemas de que as máquinas não conseguem ainda dar conta.

Se bem que a ideia de utilizar o computador para a tradução tenha sido lançada, as

comunidades científicas da Europa e da União Soviética decidiram, naquela altura, não

apostar ainda na pesquisa, que estava longe de ter bases técnicas fortes e se encontrava

num estado embrionário em comparação com a tecnologia da tradução automática que

começou a ser desenvolvida nos Estados Unidos a partir dos primeiros anos 50.

2.1.2 OS A VA NÇ OS S UBS EQUENT ES À SEGU ND A GUERR A M UND IAL : O P APEL DE WAR REN

WEAVE R

Os primeiros grandes computadores para suportar as ações militares foram

desenvolvidos, principalmente, depois da Segunda Guerra Mundial. As pesquisas no

campo da informática foram divulgadas ao público em geral só no fim dos anos 40

suscitando um grande interesse para as mais variadas aplicações, uma das quais foi, sem

dúvida, a tradução automática. Em março de 1947, depois de vários anos passados a

refletir sobre a possibilidade de realizar um computador capaz de traduzir

automaticamente, Warren Weaver (matemático americano) escreveu a seguinte carta ao

professor Norbert Wiener do MIT (Massachussetts Institute of Techonology) para pedir

o parecer de um especialista em linguística e em informática acerca da questão da

tradução automática:

“Uma das coisas que lhe queria perguntar é o seguinte: um problema demasiado sério, para

a UNESCO e para o futuro do planeta, um futuro pacífico e que valha a pena, é o problema

da tradução, uma vez que afeta inevitavelmente a comunicação entre as pessoas. Huxley

disse-me há pouco tempo que estão aterrorizados com a magnitude e a importância da

22

tarefa de tradução. Reconhecendo por completo, mesmo que de forma necessariamente

vaga, as dificuldades semânticas devidas à polissemia, entre outros, pergunto-me se era

impensável conceber um computador que pudesse traduzir. Mesmo que só traduzisse

material científico (onde as dificuldades semânticas são notavelmente menores) e mesmo

que produzisse um resultado deselegante (mas inteligível) parecer-me-ia que valeria a pena.

[...]”

A troca de cartas com o professor Wiener e com outros especialistas foi particularmente

desencorajadora para Weaver que, apesar disso, continuou a acreditar no poder dos

computadores e no apoio que poderiam dar à tarefa da tradução. Cabe aqui sublinhar

como, desde o início, a tradução automática foi, por razões óbvias, associada

principalmente à tradução de textos técnico-científicos e vista mais como um auxílio à

tradução para a aquisição de informações produzindo textos que podem ser,

sucessivamente (no caso das linguagens controladas será precedentemente), editados

por um tradutor humano.

Em julho de 1949, o mesmo Weaver enviou para 30 dos seus conhecidos um

memorando chamado simplesmente “Tradução” (Translation), acerca das possibilidades

de utilizar os computadores, de desenvolvimento recente, para a tarefa de tradução de

documentos. No memorando, o matemático explica como o interesse para a área da

tradução surgiu em relação aos avanços feitos na criptografia e pergunta-se, se bem que

ciente das limitações apresentadas pelos computadores e da necessidade da intervenção

humana em fase de pós-edição, o seguinte (Weaver 1949, p.10):

“It is very tempting to say that a book written in Chinese is simply a book written in

English which was coded into the “Chinese code.” If we have useful methods for solving

almost any cryptographic problem, may it not be that with proper interpretation we already

have useful methods for translation?”

23

Com esta pergunta, e mais em geral com o texto distribuído aos colegas das mais

diversas áreas, Weaver procurava estimular a pesquisa na área da tradução

automática, até aquela altura praticamente inexistente, apostando em que o futuro

da tradução se encontrava mesmo na tradução autómatica.

2.1.3 BAR-H ILLEL : A IM POSSIBIL IDA DE D A TR AD UÇÃ O A UTOMÁTI CA

Em maio de 1951, junto do MIT (Massachusetts Institute of Technology) o investigador

Yehoshua Bar-Hillel começou as suas pesquisas no âmbito da tradução automática.

As necessidades de investigar nesta área prendiam-se principalmente com duas

motivações:

- publicar rapidamente textos científicos, económicos e diplomáticos escritos em línguas

estrangeiras;

- analisar jornais, revistas e folhetos de propaganda de países estrangeiros para controlar

potenciais e atuais inimigos.

Desde o início da sua pesquisa, declarou que a tradução automática sem intervenção

humana apenas era possível em detrimento da qualidade do output, sendo a

ambiguidade semântica o maior obstáculo (Bar-Hillel, 1951):

“It seems obvious that fully automatic MT, i.e. one without human intervention between

putting the foreign text into the reading organ of the mechanical translator and reading off

its output, is achievable only at the price of inaccuracy, if only for the reason that no

method is feasible, for the time being, by which the machine would eliminate semantical

ambiguities.”

Neste sentido, há que sublinhar, no contexto deste trabalho, que devido ao facto de não

acreditar na possibilidade da completa realização da tradução automática sem

24

intervenção humana, Bar-Hillel foi um dos primeiros estudiosos da área a falar mais

concretamente no conceito de “tradução automática mista”, ou seja, na possível

combinação da tradução efetuada por máquinas com a atividade de tradutores humanos.

De facto, se bem que julgasse a ideia da eliminação das ambiguidades impraticável

através da pré-edição, na última parte dum dos primeiros relatórios acerca do estado da

arte da tradução automática (datado de 1951 e apresentado durante a Primeira

Conferência sobre a tradução automática de 1952 no Massachusetts Institute of

Technology) falou da possibilidade do controlo do vocabulário utilizado na redação do

input, assim como do controlo da gramática com vista à tradução automática:

“More important, perhaps, might be the possibility of restricting, by voluntary convention,

the richness of expression in writing abstracts of technical papers, for instance, to such a

degree that sentence-pattern translation might easily and quickly be applied.”

2.1.4 1952: A PR IMEI RA CONFE RÊNC IA S OBRE A TRAD UÇ ÃO A UTOM ÁTIC A

A primeira conferência sobre tradução automática teve lugar em junho de 1952. Até

àquela altura, não existiam muitos relatórios/estudos na área (Hutchins, 1998a). Os mais

interessantes, também considerando o tema central do presente estudo, eram, sem

dúvida, os de Erwin Reifler e o de Abraham Kaplan.

Reifler tinha desenvolvido um estudo acerca dos possíveis papéis dos editores humanos

antes e depois do processo de tradução, o que hoje conhecemos por “pré-edição” e “pós-

edição”. Também foi um dos primeiros a falar em “escrever para a tradução

automática” (Reifler, 1952, p. 4):

“[...] ‘writing for MT’ means that people desirous of a MT of foreign language material are

required to submit these [...] in a specified form, namely a form whose language and/or

script is better suited for MT than their original form. [...] Such a procedure could

25

appreciably simplify the engineering problem and even result in a complete mechanization

of the translation process proper”

No que diz respeito às pesquisas de Kaplan, as mesmas são interessantes no contexto

deste trabalho por terem demonstrado que a “quantidade” de contexto suficiente a uma

máquina de tradução para a desambiguação não ultrapassava as duas palavras,

colocadas antes ou depois da palavra objeto de ambiguidade (Hutchins, 1998a). A

identificação do contexto, como veremos mais especificamente na secção acerca do

léxico (parágrafo 4.5.2), é fundamental para escolha dos termos técnicos em domínios

específicos.

A primeira conferência juntou, portanto, todos aqueles que se tinham interessado pelo

assunto da tradução automática ou que poderiam estar interessados no futuro

propulsionando, assim, o prestígio da área.

Mesmo que muitos dos trabalhos apresentados na conferência não estejam, hoje,

disponíveis, sabemos que a conferência começou com um discurso de abertura feito por

Bar-Hillel (responsável pela organização da conferência e que tinha, nos últimos anos,

analisado de perto os avanços feitos na área por diferentes grupos de investigação), no

qual traçou os maiores problemas da tradução, enfatizando a impossibilidade de obter

uma “tradução perfeita”, como já vimos no parágrafo anterior.

Os sistemas de tradução automática não podiam, segundo Bar-Hillel, fornecer traduções

com níveis aceitáveis, precisando de pré-edição ou pós-edição. A tradução automática é

assim vista como um auxílio para o tradutor humano. Em vários relatórios entre 1951 e

1960, como já vimos, declarou a impossibilidade de uma tradução completamente

automatizada (Bar-Hillel, 1960, p.93):

“Those who are interested in MT as a primarily practical device must realize that full

automation of the translation process is incompatible with high quality. There are two

26

possible directions in which a compromise could be struck; one could sacrifice quality or

one could reduce the self-sufficiency of the machine output. [...] If, however, high quality is

mandatory [...} then the machine output will have to be post-edited, thereby turning, strictly

speaking, machine translation into machine aids to translation”

Bar-Hillel antecipou, deste modo, as ulteriores conclusões do relatório ALPAC, de que

se dá conta na secção seguinte.

2.1.5 OS A NOS 60 E O RELATÓ RIO ALPAC

Uma vez concluída a primeira conferência, decidiu-se tornar públicos os resultados,

para que se pudesse agir em conformidade. Em 1954, o grupo de pesquisa da

Georgetown University realizou uma demonstração pública com o objetivo de mostrar

que a tradução automática era “mecanicamente” possível. A máquina era constituída

por um vocabulário de 250 termos russos, 6 regras de gramática e um conjunto de

frases simples e selecionadas, em russo. Mesmo que não tivesse um grande valor

científico, a máquina revelou que os problemas técnicos ligados à tradução e à sua

relação com a informática tinham sido ultrapassados e que,as dificuldades,se prendiam

mais com a engenharia da máquina em si. A seguir a esta demonstração encorajadora,

os Estados Unidos, nos 10 anos seguintes, financiaram várias pesquisas na área.

Contudo, as traduções eram ainda de baixa qualidade e os problemas linguísticos cada

vez mais difíceis de resolver, o que provou um substantivo decréscimo dos

financiamentos na área. Bar-Hillel, nos anos 60, continuava a afirmar que a ‘fully

automatic high-quality translation’ (FAHQT) era irrealizável (Bar-Hillel, 1960, p. 93)

“unattainability of FAHQT, not only in the near future but altogether”.

A contribuir para o abrandamento dos financiamentos por parte do governo americano

foi, principalmente, o relatório do Automatic Language Processing Advisory Committee

27

(relatório ALPAC) de 1966. O ALPAC tinha sido instituído em 1964 pela National

Science Foundation a fim de avaliar os progressos na área da tradução automática. Com

o relatório publicado em 1966, o ALPAC condenou a tradução automática nos Estados

Unidos, “bloqueando” todos os financiamentos. O relatório, intitulado “Languages and

machines: computers in translation and linguistics” era constituído por 34 páginas e

mais 90 páginas de exemplos (anexados ao texto principal) que serviam para comprovar

o que tinha sido discutido no próprio relatório. Concebido para relatar os avanços na

área da linguística computacional, a tradução automática foi nele apresentada como sem

futuro: demasiado cara em comparação com a tradução humana, muito mais lenta e

muito menos precisa, sendo inevitável a intervenção humana a nível da pós-edição:

“The contention that there has been no machine translation of general scientific text is

supported by the fact that when, after 8 years of work, the Georgetown University MT

project tried to produce useful output in 1962, they had to resort to post-editing. The post-

edited translation took slightly longer to do and was more expensive than conventional

human translation." (ALPAC, 1966, p.19)

Os sistemas de tradução automática dos anos 60 tinham uma abordagem de “tradução

direta” (direct translation), ou seja, tratava-se de sistemas construídos especificamente

para uma combinação linguística (nomeadamente o russo como língua de partida e o

inglês como língua de chegada). A nível da análise linguística, o sistema não ia além do

reconhecimento das categorias das palavras (nomes, verbos, adjetivos, etc.), para lidar

com as palavras homógrafas e de algumas propriedades semânticas, como “sexo

masculino”, “concreto”, “líquido”, etc.

Durante todos os anos 60, os linguistas não foram praticamente envolvidos nos

processos de criação dos sistemas de tradução. Segundo Hutchins (1998a), o interesse

nas áreas da sintaxe e da semântica era pouco relevante nos Estados Unidos naquela

altura. Houve, contudo, investigadores que se dedicaram às duas áreas: um exemplo foi

28

Paul Garvin, académico que trabalhou durante algum tempo na indústria, em tradução

automática, e que desenvolveu uma abordagem de análise semântica baseada nas

estruturas de frases e nas relações de dependência entre os seus constituintes.

Em 1957, outro linguista americano, Noam Chomsky, que viria a ser, como é sabido,

figura maior da Linguística moderna publica Syntactic Structures, obra que

revolucionou o universo da Linguística, logo seguida, em 1965, de Aspects of the

Theory of Syntax, um dos grandes marcos do modelo generativo-transformacional.

Contudo, por esta altura, dominava uma certa descrença relativamente ao

desenvolvimento de sistemas de processamento de linguagem natural com base em

modelos linguísticos (cf., a este propósito, Marrafa, 1993).

2.1.6 1967–1976: A DÉC AD A D A ESTAG NA Ç ÃO

Apesar do impacto que o relatório teve em termos de financiamentos de projetos

relacionados com a tradução automática, as pesquisas não pararam completamente. Até

nos Estados Unidos, onde o relatório tinha sido o primeiro responsável pela cessação da

distribuição de fundos para a investigação, alguns grupos, como os da University of

Texas e da Wayne State University, continuaram a investigar durante alguns anos.

Enquanto nos Estados Unidos os sistemas tinham sido utilizados e desenvolvidos

principalmente para a tradução da combinação linguística russo-inglês (dando mais

importância à tradução no sentido de acesso rápido à informação sem visar a qualidade

do output), no Canadá e na Europa as exigências eram bem diferentes. De facto, quer o

governo bilingue canadiano quer as instituições da então Comunidade Económica

Europeia (CEE), precisavam de um sistema capaz de trabalhar com várias combinações

linguísticas (inglês-francês para o Canadá e tradução multilingue de e para todas as

línguas da CEE, no caso europeu).

29

Um projeto que cabe mencionar no contexto deste trabalho é o sistema METEO,

desenvolvido na Universidade de Montreal, especificamente para a tradução de

relatórios meteorológicos, caraterizados por um vocabulário restrito e uma sintaxe

muito limitada. O sistema de tradução automática tornou-se completamente operacional

em maio de 1977.

Em maio de 1975, o Gabinete de Tradução governamental canadiano confiou ao grupo

TAUM (University of Montreal's Automatic Translation Research Team) um projeto

para o desenvolvimento de um sistema de tradução automática para os relatórios de

meteorologia. Um ano depois, foi realizada a primeira versão do sistema que

demonstrava que a tradução automática na área era perfeitamente realizável. Foi

necessário mais um ano para aperfeiçoar o sistema e passar ao nível operacional.

Definido por Slocum (1984) como “the world’s only example of a truly fully-automatic

MT system”, o sistema era (e ainda é) utilizado para a tradução de inglês para francês:

cada estação metereológica regional canadiana é responsável pela produção do próprio

boletim meteorológico, que é inserido diretamente num terminal conectado à rede

nacional de telecomunicações. Existem mensagens que o sistema METEO consegue

traduzir diretamente sem necessidade de intervenção humana, ou seja, previsões

regionais, previsões marítimas e previsões para a agricultura (Thouin, 1981). Se o

sistema encontrar uma palavra que não consta no dicionário ou uma construção não

presente na gramática, a unidade a ser traduzida é recusada pelo sistema sendo enviada,

diretamente, para um tradutor humano.

Como já referido anteriormente, a Europa também continuou a investir na tradução

automática e, em poucos anos, o sistema SYSTRAN (que tinha sido utilizado em

primeiro lugar na Força Aérea dos Estados Unidos – USAF - em 1970), foi instalado

30

para utilização das instituições europeias para a tradução rápida de grandes volumes de

documentos em várias línguas (1976).

A partir da segunda metade dos anos 70 e com o surgir de multinacionais e

comunidades multilingues (principalmente na Europa, no Canadá e no Japão), não havia

um número de tradutores suficientes para responder às necessidades, tornando a

tradução automática um recurso precioso e fundamental, nomeadamente para a tradução

de documentos do setor comercial (assim como técnico), que fosse o mais barata

possível.

2.1.7 OS A NOS 80: UM N OVO I NTERESSE

Na década de 80, surgiram diferentes sistemas de tradução automática em vários países

do mundo. Além do sistema SYSTRAN que integrou novas combinações linguísticas,

outros sistemas foram desenvolvidos por empresas de informática e outras associações,

sendo os mais importantes: o sistema Logos (alemão-inglês e inglês-francês), o sistema

interno realizado pela Pan American Health Organization (espanhol-inglês/inglês-

espanhol), o sistema Metal (alemão-inglês) e muitos outros sistemas que trabalhavam

com a combinação linguística japonês-inglês e vice-versa desenvolvidos por empresas

de informática japonesas (tal como a Sharp, a NEC, a Oki, a Mitsubishi, a Sanyo)

(Hutchins, 2014)).

A pesquisa também voltou a encontrar o seu lugar: vários foram os projetos relevantes

financiados naqueles anos entre os quais se encontram-o projeto GETA-Arian

(Grenoble), o SUSY (Saarbrücken), o Mu (Kyoto), o DLT (Utrecht) e o Rosetta

(Eindhoven). Também é de salientar a importância de outros dois grandes projetos

multilingues: o Eurotra (financiado pela Comunidade Europeia) e o japonês CICC.

31

A estratégia predominante nesta década foi a da tradução indireta através de

representações intermediárias (interlíngua) incluindo análise morfológica, sintática e

semântica(e os correspondentes módulos de geração.

2.1.8 OS A NOS 90: O P ONTO D E VIR AGEM

As grandes diferenças na área da tradução automática que marcaram os anos 90 estão

principalmente relacionadas com dois eventos: por um lado, a publicação de resultados

de experiências realizadas no sistema Candide (publicado por um grupo de pesquisa da

IBM) e baseado apenas na abordagem estatística e, por outro lado, a utilização de

abordagens baseadas em corpora de textos anteriormente traduzidos apresentada por

grupos de pesquisa japoneses.

Esses factos determinaram um ponto de viragem na abordagem clássica da tradução

automática, baseada em regras, sem que, contudo, esta abordagem tenha deixado de ter

importância.

Outro evento relevante desta década é, sem dúvida, a chegada aos mercados das

primeiras ferramentas que auxiliam o processo da tradução (os chamados “CAT -

Computer Aided Translation - tools”). O mais conhecido de todos, o Trados, começou a

disponibilizar produtos a partir de 1992.

Com o aumento da importância do conceito de tradução automática e de tradução

assistida por computador como ferramentas de auxílio ao tradutor, começaram também

as pesquisas no domínio das linguagens controladas e no dos sistemas restritos e

dedicados a áreas específicas.

As vendas de computadores para uso privado também aumentaram drasticamente nos

anos 90 e, com elas, o interesse dos utilizadores particulares na tradução automática: se

32

até aí a tradução automática era concebida como instrumento empresarial (para eventual

posterior publicação dos textos traduzidos), o público em geral procurava agora uma

tradução de baixa qualidade mas rápida para ter acesso às inúmeras informações

disponíveis na rede, nas mais variadas línguas. Um evento marcante para o futuro da

tradução automática como produto de massas foi, de facto, a introdução de serviços de

tradução automática gratuitos on-line como o Babelfish e, posteriormente, o Google

Tradutor.

Em finais dos anos 90, Hutchins (1999) fez um apanhado do estado da arte da tradução

automática através da Internet prevendo a importância crescente dos sistemas baseados

em corpora:

“The impact of the Internet has been significant in recent years. […] The demand for

immediate translations will surely continue to grow rapidly, but at the same time users are

also going to want better results. There is clearly an urgent need for translation systems

developed specifically to deal with the kind of colloquial (often ill formed and badly

spelled) messages found on the Internet. The old linguistics rule-based approaches are

probably not equal to the task on their own, and corpus-based methods making use of the

voluminous data available on the Internet itself are obviously appropriate.”

2.1.9 DESDE 2000: EST ADO D A ARTE

No campo da pesquisa na área da tradução automática, os anos 80 foram sem dúvida um

ponto de viragem. Hoje em dia, o desenvolvimento de sistemas é fundamentalmente de

base estatística e muito poucos projetos continuam a investigar sobre os métodos

baseados em regras linguísticas. Segundo Hutchins (2014), as razões prendem-se,

principalmente, com:

- a disponibilidade de largos corpora bilingues e monolingues;

33

- a disponibilização online de ferramentas gratuitas para o alinhamento de textos e

outras aplicações para processamento das línguas naturais.

Apesar disso, recorre-se ainda à abordagem baseada em regras para a compreensão e o

estudo de alguns aspetos mais complexos das línguas entre os quais o tratamento das

línguas morfologicamente mais ricas (nomeadamente o russo e o finlandês, bem como

todas as línguas aglutinantes) ou a análise e a ordem dos constituintes em línguas como

o japonês, pelo que muitos pesquisadores optam por uma abordagem “híbrida” que

combina mais do que uma abordagem ao mesmo tempo. A disponibilização online, em

2007, de sistemas como o MOSES (ferramenta de tradução automática estatística que

pode ser alterada e personalizada) aceleraram, sem dúvida, os processos de criação de

sistemas personalizados. De facto, é possível inserir no sistema qualquer tipo de corpus,

tornando mais específica a tradução estatística.

A tradução automática é utilizada hoje em dia em grande escala sobretudo no que diz

respeito às grandes empresas ganhando relevo a pré-edição, nomeadamente na área das

linguagens controladas e do controlo terminológico, assim como na pós-produção dos

outputs. A TA é vista hoje pelos tradutores profissionais como um auxílio à tradução e

não como um concorrente, enquanto, o público em geral recorre diretamente às

ferramentas gratuitas disponibilizadas na Internet (nomeadamente o Google Tradutor do

qual falaremos no próximo parágrafo), para ter acesso rápido às informações da rede.

2.2 OS DIFERENTES TIPOS DE SISTEMAS DE TRADUÇ ÃO AUTOMÁTICA

Os sistemas de tradução automática são concebidos para trabalhar sem a intervenção

humana, como Slocum (1984, p.547) escreveu

34

“[...] an MT system is solely responsible for the complete translation process from input of

the source text to output of the target text without human assistance, using collections of

linguistic rules [...]”

Existem diferentes tipos de sistemas de tradução automática que podem ser

classificados como se segue:

- sistemas de tradução automática baseados em dicionários

- sistemas de tradução automática baseados em regras (tradução direta ou indireta)

- sistemas de tradução automática baseados em corpus (estatísticos)

- sistemas de tradução automática híbridos (baseados em corpus e com componentes

baseadas em conhecimento linguístico)

Os sistemas de tradução automática baseados em dicionários são os sistemas

desenvolvidos entre os anos 40 e metade dos anos 60, como vimos anteriormente. A

tradução é feita através da equivalência de termos presentes em dicionários eletrónicos.

Dentro da categoria dos sistemas de tradução automática baseados em regras é possível

distinguir entre duas abordagens: a abordagem direta e a indireta. Mais em geral estes

sistemas contêm regras linguísticas construídas em volta de informação morfológica,

sintática e semântica. Os sistemas deste tipo conseguem lidar com uma grande

variedade de fenómenos linguísticos e têm por objetivo converter as estruturas da língua

de partida em estruturas da língua de chegada.

A primeira, e mais antiga, é a abordagem da tradução direta (também chamada

‘tradução binária’) na qual o sistema de tradução automática é programado para

funcionar apenas com uma combinação linguística específica. A tradução é feita

diretamente do texto na língua de partida para o texto na língua de chegada (sem passar

35

por outra representação intermediária), sendo o sistema dependente da combinação

linguística escolhida. De facto, como Slocum (1984, p. 548) afirma estes sistemas são

“limited to the minimum work necessary to effect that translation; for example,

disambiguation is performed only to the extent necessary for translation into that one target

language, irrespective of what might be required for another language”

O sistema de base consiste num vocabulário bilingue e um programa para a análise e

produção dos textos (sistemas bilingues e unidirecionais).

língua de partida

FIG. 1 SISTEMA DE TRADUÇÃO AUTOMÁTICA BASEADO EM REGRAS: A ABORDAGEM DIRETA

A análise do texto na língua de partida é feita por um parser que determina a estrutura

gramatical do texto organizando uma estrutura de dados (uma árvore de palavras da

língua de partida com a indicação da categoria e da função). Esta estrutura de dados,

como apresentado na Fig.1 é, em seguida, confrontada com a informação contida nos

dicionário e na gramática da língua de chegada que contêm as indicações (sintáticas,

morfológicas, etc.) necessárias para a realização do texto na língua de chegada.

TEXTO

LÍNGUA

DE

PARTIDA

L

í

n

g

u

a

d

e

p

a

r

t

i

d

a

TEXTO

LÍNGUA

DE

CHEGADA

L

í

n

g

u

a

d

e

c

h

e

g

a

d

a

Análise e síntese

Dicionários e gramáticas da

língua de partida e da língua de

chegada

36

Os outros dois tipos de sistemas de tradução automática acima mencionados podem ser

agrupados na mesma categoria tendo os dois uma abordagem “indireta”: trata-se da

abordagem que envolve “interlingua” ou “transferência”.

A abordagem “interlíngua” pretende converter os textos da língua de partida em

representações conceptuais, em formatos independentes das línguas, a partir das quais

são gerados os textos na(s) língua(s) de chegada.

O processo de tradução está dividido, grosso modo, em duas fases: a primeira sendo a

tradução da língua de partida para a interlíngua e a segunda da interlíngua para a língua

de chegada. Sendo a representação “interlíngua” independente das línguas, revela-se,

dentro das abordagens orientadas para o conhecimento, a mais adequada para a tradução

multilingue (o que justifica o interesse de que foi objeto na altura em que a tradução

multilingue era de interesse crucial, ou seja a partir da década de 70).

FIG. 2 SISTEMA DE TRADUÇÃO INDIRETA: INTERLÍNGUA

Outra abordagem indireta é a da “transferência” que prevê três fases: análise,

transferência e síntese. Na primeira fase o texto na língua de partida é analisado a nível

TEXTO

LÍNGUA

DE

PARTIDA

L

í

n

g

u

a

d

e

p

a

r

t

i

d

a

TEXTO

LÍNGUA

DE

CHEGADA

L

í

n

g

u

a

d

e

c

h

e

g

a

d

a

Representação

interlíngua

Análise Síntese

Dicionários e

gramáticas da língua

de partida

Dicionários e


de chegada

Dicionário língua de

partida – língua de

chegada

37

lexical, morfológico, sintático e semântico o que produz uma representação do texto na

língua de partida. Na segunda etapa, esta mesma representação é transferida para uma

representação na língua de chegada para, na terceira fase, se gerar um output na língua

de chegada através de uma gramática desta última.

FIG. 3 SISTEMA DE TRADUÇÃO INDIRETA: TRANSFERÊNCIA

Se por um lado a vantagem destes sistemas é as regras representarem conhecimento

linguístico, por outro os maiores problemas prendem-se principalmente com a

necessidade de um profundo conhecimento na área da linguística e com a

impossibilidade de escrever regras que consigam dar conta de todos os fenómenos de

uma língua natural.

Nos sistemas estatísticos, as traduções são produzidas na base de modelos estatísticos

cujos parâmetros derivam da análise detalhada de corpora de traduções bilingues

alinhadas.

Nos sistemas baseados em exemplos a tradução é efetuada por semelhança, ou seja, são

selecionados fragmentos linguísticos dentro de conjuntos de traduções paralelas.

Análise TEXTO

LÍNGUA DE

PARTIDA

Lín

gua

de

part

ida

TEXTO

LÍNGUA DE

CHEGADA

L

íng

ua d

e c

heg

ada

Representação

língua de

partida

Dicionários e


de partida

Dicionários e


de chegada

Dicionário língua de

partida – língua de

chegada

Transferência Síntese Representação

língua de

chegada

Regras de

transferência

38

O processo de tradução destes sistemas é articulado em três fases:

- matching: o sistema procura os excertos parecidos na língua de partida num conjunto

de textos monolingues;

- alignment: o sistema identifica porções de traduções correspondentes;

- recombination: o sistema junta os excertos encontrados e constrói a frase na língua de

chegada.

Os sistemas estatísticos utilizam, como o nome o indica, estatísticas de ocorrência de

palavras em grandes corpora bilingues de textos já traduzidos e alinhados. Lopez (2008,

p. 8:2), define-os como se segue:

“SMT [Statistical Machine Translation] treats translation as a machine learning problem.

This means that we apply a learning algorithm to a large body of previously translated text,

known variously as a parallel corpus, parallel text, bitext, or multitext.”

Em menos de duas décadas, os sistemas estatísticos passaram a dominar o campo da

tradução automática tornando-se os mais populares junto do grande público.

O Google Tradutor é, hoje em dia, um dos sistemas estatísticos mais conhecidos e

utilizados. Na secção “Conhecer o Google Tradutor”1 é possível visualizar um vídeo2

que explica de maneira simples como são realizadas as traduções por parte do sistema,

vídeo acompanhado também pela breve explicação aqui reportada

(http://translate.google.pt/about/intl/pt-PT_ALL/):

“Quando o Google Tradutor gera uma tradução, procura padrões em centenas de milhões de

documentos para determinar qual a melhor tradução. Ao detetar padrões em documentos já

1

http://translate.google.pt/about/intl/pt-PT_ALL/ (consultado em 16.07.2014)

2

https://www.youtube.com/watch?v=Rq1dow1vTHY (visualizado em 16.07.2014)

http://translate.google.pt/about/intl/pt-PT_ALL/

http://translate.google.pt/about/intl/pt-PT_ALL/

https://www.youtube.com/watch?v=Rq1dow1vTHY

39

traduzidos por tradutores humanos, o Google Tradutor consegue determinar de forma

inteligente uma tradução considerada adequada. Este processo de procura de padrões em

grandes quantidades de texto denomina-se "tradução automática por análise estatística.”

As vantagens desta abordagem, quando comparadas com a abordagem de sistemas

baseados em regras, são múltiplas. Em primeiro lugar, as traduções que compõem os

corpora são realizadas por tradutores falantes nativos das línguas em questão o que

disponibiliza para o computador um vasto leque de exemplos em língua natural que dão

origem, portanto, a traduções mais naturais. Além disso, os sistemas de tradução

estatística, em princípio, não são construídos para nenhum par linguístico

especificamente dependendo apenas da extensão do corpus e da introdução de textos

paralelos no par linguístico desejado. Acerca da criação de sistemas com novas

combinações linguísticas Lopez (2008, p. 8:2), com referência a outros trabalhos, afirma

que:

“ With an SMT toolkit and enough parallel text, we can build an MT system for a new

language pair within a very short period of time—perhaps as little as a day [Al-Onaizan et

al. 1999; Oard and Och 2003; Oard et al.2003].”

Os custos também são reduzidos em comparação com os sistemas “clássicos”: os

sistemas de tradução automática baseados em regras requerem desenvolvimento e

manutenção manual por parte de especialistas em várias áreas.

O Google Tradutor utiliza a abordagem estatística desde 2006, tendo principalmente em

conta os custos elevados que a abordagem baseada em regras acarreta. Os limites do

Google Tradutor assim como dos sistemas estatísticos estão, de facto, ligados a escassez

de corpora em determinadas línguas o que faz com que o sistema tenha de passar por

outra língua (no caso do Google tradutor o inglês) para efetuar a tradução. Além desta

questão, os corpora integrados nos sistemas estatísticos não podem, dado o caráter

recursivo das línguas, integrar todas as frases possíveis não sendo, por essa razão,

40

completamente abrangentes. Nos sistemas híbridos, o modelo estatístico é combinado

com os princípios dos sistemas de tradução automática baseados em regras. O sistema

SYSTRAN, como veremos em 2.4, combina a abordagem baseada em regras com a

abordagem estatística desde 2009.

2.3 OS PROBLEMAS DA TRADUÇÃO AUTOMÁTICA

Nesta secção serão analisados alguns dos problemas mais comuns da tradução com base

na categorização feita por Arnold et al. (1994) e com vista à classificação daquelas

problemáticas que poderão ser resolvidas com recurso à linguagem controlada. Segundo

o autor, os maiores problemas da tradução automática (se bem que não os únicos)

podem ser divididos em três categorias:

- problemas de ambiguidade;

- problemas de não correspondência estrutural e lexical;

- problemas relacionados com as expressões idiomáticas.

No que diz respeito aos problemas ligados à ambiguidade, esta pode surgir em duas

situações: quando uma palavra permite pelo menos

duas interpretações num dado contexto e quando uma frase tem mais do que uma

estrutura possível. No primeiro caso fala-se em “ambiguidade lexical” e no segundo em

“ambiguidade sintática” (ou estrutural). A ambiguidade lexical pode verificar-se

igualmente com palavras homógrafas que pertencem a categorias gramaticais diferentes.

Nestes casos a ambiguidade pode ser mais facilmente resolvida através das regras

gramaticais inseridas no sistema de tradução automática. Um exemplo é ‘a’ que, em

português, pode ser um artigo definido singular feminino, uma preposição que expressa

várias relações ou um pronome pessoal (feminino).

41

A ambiguidade sintática, proveniente da estruturação dos constituintes, pode prender-se

com vários fatores como, por exemplo, com o facto de haver sintagmas preposicionais

que podem modificar vários componentes da frase.

Em muitos casos será possível proceder à desambiguação apenas através do

conhecimento que temos do mundo (ou de um determinado domínio) e com recurso à

pragmática, ou seja, interpretando o enunciado baseando-nos não apenas na informação

linguística, mas também no conjunto de informações para-linguísticas, não linguísticas e

contextuais que condicionam a produção e a interpretação de cada enunciado, dai as

óbvias dificuldades de análise de uma máquina.

Um caso de ambiguidade lexical que veremos mais à frente prende-se, por exemplo,

com o duplo significado do termo italiano “stampa”: o termo pode ser traduzido por

“impressão” em português de Portugal, designando, em informática, a atividade de

transferir um determinado conteúdo para um suporte material qualquer, e por

“imprensa” no domínio do jornalismo, dependendo a sua tradução principalmente da

semântica do contexto.

Outros problemas aos quais os sistemas de tradução automática devem fazer face são os

ligados às diferenças lexicais entre as várias línguas e às maneiras como o mundo é

categorizado nas diferentes línguas e culturas. Cada língua é, de facto, um vasto

sistema diferente dentro do qual são ordenadas culturalmente as formas e as categorias

pelas quais as pessoas comunicam. Em alguns casos, o processo de tradução serve-se do

recurso à imaginação (cf. Arnold, 1994), o que, obviamente, não é realizável por

máquinas.

As expressões idiomáticas estão também, muitas vezes, ligadas à apreensão da realidade

feita por uma dada cultura e colocam portanto desafios para a tradução automática. De

facto, se algumas vezes é possível traduzir estas expressões literalmente como na

42

expressão idiomática italiana “mettere il carro davanti ai buoi” traduzida para português

por “pôr o carro à frente dos bois”, muito mais frequentemente a tradução literal não irá

oferecer os resultados esperados como no caso da expressão italiana “essere al verde”,

literalmente “estar no verde” cujo significado é “não ter dinheiro”. Para obter uma

tradução correta, a expressão terá que ser tratada como unidade (para o tratamento

destas expressões em TA, ver, por exemplo, Arnold (1994).

Ao longo do trabalho, através da construção de regras de linguagem controlada

veremos como limitar a ocorrência de alguns destes problemas através da alteração e

simplificação do input. Cabe salientar que muitos destes problemas são menos

frequentes nas linguagens especializadas que, por esta razão, estão desde sempre mais

associadas à tradução automática.

2.4 O S ISTEMA SYSTRAN

Os testes realizados para a criação das restrições propostas foram efetuados no sistema

de tradução automática SYSTRANet (apresentado em 2.4.1) versão gratúita

desenvolvida pela empresa SYSTRAN (acrónimo para SYStem TRANslation).

Além dos inúmeros desafios que o mesmo coloca quer a nível sintático quer a nível

lexical, o sistema foi escolhido por ser um sistema híbrido que associa portanto o

conhecimento linguístico com a abordagem estatística.

Criado nos Estados Unidos por Peter Toma, o sistema SYSTRAN foi concebido, em

primeiro lugar, para a combinação linguística russo/inglês, em resposta às necessidades

da NASA e, posteriormente, aperfeiçoado e utilizado pelas Instituições Europeias para a

tradução de textos técnicos entre as várias línguas dos países europeus, tornando-se

operacional a partir de 1983. Inicialmente a Comissão das Comunidades Europeias

43

adquiriu o sistema principalmente para a disseminação de informações (em 1975) e, só

mais tarde, surgiu o interesse em traduções de melhor qualidade para fins de revisão

posterior. Nos anos a seguir, a pesquisa continuou e foram adquiridas outras versões do

programa (com outras combinações linguísticas) e os tradutores começaram a beneficiar

do auxílio fornecido pelo sistema. O sistema é utilizado para a tradução automática de

documentos especializados num número restrito de áreas técnicas, com dicionários

altamente especializados (nomeadamente medicina, carvão, aço, petróleo, economia,

etc.) e há cada vez uma maior seleção dos textos a serem traduzidos utilizando o

SYSTRAN.

A terminologia inserida no sistema está portanto, principalmente, relacionada com os

setores acima mencionados e cada empresa adapta o seu dicionário consoante as suas

necessidades (Loffler-Laurien, 1994). De facto, o sistema SYSTRAN foi o primeiro

sistema a apresentar a ideia de Customer Specific Dictionary em 1989, ou seja,

dicionários definidos pelo utilizador que incluem palavras e terminologia do cliente, o

que faz com que o sistema seja mais específico e a qualidade maior.

O sistema foi disponibilizado para a utilização do público em geral entre 1986 e 1987

quando uma empresa francesa que desenvolvia a combinação linguística inglês/árabe

teve a ideia de realizar um sistema para uso generalizado chamado MITRAD, para a

empresa Gachot.

Além das Instituições Europeias, algumas empresas norte americanas com grandes

volumes de traduções utilizam o sistema SYSTRAN (entre as mais conhecidas a

General Motors e a Xerox).

A empresa canadiana General Motors utiliza a versão inglês-francês para traduzir

manuais técnicos aumentando a produtividade dos seus tradutores em 3 a 4 vezes. A

Xerox, desenvolveu uma linguagem controlada em inglês (chamada Multinational

44

Customized English, da qual falaremos mais especificamente no capítulo sobre as

Linguagens Controladas) com um determinado estilo e um vocabulário restrito,

permitindo traduzir mais de 90% dos seus textos técnicos para francês, italiano,

espanhol, alemão e português até 5 vezes mais depressa, através do sistema SYSTRAN.

O funcionamento do sistema está baseado numa sublíngua, dependendo a qualidade do

output principalmente da restrição do texto de entrada, tornando-o a escolha ideal para o

trabalho em apresentação e a criação de uma linguagem controlada. As funcionalidades

e recursos principais das quais o sistema beneficia são o dicionário volumoso e o

análisador morfológico.

A SYSTRAN nunca declarou que o sistema funcionava independentemente da revisão

humana, sendo a qualidade dos outputs limitada (para o público em geral). Na descrição

do sistema SYSTRANet (versão em linha), encontramos esta declaração:

“Translation software does not replace human translators and SYSTRANet translations will

not achieve human translation quality.” (http://www.systranet.com/pt/systranet-help/help-

improve-translation-quality).

Em 1997, o motor de busca AltaVista passou a oferecer um serviço de tradução

automática online através do sistema SYSTRAN: o objetivo principal era a tradução

rápida de páginas web para a aquisição de informações por parte dos utilizadores.

Um ponto de viragem é constituído pelo lançamento da versão 7.0 em 2009 com a

introdução de um novo motor híbrido de tradução com tecnologia híbrida: estatística e

baseada em regras.

Em 2012, o sistema adiciona mais 37 línguas, entre as quais o albanês, o croata, o

checo, o finlandês, o farsi e o turco.

http://www.systranet.com/pt/systranet-help/help-improve-translation-quality

http://www.systranet.com/pt/systranet-help/help-improve-translation-quality

45

2.4.1 SYSTRANET

O SYSTRANet é um sistema de tradução automática da empresa SYSTRAN,

disponível online gratuitamente (http://www.systranet.com/translate) e que traduz de e

para 13 línguas diferentes oferecendo mais de 40 combinações linguísticas. Como já

referido anteriormente o sistema é tradicionalmente baseado em regras, mas tornou-se

um sistema híbrido, passando a utilizar também uma abordagem estatística e

combinando-a com a anterior.

Na secção de suporte, a equipa SYSTRAN disponibiliza um conjunto de regras para

melhorar a qualidade do output, regras essas comuns a muitas linguagens controladas.

As sugestões feitas pela SYSTRAN (http://www.systranet.com/pt/systranet-help/help-

improve-translation-quality) dizem respeito ao comprimento das frases e dos textos, à

presença de todos os elementos dentro de uma frase, ao controlo da gramática e da

grafia, entre outras:

(1) - Translate short and simple texts. Translate proper and complete

sentences with a subject, a verb and a logical sentence structure.

(2) - Always use proper vocabulary. Do not use slang or acronyms.

(3) - Control grammar, spelling, accents and punctuation before you

translate with SYSTRANet.

(4) - Consider the number of words. If the text you translate is too long,

shorten it or you'll need to perform several translations. Always translate

full sentences.

Apresenta-se também outra secção de suporte, que fornece aos utilizadores sugestões de

redação do input com vista a melhorar a qualidade da tradução produzida pelo sistema.

46

A secção chama-se “Writing tips” (http://www.systranet.com/pt/systranet-help/help-

writing-tips) e explica como a qualidade da tradução é determinada pela qualidade do

texto de partida, apresentando um total de 10 sugestões que ajudam o utilizador a limitar

e controlar o texto de partida:

(1) – ‘Be Direct. Write in a Simple, Clear Manner’: aconselha-se a evitar

estruturas de frases complexas, frases ambíguas, frases subordinadas, fragmentos

de frases e palavras não necessárias.

(2) - ‘Be Concise and To The Point’: a segunda sugestão prende-se com o

comprimento das expressões. É aconselhado ao utilizador o uso de frases curtas,

sem porém omitir nenhum dos constituintes.

(3) - ‘Do Not Leave Out Necessary Words’: sugere-se aqui que não sejam

omitidas expressões relevantes, nomeadamente, pronomes, preposições e partes de

verbos.

(4) - ‘Beware of Slang and Colloquialisms’: com esta regra procura-se

alertar os utilizadores para a utilização de frases idiomáticas que, como sabemos,

são dificilmente processadas pelo sistema como unidades de sentido e que, muito

dificilmente, equivalem de língua para língua aquando da tradução palavra a

palavra.

(5) – ‘Insert Proper Punctuation’: esta sugestão prende-se com a importância

da pontuação para o reconhecimento dos limites das frases. É explicado ao utente

como a pontuação facilita a leitura para o tradutor/leitor humano e, por maioria de

razão, o processamento para os sistemas de tradução automática, e sublinha que,

sem a pontuação adequada, as frases podem ser interpretadas de maneiras

diferentes, podendo tornar-se ambíguas.

47

(6) – ‘Check for Accurate Spelling’: no que diz respeito à ortografia, sugere-

se a utilização de um corretor ortográfico antes da introdução do texto no sistema

pois o mesmo poderá interpretar de maneira errada palavras com grafia incorreta,

prejudicando a qualidade da tradução.

(7) – ‘Use Articles Whenever Possible’: outra sugestão que encontramos em

comum em muitas linguagens controladas é o uso dos artigos sempre que

possível, em particular para o reconhecimento de um nome e a consequente

redução da ambiguidade.

(8) – ‘Consistent Use of Terminology and Abbreviations’: com esta sugestão

aconselha-se o uso de uma terminologia uniformizada ao longo do texto em linha,

como conceito base de muitas linguagens controladas: um termo para um

conceito. Sublinha-se aqui a confusão que pode nascer da utilização inconsistente

da terminologia quer a nível humano quer para as máquinas.

(9) – ‘Maintain a Simple Format’ e (10) – ‘Use tabs or indents at the

beginning of a line and to separate paragraph numbering from the text’. As

últimas duas sugestões prendem-se principalmente com fatores técnicos e têm a

ver com o uso de tabelas e gráficos.

No próximo capítulo, acerca das linguagens controladas, será possível constatar como,

muitas destas sugestões, estão na base das regras gerais das linguagens controladas, quer

no sentido de simplificar um texto para a leitura na língua original quer para a sua

tradução automática e, portanto, em termos de processamento por parte da máquina.

48

3 AS LINGUAGENS CONTROLADAS

“A controlled language (CL) is a subset of a natural language

which is created using various rules to restrict the grammar and

vocabulary which can be used in a text. The purpose of a CL is

to reduce ambiguity and complexity in texts and it does this by

limiting the ways in which information can be expressed.”

(Byrne, 2012, p.142)

Neste capítulo, apresenta-se uma breve panorâmica histórica das linguagens

controladas, tentando esclarecer as diferentes razões que levaram muitas empresas à

criação e utilização das mesmas.

Em 3.1, classificam-se as linguagens controladas consoante as suas finalidades e traça-

se a história de algumas das linguagens controladas mais bem sucedidas, apresentando

as motivações que levaram cada empresa ou instituição a integrar a linguagem

controlada na própria escrita técnica.

Em 3.2, serão apresentados alguns dos limites e das desvantagens das linguagens

controladas.

Por fim, em 3.3, apresenta-se, a ligação entre as linguagens controladas e o controlo da

qualidade na área informática, comparando as sugestões contidas em diferentes manuais

de estilo para a escrita técnica, quer com as diretrizes do controlo da qualidade quer

com algumas das regras das linguagens controladas para a tradução.

49

3.1 CLASSIFICAÇÃO E HISTÓRIA DAS LINGUAGENS C ONTROLADAS

Uma linguagem controlada é uma forma de utilização restrita de uma língua segundo

regras de gramática e de vocabulário. O recurso a uma linguagem controlada pode

tornar os textos nela redigidos mais claros e, ao mesmo tempo, mais fáceis de serem

traduzidos. Uma frase complexa e/ou ambígua pode levantar problemas tanto a um

leitor ou a um tradutor como a um sistema de tradução automática. Por esta razão, as

linguagens controladas podem ser utilizadas para fins diferentes, que podem ter a ver

com a simplificação do texto para a tradução ou para a leitura.

Vários são os autores que classificam as linguagens controladas consoante o seu

objetivo final. Huijsen (1998), entre outros, apresenta uma distinção entre Human-

oriented controlled language (HOCL) e Machine-oriented controlled language (MOCL).

Enquanto as do primeiro tipo têm por objetivo melhorar a legibilidade e, portanto,

facilitar a compreensão, no segundo caso trata-se de redigir os textos por forma a

melhorar a sua tradução. Veja-se (Fig. 1), abaixo.

FIG. 4 DIFERENÇA ENTRE HOCL E MOCL (HUIJSEN, 1998)

Machine

translation (MT)

Specialized Dictionaries,

Thesauruses, Trainers

Grammar checkers,

software checkers

Human-Oriented Controlled

Language (HOCL)

Machine-Oriented Controlled

Language (MOCL)

50

Reuthers (2003), realizou uma pesquisa intitulada “Two in One – Can it work?

Readability and Translatability by means of Controlled Language” através da qual

investiga as relações entre as duas diferentes abordagens e as diferentes regras.

Convém aqui apresentar a diferente categorização das linguagens controladas feita pela

autora com base na funcionalidade: melhorar a legibilidade ou melhorar a tradução.

Reuthers (2003, p.124) escreve que a primeira abordagem é aquela que visa a melhorar

“readability, comprehensibility, clarity, and consistency of text.”

A autora também acrescenta que os destinatários desta Linguagem Controlada são

leitores humanos, frequentemente não nativos (como no caso do AECMA

Simplified English – que será analisado no próximo parágrafo), mas também

leitores nativos, normalmente no que respeita a documentos técnicos, enquanto,

para a outra abordagem, a autora explica (ibidem)

“In the other approach towards CL the improvement of translatability,

especially in the case of automated translation, is the main objective. In this

CL application it is important to take into account the translation tool, since

both the type of tool (Translation Memory system vs. Machine Translation

system) and tool specific characteristics have an impact on a related CL”

No seu trabalho, a autora questiona-se acerca da eventual compatibilidade entre as duas

abordagens aquando da realização de conjuntos de regras (as regras seriam

contraditórias ou poderiam ser partilhadas para as duas funcionalidades?) chegando à

conclusão de que

“readability rules are a subset of translatability rules, in other words, translatability

ensures readability. The reverse statement is only true to some extent.” (ibidem,

p.131)

51

De facto, a motivação que levou à elaboração de linguagens controladas residiu,

primeiramente, na ideia de simplificar a comunicação escrita em inglês através do

British American Scientific International Commercial English, mais conhecido por

BASIC English, por volta de 1930. Por ser diferente das tentativas anteriores, sendo

uma parte simplificada de uma língua natural (o inglês), distinguia-se das outras

tentativas completamente artificiais ou híbridas, tal como o Esperanto (primeira versão

em 1887). Na base do movimento pela criação do BASIC English, residia a ideia de que

apenas algumas centenas de palavras eram suficientes para redigir qualquer texto em

inglês: em vez das 75.000 normalmente utilizadas por um falante nativo, o vocabulário

foi reduzido para 850 palavras e as regras gramaticais simplificadas drasticamente. Uma

das estratégias para atingir a simplificação e a economia lexical era, entre outras, a de

substituir os verbos plenos por expressões com os chamados “operator verbs” e os

nomes ou adjetivos correspondentes. Em relação a esta proposta, é interessante ver que

muitos manuais de redação sugerem, de facto, a abordagem contrária, ou seja a

substituição de predicados complexos por expressões atómicas, abordagem essa que foi

também aplicada ao fragmento de linguagem controlada aqui proposto e que será

discutida na secção 4.1. Arnold (1994, p. 147) explica que, no caso do BASIC English,

a econonomia lexical

“was to be achieved in part by using ‘operator verbs’ with the set of nouns and adjectives to

stand in for the vast number of derived verbs which are frequently used. For example,

whereas in ordinary English we might write ‘The disc controller design was perfected over

numerous revisions’, Basic English would say ‘... was made perfect ...’, where ‘make’ is

one of the operator verbs and ‘perfect’ one of the licensed” Basic English adjectives. “

Posteriormente, com a introdução dos sistemas de tradução automática e devido aos

seus limites técnicos, tornou-se também fundamental a adaptação do material a ser

redigido/traduzido ao sistema a ser utilizado (às suas regras, estruturas e, também,

52

falhas). Exemplos na base da adaptação necessária eram instruções acerca de como

evitar uma determinada estrutura, um determinado verbo, construção, termo, etc., uma

espécie de manuais de estilo, como veremos mais à frente em 3.3.

Estas adaptações e “regras” de redação podem ser consideradas como sendo um

primeiro passo para a criação das linguagens controladas (Cremers, 2011). Alguns

exemplos das instruções genéricas nelas contidas são:

1 - escrever frases curtas;

2 - utilizar a pontuação corretamente;

3 - usar a forma ativa;

4 - escrever frases gramaticalmente completas;

5 - utilizar artigos.

As razões que levaram à introdução das Linguagens Controladas para a tradução,

prendem-se, então, com vários fatores: entre os primeiros, sem dúvida, a redução de

custos para o processo de tradução em geral. De facto, se por um lado era preciso

investir na formação dos autores em Linguagem Controlada, por outro a máquina

conseguia traduzir muito mais rapidamente do que um tradutor humano e a revisão

também era muito mais barata.

Outro fator predominante, ligado à redação de textos simples, era o melhoramento do

texto de partida: o aumento da legibilidade (devido às frases mais curtas e à redução de

ambiguidades) tornava os textos técnicos mais acessíveis aos leitores, tornando, por sua

vez, o produto/serviço mais apelativo.

Com a introdução das Linguagens Controladas era igualmente possível conseguir uma

consistência terminológica ao longo dos manuais e do conjunto de textos de uma

53

determinada empresa, o que facilitava consideravelmente a reutilização das memórias

de tradução.

No caso das empresas das áreas mais técnicas, a elaboração de manuais técnicos e a

posterior tradução dos mesmos para o maior número de línguas possíveis foram,

portanto, o motor propulsor da criação de linguagens controladas que permitiam, de

facto, uma diminuição da ambiguidade, uma redução dos termos utilizados e uma

simplificação da sintaxe, tornando esses textos mais adequados para a tradução

automática.

As linguagens controladas (mono e multilingues) que tiveram mais sucesso têm sido,

além do BASIC English já analisado, as seguintes:

- Caterpillar Fundamental English (CFE)

- Bull Global English

- Perkins/Univ Edinburgh PACE

- AECMA Simplified English (SE)

- GIFAS Rationalised French

- Kokak International Service Language

- Smart Controlled English

- General Motors Global English

- Securities and Exchange Commission (SEC) Plain English

- Fight the Fog (Comissão Europeia)

- MultiDoc project Controlled Languages

- Remedios Ruiz/Richard Sutcliffe Controlled Spanish

54

- Xerox Multilingual Customized English

- Scania Swedish

De seguida, serão analisadas algumas das linguagens acima listadas com o objetivo de

identificar as diferentes necessidades das empresas consoante a área técnica de

intervenção, as línguas de trabalho e a dimensão.

A empresa americana Caterpillar Inc., por exemplo, é uma multinacional que fabrica

máquinas, motores e veículos pesados, destinados principalmente à construção civil e

que distribui produtos e peças no mundo inteiro. Cada produto da empresa integra

diferentes subsistemas entre os quais motores, sistemas hidráulicos, sistemas elétricos e

ferramentas diferentes para os quais é necessário realizar e manter vários documentos de

caráter técnico (Kamprath et al., 1998).

Fundado nos anos 70, o Caterpillar Fundamental English era um excelente exemplo de

sistema com vocabulário restrito (cerca de 850 palavras), concebido para ser utilizado

na redação de manuais de serviço destinados a técnicos não nativos do inglês, e visando

evitar, desta forma, a sua tradução para várias línguas. Foi abandonado depois de ter

sido utilizado durante cerca de dez anos, por várias razões que se prendiam

principalmente com os problemas ligados ao facto de o dicionário ser limitado: a rápida

expansão da empresa em áreas como a hidráulica e a eletrónica não eram

suficientemente representadas pelos 850 termos presentes no dicionário (Kamprath et

al., 1998). Outra motivação que levou a empresa a deixar de utilizar a linguagem

controlada foram os custos elevados da formação exigida para escrever no Caterpillar

Fundamental English, assim como o nível de escolarização dos técnicos (destinatários

dos manuais de serviço) nas diferentes partes do mundo, nem sempre conhecedores do

alfabeto latino (ibidem).

55

Em meados dos anos 80, graças aos avanços tecnológicos, às 850 palavras do

Caterpillar Fundamental English que, entretanto tinha sido posto de parte, foram

acrescentadas novas entradas de termos técnicos do domínio do texto a redigir,

chegando-se aos 70.000 termos, e dando origem ao que ainda hoje se chama Caterpillar

Technical English, que devia aumentar não só a legibilidade dos textos técnicos, como

também agilizar a tarefa de tradução. Entre os benefícios apresentados por Kaprath et

al. (1998), encontramos uma maior consistência a nível terminológico, permitindo aos

autores a reutilização dos mesmos termos para os vários produtos levando, portanto, a

uma maior produtividade.

A maior parte dos estudos mais conhecidos sobre linguagens controladas são sobre a

língua inglesa. O inglês, de facto, tornou-se bem cedo a língua das tecnologias e dos

transportes, em particular na aviação, onde a necessidade de comunicar de uma forma

clara e coerente e compreender todas as instruções impunham garantias mínimas de

segurança. Por esta razão foi criada uma linguagem para controlar a escrita técnica

chamada ASD Simplified Technical English, ASD-STE100 (STE).

O projeto começou em 1979 com o nome de AECMA Simplified English quando a

indústria aeroespacial europeia pediu à AECMA (Associação Europeia dos Fabricantes

de Material Aeroespacial) para investigar sobre a possibilidade de utilizar uma forma de

inglês simplificada para a redação de todos os documentos produzidos por todos os

diferentes fabricantes de material aeroespacial. Num primeiro momento a AECMA

investigou outras linguagens controladas já utilizadas por outras empresas com o

objetivo de as adaptar às suas necessidades. Assim, em 1983, decidiu criar a sua própria

linguagem controlada alargando o projeto também aos Estados Unidos. A primeira

versão do AECMA Simplified English, sob forma de simples instruções, foi lançada

em 1986, sendo sucessivamente integrada em todos os manuais de redação dos textos.

56

Em 2004, a associação mudou o nome para ASD (acrónimo para AeroSpace and

Defence Industries Association of Europe) e o Simplified English transformou-se em

ASD-STE100 (adicionando o termo “technical” ao nome).

O Simplified Technical English, se bem que estável e consolidado, precisa de

manutenção constante para se alinhar com as novas tecnologias e ter em conta os

feedbacks dos seus utilizadores. Segundo Chiarello (2012), demonstrou-se que apenas

3% do conteúdo dos documentos técnicos é específico da área da aviação enquanto 97%

pode ser aplicado a qualquer outro contexto sem necessidade de adaptação. Por esta

razão, o interesse pelo STE desenvolve-se para além da clareza das informações

redigidas e da tradução para chegar à área do ensino e de escrita em outros domínios

técnicos.

Outro exemplo de linguagem bem sucedida que cabe apresentar é o Multinational

Customized English, um dos melhores exemplos da aplicação do sistema SYSTRAN.

Trata-se de uma linguagem controlada com a dupla função de melhoria do input e de

tradução rápida e automática realizada pela empresa Xerox Corporation. Como Elliston

(1978, p.152) declara, os primeiros testes com o sistema SYSTRAN para a tradução de

textos técnicos antes da implementação da linguagem controlada não correram como

esperado:

“The system that we are currently using to develop our total translation process is

SYSTRAN. Initially, we did some research with uncontrolled input text which resulted in

unacceptable output in terms of the post edit effort required. The dilemma at this stage was

that if one used a totally free form of input, the computer translation output required a

massive post edit.”

Como o mesmo autor escreveu no seu relatório acerca da escolha da Xerox Corporation

de utilizar uma linguagem controlada, a empresa viu no Multinational Customized

English (e na suas versões anteriores) a solução para os seguintes problemas:

57

Custos - os produtos no mercado aumentavam todos os anos e havia, portanto, uma

necessidade crescente de tradução da documentação multilingue para cada produto. A

única solução era recrutar mais tradutores o que ia acarretar, como é óbvio, mais custos.

A solução que eles procuravam, por outro lado, residia num aumento da produtividade

guardando o mesmo número de recursos, ou seja, utilizando os recursos já disponíveis

de maneira mais eficiente.

Prazos apertados - a documentação era produzida em inglês e para a tradução nas

várias línguas era necessário um período de tempo relativamente extenso, o que limitava

o tempo de os produtos serem devidamente testados nos mercados cuja língua era

diferente do inglês.

Clareza da comunicação - os dois maiores problemas de ambiguidade na empresa

multinacional eram

“- ambiguity - text must be written in a clear manner.

- vocabulary - text should only contain those words that are known to be in the end

users vocabulary.” (ibidem, p. 150)

Os três problemas são, hoje em dia, ainda mais atuais devido à rapidez com que novos

produtos são lançados no mercado e à importância de literatura na língua do utilizador.

A utilização da linguagem controlada garante, portanto:

- redução das ambiguidades no input;

- outputs de boa qualidade;

- consistência terminológica;

- traduções rápidas para várias línguas;

- textos em inglês de fácil compreensão.

58

Portanto, além de a introdução das linguagens controladas diminuir os custos (um dos

problemas principais de todas as empresas), dois grandes benefícios foram também

revelados: em primeiro lugar, a legibilidade e a clareza de um texto redigido usando

uma linguagem controlada parecem mais elevadas mesmo para falantes nativos; em

segundo lugar, estes textos, quando introduzidos num sistema de tradução automática,

produzem melhores resultados garantindo rapidez, fator imprescindível no setor

informático.

Outro projeto interessante é o da Direção Geral de Tradução da Comissão Europeia que,

em 1998, lançou a campanha “Fight the Fog” dirigida a todos os redatores e tradutores

de textos institucionais em língua inglesa, da própria Comissão. Como o nome indica, o

objetivo do projeto era tornar mais clara a comunicação e a compreensão que,

frequentemente, dificultavam a ligação entre as instituições europeias e os cidadãos.

Com o lançamento da campanha foi também elaborado um guia chamado “How to write

clearly” que apresenta sugestões para uma escrita mais clara baseado nas obras de

Martin Cutts "The Plain English Guide" (1996) e de Joseph M. Williams chamada

"Style: Toward Clarity and Grace" (1995).

Entre as sugestões estão o uso das expressões atómicas em favor de predicados

complexos, a preferência da voz ativa à passiva e a redação de frases e textos curtos

(sob o lema ‘KISS: Keep It Short, Keep It Simple’).

Desde então muitos avanços foram feitos e existem agora serviços de controlo da

qualidade dos textos redigidos que permitem verificar o nível de clareza e intervir

quando necessário.

Em março de 2010, uma nova campanha chamada “Clear Writing” foi lançada pela

Direção Geral de Tradução da Comissão Europeia, diferenciando-se da precedente

campanha por não ser específica da língua inglesa mas por ter sido pensada para todas

59

as línguas da União Europeia. O guia realizado, chamado na versão portuguesa “Redigir

com clareza”, foi redigido em 23 línguas e está disponível gratuitamente no EU

bookshop. Além da publicação e difusão online do guia, a campanha abrangia outras

iniciativas, tais como formação, um site interno para discussão e um espaço “Sugestão

da Semana” com dicas adicionais. Em novembro do mesmo ano, também foi realizada

uma conferência à qual participaram vários especialistas da área da “redação clara” com

o título ‘Clear Writing throughout Europe’.

As sugestões apresentadas na versão portuguesa são as seguintes (comuns à língua

italiana):

(1) - Pense antes de escrever

(2) - Dê prioridade ao leitor – seja direto e interessante

(3) - Organize o seu documento

(4) - Seja breve e claro

(5) - Seja coerente – organize as frases

(6) - Elimine os substantivos desnecessários – as formas verbais têm mais ação

(7) - Vá direto ao assunto, evite as abstrações

(8) - Não seja passivo, prefira a voz ativa — e diga quem faz o quê!

(9) - Fuja dos falsos amigos e evite o jargão e as siglas

(10) - Reveja e verifique

Voltando à redação de documentos e manuais técnicos, a empresa sueca Scania,

fabricante de camiões e motores, desenvolveu o Scania Swedish (Scaniasvenska) com o

objetivo primário de facilitar o processo de tradução e harmonizar a terminologia dentro

60

da empresa. Os textos são redigidos utilizando a linguagem controlada para depois

serem traduzidos para inglês (por agências especializadas). Só a partir do inglês é que os

textos são depois traduzidos para outras línguas (Granlund, 2002). Assim que novos

textos forem produzidos, os autores utilizam um sistema controlador chamado “Scania

Checker” como auxílio à verificação da correta utilização do “Scaniasvenska”. O

dicionário contem cerca de 20.000 palavras e chama-se ‘ScaniaLex’ (Axelsson e Blom,

2006).

Hoje em dia as Linguagens Controladas são também utilizadas para o ensino de línguas

estrangeiras ou para a redação de textos destinados a pessoas com necessidades

especiais e não nativas da língua. Em novembro de 2003, por exemplo, o site Internet

Wikipedia lançou um projeto de redação de artigos em inglês simplificado (através da

utilização do Basic English) disponibilizando, para os utilizadores com dificuldades de

aprendizagem ou para estudantes do inglês, um conjunto de artigos de mais simples

compreensão. São vários os projetos deste tipo e não se resumem apenas a tentativas em

inglês: na Suécia existem diferentes projetos que visam à simplificação da língua para ir

ao encontro das necessidades de pessoas com dificuldades promovendo a leitura. Os

projetos mais importantes são o “Klartext” e o “Lättläst” (literalmente “Texto claro” e

“Leitura fácil”). O primeiro é um programa rádio jornalístico que visa informar acerca

das notícias da Suécia, assim como das internacionais, tentando atingir todas as pessoas

que, por razões linguísticas ou cognitivas, não conseguem acompanhar as notícias nas

rádios locais. As várias secções do site são completamente escritas em sueco

simplificado enquanto, no que respeita aos artigos, a linguagem é utilizada

principalmente para a redação de textos orais que não são reportados em versão escrita

no site (ou são-no apenas parcialmente).

61

Começado em 1968, o projeto Lättläst, além de se dedicar também à secção jornalística

(por escrito), envolve também uma casa editora que reescreve romances em sueco

simplificado. Sob o lema de “Vi skriver så att alla förstår” (tr. Escrevemos para todos

perceberem”), a literatura é escrita usando uma linguagem concisa e simples que utiliza

frases curtas e evita as orações subordinadas (permitindo um máximo de uma

subordinada por oração). O centro também propõe cursos de formação básicos e de

especialização para aprender a escrever em sueco simplificado.

No parágrafo 3.3 será possível ver como as linguagens controladas para a tradução de

textos técnicos estão associadas às regras de escrita técnica partilhando o objetivo

comum de simplificação do texto de partida com vista a melhorar a compreensão.

3.2 LIMITES E DESVANTAGENS DA S LINGUAGENS CONTROLADAS

Mitamura e Nyberg (1995) declaram que o conjunto de regras de uma linguagem

controlada é aplicado em três níveis principais: nível lexical, nível sintático e nível

estrutural.

Todas aquelas regras que atuam sobre a seleção do contexto, atuam a nível lexical.

Existem, depois, aquelas regras que influenciam a sintaxe (a nível dos constituintes

frásicos) que são, como o nome o indica, regras sintáticas. Por fim, existem aquelas

regras que atuam a nível textual quer no que diz respeito à estrutura do texto, quer a

nível pragmático. Adriaens (1994) tinha classificado os conjuntos de regras da mesma

forma adicionando, porém, outra categoria: a do controlo da pontuação e das

maiúsculas.

Nenhuma linguagem controlada, contudo, oferece um conjunto de regras

suficientemente exaustivo para poder definir e limitar todos os fenómenos da língua a

que respeita. Organizar um módulo de linguagem controlada capaz de abranger todos

62

os fenómenos linguísticos é, portanto, impossível. Algumas das regras de uma

linguagem controlada também podem revelar-se contraditórias, como será analisado

mais à frente: um dos exemplos mais relevantes aqui apresentado é a regra geral

“escrever frases curtas”, em contradição com o uso de orações participiais que, de facto,

tornam as frases mais curtas mas, ao mesmo tempo, dificultam o processamento por

parte dos sistemas de tradução tornando a sua utilização não aconselhável.

O uso da linguagem controlada facilita, como já visto anteriormente, a leitura por parte

do seu utilizador e a tradução por parte do tradutor. Contudo, a redação por parte do

autor torna-se mais complicada devido ao facto de ser necessário aprender um conjunto

de regras que controlam a linguagem natural. Entre as desvantagens que Elliston (1978,

p.153) tinha constatado com a implementação da linguagem controlada na empresa

Xerox, uma delas prendia-se mesmo com este problema e com os efeitos que, a criação

de regras demasiado complexas podia ter nos autores:

“[...]if the constraints placed on the originator are too severe the increased load would

cancel the productivity benefit of the system. In addition, one runs into the real danger of

author motivation.”

Alguns elementos controlados pela linguagem, assim como os termos a evitar presentes

em listas da mesma linguagem, são de extremo esforço para o autor sem, às vezes,

serem de facto de ajuda para o leitor.

Além disso, o objetivo de uniformização (especialmente no que diz respeito às

linguagens controladas para a tradução automática) pode, com vista a aumentar a

clareza, tornar-se repetitivo levando a um estilo demasiado uniforme que ignora as

diferenças que podem existir entre, por exemplo, um guia do utilizador e um manual de

manutenção para um técnico.

63

Cremers (2011), analisando a implementação das Linguagens controladas na empresa

holandesa Océ Technologies (por volta de 1995), apresenta as vantagens e desvantagens

da sua utilização por parte dos utilizadores, ou seja, os autores dos textos técnicos. Os

efeitos positivos da implementação eram a melhor estrutura dos conteúdos, a maior

brevidade das frases e a maior consistência e coerência a nível de estilo e de

terminologia.

Os autores também se depararam com várias dificuldades, nomeadamente o tempo gasto

na correção de estruturas inapropriadas dentro de alguns contextos ditadas pelas regras

rígidas do verificador da linguagem controlada e o facto de as regras da linguagem

controladas para a escrita não serem sempre compatíveis com as regras para melhorar e

aperfeiçoar o sistema de tradução automática (Cremers, 2011).

Neste contexto, é importante salientar que um conjunto de regras que melhoram a

qualidade de um output para um sistema de tradução específico e uma língua específica,

pode não ter efeitos se utilizado com outro sistema ou outra língua (podendo mesmo ter

efeitos negativos (Kohl, 2008)).

3.3 LINGUAGENS CONTROLADA S E CONTROLO DA QUALIDADE

O uso de regras para a redação de inputs, permite a criação de textos de fácil

compreensão: como é óbvio, quanto mais claro e linear for um texto, mais fácil e rápida

se tornará a sua tradução, principalmente através de um tradutor automático. Devisevic

e Steensland (2005, p.21), citando Haller e Schütz (2001) falam nos seguintes termos do

estilo de redação técnica em que os inputs são redigidios:

“The writing style of technical documentation has a strong effect on readability,

comprehensibility, and translatability into other languages (Haller and Schütz, 2001). In

order to maintain good comprehensibility and readability, and facilitate the translation

64

work, the language rules and terminology used in the user documentation should be

standardized and consistent.”

Como já vimos, muitas das linguagens controladas que foram desenvolvidas pelas

empresas ao longo do tempo, nasceram mesmo para a simplificação do input sem ainda

ter em conta a possível e futura tradução do mesmo. O BASIC English dos anos 30

tinha, de facto, esse mesmo objetivo e tem de ser analisado como sendo separado da

tradução.

A construção das regras para o controlo da qualidade em âmbito informático e para a

tradução, provém sem dúvida dos princípios básicos da escrita de documentação

técnica, como afirma Mitamura (1999, p.47):

“Even if texts are not translated, it may be preferable to follow a set of rules for technical

writing which standardize and improve the readability of source text.”

O’Brien (2003, p.111) também apresenta a questão de algumas linguagens controladas

terem origem nos conjuntos de regras impostos pelas empresas para a redação de textos:

“Sometimes CL rules are generated using existing corporate writing guidelines and this will

obviously influence decisions to include or exclude rules. In addition, if technical writers

are involved in designing the rule sets (as should be the case), then they too will have an

influence depending on how loose or rigid they want the rules to be.”

No seu trabalho acerca das relações entre linguagens controladas para melhorar a

legibilidade e Linguagens Controladas específicas para a tradução, Reuthers

(2003) escreve que, no contexto da redação, as linguagens controladas são

utilizadas com o objetivo de produzir documentação de boa qualidade, em

particular na área do serviço ao cliente.

Cada língua natural tem o seu próprio conjunto de regras e, por conseguinte, cada

conjunto de regras de uma linguagem controlada varia de língua para língua, pois não

65

existem regras que consigam levar a resultados otimizados para todos os pares de

línguas. Contudo, dentro das regras que regulam uma linguagem controlada podemos

distinguir entre regras gerais e regras específicas.

As regras definidas como “gerais” permitem reduzir drasticamente a ambiguidade da

maior parte dos textos redigidos na maior parte das línguas.

Por outro lado, as regras “específicas” são assim chamadas por serem próprias de

algumas línguas específicas e, muitas vezes, aplicáveis somente a determinados

sistemas de tradução automática.

No presente estudo foi observada e analisada a correspondência de algumas das regras

gerais das linguagens controladas para a tradução com algumas das regras de controlo

da qualidade dos templates técnicos de empresas informáticas (no caso específico,

especializadas em impressoras).

Os departamentos de Apoio ao Cliente de qualquer empresa informática têm uma

divisão dedicada ao Controlo da Qualidade cuja responsabilidade primária é verificar a

satisfação do cliente final com o contacto com o help desk e com o produto em si. Uma

das fases mais importantes do controlo da qualidade é a monitorização de chamadas,

chats e emails entre os agentes de 1º nível e o utente final. O agente que presta suporte

ao cliente final é chamado a seguir as linhas guias fornecidas pela empresa, em

particular as respeitantes à redação de textos escritos enviados aos utentes finais. O

responsável pela Qualidade deverá, posteriormente e em fase de monitorização,

verificar que o agente cumpre as regras estipuladas, assim como corrigir o que não

estiver de acordo com essas diretrizes, dando feedback e formação se for necessário.

Todos os agentes recebem uma formação acerca das regras a seguir (iremos analisar

apenas as regras de redação de textos escritos) e têm de respeitar algumas restrições que

66

mais à frente iremos discutir com vista à satisfação do cliente, que deverá perceber

claramente as instruções recebidas.

O controlo da qualidade consiste, então, em analisar os textos produzidos por estes

agentes e garantir, entre outros aspetos, que as informações sejam o mais claras e

completas possíveis, que a estrutura do email seja simples, que não haja erros

gramaticais, etc.

Na maior parte dos casos, os textos enviados para os clientes são redigidos por uma

equipa dedicada à gestão dos pedidos recebidos por email. Cada equipa (correspondente

a cada língua), recebe os seus pedidos e, consoante o tipo de problema, redige o texto.

Muito frequentemente as empresas deslocalizam os serviços de suporte técnico criando

centros que dão suporte em diferentes línguas: a documentação é, portanto, escrita e

disponibilizada na língua da empresa que, especialmente no setor informático, é quase

sempre o inglês. Muitas empresas têm departamentos linguísticos internos que traduzem

a literatura para as diferentes línguas suportadas, se bem que nem toda a informação

seja traduzida para todas as línguas, dados os enormes custos que tal acarreta. Muito

frequentemente, e como já vimos no caso da Xerox (Elliston, 1978), as empresas não

conseguem lidar com a rapidez da tecnologia e das necessidades de tradução

disponibilizando o texto apenas em inglês. Em particular no domínio técnico, pode

acontecer parte dos erros e das falhas das máquinas não serem individualizados em fase

de teste. No momento em que uma falha técnica é identificada, quando a máquina se

encontra já na fase de venda, é necessário alertar com a máxima rapidez todos os

centros de suporte, “saltando” a fase habitual de tradução: é o que acontece, por

exemplo, com os chamados “technical bulletins”, escritos diretamente por técnicos. A

distribuição destes textos é feita em inglês para todos os centros e serve, principalmente,

para formação rápida de todos os agentes. O agente responsável pelos emails deverá, no

67

caso de um cliente apresentar uma dessas anomalias, reformular o conteúdo em inglês

traduzindo-o para a própria língua sem contudo ter formação na área da escrita técnica e

tendo como únicas diretrizes as do controlo da qualidade (diretrizes essas também

pensadas para a língua inglesa e não adaptadas a todas as diferentes realidades

linguísticas).

Como já vimos, as regras gerais de uma linguagem controlada são bastante intuitivas,

estabelecendo que não se escrevam frases com uma estrutura gramatical complexa,

frases que sejam demasiado cumpridas (é aconselhável escrever frases com menos de 25

palavras), frases que sejam gramaticalmente complexas e em que se usem os pronomes

ou não se omitam os artigos.

Em paralelo, as diretrizes definidas por empresas informáticas para o controlo da

qualidade, visam à produção de textos facilmente compreensíveis e redigidos de forma

clara e legível para que os principais destinatários e beneficiários (neste caso os clientes

da empresa em análise) possam perceber sem obstáculos a mensagem que lhes é

dirigida.

É facilmente visível o objetivo comum que as linguagens controladas e o controlo da

qualidade partilham: a simplificação do texto.

De seguida, são apresentadas algumas das regras para o controlo da qualidade dos

emails estabelecidas por uma empresa produtora de impressoras (foram consideradas

apenas as regras relevantes para este estudo). É importante também salientar que se trata

de uma empresa norte-americana e que, como já antecipado, os parâmetros foram

estabelecidos para a redação de templates em inglês sem ter alguma adaptação às

diferentes línguas em que o suporte técnico é feito no mundo.

Controlo da Qualidade dos emails (traduzido do inglês):

68

(1) O agente utiliza gramática e ortografia corretas no email;

(2) O agente escreve frases curtas e simples;

(3) O agente utiliza sempre uma linguagem clara; por exemplo, não recorre ao uso de

nenhuma abreviatura que não seja necessária e que possa atrapalhar a compreensão;

(4) O agente evita utilizar jargão técnico;

(5) O agente utiliza uma linguagem profissional e evita, em qualquer altura, o uso de

linguagem coloquial. Por exemplo, não utiliza emoticons (, , etc.) e não utiliza

calão;

(6) As instruções são simples de seguir e entender;

(7) Os passos de resolução dos problemas estão divididos para conseguir distinguir de

forma simples e rápida as diferentes tarefas a executar (listas com marcadores ou

números em vez de grandes blocos de texto).

As regras acima mencionadas são regras genéricas que podem ser adaptadas a qualquer

empresa de apoio ao cliente. Uma simples e rápida pesquisa na Net irá mostrar como

algumas destas sugestões são consideradas fundamentais para oferecer um serviço de

qualidade ao cliente. De facto, são vários os sites e blogs de profissionais da área do

controlo da Qualidade que fornecem exemplos de como melhorar os emails de apoio ao

cliente e não são raras as referências aos parâmetros acima listados. Alguns exemplos

recolhidos em várias páginas são os seguintes (também traduzidos do inglês):

- O agente utiliza listas com números ou marcadores para separar todos os passos que o

cliente tem de realizar para a resolução do problema ou para efetuar a ação desejada.

- O agente lê o email com atenção para verificar se não há erros de gramática ou

ortografia.

69

Ou noutro site:

- O agente verifica a ortografia, a pontuação e a gramática.

A maior parte destas sugestões foi realizada com base em manuais ou guias de estilo

para a redação de documentação técnica que, ao par dos guias organizados pela Direção

Geral de Tradução da Comissão Europeia, visam apresentar regras para uma “clear

writing” mas num domínio específico.

Na área da informática, os mais interessantes são sem dúvida o ‘Microsoft Manual of

Style for Technical Publications (MSTP)’, o ‘Apple Style Guide’ e, mais

especificamente para as impressoras, o ‘Xerox Publishing Standards – A Manual of

Style and Design’.

Como já visto, o objetivo comum das linguagens controladas e dos parâmetros a seguir

para uma melhor qualidade, é que visam a simplificação do texto. Mas em que medida a

aplicação destas regras pode contribuir nos dois sentidos (tradução automática e

qualidade)? De seguida, iremos analisar mais no detalhe alguns dos parâmetros seguidos

para o controlo da qualidade de templates técnicos acima apresentados para os

confrontar com algumas das regras gerais das linguagens controladas e, ainda, com

sugestões encontradas em manuais de estilo para a escrita técnica (tal como o

‘Microsoft Manual of Style for Technical Publications (MSTP)’ acima mencionado).

Convém aqui apresentar a definição de “manual de estilo” feita por Byrne (2012), para

evidenciar as diferenças entre manuais de estilo e linguagens controladas e para vermos

ao mesmo tempo as semelhanças com as diretrizes do controlo da qualidade. Byrne

(2012, p.142) fala da opção de algumas empresas por manuais de estilo em detrimento

das linguagens controladas:

“Many companies and organizations seek to standardize the language used in their

documents by means of style guides. A style guide is a set of standards, or guidelines which

70

govern the way in which documents are written and presented. They are less strict than

controlled language and their aim is to provide a clear set of guidelined for writers to help

them produce documents which are consistent and which are easy to understand [...]”

No âmbito da redação de emails para utilizadores finais é interessante analisar as regras

de controlo da qualidade para ver os pontos de encontro com a escrita técnica e com as

linguagens controladas para a tradução automática.

Em (1) por exemplo, fala-se na importância da gramática e da ortografia utilizadas pelo

agente no email que devem ser corretas. De facto, os sistemas de tradução automática, e

os computadores em geral, não conhecem o mundo e o reconhecimento das palavras é

feito através da sequência de carateres, daí o sistema não conseguir traduzir se a palavra

for escrita incorretamente. Além disso, no que diz respeito ao controlo da qualidade, o

envio de conteúdos gramaticalmente não corretos é uma demonstração clara de falta de

profissionalismo, o que pode prejudicar a imagem da empresa junto dos seus clientes.

Mais relacionadas com a simplificação do texto são a regra (2) e a (6) que falam

respetivamente do comprimento da frase e da simplificação do conteúdo/layout. Quanto

mais simples for a frase, mais fácil e rapidamente o sistema de tradução automática

conseguirá analisá-la, descodificá-la e traduzi-la. Estruturas complexas fazem com que

o sistema não seja capaz de reconhecer os constituintes e as suas relações.

A simplicidade e comprimento das frases são um tema abordado em todos os manuais

de estilo técnicos analisados. É o caso do manual da Xerox:

“Vary the length and complexity of sentences. Keep most sentences short and simple.”

Isto, mesmo sem ter em vista a posterior tradução, vai simplificar a leitura na língua de

partida também para os falantes nativos permitindo uma compreensão completa.

71

Em (3) aborda-se o tema das abreviaturas que, assim como o uso de palavras ambíguas,

podem contribuir para a complicação do enunciado e podem ser um obstáculo para a

tradução (a lista de abreviaturas de um dicionário pode não ser exaustiva). Outra

alternativa, apenas para a tradução automática, seria inserir estas abreviaturas na

linguagem controlada com a devida atenção à ambiguidade (Mitamura, 1999, p.47) :

“When we design acronyms and abbreviations for controlled language, we need to make

sure that their use will not cause ambiguity problems.”

Para além das abreviaturas, outra barreira para os sistemas de tradução automática é,

sem dúvida, o uso de linguagem coloquial, como especificado na regra (5), devido ao

facto de muitas das palavras não constarem nos dicionários, sendo reservadas ao uso

oral e muitas das estruturas gramaticais nunca terem sido formalizadas e poderem

revelar-se intraduzíveis (sobretudo para sistemas baseados em regras).

Relativamente à regra (4) e à questão de não utilizar jargão técnico, é preciso sublinhar

a importância, no âmbito das linguagens controladas técnicas, do uso de dicionários

específicos da área. Neste caso “evitar o uso de jargão técnico” podia ser visto como

uma tentativa de simplificação para os utentes não experientes e uma menor necessidade

de recorrer a um dicionário específico da área usando palavras de dicionários “comuns”.

Como é óbvio, isso nem sempre é possível, tendo em conta que as bases de dados

terminológicas têm sempre de ser o mais completas possível e que é necessário limitar o

uso de alguns termos sinónimos logo no início da organização do conjunto de restrições.

No ‘Microsoft Manual of Style for Technical Publications (MSTP)’, a empresa explica

a utilização do “technical jargon” dizendo que (Microsoft, 2012, p.66)

“[…] In the right context, for a particular audience, jargon can serve as verbal shorthand for

well-understood concepts. For example, technical terms are normally acceptable in

72

documentation for software developers and information technology professionals, who

expect a higher level of technical rigor.”

A Microsoft (ibidem) também acrescenta o perigo que o “jargon” pode constituir para

os utentes finais que não são especialistas da área e que poderiam ficar confundidos com

a utilização de certos termos da área

“[...] home users and information workers, do not want to learn a new vocabulary to

accomplish their goals. Many such users believe that technical terms make technology

harder to understand and therefore harder to use. They prefer that concepts be explained

plainly in everyday words or (better yet) that the products they use make such explanations

unnecessary.”

A Xerox (1988, p.3-40) também sugere evitar a utilização de termos que possam não ser

familiares aos utentes finais:

“Every trade has its own buzzwords and jargon. Some of these words become standard

because they meet a need—"software" is an example. Others like "feature-rich" are vague

and short-lived.

One way to handle jargon is to identify the intended users of the publication. Be careful in

using words that have special meanings that are not obvious to a customer. For example,

"landscape orientation" is a familiar phrase to those who use electronic printing. To others,

it may suggest a form of art or nothing at all. Either explain such terms or find a substitute

that is clear to everyone.”

Por fim, no manual de estilo da Apple (2013), também há uma referência ao ‘jargon’:

“Avoid jargon whenever possible. Define technical terminology on first occurrence.”

(https://help.apple.com/asg/mac/2013/#apsg1f285953)

A última regra (7), visa a simplificação do layout prevendo a introdução de listas para

distinguir de forma mais simples e rápidas as diferentes tarefas. De facto, através da

organização dos vários passos a executar em forma de lista evita-se a articulação/ligação

73

das frases por meio das conjunções, permitindo uma análise mais linear por parte dos

sistemas de tradução automática.

O ‘Microstof Manual’ também fala da importância da introdução de listas na escrita de

documentos técnicos fazendo uma distinção entre “bulleted” e “numbered”. Segundo a

empresa norte-americana, o primeiro tipo tem de ser utilizado para (Microsoft, 2012,

p.49)

“an unordered series of concepts, items, or options rather than a sequence of events or

steps.”

E o segundo para

“ procedures or other sequential lists”

Para a Apple (2013) a ‘bulleted list’ é a escolha mais adequada para

“to stress the parallelism of a number of options, elements, rules, or instructions that need

not be presented or performed in a particular order.”

(https://help.apple.com/asg/mac/2013/#apsg1f2857c1)

Aconselha-se a ‘numbered list’

“to stress the sequential nature of steps, rules, or instructions. In numbered task lists (steps),

each item should be a complete sentence. Use sentence-style capitalization for each item

and end each item with closing punctuation.” (ibidem)

Como observado, parece possível estabelecer regras para um italiano controlado de

forma a ir ao encontro das diretrizes do controlo da qualidade (e ao mesmo tempo dos

parâmetros de escrita técnica), sendo muitos dos objetivos de base partilhados. Desta

maneira, é possível construir um conjunto de regras que permitam realizar textos de boa

qualidade (inputs) que possam transformar-se em traduções (outputs) com igual nível de

qualidade reduzindo custos e aumentando a produtividade.

https://help.apple.com/asg/mac/2013/#apsg1f2857c1

74

Cabe salientar que o uso de uma linguagem controlada no contexto do apoio ao cliente

não permitiria apenas a criação de templates ajudando os autores das várias línguas a

redigir textos apropriados e de ótima qualidade mas, sobretudo, facilitaria a tradução em

várias línguas, o que é, sem dúvida, uma mais valia, nomeadamente no que diz respeito

a mercados mais pequenos que têm menor produção de textos e que poderiam beneficiar

das produções dos mercados maiores através do processo de tradução dos textos por

eles já redigidos. Em particular para o par de línguas escolhido (italiano-português) e no

contexto de help desks localizados em Portugal, a utilização de uma linguagem

controlada na redação de templates contribuiria, em fase de tradução, para um aumento

relevante da produtividade sendo a maioria dos templates produzidos em primeiro lugar

em italiano (e em quantidades maiores em comparação com o português) e devendo ser

traduzidos para português de uma maneira rápida, ainda que com a intervenção de um

número restrito de agentes bilingues.

No próximo capítulo iremos analisar os exemplos extraídos do corpus escolhido para a

criação do conjunto de regras do italiano controlado. A escolha dos exemplos e a

formação das regras visam, em primeiro lugar, contornar as falhas e os problemas do

sistema de tradução automática utilizado, o SYSTRANet, e, subsidiariamente, ir ao

encontro das necessidades expostas nas diretrizes do controlo da qualidade discutidas

neste parágrafo quer para o texto em italiano, quer em termos de output de tradução

automática para português.

75

4. OS LIMITES DA TRADUÇÃO AUTOMÁTICA: ESTUDO DE CASOS

Para estabelecer restrições é necessário efetuar testes em sistemas de tradução

automática com vista a identificar os problemas dos outputs e, nessa base construir um

conjunto de restrições/regras capazes de os contornar.

Para efetuar estes testes (do italiano para o português) foi utilizado o sistema de

tradução automática gratuito SYSTRANet (apresentado no parágrafo 2.4.5), o qual

apresenta inúmeros desafios quer a nível sintático quer a nível lexical.

Os resultados obtidos referem-se a testes efetuados em determinados dias (a data dos

testes será referenciada) podendo deixar de fazer sentido no futuro, face às eventuais

atualizações do sistema.

A seguir são apresentados alguns dos fenómenos linguísticos examinados aquando dos

testes no sistema SYSTRANet, assim como a possível resolução dos problemas

encontrados, através da introdução de regras como as acima referidas. Todos os

exemplos são extraídos de templates, manuais, fóruns, sites dos fabricantes de

impressoras mencionados na apresentação desta dissertação. Juntamente com a

apresentação do texto original (ou seja o exemplo do fenómeno a evitar) e da tradução

realizada pelo sistema, o mesmo exemplo será sucessivamente retomado, evidenciando

a aplicação da estratégia enunciada na regra em causa e acompanhado da consequente

tradução oferecida por SYSTRANet. Deste modo será possível ver a contribuição da

linguagem controlada a nível do processo de tradução automática. Além das vantagens

em termos de tradução, serão igualmente analisados os benefícios em termos de

melhoria da qualidade do input segundo as diretrizes de controlo da qualidade aqui já

analisadas.

76

Há que sublinhar que todos os testes foram efetuados no sistema SYSTRANet sem a

criação de uma conta, ou seja com a versão disponibilizada online para qualquer

utilizador. A SYSTRANet permite a criação de uma conta gratuita que dá acesso a

outras funcionalidades que serão exploradas no capítulo acerca do léxico informático e

da terminologia, porém a introdução de termos no dicionário altera a tradução feita pelo

sistema (sejam esses termos utilizados ou não, questão que será analisada no específico

em 4.5.1) e por esta razão, optou-se pela utilização do sistema em regime “livre”.

Em 4.1, será apresentada a questão ligada à simplificação de predicados complexos

através do uso de expressões verbais atómicas.

Em 4.2, falar-se-á das orações participiais e de como, embora ajudando a reduzir o

comprimento da frase, criam dificuldades de processamento ao sistema.

Em 4.3, são apresentadas as conjunções e locuções conjuncionais coordenativas e

subordinativas. Apesar de a subordinação aumentar o grau de complexidade das frases,

são apresentadas algumas estratégias para contornar estes problemas com base nas

falhas do sistema, e especificamente para o par de línguas aqui em causa.

Em 4.4, será abordada a questão da ortografia (nomeadamente no que diz respeito à

correta grafia de acentos) e das omissões de constituintes nas frases.

Em fim, o parágrafo 4.5 aborda a temática do léxico informático apresentando temas

como a importância da consistência terminológica e a criação de novos termos

informáticos, assim como um glossário informático italiano-português e a

funcionalidade ‘Meu Dicionário’ do sistema SYSTRANet.

77

4.1 PREDICADOS COMPLEXOS

A simplificação de um texto facilita, como já discutido anteriormente, a análise dos

constituintes por parte dos sistemas de tradução e a compreensão das informações para

os utilizadores. O uso de predicados complexos pode, portanto, interceder no processo

de tradução constituindo mais uma barreira. Neste caso específico foram introduzidos

testes com predicados complexos de dois tipos: predicados constituídos por verbo leve

seguido de um nome derivado (também chamado ‘nome deverbal’) ou por verbo leve

seguido de sintagma preposicional.

No guia “Redigir com clareza” (2011, p. 8) da Comissão Europeia também encontramos

uma referência a este assunto: propõe-se a substituição de predicados complexos como

‘proceder à avaliação de’, ‘realizar uma investigação’, ‘ter em consideração’ por,

respetivamente, ‘avaliar’, ‘investigar’ e ‘considerar’.

No corpus analisado, são vários os exemplos de verbos seguidos de um nome derivado

que não são processados corretamente pelo sistema. Uma das caraterísticas destas

construções é, como Duarte et al. (2009, p. 49) afirmam numa análise sobre o português

europeu, a

“possibility of paraphrasing the sequence <light V + deverbal N> with a main verb,

morphologically related to the noun”

ou seja, as expressões podem ser simplesmente parafraseadas pelos verbos plenos

correspondentes devido ao facto de estes preservarem parte do significado e da

“estrutura argumental” dos mesmos (Duarte et al., 2009).

Como iremos ver nos exemplos que seguem, esta caraterística também se aplica às

construções em italiano. Repare-se que todos os exemplos apresentados em português

resultam da tradução automática realizada através do sistema SYSTRANet:

78

(1) (a)

IT - Fare clic per scaricare il file.

PT - *Fazer clica para descarregar o ficheiro.

Na tradução da expressão complexa “fare clic” constituída por verbo leve “fare”

(“fazer” em português) mais o substantivo “clic”, decalque do inglês onomatopaico

“click”, e termo oficial em italiano no domínio informático, o sistema SYSTRANet não

a reconheceu como uma única unidade de sentido acabando por traduzir “clic”

incorretamente.

Substituindo a construção em causa por uma expressão atómica, o sistema consegue

processar corretamente o termo (que estará portanto corretamente listado entre as

entradas do dicionário) e apresentar uma tradução correta:

Exemplo (1) (b)

IT - Cliccare per scaricare il file

PT - Clicar para descarregar o ficheiro

O mesmo problema acontece, como expectável, com o “doppio clic” italiano, decalque

do inglês “double-click”:

(2) (a)

IT: Fare doppio clic per scaricare il file

79

PT: *Fazer duplo clica para descarregar o ficheiro

Neste caso o problema foi resolvido utilizando o verbo atómico “cliccare”

(correspondente português de “carregar”) mais a expressão de frequência “duas vezes”

para expressar o “double-click”:

(2) (b)

IT: Cliccare due volte per scaricare il file

PT: Clicar duas vezes para descarregar o ficheiro

Tomemos agora em conta outro exemplo de verbo seguido por nome derivado: a

expressão não atómica “avere accesso”, constituída pelo verbo leve “avere”, “ter” em

português, mais o nome derivado “accesso” (PT: acesso).

(3) (a)

IT - Cliccare per avere accesso al dispositivo.

PT - *Clicar por ter acedido ao dispositivo.

No exemplo (3) (a) o nome derivado italiano “accesso” é traduzido pelo particípio

passado do verbo “aceder” em português. Substituindo, mais uma vez, por uma

expressão atómica o problema desaparece:

80

(3) (b)

IT - Cliccare per accedere al dispositivo.

PT - Clicar para aceder ao dispositivo.

Outro exemplo analisado são as expressões com o verbo “dare” (em português “dar”),

que também é frequentemente utilizado como verbo leve em predicados complexos. A

expressão não atómica “dare avvio” com o significado de “avviare” (“iniciar” em

português) é utilizado nos manuais informáticos, nomeadamente para explicar a fase de

instalação do software. Vejam-se os exemplos:

(4) (a)

IT - Prima di dare avvio alla procedura.

PT - *Antes de dar de partida ao procedimento.

Com introdução do verbo “avviare”:

(4) (b)

IT - Prima di avviare la procedura.

PT - Antes de iniciar o procedimento.

81

Algumas expressões não atómicas, mesmo que processadas corretamente pelo sistema,

são principalmente utilizadas na oralidade e podem ser consideradas “expressões

coloquiais”. Tratando-se, no nosso caso, de uma linguagem que também visa à melhoria

do input para fins de controlo da qualidade, outras expressões com o verbo ‘dare’ usado

como verbo leve que é aconselhável evitar são as seguintes:

Verbo leve + nome derivado:

- ‘dare aiuto’ -> ‘aiutare’ (PT: ajudar)

- ‘dare il via’ -> ‘avviare’ (PT: iniciar)

- ‘dare fine’ -> ‘terminare’ (PT: acabar)

- ‘dare occasione’ -> ‘causare’; ‘provocare’ (PT: causar)

- ‘dare vita’ -> ‘generare’; ‘creare’; ‘organizzare’ (PT: gerir; organizar)

Verbo leve + sintagma preposicional:

- ‘dare luogo a’ -> ‘essere causa di’; ‘originare’ (PT: ocasionar, ser causa de)

Verbo leve + preposição:

- ‘dare per’ -> ‘affermare’ (PT: afirmar)

Em todos os casos apresentados, o uso da construção verbal atómica correspondente deu

resultados melhores, pelo que se lhes dá preferência no italiano controlado que aqui se

propõe.

82

Também no caso de verbos leves seguidos de sintagma preposicional a expressão

atómica é a melhor opção para o correto processamento por parte do sistema

SYSTRAN:

(5) (a)

IT - Mettersi in contatto con l'assistenza tecnica.

PT - Pôr-se em contacto com a assistência técnica.

A versão atómica da expressão é, tipicamente, mais usada neste contexto:

(5) (b)

IT - Contattare l'assistenza tecnica

PT - Contactar a assistência técnica

Neste caso específico, há outra expressão não atómica que poderá ser utilizada para

substituir a italiana “mettersi in contatto” em (5) (a), ou seja, “entrare in contatto”.

Como já visto anteriormente, o sistema não reconhece a expressão como uma unidade

de sentido e opta por uma tradução palavra a palavra que, no caso de “entrare in

contatto” dará bons resultados em português devido ao facto de a expressão também

existir na língua de chegada e selecionar a mesma preposição (IT: “con”; PT: “com”):

(5) (c)

83

IT- Entrare in contatto con l’assistenza tecnica.

PT - Entrar em contacto com a assistência técnica

Tentando também dar conta, no caso específico deste trabalho, da simplificação do texto

de partida para aumentar a legibilidade, optar sempre pela construção atómica parece

ser a melhor opção para ir ao encontro dos objetivos de melhoria da tradução automática

e para respeitar as regras do controlo da qualidade. Como a análise mostrou, os

predicados complexos que integram um verbo leve seguido de um nome ou de um

sintagma preposicional não são reconhecidos no sistema SYSTRAN como unidades de

sentido levando a traduções incorretas. A substituição dos mesmo por expressões

atómicas, contudo, permite o correto processamento, reduz a extensão da frase e, além

disso, aumenta o grau de legibilidade para o utente final constituindo a sugestão ideal

para a construção da linguagem controlada aplicada no contexto do controlo da

qualidade.

4.2 ORAÇÕES PARTICIPIAIS

Como já foi visto anteriormente, para garantir uma tradução de boa qualidade é

necessário utilizar frases o mais curtas possíveis. Quer na escrita técnica, quer nas

sugestões básicas e regras gerais de muitas linguagens controladas, o comprimento

aconselhado ronda as 20 palavras por frase.

O guia de redação de textos da Comissão Europeia também fornece sugestões acerca do

comprimento das frases:

“Os documentos mais curtos têm geralmente mais impacto, como aliás as frases curtas. O

ideal seria: 1 documento = 15 páginas, no máximo; 1 frase = 20 palavras em média (tendo o

84

cuidado de intercalar algumas frases mais curtas). Um dos grandes obstáculos à clareza nos

documentos da Comissão Europeia é o comprimento excessivo das frases. Tente dividi-las

em frases mais curtas.” (Redigir com clareza, 2011, p.6)

Porém, se bem que a divisão em frases mais curtas seja aconselhável, a brevidade de

uma frase pode colocar desafios a nível da estrutura e também da legibilidade. Um

exemplo prático disso é o uso de orações participiais de forma a reduzir o tamanho da

frase.

Mitamura (1999, p.47), apresentando os problemas e os desafios da criação da

linguagem controlada KANT, afirma que

“the use of participial forms, such as –ing and –ed, should be restricted”.

No caso específico do sistema SYSTRANet, no par linguístico italiano-português,

verificou-se um problema a nível da tradução das orações participiais adverbiais

temporais. De seguida apresenta-se um exemplo dos testes introduzidos no sistema:

(6) (a)

IT - Terminata l'installazione, chiudere il programma.

PT - *Terminado a instalação, fechar o programa.

Assim, embora a frase reflita os padrões de brevidade e clareza estabelecidos quer para

as linguagens controladas, quer para o controlo da qualidade, o uso do particípio no

início da frase cria uma dificuldade no processo de tradução. O que aparentemente

apareceria como um problema ligado à oração participial, revela-se, através de

ulteriores testes introduzidos no sistema como um problema nas especificações do

sistema no que diz respeito ao português que não incluem flexão em género dos

85

particípios. Como sabemos, quer em italiano, quer em português o particípio concorda

sempre em número e género com os nomes. Acerca disso é interessante ver que

introduzindo testes com o particípio no plural do masculino o sistema consegue

processar corretamente a informação, sendo esta especificação presente:

(7) (a)

IT: Installati i dispositivi, chiudere la finestra.

PT: Instalados os dispositivos, fechar a janela.

Ao inverter a ordem particípio + SN (IT - “l’installazione terminata”), o sistema

consegue oferecer uma boa tradução (PT - “a instalação terminada”). Assume-se que no

caso de orações participiais com a ordem SN + particípio o sistema interpete o

particípio como um adjetivo fazendo, então, a concordância.

Sempre que possível, portanto, deve evitar-se esta estrutura (particípio + SN) nos casos

de concordância do particípio com um substantivo no feminino e optar por utilizar uma

oração com tempo finito, como no exemplo seguinte:

(6) (b)

IT - Dopo aver terminato l'installazione, chiudere il programma

PT - Após ter terminado a instalação, fechar o programa

86

Veja-se abaixo outro exemplo de uma oração participial extraído de um template de

resposta dirigido a um utente final e no qual o sistema não consegue ligar o particípio

“segnalati” ao substantivo plural “problemas”, sujeito da frase, devido ao facto de os

dois serem divididos por material linguístico (nomeadamente o complemento “di

installazione”):

(8) (a)

IT - I problemi di installazione segnalati.

PT - *Os problemas de instalação assinalada.

Quando os elementos em que a concordância tem de se manifestar não estão em posição

de adjacência, o sistema não consegue fazer a concordância e acaba por relacionar

“assinalada” a “instalação” em vez de “problema”. Este erro do sistema, pode ser

resolvido com recurso à utilização de uma relativa, como no exemplo que segue:

(8) (b)

IT - I problemi di installazione che ci ha segnalato.

PT - Os problemas de instalação que nos assinalou.

Além dos benefícios em termos de tradução, a substituição das construções com

participais por outras que tornem mais óbvia a relação entre os constituintes aumenta

também a clareza do texto de partida.

87

4.3 COORDENAÇÃO E SUBORDINAÇÃO

A coordenação e a subordinação, operações altamente produtivas das línguas naturais,

acarretam, em certos casos, dificuldades ao processamento computacional, em geral, e à

tradução automática, em particular.

Daí que a recomendação de frases simples, como vimos anteriormente, abunde na

literatura sobre controlo da linguagem quer para tradução automática quer para a

redação de textos de acordo com as diretrizes do controlo da qualidade: em 4.3.1 e em

4.3.2 iremos, portanto, ver como o sistema SYSTRANet reage perante a utilização de

determinados elementos de coordenação e de subordinação e como podem ser

substituídos quando os resultados obtidos não são os desejados.

4.3.1 COOR DEN AÇ ÃO

Em quase todos os manuais de estilo e guias de escrita técnicas encontramos referências

à coordenação entre múltiplas frases com vista a alertar acerca dos benefícios de separar

as várias informações dirigidas ao cliente ou aos técnicos de maneira simples.

No caso da conjunção correspondente à portuguesa “nem”, o sistema traduz a conjunção

“né” (com acento agudo) por “nascido” e “nè” (com acento grave) por “nem”. No

dicionário do SYSTRAN aparecem listadas as duas versões da conjunção, mesmo sendo

só a primeira (né), a grafia correta em italiano. De facto, como é possível constatar nas

figuras 1 e 2, as duas versões (correta e errada) da conjunção fazem parte do dicionário

mas em vez de serem traduzidas da mesma maneira como o dicionário indica são, em

fase de tradução, processadas diferentemente.

88

FIG. 5 CONSULTA DO DICIONÁRIO DO SYSTRAN PARA A CONJUNÇÃO COORDENATIVA COPULATIVA

NEGATIVA “NÉ” (ITALIANO -> PORTUGUÊS)

FIG. 6 CONSULTA DO DICIONÁRIO DO SYSTRAN PARA A CONJUNÇÃO COORDENATIVA COPULATIVA

NEGATIVA “*NÈ” (ITALIANO -> PORTUGUÊS)

Devido, provavelmente, a esta dupla entrada no dicionário, o sistema não interpreta o

termo “né” como conjunção coordenativa copulativa negativa, mas sim como o

particípio passado francês do verbo “naître” (“nascer” em português) que, de facto, se

escreve “né” com acento agudo como a conjunção italiana. O facto deixa pressupor que

o sistema se apoie no francês. Mas a confirmação desta hipótese seria necessário

89

despistar outros casos, o que não cabe nos objetivos deste trabalho. Assume-se, assim,

tratar-se de um erro no dicionário do sistema. Veja-se o exemplo:

(9) (a)

IT: Per questo modello non esistono né saranno sviluppati in futuro.

PT: *Para este modelo não existem nascidos serão desenvolvidos em futuro.

Para contornar este problema do sistema, existem várias opções: a primeira seria, como

parece óbvio, corrigir a entrada do dicionário (no parágrafo dedicado à terminologia

iremos ver a utilização de um dicionário pessoal). No contexto deste trabalho, porém, é

uma opção a ser excluída devido ao facto de não serem previstas alterações do sistema

além da utilização do dicionário pessoal como acima mencionado.

A segunda opção, ou seja redigir o texto de partida já com o erro gráfico, seria aceitável

no contexto da tradução automática sendo a qualidade do output irrelevante. Contudo, a

linguagem controlada aqui desenvolvida visa atuar também a nível de melhoria do

input, se bem que não como objetivo primário, não sendo aceitável uma escolha

agramatical em fase de redação.

A alternativa que parece conciliar os objetivos da tradução automática e do controlo da

qualidade é muito simples e consiste em unir duas frases na forma negativa através da

conjunção coordenativa copulativa “e” que, sendo a mais simples, é sempre

devidamente identificada e traduzida para o português. A frase testada acima, escrita

seguindo a regra da linguagem controlada que diz para não utilizar a conjunção

coordenativa copulativa “né”, transformar-se-ia em:

90

(9) (b)

IT - Per questo modello non esistono e non saranno sviluppati in futuro.

PT - Para este modelo não existem e não serão desenvolvidos em futuro.

Outro problema surge com a utilização da locução “non solo...ma anche”, que tem como

correspondente em português “não só...mas também”:

(10) (a)

IT - Il dispositivo Lexmark X2480 include non solo uno scanner ma anche una

fotocopiatrice.

PT - O dispositivo Lexmark X2480 inclui não somente um scanner mas mesmo uma

fotocopiadora.

Os testes efetuados no sistema demonstraram que “anche” é sempre traduzido por

“mesmo”, independentemente da função que assuma.

Simplificar a frase consiste, neste caso também, em juntar as várias proposições com a

conjunção “e” mantendo o mesmo nexo semântico de adição. Veja-se o exemplo:

(10) (b)

IT - Il dispositivo Lexmark X2480 include uno scanner e una fotocopiatrice.

PT - O dispositivo Lexmark X2480 inclui um scanner e uma fotocopiadora.

91

Outros testes efetuados no sistema SYSTRANet demonstram que as maiores

dificuldades em termos de processamento de elementos de coordenação se colocam a

nível das locuções conjuncionais, que não são processadas como um conjunto, mas

antes analisadas separadamente. Vejam-se os exemplos seguintes:

(11) (a)

IT - Lo scanner funziona, nonostante ciò il dispositivo segnala un errore.

PT - *O scanner funciona, contra aquilo o dispositivo assinala um erro.

A utilização de conjunções simples, de apenas uma palavra, facilita a leitura do texto e o

processamento por parte do sistema e oferece melhor resultados de tradução.

Veja-se o resultado da substituição da locução conjuncional “NONOSTANTE CIÒ...”

pela conjunção “TUTTAVIA”:

(11) (b)

IT - Lo scanner funziona, tuttavia il dispositivo segnala un errore.

PT - O scanner funciona, contudo o dispositivo assinala um erro.

Outras conjunções coordenativas adversativas aceites em italiano para a substituição de

“nonostante ciò” são“ eppure” e “però”, podendo ser consideradas alternativas válidas e

aceitáveis caso o autor necessite de um sinónimo para evitar a repetição em fase de

redação:

92

(12) (a)

IT - La luce è arancione, eppure c'è carta.

PT - A luz é cor de laranja, no entanto há papel.

(13) (a)

IT - Nelle immagini si vede un dispositivo Lexmark T65x però le istruzioni (…)

PT - Nas imagens vê-se um dispositivo Lexmark T65x contudo as instruções (…)

A conjunção “però” sendo mais destinada ao uso oral em italiano, é de evitar tendo em

conta também a melhoria do input de acordo com o nível de formalidade exigido no

contexto empresarial.

Outro fenómeno de coordenação analisado é o da locução “SIA...CHE” correspondente,

em português, à locução “QUER...QUER” ou a “SEJA...SEJA”. O sistema

SYSTRANet não consegue identificar a locução por inteiro e, independentemente de a

mesma ser seguida de preposição, verbo ou substantivo, traduz como se segue:

(14) (a)

IT - Selezionare il tipo di carta sia per il vassoio 1 che per il vassoio 2.

PT - *Selecionar o tipo de papel ou seja para a bandeja 1 que para a bandeja 2.

93

(15) (a)

IT - Il dispositivo può sia stampare che fotocopiare.

PT - *O dispositivo pode ou seja imprimir que fotocopiar.

(16) (a)

IT - Il dispositivo é sia uno scanner che una fotocopiatrice.

PT - *O dispositivo é seja um scanner que uma fotocopiadora.

Os testes introduzidos no sistema demonstram que ao utilizar a locução “SIA...SIA”,

sinónima da locução “SIA...CHE”, este problema é facilmente resolvido e que, através

desta alteração, quer o input quer o output são de boa qualidade.

(14) (b)

IT - Selezionare il tipo di carta sia per il vassoio 1 sia per il vassoio 2.

PT - Selecionar o tipo de papel quer para a bandeja 1 quer para a bandeja 2.

(15) (b)

IT - Il dispositivo può sia stampare sia fotocopiare.

PT - O dispositivo pode quer imprimir quer fotocopiar.

(16) (b)

94

IT - Il dispositivo è sia uno scanner sia una fotocopiatrice.

PT - O dispositivo é quer um scanner quer uma fotocopiadora.

No que diz respeito à conjunção “OVVERO” o problema prende-se com o facto de a

mesma poder ter em italiano quer um valor disjuntivo (sinónimos “O”, “OPPURE”),

que pode ser traduzido em português por “OU”, quer um valor explicativo (sinónimo

“OSSIA”), que pode ser traduzido por “OU SEJA”. O SYSTRANet não consegue

atribuir à conjunção o valor explicativo, traduzindo sempre com uma conjunção com

valor disjuntivo, alterando o significado. Não havendo maneira de a máquina

reconhecer o valor explicativo no contexto, é preferível evitar o uso desta conjunção e

substitui-la com a não ambígua “OSSIA”. Vejam-se os exemplos abaixo:

(17) (a)

IT – Rimuovere la parte “B”, ovvero il cilindro verde.

PT - Tirar a parte “B”, ou o cilindro verde.

Substituindo “OVVERO” por “OSSIA”, o significado na língua de origem não é

alterado mas a ambiguidade é reduzida:

(17) (b)

IT – Rimuovere la parte “B”, ossia il cilindro verde.

PT - Tirar a parte “B”, ou seja o cilindro verde.

95

Outra locução coordenativa explicativa que o sistema reconhece e traduz corretamente

por “ou seja”, é a italiana “cioè”. Apesar de o sistema a processar corretamente, a sua

natureza menos formal em comparação com “ossia” faz com que, numa linguagem

controlada orientada também para o controlo da qualidade do input, seja mais

aconselhável optar pela utilização de “ossia”.

4.3.2 SUBO RDI NA ÇÃ O

As estruturas de subordinação colocam vários desafios a nível de processamento do

sistema de tradução automática, em particular no que concerne à seleção do tempo

verbal correto para a frase subordinada com valor condicional.

Em italiano, são subordinadas condicionais todas aquelas frases introduzidas por

conjunções tais como “se”, “qualora”, “purché”, “nel caso che”, “ammesso che”, “posto

che” e exprimem um facto ou uma situação (condição ou hipótese) da qual depende a

possibilidade que aconteça ou não aconteça o evento expresso na frase principal. Os

problemas principais com este tipo de subordinadas prendem-se, de facto, com a seleção

do tempo verbal que, muito frequentemente, difere do italiano para o português.

(18) (a)

IT - Qualora mancasse una parte, contattare l'assistenza tecnica.

PT - *No caso faltasse uma parte, contactar a assistência técnica.

(18) (b)

IT - Nel caso che funzioni, installare il dispositivo.

96

PT - *Ao caso que funciona, instalar o dispositivo.

No exemplo (18) (a), a conjunção italiana “qualora” é traduzida para português por “no

caso”. Além de o sistema não selecionar a preposição “de”, o verbo também permanece

no imperfeito do conjuntivo. Como no caso da coordenação, para a subordinação

também é aconselhável evitar o uso de locuções como em (18) (b): de facto, além de o

sistema não identificar a locução “nel caso che” como um conjunto, o tempo verbal do

italiano (presente do conjuntivo) é traduzido por um presente do indicativo. Procurando

ultrapassar estes problemas foram substituídas a conjunção “qualora” e a locução “nel

caso che” + presente do conjuntivo (18) (b) pela conjunção equivalente “se” (18) (c),

não regendo esta última nenhuma preposição, tanto em português como em italiano: a

escolha de uma conjunção, em vez de uma locução, é, mais uma vez, eficaz.

(18) (c)

IT – Se mancasse una parte, contattare l’assistenza tecnica.

PT – Se faltasse una parte, contactar a assistência técnica.

Contudo, onde o italiano utiliza o imperfeito do conjuntivo para expressar hipóteses em

português, o mesmo tempo verbal é utilizado em contraste com o futuro do conjuntivo

para exprimir contrafactualidade, sendo neste caso mais apropriado o uso do futuro do

conjuntivo.

97

Se bem que com a introdução da conjunção “se” a intervenção na fase de pós-edição

seja facilmente realizável, existe outra opção de edição do input que não só permite um

correto processamento por parte do sistema como também simplifica a leitura.

Em italiano faz-se a distinção entre o chamado “periodo ipotetico della realtà” (oração

hipotética da realidade) e o “periodo ipotetico della possibilità” (oração hipotética da

possibilidade). Enquanto o primeiro caso expressa uma hipótese real ou muito provável,

no segundo é possível mas não certa, contextos estes que o sistema não lê.

Para dar conta desta nuance, no “periodo ipotetico della realtà” utiliza-se o presente do

indicativo, no da “possibilità” o conjuntivo, Ao utilizar o “se” mais o presente do

indicativo na redação do input (18) (d), a frase em italiano é gramatical assim como o

output:

(18) (d)

IT – Se manca una parte, contattare l’assistenza tecnica.

PT – Se faltar uma parte, contactar a assistência técnica.

Outro fenómeno de subordinação ligado ao uso de tempos verbais diferentes em italiano

e português é a tradução da locução “anche se” (“mesmo que” em português), única

locução concessiva que seleciona o indicativo em vez do conjuntivo.

(19) (a)

IT - Sostituire la cartuccia anche se è nuova.

98

PT - *Subtituir o cartucho ainda que é novo.

Utilizando outra locução concessiva que nas duas línguas selecione o conjuntivo, o

sistema, como esperado, oferece bons resultados:

(19) (b)

IT - Sostituire la cartuccia sebbene sia nuova.

PT - Substituir o cartucho embora seja novo.

Assume-se, portanto, que o sistema não tenha especificações integrais dos tempos

verbais que as diferentes conjunções e locuções conjuncionais selecionam.

No que respeita à subordinação com valor final, em italiano e em português, a mesma

pode ser realizada utilizando respetivamente a preposição ‘per/para’ +

‘infinitivo/infinitivo pessoal’ ou utilizando uma locução subordinativa ‘affinchè/a fim

de que’ ou ‘perchè/para que’+ conjuntivo.

No caso da utilização de duas proposições com valor final interligadas por “para”

seguidas de dois pontos verificaram-se problemas de tradução quando a fase final

precede a subordinante, o que é um problema relevante para a linguagem controlada

aqui desenvolvida baseada na escrita técnica e na qual a utilização de listas é

considerável ajudando a simplificar radicalmente a estrutura do texto e a individuação

das várias instruções a seguir.

Veja-se o exemplo:

99

(20) (a)

IT - Per identificare il codice firmware attuale, scegliere una delle seguenti opzioni:

- scaricare l'ultimo firmware

- stampare una pagina interna

PT - *Identificar o código firmware atual, escolher uma das seguintes opções:

- descarregar o último firmware

- imprimir uma página interna

O sistema não reconhece a proposição “per identificare il codice firmware attuale”

como uma proposição final da frase principal “scegliere una delle seguenti opzioni”,

eliminando o “per”. Isto não acontece tirando o sinal de pontuação como no exemplo

que segue.

(20) (b)

IT - Per identificare il codice firmware attuale, scegliere una delle seguenti opzioni

PT - Para identificar o código firmware atual, escolher uma das seguintes opções

Em proposições em que o uso do sinal de pontuação é necessário e para fins de

simplificação dos enunciados através do uso de listas, aconselha-se a ordem frase

principal, frase subordinada. Desta maneira consegue-se contornar o problema do

sistema e continuar a utilizar listas a fim de aumentar o grau de legibilidade. Aplicando

100

a inversão da ordem dos dois enunciados, o sistema processa-os corretamente apesar da

presença dos dois pontos no final da frase:

(20) (c)

IT - Scegliere una delle seguenti opzioni per identificare il codice firmware attuale:

- scaricare l'ultimo firmware

- stampare una pagina interna

PT - Escolher uma das seguintes opções para identificar o código firmware atual:

- descarregar o último firmware

- imprimir uma página interna

Cabe mencionar que em italiano, construções deste tipo privilegiam a ordem frase

subordinada - frase principal. Contudo, sendo aceitável e completamente gramatical a

ordem sugerida para contornar a falha do sistema de tradução, foi incluída no fragmento

de regras.

Outro problema, não ligado desta vez à escolha do tempo verbal ou à pontuação, surge

com a utilização da conjunção italiana “quindi” com valor temporal. A conjunção é, de

facto, utilizada em frases subordinadas temporais tendo o significado de ‘em seguida’ e

em frases coordenativas explicativas com o significado de ‘portanto’, ‘por isso’, ‘por

conseguinte’. Os testes efetuados no sistema revelaram que o primeiro valor não é

101

identificado pelo sistema e que a conjunção, independentemente da sua utilização na

língua de partida, é sempre traduzida por ‘por conseguinte’:

(21) (a)

IT - Attendere 30 secondi, quindi ricollegare il cavo elettrico.

PT - Esperar 30 segundos, por conseguinte reconectar o cabo elétrico.

Sugere-se, portanto, evitar utilizar a conjunção “quindi” com valor temporal,

substituindo-a com uma lista numerada:

(21) (b)

IT – 1. Attendere 30 secondi;

2. Ricollegare il cavo elettrico.

PT – 1. Esperar 30 segundos;

2. Reconectar o cabo elétrico.

Como mencionado na secção 3.3 e aconselhado em vários manuais de escrita técnica de

diferentes empresas informáticas, as listas numeradas simplificam a estrutura dos

enunciados e devem ser utilizadas, sempre que possível, para expressar sequencialidade.

102

4.4 ORTOGRAFIA E OMISSÃO DE PARTES DE CONSTITUINTES

Uma das regras do controlo da qualidade refere-se à importância do uso de uma

gramática e ortografia corretas (Regra nº 1 - O agente utiliza gramática e ortografia

corretas no email).

Como é óbvio, os erros ortográficos devem, por princípio, ser evitados, pois além de

serem considerados uma falta de profissionalismo no contexto empresarial, também

podem dificultar a compreensão, quer para uma pessoa quer para um sistema de

tradução automática.

Ao evitar os erros ortográficos e de digitação cumprem-se os padrões de qualidade

mantendo o nível de profissionalismo adequado, simplifica-se a leitura e, mais

importante para o trabalho em questão, permite-se a tradução automática.

Especialmente para os sistemas de tradução automática disponíveis online, os erros

ortográficos e de digitação são um problema relevante (cf. Galinskaya et al., 2014).

Na mesma pesquisa de Galinskaya et al. (2014, p. 2684), os autores analisam o impacto

dos vários erros que tornam os textos “noisy” dividindo-os em quatro categorias:

1) word breaking errors;

2) misspellings;

3) wrong capitalization;

4) wrong punctuation.

Em italiano o verbo “ser” na terceira pessoa do singular do indicativo escreve-se “è”,

com acento grave. Um dos erros mais frequentes, sobretudo quando se trabalha em

programas com correção automática para o português, é a troca do acento grave para um

acento agudo de acordo com a grafia do português. Introduzindo frases deste tipo no

103

sistema SYSTRANet, verificou-se que a tradução é comprometida ao utilizar uma

ortografia incorreta:

(22) (a)

IT – La porta anteriore é nera.

PT - A porta anterior é preto.

O sistema não consegue, neste caso, perceber que o adjetivo “preto” está relacionado

com “a porta”, traduzindo sem ter em conta que se trata do feminino.

O problema pode ser facilmente contornado, utilizando a ortografia correta:

(22) (b)

IT – La porta anteriore è nera.

PT - A porta anterior é preta.

O sistema utiliza o reconhecimento de sequências de carateres pelo que, se as palavras

contiverem erros ortográficos, não conseguirá encontrar a palavra correspondente no

seu dicionário alterando, assim, a estrutura da frase e as relações entre os seus

constituintes. Passar um texto por um corretor ortográfico da língua de partida costuma

resolver, como é óbvio, a maior parte destes problemas.

As frases também devem ser o mais gramaticalmente completas possíveis, devido ao

facto de o sistema não conseguir analisar a frase corretamente se alguns dos

104

constituintes faltarem. Um dos exemplos mais simples é representado pela omissão dos

artigos, muito frequente nos textos técnicos redigidos em italiano e que é necessário

evitar:

(23) (a)

IT – Cavo elettrico e dispositivo sono nella scatola.

PT – *Cabo elétrico e dispositivo está na caixa.

Com introdução dos artigos:

(23) (b)

IT – Il cavo elettrico e il dispositivo sono nella scatola

PT – O cabo elétrico e o dispositivo estão na caixa

Existem depois outros problemas ligados à ausência de parte dos constituintes que são

causa do não reconhecimento, por parte do sistema, da correta classe gramatical: é o

caso de ‘piano dello scanner’ que designa o ‘vidro do scanner’ mas é traduzido por

“devagar do scanner” quando introduzido no sistema sem artigo (frequente em caso de

listas descritivas de peças/componentes de uma impressora). De facto, ‘piano’ em

italiano pode designar uma surpefície plana, geralmente horizontal, sendo neste caso um

substantivo masculino ou pode ter o significado de ‘devagar’, sendo neste caso um

advérbio. A simples introdução do artigo faz com que o sistema reconheça a sequência

105

‘Det + N’ e, portanto, ‘piano’ como substantivo, traduzindo-o por ‘plano’ (um dos

diferentes sentidos em português sendo mesmo o de superfície lisa e plana3).

No que diz respeito à terminologia, as questões serão abordadas na secção específica

(4.5), contudo, cabe mencionar neste contexto a omissão muito frequente das

preposições nos termos técnicos compostos em italiano (e na formação de nomes

específicos de menu de configuração da impressora), o que não acontece no caso do

português. Veja-se uma lista de exemplos extraídos do corpus:

Italiano Português

1 Supporto carta Suporte do papel

2 Grammatura carta Peso do papel

3 Impostazione formato carta Definição do tamanho do papel

4 Regolazione luminosità Ajustar o brilho

5 Regolazione contrasto Ajustar o contraste

6 Gestione inchiostri Gestão de tinta

7 Recupero Stampa Recuperação da impressão

8 Protezione pagina Proteção de página

9 Destinazione trasferimento Destino do download

10 Allineamento testine Alinhamento das cabeças

11 Dispositivo archiviazione

dati

Dispositivo de armazenamento

de dados

3 Dicionário Priberam da Língua Portuguesa [em linha], 2008-2013,

http://www.priberam.pt/dlpo/plano [consultado em 25-07-2014]

106

De facto, um dos aspetos mais caraterizadores da linguagem informática italiana é a

redução das preposições, vistas pelos especialistas como inúteis e redundantes. As

preposições que mais são objeto de omissão são a preposição “di” (“de” em português)

como no caso “Supporto carta” para “Supporto della carta” e a preposição “per” (‘para’

em português) como em ‘Dispositivo archivazione dati’ per ‘disco per archiviazione dei

dati’ (‘dispositivo de armazenamento de dados’, em português) (Sosnowski, 1998).

A criação de um glossário específico da área (secção 4.5.2) com introdução dos termos

compostos resolve problemas como o apresentado.

4.5 LÉXICO INFORMÁTICO

Uma das caraterísticas fundamentais de um texto técnico é, sem dúvida, a frequente

ocorrência de termos especializados, enquanto, um dos elementos fundamentais de uma

linguagem controlada é a restrição do vocabulário.

Neste parágrafo, será abordada a questão do léxico informático sob estes dois aspetos: a

terminologia própria da área e a restrição do vocabulário, a fim de reduzir as

ambiguidades.

Dada a importância da terminologia no contexto da tradução automática e no das

linguagens especializadas, decidiu-se, proceder a uma análise de vários aspetos que

compreendem o recurso ao empréstimo na língua italiana e a importância da

consistência terminológica no contexto da tradução automática e da escrita técnica e

empresarial.

Acerca da relevância da terminologia no âmbito da tradução automática, Cremers

(2011, p.3) afirma que os sistemas de tradução automática

107

“will only produce high quality translations if the system ‘knows’ the domain terminology

and corresponding translations.”

No que diz respeito às linguagens controladas, Mitamura e Nyberg (1995) indicam que,

para definir um vocabulário controlado, é necessário analisar documentos pré-existentes

no domínio específico da linguagem controlada a desenvolver.

Com base nestas duas afirmações, após análise detalhada do corpus inicialmente

selecionado, procedeu-se à criação de um glossário bilingue da área da informática

(com uma percentagem mais elevada de termos técnicos relativos a impressoras).

Em 4.5.1, será apresentada a função “Meu Dicionário” para a criação de glossários

personalizados mostrando as melhorias e os problemas que derivam da sua utilização

aquando da tradução automática de textos do corpus.

Em 4.5.2, será apresentado o glossário bilingue constituído, assim como será abordada a

questão da importância da consistência terminológica.

Em 4.5.3, falar-se-á da criação de novos termos na área da informática, da utilização dos

empréstimos do inglês no italiano informático e da importância da manutenção dos

dicionários para os sistemas de tradução automática.

4.5.1 A FU NÇ ÃO “M EU DIC ION ÁRI O” DO SISTE MA SYSTRANET

O sistema SYSTRANet permite, através da criação de uma conta gratuita, a organização

e gestão de um dicionário pessoal no qual é possível inserir o termo na língua de

partida, o correspondente na língua de chegada e escolher a categoria gramatical do

mesmo. Outra opção, chamada DNT (Do not translate), quando selecionada deixa

invariável o termo de partida.

As opções listadas para a escolha da categoria gramatical são as seguintes:

108

1 Detect (deteção automática da categoria gramatical correspondente)

2 Noun

3 Proper Noun

4 Acronym

5 Verb

6 Adjective

7 Sequence

8 Preposition

9 Adverb

Tabela nº 1 – lista das categorias gramaticais da função “Meu dicionário” do

sistema SYSTRANet.

A nível da interface, o sistema é de simples utilização: através de uma lista é possível

escolher a língua de partida e de chegada. Para a transposição de um termo da língua de

partida para a língua de chegada (DNT – Do Not Translate) é apenas necessário

selecionar a opção e é possível escolher a categoria gramatical a partir de um menu

drop-down. (veja-se na Figura 7 a interface do sistema)

FIG. 5 INTERFACE DA APLICAÇÃO “MEU DICIONÁRIO” DO SISTEMA SYSTRANET

Cabe salientar que as entradas do dicionário criado pelo utente serão a primeira escolha

do sistema, como a SYSTRAN indica na descrição das funcionalidades da ferramenta:

109

“SYSTRANet lets you quickly create a personal dictionary that supersedes the SYSTRAN

and Larousse dictionaries during the translation process.”

(http://www.systranet.com/pt/systranet-help/help-my-dictionary)

A empresa também apresenta um conjunto de sugestões para uma utilização mais

efetiva do dicionário pessoal. É interessante sublinhar como algumas destas sugestões

são parecidas com as regras gerais de algumas linguagens controladas. Segue o conjunto

de regras retirado do site (http://www.systranet.com/mydictionary, secção “Tips”):

Dictionary Tip nº 1 Enter verbs in infinitive form: [to jump],

instead of [jump] or [jumped].

Dictionary Tip nº 2 If a common noun has a specific meaning

when introduced by a preposition, enter the

whole expression: [en retard=delayed]

instead of [retard=delayed]

Dictionary Tip nº 3 If a common noun has an irregular plural

form, use the clue "plural" to indicate it:

[corpus (plural: corpora)]

Dictionary Tip nº 4 If a multi-word entry gives a coding

error use quotes: instead of [a 128-bit

architecture] use [a "128-bit"

architecture]

Dictionary Tip nº 5 Avoid to enter sequences of words that

do not form a logical unit, as i.e. in this

sentence [sequences of], [words that

do] and [not form a] would be invalid

110

dictionary entries.

Dictionary Tip nº 6 Do not hesitate to add a new translation for a

word or an expression that is already known

by the system. Multiple translations will be

displayed as alternative meanings

Dictionary Tip nº 7 If a word has several meanings, enter several

entries with its different translations.

Dictionary Tip nº 8 Enter nouns in singular form - let the

translator handle pluralization.

Dictionary Tip nº 9 Preface nouns with articles: [a light],

instead of [light].

Dictionary Tip nº 10 Don't capitalize words but proper noun or

acronyms.

Dictionary Tip nº 11 Use a determiner to specify the gender of

ambiguous entries: [le tour] or [la tour] - or

for foreign/unknown words: [un pool], [une

URL]

Dictionary Tip nº 12 Make sure noun/adjectives are in

aggreement as you would find them in

a regular paper dictionary: for instance

[connection sécurisée] and not

[connection sécurisé]

111

Com base nestas regras, foi criado um dicionário pessoal especializado na área da

informática e foram realizados testes que mostram a falta evidente de uma base de

dados terminológica apropriada no sistema utilizado.

Durante a introdução de fragmentos do corpus no sistema SYSTRANet, antes e depois

da aplicação das restrições, foi realizada a recolha das frases que apresentavam apenas

problemas a nível lexical, como em (28) (a) em que o termo “impostazioni” é traduzido

por “posições” em vez de “configurações”:

(24) (a)

IT - Modificare le impostazioni del documento.

PT – Modificar as posições do documento.

Após ter aberto uma conta gratuita, procedeu-se à inserção da seguinte entrada no

dicionário pessoal visando corrigir a tradução e obter, deste modo, uma tradução de boa

qualidade:

Italiano Português Categoria gramatical

<impostazione> <configuração> /noun/

De seguida foram comparadas as duas traduções efetuadas pelo sistema antes e depois

da criação do dicionário pessoal:

112

PT - Sem dicionário pessoal PT - Com dicionário pessoal

Modificar as posições do

documento

Modificar as configurações da acta

Como é possível verificar pelo exemplo acima apresentado, a utilização do dicionário

pessoal resolve corretamente o problema terminológico ligado ao termo <impostazioni>

mas apresenta uma diferença no que respeita ao termo <documento> (corretamente

traduzido pelo correspondente português na utilização do sistema sem recurso ao

dicionário pessoal) que é traduzido por <acta> na versão com recurso à ferramenta em

questão. Outros testes introduzidos no sistema e que serão apresentados de seguida,

mostram várias diferenças a nível das escolhas terminológicas feitas pelo sistema no que

diz respeito a secções de texto que, antes, eram corretamente processadas e traduzidas.

De facto, independentemente das entradas que são inseridas no dicionário pessoal, o

sistema parece não consultar os dois dicionários habituais (SYSTRAN e LaRousse) se a

função “Meu dicionário” estiver ativa. Como já mencionado mais acima, quando o

dicionário pessoal tiver entradas (não interessa quais e quantas), o sistema irá primeiro

procurar um correspondente no dicionário pessoal para, no caso de não encontrar

correspondência, ir procurar nos outros dicionários. A verificação do primeiro

dicionário parece excluir um dos outros dois, limitando deste modo as entradas

consultáveis e fornecendo, muitas vezes, a opção menos apropriada. Assume-se que o

sistema consiga consultar um máximo de dois dicionários de cada vez e, portanto, o uso

do dicionário pessoal sobrepõe-se ao dicionário SYSTRAN (ou ao LaRousse)

excluindo-o e dando origem a resultados diferentes. Em alguns casos estas mudanças

não são aceitáveis a nível semântico sendo necessário incluir estes novos termos não

específicos da área no dicionário pessoal (o que não cabe nos objetivos deste trabalho),

113

como acontece em (24) (a) para o qual o problema pode ser simplesmente resolvido

acrescentando a entrada ‘documento’ (it) correspondente a ‘documento’ (pt) no

dicionário. Outras vezes trata-se apenas de sinónimos igualmente aceitáveis como em

(25) (a).

(25) (a)

IT – Rimuovere il cavo USB e attendere 10 minuti.

PT - #Tirar partes côncavas USB e esperar 10 minutos.

Italiano Português Categoria gramatical

<cavo USB> <cabo USB> /noun/

PT - Sem dicionário pessoal PT - Com dicionário pessoal

#Tirar partes côncavas USB e

esperar 10 minutos

Remover o cabo usb e aguardar 10

minutos

Os testes efetuados no sistema SYSTRANet, revelaram a evidente falta de uma base de

dados terminológica na área da Informática pelo que se decidiu, não obstante as

dificuldades encontradas aquando da utilização da função “Meu Dicionário”, constituir

um glossário que será apresentado na secção que se segue. Isso deve-se ao facto de o

glossário ser igualmente relevante, em termos de consistência terminológica, a nível da

redação do input.

114

4.5.2 GLOSS ÁR IO BILIN GUE IT ALI ANO-P ORTU G UÊS ( I NFOR MÁTI CA)

Devido à falta do termo no dicionário ou à seleção de um termo do dicionário comum

(ex. a palavra “STAMPA” pode ser traduzida para o português com “IMPRENSA” ou

“IMPRESSÃO” dependendo do contexto) o sistema não consegue traduzir corretamente

alguns dos termos específicos da área da informática. Veja-se uma pequena amostra na

tabela que segue:

Italiano (Domínio: informática) Tradução SYSTRANet

1 Stampa Imprensa

2 Cavo USB Partes concavas USB

3 Riavviare Riavviare

4 Drivers Motoristas

5 64 bit 64 lâminas

6 Start (Windows) Partida

7 Sistema operativo Sistema operacional

8 Schermo Mascara

9 Cartella Malinha

10 Aggiornare Adiar

11 Scannerizzre Varrer

12 Menu Ementa

Os exemplos acima mencionados, demonstram a importância de um dicionário

específico da área para a resolução de alguns dos problemas, bem como a necessidade

da leitura do contexto para a resolução de outros.

115

De facto, pode-se observar que o verbo “riavviare” (PT - reinicializar) não consta no

dicionário e simplesmente não é traduzido para português. O verbo “reinicializar” (ou

reiniciar) é específico da área e refere-se ao ato de arrancar novamente um programa ou

um sistema, não tendo outros significados. Assim sendo, a simples introdução da

equivalência “riavviare” -> “reinicializar” no dicionário teria resolvido o problema.

Existem também outros exemplos mais complexos que dizem respeito às palavras

compostas e à não identificação da categoria gramatical de um dos termos, o que pode

levar ao consequente não reconhecimento da categoria gramatical do outro termo. É o

caso de ‘stampante locale’ (‘impressora local’ em português) que serve para designar

uma impressora que está fisicamente conectada ao computador. O sistema SYSTRANet,

não reconhece o termo ‘stampante’ como um substantivo feminino em italiano,

interpretando-o como particípio presente do verbo ‘stampare’ e traduzindo-o para

português como ‘imprimindo’, em (26) (a). Isto faz com que o sistema não consiga

reconhecer o adjetivo que segue (‘locale’) como modificador do substantivo, dado que o

mesmo foi interpretado com categoria gramatical incorreta. O que o sistema faz é ler a

outra interpretação de ‘locale’ em italiano, a do substantivo masculino que designa um

‘espaço’, um ‘ambiente’, um ‘sítio’, traduzindo-o por ‘sala’:

(26) (a)

IT - Installazione della stampante locale tramite il CD.

PT - *Instalação imprimindo sala pelo CD.

116

No exemplo (28) (a) confirma-se que, substituindo o termo ‘stampante’ por outro

substantivo que o sistema reconhece, o adjetivo ‘locale’ também é traduzido

corretamente:

(28) (a)

IT - L’indirizzo IP locale identifica il collegamento con il proprio PC/router nella rete

interna.

PT - O endereço IP local identifica a ligação com o seu PC/router na rede interna.

Não acontece o mesmo com termos como “cartella” que é traduzido por “malinha” em

vez do termo informático clássico “pasta”. Isso acontece porque a palavra “cartella” é

usada em italiano para designar quer uma mala, uma carteira na qual se inserem

documentos, quer (na informática) como a divisão de um disco na qual é possível

organizar os ficheiros. Neste caso, para o SYSTRANet conseguir selecionar este

segundo significado, seria necessário o sistema conseguir ler o contexto.

Podem existir duas maneiras para o sistema fazer o reconhecimento do contexto em que

o texto a traduzir se situa:

- manualmente, selecionando a área de referência antes de começar a tradução;

- automaticamente, analisando a ocorrência das palavras e selecionando, após uma

análise estatística, a área com maior número de palavras;

Não podendo, em fase de realização deste trabalho, efetuar alterações a nível da seleção

do contexto e sendo todos os inputs utilizados para realizar os testes específicos da área

da informática, sub-domínio das impressoras, procedeu-se à criação de um dicionário da

117

área que foi subsequentemente inserido no sistema SYSTRANet através da função

“Meu Dicionário”, previamente apresentada. Desta forma, após ter tratado

minuciosamente da realização do dicionário técnico específico, o sistema foi capaz de

selecionar a entrada que foi indicada como a mais apropriada naquele domínio. Isto foi

possível sem o reconhecimento do contexto devido ao facto do dicionário pessoal

prevalecer na escolha do termo, como já visto anteriormente.

Segue a tabela com a pesquisa terminológica efetuada durante a realização dos testes: na

primeira coluna foram listados os termos da língua de partida assim como extraídos dos

inputs do corpus utilizado, na segunda coluna os correspondentes em português e na

última as traduções oferecidas pelo sistema SYSTRANet. Para realização da coluna em

português recorreu-se ao conhecimento pessoal adquirido durante anos de trabalho na

área e ao alinhamento de textos específicos da área (manuais de impressoras,

documentos de suporte, fóruns informáticos, dicionários informáticos).

Italiano

(domínio: Informática)

Português

(domínio: Informática)

Categoria

gramatical

Traduções

propostas pelo

SYSTRANet

(dicionário

SYSTRAN e

LaRousse)

1 accendere ligar Verb acender

2 acquisire digitalizar Verb adquirir

3 aggiornare atualizar Verb adiar

4 area stampabile área de impressão Noun área imprimível

5 bit bit Noun lâmina

6 bordo margem Noun bordo

7 bozza rascunho Noun prova

8 carta lucida papel plastificado Noun papel lúcido

9 carta patinata papel revestido Noun papel deitado

10 cartella pasta Noun malinha

12 cartuccia tinteiro Noun cartucho

13 cartuccia ad alta resa tinteiro de alto

rendimento

Noun cartucho à

elevada

118

capitulação

14 cartuccia di toner cartucho de toner Noun cartucho de

trovejar

15 cavo USB cabo USB Noun partes concavas

USB

16 coda di stampa fila de impressão Noun rabo de

imprensa

17 comando di avanzamento

riga

comando de controlo de

retorno de carro

Noun comando de

adiantamento

risca-se

18 comunicazione

bidirezionale

comunicação bidirecional Noun comunicação

bidirezionale

19 deframmentare desfragmentar Verb deframmentare

20 deframmentazione desfragmentação Noun deframmentazio

ne

21 drivers controladores Noun motoristas

22 fascicolare agrupar Verb fascicolare

23 finitura in nero acabamento preto Noun conclusão em

preto

24 fotoconduttore fotocondutor Noun fotoconduttore

25 grammatura carta peso do papel Noun grammatura

papel

26 impaginazione paginação Noun aposta em

página

27 impostazione configuração Noun posição

28 impostazione predefinita

di fabbrica

configuração padrão de

fábrica

Noun posição

predefinida de

fábrica

29 inceppamento carta encravamento do papel Noun inceppamento

papel

30 linguaggio pcl interpretador pcl Noun linguagem pcl

31 luminosità brilho Noun luminosidade

32 manutenzione manutenção Noun entrevista

33 materiale di consumo consumível Noun material de

consumo

34 menù menu Noun ementa

35 menù finitura menu acabamento Noun miudamente

conclusão

36 modalità risparmio energe

tico

modo economia de

energia

Noun modalidade pou

po energética

37 pannello di controllo painel de controlo Noun quadro de

controlo

38 piano dello scanner vidro do scanner Noun devagar do

"scanner"

39 rasterizzazione rasterização Noun rasterizzazione

40 reset reinicialização Noun réinitialisation

41 riavviare reinicializar Verb riavviare

119

42 ritorno a capo retorno de carro Noun regresso à chefe

43 rullo di alimentazione rolo do alimentador Noun rolamento de

alimentação

44 scannerizzare digitalizar Verb varrer

45 scheda di memoria placa de memória Noun ficha de

memória

46 scheda di sistema placa do sistema Noun ficha de sistema

47 scheda logica placa lógica Noun ficha lógica

48 schermo ecrã Noun máscaro

49 schermo a sfioramento ecrã tátil Noun mascaro à sfior

amento

50 sistema operativo sistema operativo Noun sistema

operacional

51 spia luz Noun espião

52 spooler di stampa spooler de impressão Noun spooler de

imprensa

53 stampa impressão Noun imprensa

54 stampa ad alta velocità impressão de alta

velocidade

Noun imprime à

elevada

velocidade

55 stampa di opuscoli impressão em livro Noun imprime de

livretos

56 stampa in corso 4 a imprimir Noun imprensa en

cours

57 stampa su due lati impressão frente e verso Noun imprime sobre

dois lados

58 stampante impressora Noun que imprime,

imprimindo,

impressor

59 stampante ad aghi impressora de agulhas Noun imprimindo à

agulhas

60 stampante di rete impressora de rede Noun imprimindo de

rede

61 stampante locale impressora local Noun imprimindo sala

62 stampante multifunzione impressora multifunções Noun imprimindo

multifonction

63 stampante wireless impressora sem fios Noun imprimindo sem

fios

64 Start5 Iniciar Proper Noun partida

65 supporto carta suporte do papel Noun apoio papel

66 tamburo del

fotoconduttore

cilindro fotocondutor Noun tambor do

fotoconduttore

67 ugello jato Noun orifício

4 Terminologia específica do sistema Windows 5 Terminologia específica do sistema Windows

120

A tabela acima mencionada foi organizada, também, como referência a utilizar aquando

da redação dos templates e não contém termos sinónimos para designar o mesmo

conceito. Através da pesquisa terminológica realizada foi possível, de facto, verificar

que até no domínio técnico existem vários termos para designar o mesmo conceito.

Acerca deste tema, Allen (1999, p.3) fala da importância da normalização da

terminologia:

“[...] the standardization of terminology is essential. It is often possible to find in the same

technical manual, or even in the same story about changing antifreeze of a vehicle or

machine, the terms "filler cap", "fill cap" and "radiator cap" for the same object. Such a

multiplicity of terms for the same item is unnecessary and could be confusing to a mechanic

or technician who, while reading a procedural text, may in fact begin looking for a second

cap, although in reality there is only a single cap. CLs therefore aim at standardizing the

terminology with the general idea in mind of one concept—one term. The opposite side of

the same problem is the issue of multiple meanings for a single term. Standardization of

vocabulary and terminology in a CL has been demonstrated to improve the consistency of

the terminology in texts.”

Como Allen (1999) indica no seu trabalho, a presença de mais de um termo para a

designação de um mesmo conceito pode acarretar ambiguidade não só para os leitores

do texto mas também para os sistemas.

Vasconcellos (1994, p.697), também sublinha a importância da introdução de uma base

terminológica apropriada no sistema de tradução automática:

“If the right terminology has been supplied to a machine translation (MT) system, the target

language equivalents are retrieved not only automatically but also in their correct place in

the output document. This is one of the advantages of MT: it dispenses with the need to

look up terms, whether in hard-copy dictionaries or on-line.”

Arnold (1994, p.148) também apresenta a importância da consistência terminológica em

termos de processamento por parte do sistema:

121

“Being consistent about the use of terms will also help to improve the overall consistency

and quality of the texts being translated. After all, one of the simplest and most direct

benefits of MT for technical texts is that terms are always translated consistently because

they are simply looked up in an electronic bilingual term dictionary.”

No caso da linguagem controlada aqui proposta, a coerência terminológica é também

relevante para fins de controlo da qualidade. O conjunto de regras realizado serve, de

facto, de base tanto para a “translation memory” como para a “authoring memory”. A

coerência terminológica está na base da escrita técnica permitindo aumentar a

legibilidade por parte dos utilizadores. A Microsoft, por exemplo, declara:

“Understanding the user interface can be a confusing experience for customers. By using a

consistent set of terminology and style, you can help customers navigate the product user

interface successfully.” (Microsoft, 2012, p.3)

A par desta declaração, Ciola (2008) sublinha a importância da terminologia em fase de

redação de modo a construir, desde o início, um texto de maior qualidade. Além dos

benefícios óbvios para a tradução automática, tratando-se de textos informativos e de

instruções, o uso de uma terminologia consistente ajuda a diminuir a ambiguidade e a

facilitar a consulta por parte de utentes não experientes assim como a reduzir o erro por

parte de técnicos especializados.

Encontram-se referências à consistência de estilo e de terminologia também nos

manuais de estilo de várias companhias de informática. Veja-se o exemplo extraído do

‘Xerox Publishing Style – A manual for Style and Design’:

“The goal of good business writing is to communicate simply and clearly. To make yourself

clear to customers and co-workers, you must use the same words and conventions to mean

the same things.” (Xerox, 1988, p.3)

A nível do controlo da qualidade outro parâmetro importante na redação de textos deste

tipo é a homogeneidade da informação passada ao cliente, que tem que ser vista como

passada por uma entidade (a empresa) e não por múltiplos autores. Na realidade, por

122

causa do elevado número de pedidos a gerir num dia, sabemos como é necessário que

mais autores contribuam para a redação e/ou tradução dos textos pelo que a coerência

terminológica (bem como fraseológica) vá ao encontro das necessidades das empresas.

Devisevic e Steensland (2005, pag.57) também afirmam que:

“when writing technical documents where many writers contribute, it is important to have a

common style in order to make the texts consistent”

Na pesquisa terminológica efetuada para a realização do glossário informático italiano-

português, foram vários os casos de inconsistência terminológica encontrados

(provavelmente devido ao facto de diferentes profissionais serem responsáveis pela

tradução). Veja-se o caso de “cartuccia ad alta capacità” e “cartuccia ad alta resa”: os

dois designam um tinteiro de alto rendimento e são utilizados pela mesma empresa

(Lexmark) em alternância para designar o mesmo conceito, (no manual o primeiro e na

secção de vendas do site o segundo). É claro que a dupla denominação pode acarretar

confusão para o utilizador, assim como para o tradutor que deverá escolher entre manter

a incoerência terminológica ou introduzir coerência. Uma das regras estabelecidas por

Mitamura (1999, p.46) para o desenvolvimento do KANT Controlled English prendia-se

com a ‘codificação do significado’ (encoding the meaning), ou seja limitar os múltiplos

significados de uma mesma palavra:

“Wherever possible, the lexicon should encode a single meaning for each word/part of the

speech pair. This helps dramatically to reduce the amount of ambiguity in the source text,

and helps to achieve higher accuracy in the target language translation”

Sistematizar e uniformizar a terminologia simplifica, então, a leitura por parte do

utilizador indo ao encontro dos padrões da qualidade. Além disso, para processamento

por parte do sistema de tradução automática, a presença de um único termo para

designar um conceito reduz a necessidade de múltiplas entradas no dicionário.

Há que salientar também que os agentes que redigem os templates para os utentes finais

não têm, muito frequentemente, uma formação específica na área, pelo que uma lista de

123

termos técnicos (de preferência um glossário com definições) ajudaria na tarefa de

redação dos templates.

4.5.3 TE RMI NOLOGI A : F ORMA ÇÃ O DE N OVO S TE RMOS E M AN UTENÇ ÃO D O DIC ION ÁR IO

O domínio informático (e tecnológico, mais em geral) é um dos domínios mais férteis

para a criação de novos termos.

No que respeita ao processamento das palavras por sistemas de tradução automática já

analisamos alguns termos que constituem um obstáculo para os sistemas dando origem à

ambiguidade (a nível terminológico) por terem outro significado em outro domínio. Foi

o caso do termo “stampa” e do termo “cartella”, traduzidos respetivamente por

“imprensa” e “malinha” assim como de “menu” traduzido em todos os casos por

“ementa”. Como já referido, para o sistema poder escolher o correspondente correto,

deveria analisar o contexto em que o termo é utilisado.

No que concerne ao italiano informático, além do recurso a termos de outros domínios,

verifica-se também uma tendência a não traduzir muitos dos termos informáticos do

inglês, recorrendo ao empréstimo.

De facto, se bem que o termo “informática” tenha origens no francês “informatique”

não há dúvidas em relação ao facto de o inglês ser a língua da informática. O italiano,

entre as línguas latinas, é o que mais recorre aos empréstimos do inglês para a

denominação de novos conceitos da informática (computer, scanner, mouse, webcam,

etc.).

Como já vimos na secção relativa à história da tradução automática, a informática teve o

seu maior desenvolvimento entre os anos 50 e os anos 60 acarretando consigo a

necessidade de nova terminologia. Naquela altura os empréstimos do inglês não eram

124

muito comuns e recorria-se muito mais frequentemente ao decalque linguístico.

Contudo, alguns termos do inglês começaram, aos poucos, a entrar no italiano para

nunca mais sair (veja-se o caso de “computer” ou ainda “software”).

As razões para a necessidade de utilizar empréstimos estão também ligadas à própria

evolução da informática, como Sosnowski (1998, p.359) afirma:

“[...] il linguaggio segue e riflette lo stato di un settore specialistico cercando di adeguarsi al

progresso tecnologico che nel campo dell'informatica è più rapido rispetto alle altre

discipline"

Apresenta-se abaixo uma tabela de termos do “italiano informático” que em português

foram traduzidos, ao contrário do que acontece em italiano, em que se mantêm na língua

de origem. A coluna nº 3 ‘SYSTRANet’ refere-se ao dicionário do sistema: o símbolo

“” indica que o termo em italiano (ou seja o empréstimo) foi corretamente traduzido

para português, enquanto o símbolo “-“ indica a não presença do termo no dicionário e a

consequente transposição para português. A última coluna, por fim, indica a existência

de um termo correspondente ao empréstimo em italiano.

IT (do

inglês)

PT SYSTRANet

Correspondente

IT

1 Account Conta - -

2 Client Cliente -

3 Desktop Ambiente de

trabalho

- -

4 Driver Controlador - -

5 Hard disk Disco rígido - Disco duro

6 Layout Esquema - -

125

7 Mouse Rato -

8 Start Iniciar - -

9 Wireless Sem fios Senza fili

10 Database Base de

dados

Base dati

11 File Ficheiro -

Como já vimos anteriormente, a ambiguidade é um dos maiores obstáculos da

tradução automática e pode também verificar-se a nível terminológico.

Se bem que não muito frequentemente, também acontece que o mesmo termo técnico

tenha dois significados dentro do mesmo domínio. No caso da informática, um exemplo

disso é o termo “Cartella”. O termo designa em italiano duas coisas distintas: é a

estrutura utilizada para organizar arquivos num computador, traduzindo-se por “pasta”,

mas é também a “folha” de trabalho no Excel. Nem em todos os casos é possível

proceder ao uso de um sinónimo para a desambiguação, como Mitamura (1999, p.46)

sugeriu para o KANT:

“Whenever a lexical item has more than one potential meaning in the domain, we attempt

to identify a single, primary domain meaning to encode. We then try to find different,

synonymous terms for other meanings, which are required in the domain. Such terms are

marked in the lexicon, so that it is possible to determine for any given word whether it has

an alternate meaning which is encoded by a different term in the domain. This information

can be used is support of on-line vocabulary checking.”

Em particular no domínio da informática a introdução no mercado de novos produtos e

novas tecnologias exige uma manutenção constante dos dicionários e da linguagem

controlada como Mitamura (1999, p.49) explica no seu trabalho:

126

“In a typical document production operation [...] there is an ongoing need to update

terminology due to the introduction of new products, new types of documents, etc.”

127

5. CONCLUSÃO

5.1 REGRAS EM ITALIANO CONTROLADO PARA A TRADUÇÃO E PARA O

CONTROLO DA QUALIDADE (LINGUAGEM ESPECIALIZADA INFORMÁTICA:

IMPRESSORAS)

O objetivo desta secção é, a partir das análises e dos testes efetuados no sistema

SYSTRANet, e tendo em conta as diretrizes do controlo da Qualidade, elaborar uma

lista de regras que possam ser utilizadas para melhorar a tradução para português de

inputs em italiano da área informática introduzidos no sistema de tradução automática

SYSTRANet. Visa-se ao mesmo tempo a melhoria da redação dos textos técnicos da

área da informática em italiano tentando conferir-lhes um elevado nível de legibilidade

e fazendo com que respondam a todas ou à maior parte das diretrizes do controlo da

qualidade. Tratando-se de um domínio muito técnico e específico, e tendo uma dupla

funcionalidade, estas regras abrangem apenas alguns dos fenómenos linguísticos que

representam um obstáculo para a tradução automática e constituem, como já discutido,

um fragmento de um futuro possível projeto de italiano controlado para a informática.

Lembra-se que se trata de uma linguagem controlada “machine-oriented” (MOCL) que

considera alguns aspetos das linguagens controladas “human-oriented (HOCL), na

tentativa de ir também ao encontro dos padrões do controlo da qualidade de templates

técnicos, incluindo, por esta razão, algumas regras próprias do controlo da qualidade (na

secção das regras gerais).

O conjunto de regras está dividido em secções dentro das quais são apresentadas as

regras correspondentes aos fenómenos linguísticos analisados ao longo do trabalho.

A primeira secção refere-se às regras gerais e a segunda às regras específicas.

128

REGRAS GERAIS

Regra nº 1 Complexidade da frase

Escrever frases curtas e com uma estrutura simples

Regra nº 2 Omissão de partes de constituintes

Evitar a omissão de partes de constituintes

Regra nº 3 Ortografia

Escrever frases com ortografia correta

Regra nº 4 Léxico informático

Utilizar apenas os termos especificados no dicionário informático

Regra nº 5 Uso de listas

Utilizar listas em vez de grandes blocos de texto ligados por conjunções

REGRAS ESPECÍFICAS

Regra nº 6 Predicados complexos

Evitar os predicados complexos. Sempre que possível, utilizar a

construção verbal atómica correspondente.

Regra nº 7 Orações participiais

Evitar o uso de orações participiais no feminino. Sempre que

possível, substituir por orações com tempo finito.

Regra nº 8 Orações participiais

Evitar o uso de orações participiais quando os elementos em que a

concordância tem de se manifestar não estão em posição de

adjacência. Substituir por orações relativas.

129

Regra nº 9 Coordenação

Não usar a conjunção copulativa negativa “NÉ”. Substituir por

frases na forma negativa ligadas pela conjunção copulativa

afirmativa “E”.


Não usar a locução conjuncional copulativa afirmativa “NON

SOLO...MA ANCHE”. Substituir por frases na forma afirmativa

ligadas pela conjunção copulativa afirmativa “E”.


Não usar a locução conjuncional coordenativa adversativa

“NONOSTANTE CIÒ”. Substituir pela conjunção coordenativa

adversativa “MA”, “EPPURE” ou “TUTTAVIA”.


Não usar a locução conjuncional coordenativa disjuntiva

“SIA...CHE”. Substituir pela locução “SIA..SIA”.


Não usar a conjunção coordenativa “OVVERO” com valor

explicativo. Substituir pela conjunção “OSSIA”.

Regra nº 14 Subordinação

Não usar a conjunção subordinativa condicional “QUALORA” +

presente do conjuntivo. Substituir pela conjunção subordinativa

condicional “SE” + presente do indicativo.


Não usar a conjunção subordinativa concessiva “ANCHE SE” +

presente do indicativo. Substituir por “SEBBENE” + conjuntivo.

130


Em construções subordinativas finais com “PER + INDICATIVO”

seguidas de dois pontos utilizar a ordem frase principal – frase

subordinada.


Não usar a conjunção subordinativa “QUINDI” com valor temporal.

Substituir por uma lista numerada.

5.2 CONSIDERAÇÕES FINAIS

O trabalho aqui apresentado teve como principais objetivos demonstrar uma relação

entre as regras gerais das linguagens controladas e as regras do controlo da qualidade

estabelecidas por empresas da área da informática e, ao mesmo tempo, estabelecer

restrições para um fragmento de “italiano controlado” na área da informática

(subdomínio: impressoras) para a tradução automática e para o controlo da qualidade,

com base em testes efetuados no sistema SYSTRANet. Os objetivos justificam-se pela

necessidade de fornecer serviços multilingues rápidos na área do suporte técnico e pela

existência de uma grande quantidade de textos redigidos em italiano em comparação

com o português que poderão, desta maneira, ser traduzidos e disponibilizados para os

falantes do português europeu, indo ao encontro das necessidades de produtividade das

empresas de suporte técnico.

Demonstrou-se que as regras de redação de templates estão baseadas nas regras de

redação de textos técnicos tendo diversos aspetos em comum com as regras das

131

linguagens controladas. É possível, portanto, elaborar um conjunto de restrições que

possam garantir, em primeiro lugar uma tradução automática rápida e de boa qualidade

dos textos introduzidos no sistema e, subsidiariamente, a redação de textos em italiano

que correspondam a estes mesmos critérios de qualidade. O fragmento de regras

apresentado é, então, um fragmento de linguagem controlada para a tradução automática

de textos de italiano para português e, secundariamente, para a redação de textos

técnicos em italiano.

Contribuiu-se também para a realização de um dicionário bilingue da área informática

(italiano-português) com vista a: integrar o dicionário geral utilizado pelo SYSTRANet,

personalizar o sistema consoante as necessidades de uma potencial empresa fabricante

de impressoras e facilitar a escolha dos termos mais apropriados por parte dos autores

dos templates na fase de redação.

O conjunto de regras e o dicionário informático apresentados são, dada a natureza do

trabalho, limitados, pretendendo-se que constituam um ponto de partida para a eventual

elaboração de um italiano controlado que consiga combinar a crescente necessidade de

traduções multilingues realizadas em tempos breves com todos ou com a maior parte

dos padrões de qualidade da redação de textos simples e facilmente compreensíveis.

Muitos fenómenos linguísticos próprios das linguagens controladas não foram

analisados, visando-se apenas analisar tópicos em comum com as regras de redação de

textos técnicos, e, de entre esses, os que mais se prendem com a simplificação dos

enunciados. Deve-se a esse facto um estudo mais extenso em relação à coordenação e à

subordinação. A parte relativa à terminologia também se prende com a necessidade de

coerência terminológica própria das linguagens especializadas, constituindo-se como

uma pequena contribuição para a realização de um futuro e eventual glossário italiano-

português da informática que contenha também as definições dos termos, tema não

abordado nesta dissertação.

132

No seguimento da presente dissertação pretende-se levar por diante o desenvolvimento

do módulo de linguagem controlada (italiano informático) no sentido de tratar mais

fenómenos de linguagem natural especializada na área da informática.

Propõe-se ainda, para uma investigação futura, a possibilidade de realizar um glossário

bilingue da área para utilização dos agentes de suporte técnico que trabalham na área do

apoio ao cliente e com o par de línguas italiano-português, assim como a integração da

formação em linguagem controlada nos módulos de formação acerca da qualidade já

oferecidos pelas empresas em questão.

Em jeito de conclusão, as linguagens controladas desenvolveram-se desde o início na

área das linguagens técnicas e o presente trabalho pretende ser um contributo para a

dupla função que este tipo de linguagem sempre teve, ou seja, tradução automática e

redação, com aplicação no quadro dos padrões de controlo da qualidade.

133

BIBILIOGRAFIA

ABEILLÉ, Anne & GODARD Danièle: Deux types de prédicats complexes dans les

langues romanes LLF, Université Paris 7, In : LYNX

(http://www.llf.cnrs.fr/Gens/Abeille/AG.link.pdf) (2001).

ALLEN, Jeffrey: Adapting the Concept of “Translation Memory” to Authoring Memory”

for a Controlled Language Writing Environment. In: Translating and the Computer 21.

Proceedings. 10-11 November 1999 (London: Aslib) (1999).

ANIS, Jacques: Ordinateurs et traduction: survol d'un demi-siècle. In:Langages, 28e année,

n° 116. dezembro 94. Le traducteur et l'ordinateur. pp. 111-122 (1994).

APPLE Inc.:Apple style guide, disponível em: https://help.apple.com/asg/mac/2013/ (2013)

ARNOLD, David [et al.]: Machine translation: an introductory guide, NCC Blackwell,

Manchester, Oxford, Cambridge, 240 p. (1994).

AXELSSON, Hans, & BLOM, Oskar: Utveckling av ett svensk-engelskt lexikon inom

tåg- och transportdomänen. Dissertação de Mestrado em Linguística Computacional.

Institutionen för lingvistik och filologi, Språkteknologiprogrammet (2006).

BAR-HILLEL, Yehoshua: The Present Status of Automatic Translation of Languages. In:

Advances in Computers, vol. 1, p.91-163 disponível em: http://mt-archive.info/Bar-

Hillel1960.pdf (1960).

BYRNE, John: Scientific and Technical Translation Explained: A Nuts and Bolts Guide for

Beginners (Translation Practices Explained). Jody Byrne. Manchester: St. Jerome, 229 pp.

(2012).

CHIARELLO, Orlando: ASD Simplified Technical English ASDSTE100 an adaptable

and flexible resource for writing accuracy. In: TheBigWave (janeiro 2012).

CHIARELLO,

Orlando:Controlled_Languages_as_Internationally_Recognized_Standards. In: The big

wave (abril 2012) .

CIOLA, Bruno: La terminologia orientata alla traduzione: nuove realtà, nuovi approcci. In:

Atti del convegno La Traduzione. Professione e formazione. Università di Padova, Padova

(2008).

CREMERS, Lou: Controlled Language and Machine Translation. A practical

implementation. In: The big wave , 42 (2011).

DELGADO, Natacha Raquel do Carmo: Tradução Automática – proposta para o

discurso escrito em língua portuguesa, Tese de Mestrado em Tradução, Universidade de

Lisboa (2013).

DERVISEVIC, Dina & STEENSLAND, Henrik Controlled language in software user

documentation. Tese de Mestrado. Universidade de Linköpings (2005).

Directorate-General for Translation: How to write clearly, Fight the fog project,

European Commission (1998).

Direção-Geral da Tradução: Redigir com clareza, Comissão Europeia

(ec.europa.eu/translation/writing/clear.../how_to_write_clearly_pt.pdf) (2011).

DUARTE, Inês et al.: Lexical and syntactic properties of complex predicates of the type

<light verb+deverbal noun>. In: Arena Romanistica. Journal of Romance Studies. The

28th Conference on Lexis and Grammar, 48-57. Bergen: University of Bergen. (2009).

DUPONT, Alexandra. Langage contrôlé et traduction automatique : une application

pratique sur un texte de type touristique / Systran vs. Lucy LT : une évaluation

o

http://www.llf.cnrs.fr/Gens/Abeille/AG.link.pdf

https://help.apple.com/asg/mac/2013/

http://mt-archive.info/Bar-Hillel-1960.pdf

http://mt-archive.info/Bar-Hillel-1960.pdf

134

comparative. Tese de Mestrado. Université de Genève (2012).

ELLISTON, John S.G.: Computer aided translation: a business viewpoint. Translating

and the Computer: proceedings of a seminar, London, 14 de November de 1978; ed.

Barbara M.Snell (Amsterdam/New York/Oxford: North-Holland Publishing Company,

1979); pp. 149-158. (1978).

GALINSKAYA Irina, GUSEV Valentin, MESHCHERYAKOVA Elena,

SHMATOVA Mariya: Measuring the Impact of Spelling Errors on the Quality of

Machine Translation. The 9th edition of the Language Resources and Evaluation

Conference (LREC) (2014).

GLEDHILL, Christopher : Vers une analyse systémique des locutions verbales,

constructions verbo-nominales et autres prédicats complexes. In : David Banks, Simon

Easton & Janet Ormrod (réds.), La Linguistique systémique fonctionnelle et la langue

française. Paris : L’Harmattan. pp 89-126. (2009).

HUIJSEN, Willem-Olaf: Controlled Language: An introduction, in Mitamura et al. (eds.),

pp 1-15 (1998).

HUTCHINS, John W.: Machine translation and machine-aided translation. Journal of

Documentation 34(2), 119-159. (1978).

HUTCHINS, John W.: Machine Translation: past, present, future (Ellis Horwood Series

in Computers and their Applications) Chichester (UK): Ellis Horwood. 382 pp. (1986).

HUTCHINS, John W.: A new era in machine translation research, In: Aslib Proceedings

47 (1), p.211-219 (1995).

HUTCHINS, John W.: Milestones in machine translation. Part 1: How it all began in

1947 and 1948. Language Today, no.3, p.22-23 (1997a).

HUTCHINS, John W.: Fifty years of the computer and translation. MT News

International 16 (February 1997), 14-15. Repr. in: Machine Translation Review, no.6,

p.22-24. (1997b).

HUTCHINS, John W.: Milestones in machine translation. Part 4: The first machine

translation conference, June 1952. Language Today no.13 ,12-13. (1998a).

HUTCHINS, John W.: Milestones in machine translation. Part 3: Bar-Hillel’s survey,

1951 Language Today no.8, p.22-23 (1998b).

HUTCHINS, John W.: Milestones in machine translation. Part 2: Weaver’s 1949

memorandum. Language Today, no.6, p.22-23 (1998c).

HUTCHINS, John W.: Milestones in machine translation. No. 5: The IBM-Georgetown

demonstration, January 1954. Language Today no.16, 19-20. (1999a).

HUTCHINS, John W.: Retrospect and prospect in computer-based translation. Machine

Translation Summit VII, 13th-17th September 1999, Kent Ridge Digital

Labs, Singapore. Proceedings of MT Summit VII “MT in the Great Translation Era”; pp.

30-34 (1999b).

HUTCHINS, John W.: (ed.) Early years in machine translation (Amsterdam: John

Benjamins), p.299-312. (2000).

HUTCHINS, John W.: Machine translation over fifty years. Histoire, Epistémologie,

Langage. Vol. 23 (1): Le traitement automatique des langues [ed. Jacqueline Léon], 7-31

(2001).

HUTCHINS, John W.: Two precursors of machine translation: Artsrouni and

Trojanskij. International Journal of Translation 16 (1), Jan-June 2004; pp.11-31. (2004).

HUTCHINS, John W.: Machine translation: history of research and use. In: Encyclopedia

of Languages and Linguistics. 2nd edition, edited by Keith Brown, vol.7, pp.375-

383.(2006).

http://www.mt-archive.info/Aslib-1978-Elliston.pdf

http://www.mt-archive.info/90/MTS-1999-Hutchins.pdf

http://www.mt-archive.info/00/IJT-2004-Hutchins.pdf

http://www.mt-archive.info/00/IJT-2004-Hutchins.pdf

135

HUTCHINS, John W.: Machine translation: a concise history, Journal of Translation

Studies, vol.13, nos.1-2 . Special issue: The teaching of computer-aided translation, ed.

Chan Sin Wai. (Chinese University of Hong Kong, 2010); pp.29-70. (2010).

HUTCHINS, John W.: The history of machine translation in a nutshell [Unpublished];

5pp. disponível em http://www.hutchinsweb.me.uk/Nutshell-2005.pdf (2014).

KAMPRATH, Christine, ADOLPHSON, Eric, MITAMURA Teruko, & NYBERG,

Eric: Controlled Language for Multilingual Document Production: Experience with

Caterpillar Technical English. In: Proceedings of the Second International Workshop on

Controlled Language Applications, CLAW 98. Pittsburgh, PA, pp. 51–61 (1998).

KOHL, John R.: The Global English Style Guide: Writing Clear, Translatable

Documentation for a Global Market, SAS Institute Inc., Cary, North Carolina, USA (2008).

LOFFLER-LAURIAN, Anne-Marie. La traduction automatique : son utilisation par le

"grand public". In: Langages, 28e année, n° 116. dezembro ‘94. Le traducteur et l'ordinateur.

pp. 87-94. (1994).

LOPEZ, Adam: Statistical Machine Translation, University of Edimburgh. Em ACM

Computing Surveys, Vol. 40, No. 3, Article 8, (2008).

MARRAFA, Palmira, Predicação Secundária e Predicados Complexos em Português:

Análise e Modelização, Dissertação de Doutoramento, Universidade de Lisboa (1993).

MARRAFA, Palmira, AMARO, Raquel, MENDES, Sara, IBRAHIMO, Náheda: CLG

- Controlled Portuguese: Controlled Portuguese for Machine Translation and for Portuguese

teaching/learning. CLUL/Instituto Camões (2011).

MARRAFA, Palmira & MENDES, Sara: Using WordNet.PT for translation:

disambiguation and lexical selection decisions. University of Lisbon, Portugal (2007).

MIRTO, Ignazio Mauro: OGGETTI INTERNI E REACTION OBJECTS COME NOMI

PREDICATIVI DI COSTRUTTI A VERBO SUPPORTO. Università di Palermo (2011).

MITAMURA, Teruko: Machine Translation Summit VII, 13th-17th September 1999, Kent

Ridge Digital Labs, Singapore. Proceedings of MT Summit VII “MT in the Great

Translation Era”; pp. 46-52. (1999).

NYBERG, Eric H. & MITAMURA, Teruko: Controlled English for Knowledge-Based

MT:Experience with KANT system. In: Proceedings of the 6th international workshop on

theoretical and methodological issues in machine translation (TMI ) 95, Leuven, Bélgica,

julho 5.7. (1995).

NYBERG, Eric & MITAMURA, Teruko: Controlled language and knowledge-based

machine translation: principles and practice. [CLAW 1996] Proceedings of the first

international workshop on controlled language applications: CLAW 96. Leuven: Centre for

Computational Linguistics, Katholieke Universiteit Leuven; pp.74-83 (1996).

O'BRIEN, Sharon: Controlling Controlled English: An Analysis of Several Controlled,

Language Rule Sets, EAMT-CLAW 2003. http://www.mt-archive.info/CLT-2003-

Obrien.Pdf (2003).

ODGEN, Charles K.: BASIC English – A general introduction with rules and grammar,

London, Kegan Paul, Trench, Trubner & Co. Ltd., (1930).

REIFLER, Erwin : Mechanical translation with a preeditor, and writing for MT.

Conference on Mechanical Translation, June 1952, Massachusetts Institute of

Technology. (Studies on Mechanical Translation, no.3) (1952).

REIFLER, Erwin: Machine language translation. II. The fundamental problems.

[In] Linguistic and engineering studies in the automatic translation of scientific Russian into

English. Seattle: University of Washington Press, 1960; pp. 21-33. (1960).

http://www.mt-archive.info/10/Hutchins-2014.pdf

http://www.mt-archive.info/90/CLAW-1996-Nyberg.pdf

http://www.mt-archive.info/90/CLAW-1996-Nyberg.pdf

http://www.mt-archive.info/CLT-2003-Obrien.Pdf

http://www.mt-archive.info/CLT-2003-Obrien.Pdf

http://www.mt-archive.info/MIT-1952-Reifler-1.pdf

http://www.mt-archive.info/50/UW-1960-Reifler-3.pdf

136

REUTHER, Ursula: Two in one -- can it work? Readability and translatability by means of

controlled language Controlled language translation, EAMT-

CLAW03, Dublin City University, 15-17 May 2003; pp.124-132. (2003).

ROGERS, Margaret: Consistency in Terminological Choice: Holy Grail or False Prophet?

University of Surrey, UK. (2008).

RUFFINO, J. Richard: Coping with machine translation. In: Lawson (1982), pp. 57-60

(1982).

SI-TAL: ItalWordNet - Manuale Operativo, Consorzio Pisa Ricerche - (CPR) Istituto

Trentino di Cultura - Istituto per la Ricerca Scientifica e Tecnologica - (ITC-irst).

SLOCUM, Jonathan: Machine Translation: its History, Current Status, and Future

Prospects (1984).

SOSNOWSKI, Roman: Modi di arrichimento lessicale nel linguaggio informatico

italiano, em: AA. VV., in L’italiano oltre frontiera, por S. VANVOLSEM, D.

VERMANDERE, Y. D’HULST, F. MUSARRA, Volume I., Franco Cesati, Leuven. (1998).

THOUIN, Benoît: The METEO system. Practical experience of machine

translation. Proceedings of a conference, London, 5-6 de novembro de 1981. Ed.Veronica

Lawson (Amsterdam, New York, Oxford: North-Holland Publishing Company, 1982); pp,

39-44. (1981).

TRIPATHI, Sneha & KRISHNA SARKHEL, Juran: Approaches to machine translation.

In: Annals of Library and Information Studies. Vol. 57, dezembro 2010, pp. 388-393 (2010).

VASCONCELLOS, Muriel: Terminology and Machine Translation. In: Wright, Sue-

Ellen/Budin, Gerhard (eds) Handbook of Terminology Management, Valume II

Application-oriented Terminology Management. Amsterdam/Philadelphia: John Benjamins.

697-723. (2001).

WINDOWS Corporation: Microsoft® Manual of Style, Fourth Edition, 464 p. (2012)

XEROX Corporation: Xerox Publishing Standards A Manual of style and design, Watson-

Guptill Publications, New York, (1988).

Sites corpus:

Lexmark: www.lexmark.it (versão em italiano) & www.lexmark.pt (versão em português)

HP: http://www8.hp.com/it/it/home.html (versão em italiano) &

http://www8.hp.com/pt/pt/home.html (versão em português)

Epson: www.epson .it (versão em italiano) & www.epson.pt (versão em português)

Brother: http://www.brother.it/ (versão em italiano) & www.brother.pt (versão em

português)

Canon: http://www.canon.it/ (versão em italiano) & www.canon.pt (versão em

português)

http://www.mt-archive.info/CLT-2003-Reuther.pdf

http://www.mt-archive.info/CLT-2003-Reuther.pdf

http://www.mt-archive.info/Aslib-1981-Thouin.pdf

http://www.lexmark.it/

http://www.lexmark.pt/

http://www8.hp.com/it/it/home.html

http://www8.hp.com/pt/pt/home.html

http://www.epson.pt/

http://www.brother.it/

http://www.brother.pt/

http://www.canon.it/

http://www.canon.pt/

Download - Italiano controlado para a tradução automática (italiano ...repositorio.ul.pt/bitstream/10451/18390/1/ulfl179137_tm.pdf · 4.5.1 A função “Meu dicionário” do sistema

Top Related