medidas de complexidade textual entre … · mostraram que as traduções brasileiras de contos de...

13
MEDIDAS DE COMPLEXIDADE TEXTUAL ENTRE TRADUÇÕES BRASILEIRAS E ORIGINAIS DE LITERATURA INGLESA: UM ESTUDO-PILOTO BASEADO EM CORPUS RESUMO: Exploram-se aqui os temas da complexidade textual e de padrões de legibilidade a partir de um enfoque computacional, situando-se o tema em meio à descrição de textos originais e traduzidos. Foram colhidos indicativos para proceder, em escala maior, à investigação da suposição de que há determinadas traduções de literatura em língua inglesa produzidas no Brasil que tendem a gerar textos mais complexos do que seus originais. São examinados originais e respectivas traduções a partir de duas medidas, uma bem específica, a riqueza lexical, e outra bem mais ampla, aqui chamada simplesmente de índice de complexidade. Para aferir esse índice de complexidade textual, utilizamos as ferramentas Coh-Metrix e Coh-Metrix- Port, que calculam parâmetros para mensurar coesão, coerência e dificuldade de compreensão de um texto em diferentes níveis de análise linguística. Os resultados mostraram que as traduções brasileiras de contos de Edgar Allan Poe selecionadas para este estudo tenderam a produzir textos mais complexos do que seus textos- fonte no que tange às duas medidas analisadas. Além disso, tanto traduções da literatura brasileira para o inglês britânico quanto traduções de textos científicos brasileiros para um padrão de inglês internacional norte-americano tenderam a fazer percurso inverso: o texto tornou-se menos complexo em função de diferentes fatores. O estudo conclui que esses indicativos são positivos para a continuidade da investigação, sendo importante: a) ampliar a variedade do corpus de textos literários e a dimensão do material de contraste; e b) revisar equivalências de medidas de complexidade entre o sistema Coh-Metrix para o inglês e o para o português. Por fim, defende-se a necessidade de um resgate das contribuições da Análise Multidimensional (AMD) da Linguística de Corpus para qualificar princípios e métodos de avaliação de complexidade de textos. PALAVRAS-CHAVE: Processamento da Linguagem Natural, Linguística de Corpus; Complexidade Textual; Tradução ABSTRACT: This study collected indicatives to investigate, on a larger scale, the following hypothesis: there are English literature translations made in Brazil that tend to result in texts which are more complex than their source texts. Based on this hypothesis, we conducted a quantitative and qualitative study on patterns of vocabulary and textual complexity, taking five short stories by Edgar Allan Poe and their translations into Brazilian Portuguese as our basic corpus. Both source texts and their translations were examined taking into account two measures: a very specific one, called lexical richness, and a more generic one, here simply called complexity index. To measure the complexity of the short stories, we used Coh- Metrix and Coh-Metrix-Port. These tools calculate indexes that evaluate cohesion, coherence and readability difficulty at different levels of linguistic analysis. The results show that Brazilian translations of Poe’s short stories tended to show a higher complexity index when compared to their source texts regarding the measures analyzed. In addition, we also noticed that both Brazilian literature translated into British English and scientific Brazilian texts translated into North-American English tend to produce translations that are less complex than their source texts. For future work, it would be necessary to: a) expand the variety of the corpus with literary texts

Upload: lamkiet

Post on 31-Dec-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: MEDIDAS DE COMPLEXIDADE TEXTUAL ENTRE … · mostraram que as traduções brasileiras de contos de Edgar Allan Poe selecionadas para este estudo tenderam a produzir textos mais complexos

MEDIDAS DE COMPLEXIDADE TEXTUAL ENTRE TRADUÇÕES BRASILEIRAS E ORIGINAIS DE LITERATURA INGLESA: UM ESTUDO-PILOTO BASEADO EM CORPUS RESUMO: Exploram-se aqui os temas da complexidade textual e de padrões de legibilidade a partir de um enfoque computacional, situando-se o tema em meio à descrição de textos originais e traduzidos. Foram colhidos indicativos para proceder, em escala maior, à investigação da suposição de que há determinadas traduções de literatura em língua inglesa produzidas no Brasil que tendem a gerar textos mais complexos do que seus originais. São examinados originais e respectivas traduções a partir de duas medidas, uma bem específica, a riqueza lexical, e outra bem mais ampla, aqui chamada simplesmente de índice de complexidade. Para aferir esse índice de complexidade textual, utilizamos as ferramentas Coh-Metrix e Coh-Metrix-Port, que calculam parâmetros para mensurar coesão, coerência e dificuldade de compreensão de um texto em diferentes níveis de análise linguística. Os resultados mostraram que as traduções brasileiras de contos de Edgar Allan Poe selecionadas para este estudo tenderam a produzir textos mais complexos do que seus textos-fonte no que tange às duas medidas analisadas. Além disso, tanto traduções da literatura brasileira para o inglês britânico quanto traduções de textos científicos brasileiros para um padrão de inglês internacional norte-americano tenderam a fazer percurso inverso: o texto tornou-se menos complexo em função de diferentes fatores. O estudo conclui que esses indicativos são positivos para a continuidade da investigação, sendo importante: a) ampliar a variedade do corpus de textos literários e a dimensão do material de contraste; e b) revisar equivalências de medidas de complexidade entre o sistema Coh-Metrix para o inglês e o para o português. Por fim, defende-se a necessidade de um resgate das contribuições da Análise Multidimensional (AMD) da Linguística de Corpus para qualificar princípios e métodos de avaliação de complexidade de textos. PALAVRAS-CHAVE: Processamento da Linguagem Natural, Linguística de Corpus; Complexidade Textual; Tradução ABSTRACT: This study collected indicatives to investigate, on a larger scale, the following hypothesis: there are English literature translations made in Brazil that tend to result in texts which are more complex than their source texts. Based on this hypothesis, we conducted a quantitative and qualitative study on patterns of vocabulary and textual complexity, taking five short stories by Edgar Allan Poe and their translations into Brazilian Portuguese as our basic corpus. Both source texts and their translations were examined taking into account two measures: a very specific one, called lexical richness, and a more generic one, here simply called complexity index. To measure the complexity of the short stories, we used Coh-Metrix and Coh-Metrix-Port. These tools calculate indexes that evaluate cohesion, coherence and readability difficulty at different levels of linguistic analysis. The results show that Brazilian translations of Poe’s short stories tended to show a higher complexity index when compared to their source texts regarding the measures analyzed. In addition, we also noticed that both Brazilian literature translated into British English and scientific Brazilian texts translated into North-American English tend to produce translations that are less complex than their source texts. For future work, it would be necessary to: a) expand the variety of the corpus with literary texts

Page 2: MEDIDAS DE COMPLEXIDADE TEXTUAL ENTRE … · mostraram que as traduções brasileiras de contos de Edgar Allan Poe selecionadas para este estudo tenderam a produzir textos mais complexos

2

and the dimension of the material for contrast; and b) review the equivalencies among complexity measures between both systems. Also, we believe that recovering the principles of Multidimensional Analysis in Corpus Linguistics may be fruitful to qualify the assessment methods of the complexity of the texts. KEYWORDS: Natural Language Processing, Corpus Linguistics, Textual Complexity, Translation 1 INTRODUÇÃO E OBJETIVOS

O tema da legibilidade ou complexidade textual tem sido estudado por diferentes pontos de vista, especialmente pela ótica de pesquisas sobre leitura e ensino de leitura. Essas pesquisas, entre diferentes possibilidades de realização e de aplicação de resultados, tendem a seguir três grandes grupos de encaminhamento:

a) centrar-se em características ou elementos presentes em determinados tipos de texto e associá-los a determinadas dificuldades ou facilidades de compreensão de determinada categoria de leitores;

b) inferir o modus operandi do processamento mental-cognitivo de diferentes tipos de leitor mediante aplicações de testes de compreensão após ou durante diferentes tipos de experimentos de leitura com diferentes tipos de texto;

c) reunir os indicativos dos itens a e b em prol da melhoria do ensino de leitura ou da produção de materiais informativos com maior acessibilidade de compreensão para portadores de capacidades de compreensão de leitura reduzidas ou em fase de desenvolvimento.

Na bibliografia estrangeira, há registros de pesquisas sobre readability ou legibilidade ou complexidade linguística pelo menos desde os anos 1920, conforme assinalam Davison e Green (1988, p. 1-4). Desde então, buscaram-se fórmulas ou modelos – sempre muito discutidos e criticados – que fossem capazes de prever quais elementos textuais estariam mais associados à dificuldade de compreensão, de modo que pudessem ser gerados textos de acesso mais facilitado para uma grande fatia da população leitora. Naturalmente, há aqui, nessa idéia de “facilitação”, estreitas e intensas implicações históricas, interesses políticos, ideológicos e econômicos associados ao acesso à escolarização, à cultura letrada e ao incremento da produção e do consumo para faixas maiores de população. Esses aspectos, em função de nossos objetivos de estudo mais imediatos e reduzidos, não serão aqui discutidos. Dedicaremos nossa atenção a aspectos mais estritamente relacionados a padrões de uso da língua no que tange à recepção de textos escritos.

No Brasil, um dos primeiros linguistas a se debruçar sobre o tema da leitura funcional e da maior ou menor habilidade de leitura foi Perini (1982) com o trabalho Tópicos discursivos e legibilidade (apud FULGÊNCIO, LIBERATO, 2004, p. 9). Propunha o autor, então, que os estudantes brasileiros tivessem acesso a materiais de leitura graduados de acordo com o seu nível de escolaridade e nível de dificuldade de compreensão. A partir do legado de trabalhos fundadores tais como o de Perini, antes referido, surgiram os trabalhos de Neis (1982), Kleiman (1995) e Kato (1982), entre outros, produzidos especialmente ao longo dos anos 80 e 90, e temos hoje no Brasil um vasto e multifacetado alicerce de estudos sobre o tema da Leitura. Esse corpo de conhecimento permite distinguir especificidades das noções de leitura, alfabetização, letramento, competência textual e competência leitora. Isso sem mencionarmos os inúmeros trabalhos sobre o tema da Leitura na área da

Page 3: MEDIDAS DE COMPLEXIDADE TEXTUAL ENTRE … · mostraram que as traduções brasileiras de contos de Edgar Allan Poe selecionadas para este estudo tenderam a produzir textos mais complexos

3

Educação, Ensino de Língua Portuguesa e de Línguas Estrangeiras ou de Psicolinguística.

Como já assinalava Perini (1988, p. 82), a dificuldade de um texto não é óbvia. Portanto, conscientes de que dificuldade não é algo apenas do texto, mas, sim, e sobretudo, também do leitor e das condições que ele tem, não pretendemos aqui estabelecer uma definição suficientemente abrangente de complexidade textual. A partir de um recorte que incidirá apenas sobre o que está concretamente posto de modo explícito em um texto ou conjunto amostral de textos, este trabalho visa empreender uma especulação sobre medidas de complexidade textual, sucedâneas das fórmulas de inteligibilidade exploradas na bibliografia estrangeira mais antiga antes mencionada.

Trataremos, nessa direção, de revisar algumas aplicações atuais, de viés computacional, que dão conta de estabelecer parâmetros associados à dificuldade de um texto – dificuldade para compreensão de sua leitura – em termos da presença ou uso mais ou menos frequente de determinados recursos linguísticos. Esses trabalhos, naturalmente, partem de determinados perfis de competência de leitura e de tipificação de leitores, aos quais aderiremos a priori, o que não nos isentará de uma breve apreciação sobre eles ao final deste trabalho.

Feita essa breve introdução, vale frisar que o nosso objetivo aqui é apenas o de colher indicativos para proceder, futuramente, em escala maior, à investigação da seguinte suposição: há determinadas traduções de literatura de língua inglesa produzidas no Brasil que tendem a produzir textos mais complexos do que os textos-fonte. Entre essas traduções, interessam-nos sobretudo as da obra de contos do escritor norte-americano Edgar Allan Poe (1809-1849), publicadas a partir dos anos 80 no Brasil.

Essa provável maior dificuldade constitutiva do texto traduzido de Poe em relação ao texto-fonte, obviamente associada a maior dificuldade de compreensão de leitura para determinados tipos de leitores, conforme nos parece, poderia ser percebida de modo especial pelas características e pela variedade do vocabulário empregado no texto. A feição do vocabulário, naturalmente relacionada a outros elementos, conformaria um texto mais complexo, contrariando o fenômeno de explicitação ou de facilitação da apresentação da informação na língua de chegada postulado por alguns teóricos como um universal da tradução1.

Em função da interveniência de uma multiplicidade fatores sobre a conformação da linguagem desse tipo de texto literário (tais como estilos do autor e do tradutor, época de produção e época de recepção, gêneros discursivo e textual, etc.) examinaremos também as condições de complexidade de um pequeno corpus de contraste formado por contos de autores brasileiros traduzidos para o inglês britânico e por textos brasileiros do tipo artigo científico traduzidos para um padrão de inglês internacional norte-americano.

Naturalmente, como a tradução – seja processo ou produto – está implicada neste trabalho, fazemos, mais adiante, uma breve revisão sobre o tema, assim como sobre os referenciais teóricos e metodológicos mobilizados para a realização do nosso estudo-piloto. Entretanto, vale salientar que não adentraremos o território da análise literária, até porque há vários e ótimos estudos sobre a recepção da obra de Poe do Brasil (por exemplo, vale ver GONÇALVES, 2006).

Será dado especial destaque para o enfoque sobre padrões lexicais e para a concepção de métricas de complexidade textual utilizadas em aplicações de Linguística Computacional, tais como as do sistema COH-METRIX. Ao final do trabalho, após a análise-piloto do nosso corpus, trazemos uma breve revisão sobre

Page 4: MEDIDAS DE COMPLEXIDADE TEXTUAL ENTRE … · mostraram que as traduções brasileiras de contos de Edgar Allan Poe selecionadas para este estudo tenderam a produzir textos mais complexos

4

as metodologias de descrição de dimensões textuais da Análise Multidimensional da Linguística de Corpus, visto que, conforme percebemos, há muitos pontos em comum com o enfoque computacional.

Passamos agora à apresentação mais detalhada dos nossos corpora e à descrição dos sistemas COH-Metrix para o inglês e o português. 2 CORPORA E MÉTODOS

Partindo do que chamaremos aqui de microperspectiva estrutural do texto, isto

é, considerando apenas sua tessitura coesiva, desenhamos um estudo quantitativo e qualitativo sobre padrões de vocabulário relacionados a alguns índices para estimação de complexidade textual em um pequeno corpus-amostra. Esses índices, como já dito, provêm dos sistemas automáticos COH-METRIX, desenvolvidos por pesquisadores da área de Processamento da Linguagem Natural. Como corpus, selecionamos o seguinte conjunto de textos:

• cinco contos de Edgar Allan Poe e suas respectivas traduções para o português brasileiro feitas por um mesmo tradutor brasileiro (corpus principal, conjunto 1);

• cinco contos da literatura brasileira e suas respectivas traduções para o inglês britânico, como contraponto de análise, feitas por um mesmo tradutor britânico (corpus de contraste 1, conjunto 2);

• cinco artigos científicos da área de Pediatria e suas respectivas traduções para o inglês (corpus de contraste 2, conjunto 3). A autoria individual das traduções não está indicada nos materiais, mas sua produção esteve a cargo da empresa brasileira Scientific Linguagem, prestadora de serviço para o periódico Jornal de Pediatria, publicação da Associação Brasileira de Pediatria.

Esse material, dividido em três conjuntos de textos, está identificado nos Quadros de 1 a 3 a seguir.

Quadro 1 - Conjunto 1: contos de Edgar Allan Poe e traduções para o português brasileiro

Título original Fonte Título da tradução Ano de publicação Tradutor

Berenice

Projeto Gutenberg

Berenice

1981 Oscar Mendes

Eleonora Eleonora The Masque of the Red

Death A Máscara da Morte

Rubra The Cask of Amontillado O Barril de Amontillado

The Oval Portrait O Retrato Oval Fontes: POE, Edgar Allan Poe. Complete fiction. Project Gutenberg. Acesso em 25/06/2009. Disponível em http://www.projectgutenberg.org. POE, Edgar Allan Poe. Ficção completa. Tradução de Oscar Mendes. 7ª. ed. Rio de Janeiro: Nova Fronteira, 1981.

Cabe reiterar que a heterogeneidade dos textos do material para contraste se

dá em função da percepção de uma provável repercussão de características do gênero literário conto, do estilo do tradutor, da direção tradutória, do tipo de discurso e do par de línguas envolvido sobre elementos de complexidade textual.

Page 5: MEDIDAS DE COMPLEXIDADE TEXTUAL ENTRE … · mostraram que as traduções brasileiras de contos de Edgar Allan Poe selecionadas para este estudo tenderam a produzir textos mais complexos

5

Quadro 2 - Conjunto 2: contos de autores brasileiros e traduções para o inglês britânico

Título original Autor Fonte Título da

tradução Fonte Tradutor

O Único Assassinato de Cazuza

Lima Barreto

http://pt.wikisource.org/wiki/O_%C3%BAnico_assa

ssinato_de_Cazuza Killer

http://www.braziliansto

ries.com

Francis Johnson

A Promessa Humberto de Campos

http://pt.wikisource.org/wiki/A_Promessa

Light of my Life

Firmo, o Vaqueiro

Coelho Neto

http://peregrinacultural.wordpress.com/2009/12/21/firmo-o-vaqueiro-conto-de-

natal-de-coelho-neto-texto-integral/

Christmas Corral

Cantiga de Esponsais

Machado de Assis

http://www.releituras.com/machadodeassis_cantiga.

asp

Wedding Song

A Rosa Azul Humberto de Campos

http://pt.wikisource.org/wiki/A_Rosa_Azul Blue Rose

Quadro 3 – Conjunto 3: artigos do Jornal de Pediatria, inglês e português.

TÍTULO ORIGINAL AUTORES FONTE TÍTULO DA TRADUÇÃO

Predição da resistência à insulina

em crianças: indicadores

antropométricos e metabólicos

SÉRGIO R. MOREIRA, APARECIDO P.

FERREIRA, RICARDO M. LIMA, GISELA ARSA,

CARMEN S. G. CAMPBELL, HERBERT G. SIMÕES, FRANCISCO J. G. PITANGA, NANCI M.

FRANÇA

J. Pediatr. (rio j.);84(1):47-52, jan.-feb. 2008.

Predicting insulin resistance in children: anthropometric and metabolic indicators

Prevalência de doença mineral óssea em adolescentes com

fibrose cística

REINALDO JOSÉ DO AMARAL CALDEIRAI;

VÂNIA DE MATOS FONSECAII; SAINT CLAIR

DOS SANTOS GOMES JUNIORIII; CÉLIA REGINA MOUTINHO DE MIRANDA

CHAVES

J. Pediatr. (rio j.) Vol.84 no.1 porto alegre jan./feb.

2008

Prevalence of bone mineral disease among adolescents with cystic

fibrosis

Avaliação do desempenho motor de

prematuros nos primeiros meses

MANACERO, SÔNIA; NUNES, MAGDA

LAHORGUE.

J. Pediatr. (rio j.);84(1):53-59, jan.-feb. 2008

Evaluation of motor performance of preterm newborns during the first months of life using the

alberta infant motor scale Mucopolissacaridose tipo vi (síndrome de maroteaux-lamy):

avaliação da mobilidade articular e das forças de garra e

de pinça

ANTONIO CARDOSO-SANTOS, ANA C. M. M.

AZEVEDO, SIMONE FAGONDES, MAIRA G.

BURIN, ROBERTO GIUGLIANI, IDA V. D.

SCHWARTZ

Jornal de pediatria - vol. 84,

nº 2, 2008 1

Mucopolysaccharidosis type vi (maroteaux-lamy syndrome): assessment of joint mobility and grip

and pinch strength

O uso da fontanela posterior no

diagnóstico ultra-sonográfico das

hemorragias periintraventriculares

GAUZZI, LUCIANA D. V; TAVARES, EDUARDO C;

XAVIER, CÉSAR C; CORRÊA, FLÁVIA F

J pediatr (rio j);84(6): 503-508, nov.-dez. 2008

Use of posterior fontanelle in the

ultrasound diagnosis of intraventricular/periventric

ular hemorrhage

Page 6: MEDIDAS DE COMPLEXIDADE TEXTUAL ENTRE … · mostraram que as traduções brasileiras de contos de Edgar Allan Poe selecionadas para este estudo tenderam a produzir textos mais complexos

6

2.1 Sobre os sistemas COH-METRIX Coh-Metrix, que significa cohesion metrics, é uma ferramenta para análise de

textos em inglês, disponível gratuitamente on-line. Elaborada por pesquisadores da Universidade de Memphis, nos Estados Unidos, tem como propósito calcular índices de coesão e coerência textual num amplo espectro de medidas lexicais, sintáticas, semânticas e referenciais a fim de indicar a adequação de um texto a seu público-alvo (a legibilidade do texto) e de apontar problemas textuais de ordem estrutural.

Até o momento, mais de 500 métricas estão disponíveis em uma versão restrita do Coh-Metrix. Dessas 500, apenas 60 estão disponíveis na versão gratuita on-line no site do projeto. Para todas essas avaliações (chamadas de métricas na terminologia da Linguística Computacional) vários recursos e ferramentas de Processamento de Linguagem Natural são utilizados.

A versão livre Coh-Metrix 2.02 opera com índices que vão desde métricas simples (como contagem de palavras) até medidas mais complexas, envolvendo inclusive métricas (contagens) anáforicas. Os 60 índices estão divididos em seis blocos que avaliam a complexidade de um texto a partir da mensuração dos seguintes elementos:

1) Identificação geral e informação de referência, índices de inteligibilidade, palavras gerais e informação do texto, índices sintáticos, índices referenciais e semânticos e dimensões do modelo de situações. Essa primeira classe corresponde às informações que referenciam o texto, como título, gênero, entre outros. 2) Índices de inteligibilidade calculados com as fórmulas Flesch Reading Ease e Flesch Kincaid Grade Level. Essas fórmulas consideram tamanho de sentença, número de palavras por sentença e número de palavras diferentes por sentença. 3) Verificação de quatro categorias: contagens básicas, frequências, concretude, hiperônimos. 4) Verificação de cinco categorias: constituintes, pronomes, types e tokens, operadores lógicos e similaridade sintática de sentenças. 5) Verificação de três categorias: anáfora, co-referência e análise semântica latente. 6) Verificação de quatro subclasses: dimensão causal, dimensão intencional, dimensão temporal e dimensão espacial. Em síntese, trata-se de uma ferramenta que calcula índices que avaliam a

coesão, a coerência e a dificuldade de compreensão de um texto em diferentes níveis. Esses níveis incluem os níveis lexical, sintático, discursivo e um nível denominado conceitual, observando-se fatores tais como número de sentenças, número de palavras por sentença, co-referências, anáforas, presença de conectores e de itens com ambiguidade semântica e número de pronomes por sintagma.

A partir do Coh-Metrix em inglês, no âmbito do Projeto PorSimples3, surgiu uma iniciativa de adaptação para o português brasileiro das sessenta métricas oferecidas gratuitamente. O objetivo dessa iniciativa foi o de identificar índices de complexidade textual para simplificação de textos e facilitação do acesso à informação para analfabetos funcionais e para pessoas com deficiências cognitivas. O nome da ferramenta em português é Coh-Metrix-Port e está disponível no site do PorSimples (ver Referências Bibliográficas para endereço completo). É importante ressaltar que até o momento apenas 35 das sessenta métricas foram adaptadas.

Page 7: MEDIDAS DE COMPLEXIDADE TEXTUAL ENTRE … · mostraram que as traduções brasileiras de contos de Edgar Allan Poe selecionadas para este estudo tenderam a produzir textos mais complexos

7

Para que se tenha uma idéia dos tipos de métrica, medidas ou índices em questão, reproduzimos a seguir, nas Figuras 1 e 2, respectivamente, uma amostra das métricas para o inglês e uma parte da tela de saída de análise para o português. Figura 1 – Métricas do Coh-Metrix para o inglês (amostra).

Page 8: MEDIDAS DE COMPLEXIDADE TEXTUAL ENTRE … · mostraram que as traduções brasileiras de contos de Edgar Allan Poe selecionadas para este estudo tenderam a produzir textos mais complexos

8

Figura 2 – Saída do COH-Metrix para o português – Texto: Constituição do Brasil - Título II: Dos direitos e deveres individuais - Capítulo I

Essas ferramentas, ainda que não tenham sido criadas com o intuito de serem usadas na análise de traduções ou comparações de textos, abrem um universo de possibilidades para os pesquisadores de Linguística Aplicada. Afinal, tratam de uma dimensão explorada entre nós de um modo diferente, apresentando-a sob uma forma objetiva.

Um item de destaque, nesse sistema de medidas, é o índice Flesch4. Trata-se de uma das diferentes medidas de complexidade do texto associada à sua inteligibilidade para diferentes tipos de leitores. O resultado é um número de 0 a 100 que é assim mensurado (com a devida adaptação para o sistema escolar brasileiro feita pela equipe PorSimples):

• muito fáceis índice entre 75 - 100, textos adequados para leitores com nível de escolaridade até a quarta série do ensino fundamental

• fáceis índice entre 50 - 75, textos adequados a alunos com escolaridade até a oitava série do ensino fundamental

• difíceis índice entre 25 - 50, textos adequados para alunos cursando o ensino médio ou universitário

• muitos difíceis índice entre 0 - 25, textos adequados apenas para áreas acadêmicas específicas

Page 9: MEDIDAS DE COMPLEXIDADE TEXTUAL ENTRE … · mostraram que as traduções brasileiras de contos de Edgar Allan Poe selecionadas para este estudo tenderam a produzir textos mais complexos

9

O segmento de texto examinado na Figura 2, trecho da Constituição do Brasil, teve índice Flesch de 24,17. Isso o coloca como um texto extremamente difícil. Naturalmente, essa é apenas uma das 35 métricas oferecidas, tendo sido ilustrada apenas a parte denominada Contagens Básicas. 2.2 Metodologia

Para o estudo exploratório de índices de complexidade dos três conjuntos de textos descritos e suas respectivas traduções, as ferramentas Coh-Metrix (doravante CM) e Coh-Metrix-Port (doravante CMP) foram usadas de forma contrastiva. Num primeiro momento, selecionamos as métricas a serem analisadas, reduzindo-as de 35 para treze e englobando todas as categorias de análise (lexicais, sintáticas e semânticas, tendo em vista que a categoria de medidas do tipo referencial ainda está em construção). Então, ao compararmos a descrição de medidas do CM com os do CMP, verificamos que nem todas têm grandezas equiparáveis – tendo em vista os recursos linguísticos disponíveis para as duas línguas, ou seja, os bancos de dados de referência nas duas línguas possuem números diferentes de palavras –, como mostra o Quadro 4: Quadro 4 – Lista de equivalências entre índices Coh-Metrix e Coh-Metrix-Port.

ÍNDICES COH-METRIX-PORT EQUIVALÊNCIA DOS ÍNDICES COH-METRIX-ING

Índices Lexicais

Índice Flesch EQUIVALENTE Flesch Reading Ease

Número de palavras EQUIVALENTE Number of words Incidência de palavras de

conteúdo NÃO

EQUIVALENTE Concreteness content words

Frequências TALVEZ Raw frequency Mínimo frequências TALVEZ Min. Raw frequency

Índices Sintáticos

Operadores lógicos EQUIVALENTE Logic Operators Palavras antes de verbos

principais EQUIVALENTE Words before main verb

Types/token EQUIVALENTE Types/token Incidência de sintagmas

nominais EQUIVALENTE NP incidence

Incidência de conectivos EQUIVALENTE All conectives

Índices Referenciais

e Semânticos

Anáforas EQUIVALENTE Anaphor reference Sobreposição de

argumentos adjacentes EQUIVALENTE Adjacent argument overlap

Sobreposição de argumentos EQUIVALENTE Argument overlap

No caso do índice Incidência de palavras de conteúdo, a métrica é, para fins

contrastivos, não comparável ao índice “Concreteness content words”, pois este usa um banco de dados de concretude de palavras5 de conteúdo ainda indisponível em português. Os índices de frequências também não são equiparáveis, tendo em vista que o CM usa o banco de dados CELEX e o CMP usa o Banco de Português.

Page 10: MEDIDAS DE COMPLEXIDADE TEXTUAL ENTRE … · mostraram que as traduções brasileiras de contos de Edgar Allan Poe selecionadas para este estudo tenderam a produzir textos mais complexos

10

Assim, os índices mais imediatamente passíveis de uma análise contrastiva inglês-português foram os apresentadas no Quadro 5: Quadro 5 – Índices selecionados.

ÍNDICES LEXICAIS ÍNDICE FLESCH; NÚMERO DE PALAVRAS

ÍNDICES SINTÁTICOS

PALAVRAS ANTES DE VERBOS PRINCIPAIS; TYPE/TOKEN RATIO;

SINTAGMAS NOMINAIS; CONECTIVOS (CAUSAIS, ADITIVOS, TEMPORAIS, LÓGICOS) OPERADORES LÓGICOS

ÍNDICES SEMÂNTICOS ANÁFORAS; SOBREPOSIÇÃO DE

ARGUMENTOS ADJACENTES; SOBREPOSIÇÃO DE ARGUMENTOS

A lista de operadores lógicos e de conectivos pode ser encontrada nos sites

do CM e do CMP. Cabe também esclarecer que o limite operacional é de 15 mil caracteres, o que nos obrigou a limitar a análise de cada um dos textos somente até este número ou apenas até sessões correspondentes (como, por exemplo, as introduções dos artigos de Pediatria, já que o número total de caracteres dos artigos completos ultrapassa 15 mil).

Ao contrário dos procedimentos comumente realizados pelo pesquisador que trabalha com corpus, uma particularidade da preparação dos textos para uso nas ferramentas CM e CMP é a necessidade de corrigir eventuais marcas de parágrafo, letras maiúsculas e pontuação, uma vez que interferem diretamente no processamento textual do CM e do CMP e, consequentemente, nos resultados. Desse modo, os textos foram salvos em arquivos individuais com extensão “doc”, com um cabeçalho contendo informações tais como, por exemplo, título, autor, gênero e número de caracteres. 3 RESULTADOS

As tabelas com os resultados encontrados neste estudo e comentados nesta seção podem ser visualizadas ao final do artigo, nos Anexos 1, 2 e 3. O número de palavras dos contos de Poe é ligeiramente menor nos textos originais em inglês do que nos textos traduzidos para o português. Entre os cinco contos, temos um padrão de palavras a mais em português em relação ao inglês que oscila entre 100 e 243 palavras. O número de palavras dos textos de Pediatria analisados não mostra um padrão de aumento ou de diminuição; há perceptivelmente ínfima variação no número de palavras entre os textos-fonte e as traduções para o inglês. Já as traduções dos contos brasileiros apresentam, todas elas, um número maior de palavras.

Quanto ao índice type/token ratio, que corresponde ao quanto o repertório das formas das palavras em um texto é mais variado ou mais repetido, vê-se que a diferença, nesse quesito, entre os contos originais e traduzidos de Poe é bastante baixa. O mesmo ocorre com os artigos científicos de Pediatria. Nos textos literários, ela é mais expressiva, e mostra uma variação menor nas traduções para o inglês, ou seja, o vocabulário foi mais repetido.

Os cinco textos-fonte de Edgar Allan Poe apresentam mais operadores lógicos do que as traduções para o português. Os textos de Pediatria traduzidos para o inglês apresentam um número expressivamente maior de operadores lógicos,

Page 11: MEDIDAS DE COMPLEXIDADE TEXTUAL ENTRE … · mostraram que as traduções brasileiras de contos de Edgar Allan Poe selecionadas para este estudo tenderam a produzir textos mais complexos

11

enquanto três das traduções dos contos brasileiros mostram um número maior de operadores lógicos e duas não.

Todos os textos-fonte de Poe mostram maior incidência de sintagmas nominais. As traduções dos textos do JPed mostram, todas elas, uma incidência menor de sintagmas nominais. Já as traduções dos contos brasileiros apresentam incidência maior de sintagmas nominais em todas elas.

No que se refere aos conectivos, três dos textos-fonte de Poe têm maior incidência de conectivos do que as suas respectivas traduções; os textos do JPed têm uma incidência maior de conectivos do que os textos-fonte em quatro traduções; e três traduções dos contos brasileiros apresentam incidência maior e dois apresentam incidência menor de conectivos.

A incidência de anáforas mostra-se superior em duas traduções dos contos de Poe, em duas das traduções dos contos brasileiros e não apresenta variação significativa nos artigos científicos.

Quanto ao índice Flesch, todas as traduções dos textos de Poe apresentam índices menores (indicando serem mais complexos e com menor legibilidade), e todas as outras traduções, tanto as dos textos de Pediatria quanto as dos contos brasileiros, têm índices Flesch mais altos, ou seja, sugerem uma legibilidade maior. Vê-se que, num primeiro momento, a hipótese de que as traduções de textos literários de língua inglesa para o português brasileiro são mais complexas parece se confirmar.

Uma vez que a amostra é bastante reduzida, é inviável fazer generalizações acerca dos textos analisados no que diz respeito ao gênero, ao par de línguas e à direção da tradução (e se feita por nativo ou não). No entanto, podemos perceber que, mesmo com uma amostragem reduzida e um número reduzido também de índices, é possível, ao menos na comparação dos textos-fonte com seus textos traduzidos, fazer um levantamento estatístico de elementos coesivos que de outra forma não seriam nem visíveis nem calculáveis. Fazendo uma digressão no terreno da Terminologia, a proporção type/token, a incidência de sintagmas nominais e a incidência de anáforas consideradas em relação umas com as outras num texto especializado mostram uma variação pequena de vocabulário (um índice type/token baixo), uma grande incidência de sintagmas e uma baixa presença de anáforas indica um elevado grau de repetição vocabular, o que, para um texto técnico-científico, talvez seja um indício de legibilidade e de densidade terminológica.

No que tange aos textos literários, chama a atenção o fato de que as traduções dos contos de Poe apresentam menor legibilidade segundo o índice Flesch, ainda que sem uma variação significativa entre as métricas analisadas. Além disso, o fato de o número de palavras dos textos traduzidos ser menor do que o número de palavras dos textos-fonte parece contrariar o princípio da explicitação, mencionado anteriormente. Esses dados podem ser bastante úteis ao tradutor, que pode traçar estratégias tradutórias mais amplas e que contemplem mais do que somente um aspecto do texto, mas o texto como um todo.

Para que uma ferramenta de análise de métricas de complexidade textual voltada para tradutores venha a ser criada, uma diversidade de variáveis precisa ser levada em conta, como, por exemplo, o par de línguas envolvido, a proficiência e experiência do tradutor, o público-alvo, os gêneros textuais e aspectos diacrônicos dos textos envolvidos no processo tradutório. Além disso, as amostras precisam ser representativas e criteriosas para validar os resultados.

Há também a necessidade de avaliar a perspectiva da Análise Multidimensional (AMD) proposta por Douglas Biber6 a fim de conciliá-la com uma

Page 12: MEDIDAS DE COMPLEXIDADE TEXTUAL ENTRE … · mostraram que as traduções brasileiras de contos de Edgar Allan Poe selecionadas para este estudo tenderam a produzir textos mais complexos

12

proposta de análise de complexidade que seja também composta em múltiplos níveis com múltiplas relações entre si, as quais modificam umas às outras. Em outras palavras, após este estudo exploratório ficamos com a certeza de que um índice, por si só, não indica o grau de complexidade de um texto. É na relação de um índice com outros que a complexidade pode ser mensurada.

De outro lado, tendo já revisado brevemente alguns trabalhos sobre a AMD, sabemos que esse enfoque combinou análises de corpus de nível macro com análises de nível micro, em encaminhamentos da macrodimensão do corpus à microdimensão do texto e das sentenças que o integram. Nessa perspectiva, a microdescrição dos traços de cada texto deveria permitir a indução dos macroagrupamentos textuais, tipificando-os por gêneros (cf. explica BERBER SARDINHA, 2000). Assim, a AMD, ao identificar tipos discursivos ou textuais, embora não tenha tratado diretamente de complexidade textual, propôs métodos descritivos da linguagem escrita úteis para a ponderação sobre características de determinados tipos de texto. Esses métodos, sem desconsiderar uma certa e inerente complexidade de aplicação para pessoas pouco afeitas a análises estatísticas multifatoriais, poderiam ser associados a medidas ou fatores de maior ou menor complexidade textual. A análise multifatorial da AMD, assentada sobre correlações de grupamentos de fatores, conforme podemos antever, poderia complementar algumas métricas do sistema Coh-Metrix. Um breve exemplo do potencial dessa integração é a observação de passivas, ausente do sistema para o português. Do mesmo modo, há vários elementos que seriam aproveitáveis no sistema da AMD.

Este breve estudo exploratório, ainda que pouco conclusivo em termos de resultados objetivos, revela um potencial de análise textual bastante promissor para tradutores e pesquisadores interessados em desvendar a complexidade dos textos. Os frutos de uma pesquisa nesta direção, fazendo uso da metodologia aqui testada, serão úteis na prática dos profissionais do texto, que se tornam, cada vez mais, “engenheiros do texto”. Assim, as próximas etapas desta pesquisa envolverão um aprofundamento do recorte conceitual de “complexidade do texto”, tendo como parâmetros norteadores tanto traduções do português brasileiro para o inglês quanto do inglês para o português brasileiro, ampliando o campo teórico da discussão também para a área da Tradutologia. REFERÊNCIAS BIBLIOGRÁFICAS BAKER, Mona. 1993. Corpus Linguistics and Translation Studies – Implications and Applications. M. BAKER, M. G. FRANCIS e E. TOGNINI-BORELLI. Text and Technology: In Honour of John Sinclair. Amsterdam & Philadelphia : John Benjamins. BERBER SARDINHA, Tony. 2000. Linguística de corpus. São Paulo : Manole. BIBER, Douglas, CONRAD, Susan e REPPEN, Randy. 1998. Corpus linguistics: investigating language structure and use. New York : Cambridge University Press. Coh-Metrix 2.0. 2006. Coh-Metrix 2.0. [Online] Universidade de Memphis. http://cohmetrix.memphis.edu/cohmetrixpr/index.html. DAVISON, Alice; GREEN, Georgia M. (eds.). 1988. Linguistic complexity and text comprehension: readability issues reconsidered. Hillsdale, N. J.: Lawrence Erlbaum Associates.

Page 13: MEDIDAS DE COMPLEXIDADE TEXTUAL ENTRE … · mostraram que as traduções brasileiras de contos de Edgar Allan Poe selecionadas para este estudo tenderam a produzir textos mais complexos

13

FULGÊNCIO, Lúcia, LIBERATO, Yara. Como facilitar a leitura: como se processa a leitura; orientação para textos didáticos; aspectos discursivos. São Paulo: Contexto, 1992 GONÇALVES, Fabiano Bruno. 2006. Tradução, interpretação e recepção literária: manifestações de Edgar Allan Poe no Brasil. Porto Alegre: UFRGS. Diss. Mestrado KATO, Mary. 1982. Reconhecimento instantâneo e processamento em leitura. Uberaba, MG (Série Estudos, 8). KLEIMAN, Angela B. 1995. Modelos de letramento e as práticas de alfabetização na escola”. In: KLEIMAN, Angela B. (Org.). Os significados do letramento. Campinas, S.P.: Mercado de Letras. 294 p. p. 15-61. NEIS, Ignacio A. 1982. A competência de leitura. Porto Alegre: Letras de Hoje, 15 (2), p.43-57. PERINI, Mário A. 1988. A leitura funcional e a dupla função do texto didático. In: ZILBERMAN, Regina; SILVA, Ezequiel T. (Org.). Leitura: Perspectivas interdisciplinares. São Paulo: Ática. SCARTON, Carolina e ALMEIDA, Daniel Machado. 2009. Coh-Metrix-Port. PorSimples. [Online] 2009. http://caravelas.icmc.usp.br:3000/. SCARTON, Carolina e ALUÍSIO, Sandra Maria. 2010. Análise da Inteligibilidade de textos via ferramentas de Processamento de Língua Natural: adaptando as métricas do Coh-Metrix para o português. 2010, Vol. 2.