a linguística e a linguagem dos média em portugal ... · estão associados, incluindo a...

17
A linguística e a linguagem dos média em Portugal: descrição do projecto REDIP Maria Celeste Ramilo [email protected] Tiago Freitas [email protected] ILTEC Portugal 1. Introdução O projecto REDIP tem como objectivo analisar o português usado em três meios de comunicação social: a rádio, a televisão e a imprensa. Está a ser desenvolvido no ILTEC (Instituto de Linguística Teórica e Computacional), em cooperação com o CLUL (Centro de Linguística da Universidade de Lisboa) e a Universidade Aberta, e é financiado pela Fundação para a Ciência e Tecnologia, no âmbito do Programa Lusitânia. Quando foi pensado pela primeira vez, em 1997, o REDIP tinha um formato que se aproximava muito do do DIES-RTP, um projecto mexicano 1 que pretende estudar o espanhol no seu formato de difusão, em meios de comunicação regionais, nacionais e internacionais. Aquilo que estava planeado era sobretudo um trabalho de descrição e comparação entre a variedade portuguesa e a brasileira, trabalho esse que depois se poderia estender à variedade africana da língua portuguesa. Daí para cá, o REDIP sofreu algumas alterações substanciais, o que viria a fazer dele um projecto exclusivamente centrado na linguagem dos meios de comunicação social do português europeu. Esta simplificação é devida a vários factores, dos quais se destaca a redução do financiamento a um terço do que estava previsto. No entanto, os objectivos do projecto continuam a ser os mesmos: 1. constituir um corpus de língua oral e escrita a partir de amostras diversificadas de três meios de comunicação: rádio, televisão e imprensa. A apresentação desta comunicação só se tornou possível graças ao apoio do Instituto Camões e da Fundação para a Ciência e a Tecnologia, no âmbito do Programa Lusitânia – Apoio à Participação em Congressos e em Reuniões Científicas. 1 Mais precisamente do Colégio do México, tendo como coordenador geral Raúl Avila. Muitos outros países estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai, e ainda países como o Japão e a Suécia. Para mais informações, sugerimos a consulta do artigo Difusion Internacional del Español por Radio, Television y Prensa: Unidad y Diversidad de la Lengua (Dies-RTP) , o qual pode ser obtido no seguinte endereço: ftp://hueb.colmex.mx/cell/10proyed97.pdf.

Upload: truongtuyen

Post on 26-Nov-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

A linguística e a linguagem dos média em Portugal: descrição do projecto REDIP∗

Maria Celeste Ramilo

[email protected]

Tiago Freitas

[email protected]

ILTEC

Portugal

1. Introdução

O projecto REDIP tem como objectivo analisar o português usado em três meios de

comunicação social: a rádio, a televisão e a imprensa. Está a ser desenvolvido no ILTEC (Instituto

de Linguística Teórica e Computacional), em cooperação com o CLUL (Centro de Linguística

da Universidade de Lisboa) e a Universidade Aberta, e é financiado pela Fundação para a

Ciência e Tecnologia, no âmbito do Programa Lusitânia.

Quando foi pensado pela primeira vez, em 1997, o REDIP tinha um formato que se

aproximava muito do do DIES-RTP, um projecto mexicano1 que pretende estudar o espanhol no

seu formato de difusão, em meios de comunicação regionais, nacionais e internacionais. Aquilo

que estava planeado era sobretudo um trabalho de descrição e comparação entre a variedade

portuguesa e a brasileira, trabalho esse que depois se poderia estender à variedade africana da

língua portuguesa. Daí para cá, o REDIP sofreu algumas alterações substanciais, o que viria a fazer

dele um projecto exclusivamente centrado na linguagem dos meios de comunicação social do

português europeu. Esta simplificação é devida a vários factores, dos quais se destaca a redução do

financiamento a um terço do que estava previsto. No entanto, os objectivos do projecto continuam

a ser os mesmos:

1. constituir um corpus de língua oral e escrita a partir de amostras diversificadas de três meios de

comunicação: rádio, televisão e imprensa.

∗ A apresentação desta comunicação só se tornou possível graças ao apoio do Instituto Camões e da Fundação para a Ciência e a Tecnologia, no âmbito do Programa Lusitânia – Apoio à Participação em Congressos e em Reuniões Científicas. 1 Mais precisamente do Colégio do México, tendo como coordenador geral Raúl Avila. Muitos outros países estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai, e ainda países como o Japão e a Suécia. Para mais informações, sugerimos a consulta do artigo Difusion Internacional del Español por Radio, Television y Prensa: Unidad y Diversidad de la Lengua (Dies-RTP), o qual pode ser obtido no seguinte endereço: ftp://hueb.colmex.mx/cell/10proyed97.pdf.

Page 2: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

O corpus coligido inclui:

1.1. gravações de áudio e de vídeo (relativas às amostras da rádio e da televisão) em suporte

analógico, gravações de áudio em suporte digital (correspondendo à digitalização de todas

as amostras em suporte analógico) e ficheiros electrónicos com o material da imprensa;

1.2. ficheiros electrónicos com a transcrição ortográfica dos programas da rádio e da televisão,

em diversos formatos, com etiquetagem e sem etiquetagem;

2. realizar descrições do português usando as ferramentas computacionais disponíveis, de modo

a:

2.1. elaborar descrições lexicais, sintácticas e semânticas do português europeu usado nos

meios de comunicação social;

2.2. aplicar os resultados das descrições e análises efectuadas de acordo com as seguintes

metas:

2.2.1. a curto prazo:

2.2.1.1. caracterização da linguagem dos meios de comunicação social em geral;

2.2.1.2. caracterização da linguagem de cada um dos três meios considerados.

2.2.2. a longo prazo:

2.2.2.1. produção de manuais para os profissionais dos meios de comunicação social;

2.2.2.2. produção de dicionários especializados e ferramentas de apoio à tradução.

Não foi posta de parte a hipótese de, posteriormente, submeter os dados a uma comparação

com um corpus semelhante do português do Brasil e até com corpora de outro tipo. Será muito

interessante, por exemplo, ver que diferenças existem entre a linguagem oral dos meios de

comunicação portugueses e a linguagem oral recolhida no Português Falado2.

2 Projecto para o estudo das variedades geográficas e sociais do português, coordenado pelo CLUL.

Page 3: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

2. Equipa do projecto

As instituições envolvidas no REDIP têm vindo a obter reconhecimento nacional e

internacional nas seguintes áreas:

(i) recolha e processamento de corpora de grandes dimensões;

(ii) desenvolvimento de ferramentas computacionais próprias para o processamento de

corpora linguísticos;

(iii) produção de materiais didácticos para o ensino do português;

(iv) descrição da língua portuguesa a nível lexical, fonológico, morfológico e sintáctico.

Apresentamos agora um quadro com os nomes de todas as pessoas que fazem parte do

projecto, e que se dividem por três núcleos:

Coordenadora geral

Maria Helena Mira Mateus

Núcleos ILTEC Centro de Linguística Universidade Aberta

Coordenadoras

Maria Helena Mira

Mateus

Maria Fernanda Bacelar

do Nascimento

Maria Emília Marques

Elisabete Soalheiro

Nuno Martins

Fátima Silva

Maria Celeste Ramilo

Raquel Amaro

Helena Manuelito

Tiago Freitas Rita Veloso

Isabel Rego

Investigadores

Sandra Antunes

Justina Santana

Page 4: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

Anabela Gonçalves

José Bettencourt

Consultores

Maria João Freitas

Maria Lúcia Garcia

Marques

3. O corpus na teoria

3.1. Planificação e desenho do corpus

O corpus engloba, como já referimos, três meios de comunicação. Todas as amostras

recolhidas estão identificadas de acordo com as normas do projecto. Relativamente às gravações da

rádio e da televisão, esta identificação é feita tendo em atenção os seguintes dados:

— data do programa

— duração do programa

— nome do programa

— nome da instituição emissora

As amostras da imprensa, por seu lado, são identificadas pelos seguintes itens:

— data do artigo

— nome do jornal

— secção do jornal

As recolhas efectuadas dentro de cada meio estão divididas por seis temas:

— actualidade (noticiários)

— ciência

Page 5: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

— cultura

— desporto,

— economia

— opinião

A cada uma destas unidades temáticas corresponde um conjunto de dezoito mil

palavras, o que perfaz um total de trezentas e vinte e quatro mil, compreendendo cento e

oito mil por meio de comunicação e cinquenta e quatro mil por tema. Esta informação é

sistematizada no seguinte quadro:

RÁDIO TELEVISÃO IMPRENSA Totais

ACTUALIDADE 18.000 18.000 18.000 54.000

CIÊNCIA 18.000 18.000 18.000 54.000

CULTURA 18.000 18.000 18.000 54.000

DESPORTO 18.000 18.000 18.000 54.000

ECONOMIA 18.000 18.000 18.000 54.000

OPINIÃO 18.000 18.000 18.000 54.000

Totais 108.000 108.000 108.000 0

Na parte da rádio e da televisão, cada unidade deste tipo pode compreender m

programa, tal como, na parte da imprensa, cada unidade poderá compreender mais de

Cada uma destas amostras deverá possuir, além da identificação inicial com os par

referidos, uma ficha de identificação escrita com as suas características. No caso dos t

são incluídas informações suplementares como:

— género3

— tipo de texto4

3 Em relação ao género existem duas hipóteses: formal e informal. Pertencem ao género formal que, na opinião do transcritor, são lidos ou muito preparados. Ao género informal correspondemespontâneos. O transcritor poderá justificar as suas decisões no campo reservado às observações

324.00

ais de um

um artigo.

âmetros já

extos orais,

os discursos os discursos linguísticas.

Page 6: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

— número total de gravações do mesmo programa

— identificação dos locutores5

— dados relativos à codificação da gravação

— responsável pela transcrição

— responsável pela revisão6

— número de palavras transcritas

— observações gerais e linguísticas

No caso dos textos escritos, os campos adicionais correspondem a:

— natureza do texto7

— tipo de texto8

— autor do artigo

— número de palavras

— observações gerais

Este é um corpus inovador pelo facto de compreender mais textos orais do que escritos, na

proporção de dois para um. Apesar de não descurar a expressão escrita, incide maioritariamente

sobre a língua oral, o que não é frequente nos projectos de investigação até agora desenvolvidos.

Os meios de comunicação que fazem uso da língua oral são aqueles que têm maior difusão,

maiores níveis de audiência, tendo também maior impacto junto da opinião pública. 4 Consideram-se três tipos de texto: monólogo, diálogo e conversa com várias pessoas. 5 Além do nome, é mencionado o sexo e a categoria. Em relação a este último parâmetro, as hipóteses são as seguintes: profissional, não profissional e comentador. 6 No REDIP, todas as transcrições são revistas pelo menos duas vezes, uma pelo transcritor original e outra por um segundo transcritor. 7 De acordo com sua natureza, o texto pode ser jornalístico ou não jornalístico. 8 Consideram-se três tipos de texto: notícia, editorial e anúncio.

Page 7: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

É importante lembrar que, nos últimos anos, um outro meio de comunicação tem vindo a

atrair o público português de uma forma maciça: a Internet. Na altura em que o REDIP foi

planeado, a Internet estava longe de ter a expressão que tem hoje em dia, pelo que não

consideramos esse meio de comunicação escrita no nosso corpus. Se o projecto tivesse sido

concebido já no novo milénio, obviamente incluiria não só dados escritos da imprensa mas também

da Internet. Este é um aspecto a ter em conta na criação de futuros projectos, de que deverá resultar

uma estrutura como a que apresentamos em seguida:

Corpora dos meios de comunicação social

Discurso oral

Impren

A médio e longo prazo, podemos até antever recolha

digitais de comunicação: a televisão digital (cabo, terrestre e

interactivo e a terceira geração de comunicações móveis

3.2. Materiais de transcrição

As gravações de áudio e de vídeo foram feitas por

recorrendo a equipamento analógico convencional. Os prog

registados no formato de difusão, o que não é muito satisfató

as suas vantagens em termos financeiros. Nós sabemos po

obtido directamente das emissoras é muito mais dispendioso.

o custo é directamente proporcional ao incremento da qualida

As últimas gravações efectuadas para o nosso

directamente da matriz. Em virtude disso, a qualidade de

consistência quer em termos de ruído de fundo. É claro q

transcrição se torna mais produtivo, poupando tempo ao transc

Discurso escrito

sa

Rádio Televisão

s de dados a par

satélite), o serviço

(UMTS).

uma empresa de

ramas de rádio e

rio em termos de

r experiência pró

A qualidade é cla

de.

corpus foram, c

som é melhor,

ue, nestas condi

ritor.

Internet

tir dos novos meios

de teletexto digital

gestão documental,

de televisão foram

qualidade, mas tem

pria que o material

ramente superior, e

om efeito, obtidas

quer em termos de

ções, o trabalho de

Page 8: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

Comparemos, então, aquilo que custou ao REDIP uma hora de gravação da rádio, da

mesma emissora, no formato de difusão e no formato matricial:

Formato de difusão Formato matricial

Empresa fornecedora Memorandum RDP

Suporte original Frequência modulada DAT

Suporte final Cassete magnética CD

Custo por hora de gravação € 12,5 € 85

3.3. Equipamento informático

O REDIP está a ser desenvolvido, na sua totalidade, com recurso a equipamento

informático. No entanto, o tratamento computacional do corpus está reservado ao CLUL e

à Universidade Aberta, que dispõem das ferramentas próprias para esse efeito.

Os programas disponíveis no CLUL são o Corlex, o CONCOR e o CONCOR.CB.

O primeiro, da autoria de Eric Brill, tem como função etiquetar os textos, apresentando

uma margem de erro mínima, da ordem dos cinco por cento. O segundo é um programa

especializado na extracção de contextos e frequências, permitindo ao utilizador pesquisar:

— cada uma das palavras presentes no texto

— uma palavra específica

— uma lista de palavras (de um ficheiro)

— uma sequência de caracteres

O CONCOR.CB é um programa que serve para constituir e organizar associações

lexicais, compreendendo os seguintes módulos:

concor.cb — obtenção de pares de palavras (não necessariamente em

sequências) e de grupos de palavras que aparecem em sequências no corpus

e extracção dos contextos em que estes pares e grupos aparecem

Page 9: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

arranja-lema — cálculo do índice de combinação (IC) de pares de palavras

provenientes de um lema e reorganização dos resultados por ordem

decrescente de IC por lema co-ocorrente

A Universidade Aberta, por seu lado, tem ao seu dispor as ferramentas necessárias

para efectuar uma análise lexicométrica do material. Este tipo de análise consiste num

conjunto de métodos baseados em estudos estatísticos, permitindo efectuar reorganizações

formais do vocabulário de um determinado corpus.

A análise lexicométrica pode ser esquematizada desta forma:

Corpora

Concordâncias Formas gráficas ordenadas

alfabeticamente

hierarquicamente

Estudos paradigmáticos Estudos sintagmáticos

Especificidades Cronologia

Textual Contextos Segmentos

Repetidos AFC9

A lexicometria permite um tipo de análise discursiva que parte de uma teoria da

linguagem em que os processos de construção do discurso e o seu sentido são considerados

em conjunto com as condições reais de produção e/ou recepção.

9 Análise factorial de correspondências.

Page 10: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

3.4. Calendarização

O REDIP começou efectivamente em meados de Abril de 2001, e tem uma duração

prevista de dois anos. O primeiro ano, que ainda está em curso, tem sido essencialmente dedicado à

transcrição ortográfica das gravações recolhidas. A par disso, muitas outras actividades têm sido

desenvolvidas, incluindo:

— tratamento parcial dos dados para o corpus-piloto10

— análise lexicométrica do corpus-piloto10

— preparação de duas comunicações orais e escritas

— trabalho de pesquisa e recolha de dados adicional

A transcrição ortográfica é a mais morosa das tarefas que têm vindo a ser desempenhadas,

uma vez que implica muitas horas de audição e reaudição por parte do transcritor. Além disso,

todas as transcrições do REDIP são submetidas a pelo menos duas revisões: a primeira feita

pelo transcritor original e a segunda por outro transcritor do projecto. No entanto, como os

critérios de transcrição são alterados com frequência, normalmente são necessárias revisões

adicionais. Posteriormente, é ainda realizada uma revisão por amostragem.

Primeiro ano

MESES

TAREFAS 1 2 3 4 5 6 7 8 9 10 11 12

Transcrição dos dados recolhidos e

estabelecimento do corpus

Etiquetagem e extracção de

concordâncias do corpus-piloto

Análise lexicométrica do corpus-

piloto

Recolha de dados adicional

10 O corpus-piloto consistiu numa recolha de três mil palavras por meio de comunicação, compreendendo dois temas, economia e desporto, o que deu um total de nove mil palavras. Serviu essencialmente para explorar hipóteses de investigação e para testar as ferramentas informáticas existentes no CLUL e na Universidade Aberta, uma vez que, como concluímos, era demasiado pequeno para qualquer tipo de análise.

Page 11: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

Preparação de comunicações

Revisão por amostragem dos dados

transcritos

Etiquetagem e extracção de

concordâncias do corpus final

Relatório anual

Está agendado para o segundo ano todo o trabalho de descrição e análise dos dados, que

incluirá:

— levantamento estatístico do vocabulário de acordo com o tipo de locutor (considerando

variáveis como o género e a categoria) e com o tema em discussão (havendo ainda a

possibilidade de comparar as ocorrências nos diferentes meios de comunicação)

— análise lexicométrica de todo o material, permitindo um estudo sistemático e exaustivo do

vocabulário que constitui as diferentes partes do corpus

— levantamento dos neologismos (compreendendo casos de derivação semântica) e dos

estrangeirismos atestados

— observação das regências verbais: quantificação das ocorrências de verbos com estrutura

argumental variante

— estudo das frases relativas presentes no corpus: distinção entre construções canónicas,

cortadoras e resumptivas, com verificação dos contextos e quantificação das variáveis

— análise da colocação dos clíticos: quantificação e identificação dos contextos em que não

aparecem na posição canónica

— observação da frequência dos tempos verbais: quantificação de pares alternativos como o

futuro simples por oposição à construção ir + infinitivo e estar a + infinitivo por oposição

a estar + gerúndio

— estudo dos marcadores discursivos presentes no corpus, com identificação dos marcadores

usados para reformulação ou para introduzir definições

Page 12: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

— estudo da modalização na linguagem dos meios de comunicação: verbos modais e outros

modalizadores discursivos

— identificação dos desvios mais frequentes a nível lexical e sintáctico, confrontando-os com

os livros de estilo e com os prontuários existentes

Segundo ano

MESES

TAREFAS 1 2 3 4 5 6 7 8 9 10 11 12

Descrições e análises

Implementação da base de dados

Preparação de comunicações

Preparação de publicações

Relatório final

3.4. Distribuição de tarefas relativamente ao primeiro ano

Como entidade de acolhimento, o ILTEC tem a seu cargo uma parte significativa das

tarefas previstas, concretamente ao nível da transcrição ortográfica e subsequente análise do

material recolhido. Ao longo deste primeiro ano de actividade, setenta e cinco por cento das

transcrições foram efectuadas no nosso instituto. Além disso, a equipa do ILTEC foi responsável

pela recolha de dados adicional, pela preparação de duas comunicações orais e escritas e por

algumas análises feitas no âmbito do projecto-piloto.

O CLUL, por seu lado, contribuiu com a digitalização de todas as gravações radiofónicas e

de grande parte das gravações televisivas, com algumas transcrições e revisões (incluindo a revisão

por amostragem do corpus final), assim como com a etiquetagem e extracção de concordâncias do

corpus, isto além das sessões de formação e esclarecimento facultadas, sobre codificação dos dados

e harmonização dos cabeçalhos de identificação.

A Universidade Aberta desempenhou igualmente algumas tarefas, incluindo a análise

lexicométrica do corpus-piloto, a realização de parte das transcrições ortográficas e ainda a

preparação dos cabeçalhos de identificação dos textos escritos. É de ressalvar que este núcleo foi

também responsável pela classificação das gravações integrantes do corpus, no período que

antecedeu o trabalho de transcrição.

4. O corpus na prática

Page 13: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

Na prática, o corpus revelou-se algo problemático. Os problemas mais significativos foram

de ordem técnica, uma vez que, como depois se percebeu, os formatos inicialmente adoptados não

eram os ideais. Além disso, não obstante a extensa recolha de dados, verificou-se que algumas

áreas temáticas não estavam cobertas, o que obrigou a subsequente pesquisa e recolha de material.

No entanto, todos esses problemas foram superados e, neste momento, o projecto tem um

funcionamento dinâmico.

4.1. Problemas técnicos

Os problemas técnicos verificados dizem respeito ao formato em que as gravações foram

realizadas. A recolha de dados realizou-se maioritariamente em cassetes de áudio e de vídeo

analógicas, uma vez que eram esses os formatos usados pela empresa de gestão documental que

realizou o trabalho de gravação. A componente de som das gravações de vídeo foi posteriormente

transposta para cassetes de áudio, para facilitar a transcrição. Entretanto, verificou-se que, com o

equipamento informático que tínhamos no ILTEC, havia todo o interesse em digitalizar este

material, eliminando assim a necessidade de gravadores analógicos. Deste modo, o trabalho de

transcrição passou a ser feito exclusivamente no computador.

É claro que, devido a todas estas etapas de gravação, a qualidade de som veio a sofrer uma

degradação progressiva, como é ilustrado no seguinte diagrama:

Memorandum Cópia para o ILTEC Digitalização no CLUL

Rádio

Gravação magnética Sinal instável a

Perda de qualidade acentuada (o sinal original não tinha gransubmetido a um processo de sucessiva deterioração em

Hoje em dia, com a massificação do CD-ROM, teria sido possível gr

média directamente para formato digital. Com o advento da rádio digital, já

Formato final (CD)

Gravação magnétic

de qualidade e foi três etapas)

avar as emissões dos

disponível em grande

Page 14: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

parte do território português e já com algumas emissoras (RDP, Renascença e Comercial) a operar,

teria até sido possível obter gravações de grande qualidade, a partir da rádio, com custos mínimos.

Infelizmente, não se pode dizer o mesmo da televisão digital, dado o seu preço elevado. No

entanto, com um bom aparelho receptor, seria possível extrair som de grande qualidade mesmo a

partir de uma rede analógica.

4.2. Problemas de distribuição temática

Pouco depois de termos começado a fazer as transcrições ortográficas, verificámos que a

recolha do material não tinha sido homogénea. Disto resultou que, em relação a certos temas, havia

tempo de gravação a mais, ao passo que, em relação a outros, havia tempo de gravação a menos.

Por isso, tivemos de fazer as diligências necessárias para conseguir o material que estava em falta.

Este dizia respeito às gravações radiofónicas, nos temas de actualidade, ciência e economia,

perfazendo uma lacuna de cerca de cinquenta mil palavras. Foi então necessário contactar os

arquivos sonoros da RDP, a emissora estatal, uma vez que a empresa a que antes havíamos

recorrido já não tinha gravações da data que pretendíamos.

4.3. Problemas de transcrição

O sistema de transcrição usado pelo REDIP emprega as seguintes convenções:

Ocorrência Símbolo

Pausa sintáctica breve ,

Pausa sintáctica longa .

Hesitações e pausas preenchidas eh (uma vez)

Outras pausas, interrupções e reformulações ...

Acordos hum (uma vez)

Interrogação ?

Exclamação !

Sequências intercaladas — α —

Page 15: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

Citações “α”

Identificação dos locutores L1, L2, L3

Enunciados simultâneos α x

Sequências incompreensíveis (...)

Divergências de audição entre os transcritores |α| Cortes, interrupções na gravação e interrupções

na transcrição [...]

Traduções simultâneas /α/

Observemos, então, uma transcrição feita de acordo com estas indicações11:

L2: eh, eu só não apresentei pelo facto...

L1: não, eu só pergunto isso!

L2: não, senhor doutor!

L1: mas...

L2: estou a dizer que não...

L1: é que eu mandei, senhor doutor...

L2: não, senhor doutor!

L1: eu mandei, eu mandei...

L2: eu segui, olhe, ó senhor doutor...

L1: aos onze elementos da direcção da liga...

L2: ó senhor doutor!

L1: atempadamente o meu programa... para eles analisarem.

L2: ó senhor doutor!

L1: e debati com eles o programa...

L2: senhor doutor...

L1: e mais do que isso...

L2: senhor doutor...

L1: aceitei sugestões...

L2: se a santa casa...

L1: que estão aqui vertidas no programa hoje...

11 Programa Livre e Directo, Antena 1, corpus REDIP.

Page 16: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

L2: o senhor doutor tivesse, ó senhor doutor, e não sei se não... se entrou também em

compromissos graves.

Este é um sistema de transcrição que, em termos de pontuação, se aproxima bastante da

grafia convencional. Somente as pausas sintacticamente motivadas podem ser representadas por

ponto final ou vírgula, havendo em todos os outros casos recurso às reticências. Ao nível da

legibilidade, os textos são claramente beneficiados12, pelo que poderão ser consultados mais

facilmente por um público não especializado. O problema surge, contudo, nas sequências em que

há fronteiras sintácticas que não são marcadas, no discurso, por nenhuma pausa. Nesse tipo de

contextos, o sistema fica aquém do seu carácter eminentemente ortográfico, o que motiva alguma

inconsistência.

Outro dos problemas com que nos temos deparado diz respeito à transcrição dos nomes

próprios. Na linguagem dos meios de comunicação social surgem normalmente muitos nomes de

individualidades e instituições estrangeiras, e nem sempre é fácil saber qual a grafia oficial

correspondente a cada nome. De acordo com as normas do projecto, deverá sempre ser feita uma

pesquisa para verificação dos casos em dúvida, adoptando-se uma grafia aproximada sempre que

essa pesquisa se revelar infrutífera. Nós recorremos muitas vezes aos motores de busca da Internet,

principalmente ao Google, que é aquele que costuma apresentar melhores resultados. Mediante um

certo treino, é possível resolver muitos casos com sucesso. Adiante apresentamos alguns deles13:

Grafia aproximada Grafia confirmada

bad lanzer badlands

boiji mendes boy gé mendes

electobactetilori helicobacter pylori

gajiokapa hjk

georges nely georges méliès

herekta rocks related rocks

hitus ictus

joan jaxison johan jachrisson

justin gardner jostein gaarder

manus limber magnus lindberg

12 No entanto, é preciso ter em conta que o factor legibilidade também depende muito do texto oral que estamos a transcrever. No trecho acima apresentado, por exemplo, a leitura é dificultada não só pelo facto de os locutores se interromperem constantemente mas também pelo facto de muitas vezes falarem ao mesmo tempo. 13 De acordo com as convenções de transcrição adoptadas, todas as palavras são grafadas em letra minúscula, incluindo os nomes próprios. Trata-se de uma medida que tem como principal vantagem a uniformização gráfica do texto, permitindo também resolver alguns casos de grafia dúbia.

Page 17: A linguística e a linguagem dos média em Portugal ... · estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai,

not quite that not quite dead

parasinaicus panathinaikos

proofti pluft

salin iolo sally nyolo

stein sellis stjin celis

tiless balik terence malick

liser poi lizard point

Resta-nos falar um pouco da questão da identificação dos locutores ao longo do texto, que

nem sempre foi feita de acordo com as convenções acima indicadas. Houve uma fase do projecto

em que se optou por grafar as iniciais do nome do locutor. Essa orientação tinha sido tomada no

sentido de prover o texto de um sistema de identificação mais intuitivo, já que, na leitura da

transcrição, é mais fácil identificar o locutor pelas iniciais do nome do que pelo número de entrada.

No entanto, o que se observou foi que esse procedimento não trazia benefícios reais às transcrições

do projecto, à parte a legibilidade, pelo que foi abandonado.

5. Bibliografia

Bacelar do Nascimento, F. et aliae (1987) Português Fundamental − Métodos e

Documentos. INIC/CLUL, Lisboa.

Blanche-Benveniste, C. (1997) Transcriptions et Technologies, in Recherches

sur le Français Parlé, número 14. GARS, Aix-en-Provence.

Blanche-Benveniste, C. e C. Jeanjean (1987) Le Français Parlé, Paris: INALF/CNRS.

Cresti, E. (2000) Corpus di Italiano Parlato, volume I. Presso l’Accademia della

Crusca, Firenze.

Kennedy, G. (1998) An Introduction to Corpus Linguistics. Longman, London.

Ramilo, M. C. e T. Freitas (2001) Transcrição Ortográfica de Textos Orais:

Problemas e Perspectivas. Comunicação apresentada no Encontro Comemorativo do 25º

Aniversário do CLUP, Porto.