caminhos percorridos no mapa da portuguesi cac~ ao: a ......caminhos percorridos no mapa da...

34
Caminhos percorridos no mapa da portuguesifica¸ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT [email protected] Resumo Este artigo faz um balan¸co pessoal do percurso da Linguateca, uma organiza¸ ao virtual em demanda de uma maior facilidade e qualidade no processamento da l´ ıngua portuguesa, nos ´ ultimos dez anos. Inicio o artigo por uma curta perspectiva hist´ orica para explicar o contexto em que a Linguateca surgiu e quais os objectivos iniciais para o progresso da ´ area. Avalio de seguida resumidamente a situa¸ ao actual no que respeita a esses objectivos iniciais, bastante vagos, identificando o que foi cumprido e perspectivando o que ficou por fazer. Aproveito tamb´ em a oportunidade para apresentar as variadas inflex˜ oes que o projecto tomou, num percurso que n˜ ao foi linear. Fa¸ co depois uma breve excurs˜ ao pelos principais pontos atingidos, mas sem a preocupa¸ ao de ser exaustiva, dado que o texto n˜ ao pretende ser um relat´ orio, mas sim uma reflex˜ ao cr´ ıtica sobre o processo e os resultados, tentando relacion´ a-la, sempre que poss´ ıvel, com a discuss˜ ao p´ ublica que teve lugar dez anos volvidos no Encontro Linguateca: 10 anos, em Aveiro a 11 de Setembro de 2008. Embora o artigo seja centrado sobre a Linguateca, tento fazer numa ´ ultima sec¸ ao algumas pontes com outro trabalho em processamento do portuguˆ es, de forma a n˜ ao transmitir a ideia errada de que ter´ ıamos sido os ´ unicos a trabalhar na ´ area ou a progredir neste per´ ıodo. Termino o artigo com uma breve sec¸ ao com algumas sugest˜ oes para projectos que possam continuar o esp´ ırito da Linguateca ou refor¸ car as contribui¸c˜ oes da Linguateca para o objectivo mais geral da dignifica¸ ao e da melhoria do processamento da l´ ıngua portuguesa. O processo de tornar o processamento do portuguˆ es mais percorrido e mais agrad´ avel assemelha-se ao desbravamento de v´ arios caminhos num emaranhado de quest˜ oes e problemas seme- lhante a uma selva ou pa´ ıs – da´ ı o t´ ıtulo deste texto referir o “mapa da portuguesifica¸ ao”. Ao inv´ es de considerar o trabalho conclu´ ıdo, ponho a t´ onica no muito ainda que ´ e preciso fazer nesta ´ area, em que aac¸c˜ ao da Linguateca ´ e (ou foi) compar´ avel, ape- nas, ` acria¸c˜ ao de alguns caminhos. Tamb´ em por isso indico neste texto aquelas sendas que acaba- ram em becos sem sa´ ıda, mas que aumentaram a nossa experiˆ encia ou nos convenceram de que n˜ ao dev´ ıamos seguir por ali. 1 Apresenta¸c˜ao A Linguateca foi um projecto pol´ ıtico-cient´ ıfico fi- nanciado pelas autoridades na ´ area da ciˆ encia e da tecnologia em Portugal para tratar do processa- mento computacional da l´ ıngua portuguesa, ´ area que tinha sido considerada priorit´ aria. Em vez de um projecto cient´ ıfico para fazer in- vestiga¸c˜ ao, era um projecto de infraestrutura e de servi¸co ` a comunidade. Ap´ os dez anos de diversas formas de fi- nanciamento e de bastante trabalho realizado, encontramo-nos numa situa¸c˜ ao de transi¸c˜ ao e de reflex˜ ao que tanto pode ser o in´ ıcio de uma nova fase da Linguateca como corresponder ` a sua con- clus˜ ao. Urge assim fazer um balan¸co de todo o processo e das v´ arias fases e inten¸ oes que tivemos ao longo do tempo. Fa¸ co-o em meu nome pessoal porque fui a ´ unica que assisti e liderei este projecto desde o in´ ıcio, mas com o apoio de muitos e tomando em considera¸ ao todo o retorno recebido ao longo dos anos, quer dos muitos colaboradores quer da comunidade em geral, al´ em de colher os frutos do encontro de reflex˜ ao p´ ublica em Aveiro em Setem- bro de 2008. Outros textos ou apresenta¸ oes sobre diferen- tes fases da Linguateca e sobre eventuais diferen- tes t´ onicas postas ao longo do tempo nas v´ arias actividades podem ser consultados no cat´ alogo de publica¸ oes da Linguateca. Saliento aqui como es- pecialmente representativos de fases diferentes os seguintes textos (Santos, 2000; Santos, 2002b; San- tos e Costa, 2005; Santos, 2007a), que ser˜ ao bre- vemente resumidos na sec¸ ao 3.2. Os v´ arios re- lat´ orios anuais ou “finais” da Linguateca permitem dar outro tipo de vis˜ ao complementar, mais con- creta, cf. Santos (2003a), Santos (2005), Santos This work is licensed under a Creative Commons Attribution 3.0 License Linguaatica — ISSN: 1647–0818 um. 1 - Maio 2009 - P´ ag. 25–59

Upload: others

Post on 01-Oct-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

Caminhos percorridos no mapa da portuguesificacao:

A Linguateca em perspectiva

Diana SantosLinguateca, SINTEF [email protected]

Resumo

Este artigo faz um balanco pessoal do percurso da Linguateca, uma organizacao virtual em demandade uma maior facilidade e qualidade no processamento da lıngua portuguesa, nos ultimos dez anos.

Inicio o artigo por uma curta perspectiva historica para explicar o contexto em que a Linguateca surgiue quais os objectivos iniciais para o progresso da area. Avalio de seguida resumidamente a situacaoactual no que respeita a esses objectivos iniciais, bastante vagos, identificando o que foi cumprido eperspectivando o que ficou por fazer.

Aproveito tambem a oportunidade para apresentar as variadas inflexoes que o projecto tomou, numpercurso que nao foi linear.

Faco depois uma breve excursao pelos principais pontos atingidos, mas sem a preocupacao de serexaustiva, dado que o texto nao pretende ser um relatorio, mas sim uma reflexao crıtica sobre o processoe os resultados, tentando relaciona-la, sempre que possıvel, com a discussao publica que teve lugar dezanos volvidos no Encontro Linguateca: 10 anos, em Aveiro a 11 de Setembro de 2008.

Embora o artigo seja centrado sobre a Linguateca, tento fazer numa ultima seccao algumas pontescom outro trabalho em processamento do portugues, de forma a nao transmitir a ideia errada de queterıamos sido os unicos a trabalhar na area ou a progredir neste perıodo.

Termino o artigo com uma breve seccao com algumas sugestoes para projectos que possam continuaro espırito da Linguateca ou reforcar as contribuicoes da Linguateca para o objectivo mais geral dadignificacao e da melhoria do processamento da lıngua portuguesa.

O processo de tornar o processamento doportugues mais percorrido e mais agradavelassemelha-se ao desbravamento de varios caminhosnum emaranhado de questoes e problemas seme-lhante a uma selva ou paıs – daı o tıtulo deste textoreferir o “mapa da portuguesificacao”. Ao inves deconsiderar o trabalho concluıdo, ponho a tonica nomuito ainda que e preciso fazer nesta area, em quea accao da Linguateca e (ou foi) comparavel, ape-nas, a criacao de alguns caminhos. Tambem porisso indico neste texto aquelas sendas que acaba-ram em becos sem saıda, mas que aumentaram anossa experiencia ou nos convenceram de que naodevıamos seguir por ali.

1 Apresentacao

A Linguateca foi um projecto polıtico-cientıfico fi-nanciado pelas autoridades na area da ciencia e datecnologia em Portugal para tratar do processa-mento computacional da lıngua portuguesa, areaque tinha sido considerada prioritaria.

Em vez de um projecto cientıfico para fazer in-vestigacao, era um projecto de infraestrutura e deservico a comunidade.

Apos dez anos de diversas formas de fi-nanciamento e de bastante trabalho realizado,

encontramo-nos numa situacao de transicao e dereflexao que tanto pode ser o inıcio de uma novafase da Linguateca como corresponder a sua con-clusao.

Urge assim fazer um balanco de todo o processoe das varias fases e intencoes que tivemos ao longodo tempo. Faco-o em meu nome pessoal porquefui a unica que assisti e liderei este projecto desdeo inıcio, mas com o apoio de muitos e tomandoem consideracao todo o retorno recebido ao longodos anos, quer dos muitos colaboradores quer dacomunidade em geral, alem de colher os frutos doencontro de reflexao publica em Aveiro em Setem-bro de 2008.

Outros textos ou apresentacoes sobre diferen-tes fases da Linguateca e sobre eventuais diferen-tes tonicas postas ao longo do tempo nas variasactividades podem ser consultados no catalogo depublicacoes da Linguateca. Saliento aqui como es-pecialmente representativos de fases diferentes osseguintes textos (Santos, 2000; Santos, 2002b; San-tos e Costa, 2005; Santos, 2007a), que serao bre-vemente resumidos na seccao 3.2. Os varios re-latorios anuais ou “finais” da Linguateca permitemdar outro tipo de visao complementar, mais con-creta, cf. Santos (2003a), Santos (2005), Santos

This work is licensed under aCreative Commons Attribution 3.0 License

Linguamatica — ISSN: 1647–0818Num. 1 - Maio 2009 - Pag. 25–59

Page 2: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

(2006b) e Costa (2008).

2 A concepcao: missao, estrutura, eponto de partida

A Linguateca surgiu como uma forma de contra-balancar, ou resolver, muitos dos problemas ou li-mitacoes identificados durante o perıodo da escritado contributo para o livro branco (Santos, 1999b),ha mais de dez anos, e que serao aqui repetidosesquematicamente.

Esse texto inicial, relativo a area como um todo,e de conteudo essencialmente programatico, foiuma das tarefas do projecto Processamento Com-putacional do Portugues1. Os pontos nele focadosnao eram para ser resolvidos na sua totalidade, oumesmo abordados, em dez anos e por um projectoem rede. Contudo, estou convencida de que foia nossa tentativa de nao perder mais tempo e decomecar logo a fazer o que era possıvel, ainda noambito do proprio projecto Processamento Com-putacional do Portugues, que levou a aprovacaoda Linguateca2 nos anos que se seguiram.

E claro que os objectivos da Linguateca comoprojecto tiveram de ser mais concretos e realis-tas, embora desenhados e motivados pelos pro-blemas que querıamos resolver e pelas metas quequerıamos atingir, directa ou indirectamente. Dequalquer maneira, faz todo o sentido utilizar ospontos mencionados em Santos (1999b) como umabitola para comparar a actividade e os resultadosobtidos, desde que nunca se esqueca que esse textoera dedicado a comunidade e nao apenas aos mem-bros de um projecto futuro que se viria a consti-tuir.3

Vejamos entao o que esse texto dizia. Antesdisso, contudo, importa recordar e insistir no se-guinte ponto: a area discutida e equacionada cor-respondia ao processamento da nossa lıngua e naoa engenharia da linguagem em geral, veja-se Santos(1999a), o que veio a ser um dos principais cavalosde batalha da Linguateca.

Santos (1999b) mencionava as seguintescondicoes necessarias a um progresso significativona area do processamento da lıngua portuguesa(note-se que, por conveniencia da exposicao, aordem foi invertida em relacao a original):

1. Transparencia, participacao e colaboracao de

1Financiado pela Agencia de Inovacao – organismo definanciamento portugues –, iniciado a 15 de Maio de 1998no SINTEF, com a duracao de dois anos.

2O nome Linguateca apenas surgiu em 2002. Do pontode vista formal, o projecto aprovado em 2000 tinha o nomeCentro de Recursos – distribuıdo – para o processamentocomputacional da Lıngua Portuguesa, CRdLP.

3Convem alem disso esclarecer que, durante a escritadesse texto, nao havia a mais remota previsao de que issoviria a acontecer, pelo menos da minha parte.

todos

2. Desenvolvimento de aplicacoes relacionadascom o trabalho de todos os dias no sector dainformacao

3. Ligacao da investigacao fundamental com astecnologias

4. Dinamizacao dos metodos empıricos

5. Servicos de desenvolvimento de recursos e fer-ramentas partilhaveis (servico de traducao,servico de terminologia, rede de fala, rede deprocessamento da lıngua escrita)

6. Avaliacao e controlo de qualidade em relacaoao portugues

7. Disponibilizacao de recursos (nas suasmultiplas vertentes)

8. Definicao do processamento do portuguescomo area prioritaria

Passamos entao a indagar se a Linguateca contri-buiu algo para cada um destes pontos, tendo emconsideracao, repito, que a Linguateca foi desdeo inıcio definida como um projecto de servico acomunidade, com a preocupacao de nao competirmas sim favorecer os actores existentes e futuros.

Mas, para o leitor incauto, convem primeiro in-dicar muito brevemente os pressupostos e estru-tura inicial da Linguateca, ou seja, a sua espinhadorsal, antes de discutir a sua actuacao e resulta-dos.

A Linguateca, como um projecto de servico e deapoio, foi idealizada, nao atraves da contratacaode investigadores, mas sim de “contratados” comtarefas especıficas de manutencao, informacao eapoio aos utilizadores, para fazer o que pomposa-mente se pode chamar “transferencia de tecnolo-gia” dos grupos (universitarios, academicos) parao mundo exterior. Daı surgiu o conceito de polos(da Linguateca), localizados em grupos ou ambi-entes a que faria sentido ajudar a disponibilizar otrabalho e reforcar a actividade.

Desde o inıcio, a missao da Linguatecaanunciou-se4 como:

• facilitar o acesso aos recursos ja existentes,atraves do desenvolvimento de servicos deacesso na rede, e mantendo um portal cominformacao util,

4De facto, esta formulacao, patente na pagina ini-cial, foi pela primeira vez publicada, com algumas di-ferencas irrelevantes, a 9 de Agosto de 2000, comoe possıvel verificar atraves do projecto Internet Ar-chive (http://web.archive.org), ainda com o URL dewww.portugues.mct.pt. A versao exacta, ipsis verbis, apa-receu a 18 de Novembro de 2004.

26– Linguamatica Diana Santos

Page 3: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

• desenvolver, de forma harmoniosa, em cola-boracao com os interessados, os recursos con-siderados mais prementes,

• organizar avaliacoes conjuntas que envolvama comunidade como um todo.

Assim, e ao contrario de um projecto de in-vestigacao, a nossa actividade – ou pelo menos ofundamento do nosso financiamento – repartiu-se(ou repartir-se-ia, conforme o plano) fundamental-mente entre:

• a formacao de pessoal especializado emgestao, criacao, disseminacao e avaliacao derecursos;

• o assegurar dos servicos basicos de repositorio,distribuicao e catalogo, de forma distribuıda;

• o desenvolvimento de recursos publicos, em es-pecial, recursos para avaliacao ou calibragem;

• a manutencao do contacto e da comunicacaoentre os varios actores e clientes dos nossosservicos;

• a organizacao de avaliacoes conjuntas emtorno de areas chave.

Como sera debatido na seccao 3, de facto a Lin-guateca acabou por fazer muitas outras activida-des nao previstas inicialmente no seu desenho.

Passo entao a considerar cada um dos pontosdo documento original:

2.1 Transparencia

A transparencia foi, decididamente, uma das nor-mas da Linguateca, embora uma questao funda-mental, a da escolha dos polos, tenha acontecidode uma forma quase aleatoria, a medida que aspessoas se aproximavam de nos e se prontificavama colaborar.

Uma das restricoes (ou sugestoes) que tinhamsido impostas (ou recomendadas) no inıcio era ada distribuicao geografica dos polos, de forma acombater ou evitar a demasiada concentracao deesforcos num unico local.

Tambem, do ponto de vista formal, houve ouhavia restricoes (inultrapassadas) no estabeleci-mento de polos no estrangeiro ou em instituicoesprivadas – o que nunca, contudo, impediu a co-operacao e a formacao de polos informais, comofoi o do VISL em Odense e o do COMPARA emLisboa, ambos desde 2000.

Outra questao importante – que me pareceagora explicar porque muitos grupos ou insti-tuicoes nao tentaram sequer obter um polo da Lin-guateca – tinha a ver com a nossa filosofia de dis-ponibilizacao publica dos recursos. Com efeito,fomos igualmente claros em afirma-la, na pagina

inicial da Linguateca, atraves das seguintes linhasmestras:

• Total abertura: Todas as actividades e tra-balhos desenvolvidos pela Linguateca saopublicos.

• Disponibilizacao livre: Os autores de recursosserao remunerados ou compensados de formaa nao serem lesados, mas a Linguateca naose destina a desenvolver ou apoiar o desenvol-vimento de recursos proprietarios, mas sim acriar condicoes para a existencia de recursosbons e gratuitos para a lıngua portuguesa.

Infelizmente, grande parte dos grupos na area naopartilhavam ou partilham desta atitude.

Nao obstante todas estas consideracoes, einegavel que o processo de constituicao dos polosdependeu em muitos casos da sorte, de os contac-tos terem sido feitos na altura certa, de as pessoasterem falado e de se terem entendido. Por isso, sea Linguateca for reaberta ou continuar, parece-nosmais correcto que todos os polos sejam criados porconcurso (aberto).

Nao consideramos contudo que a primeira faseda Linguateca, por ter sido criada a medida dasoportunidades que se ofereciam e dando total li-berdade aos polos – desde que com a filosofia decriarem recursos e avaliacao para a comunidade –tenha sido errada ou demonstrado falta de trans-parencia. Como e muitas vezes apontado, excessode planeamento e geralmente sinonimo de falta deinovacao (Chubin e Hackett, 1990), e ao podermosinovar, com base no material humano e tecnologicooferecido por cada polo, fizemos muito mais do queseguir um plano rıgido.

2.2 Trabalho de todos os dias

Esta e uma questao possivelmente generica demaispara ter uma concretizacao facil, mas, se consi-derarmos que os trabalhadores nos sectores dosservicos (em que incluımos, alias, os investigado-res e desenvolvedores na nossa area) todos os diasescrevem, publicam, mandam mensagens de cor-reio electronico, procuram na rede e publicam nadita, alem de mandarem mensagens pelo telemovele participarem em blogues e outras novas tecnolo-gias, temos naturalmente de reconhecer que a ac-tividade da Linguateca, embora com esse objec-tivo ultimo, esta longe de ter conseguido algumimpacto, se excluirmos o cırculo reduzidıssimo da-queles que pertencem ou comunicam com a Lin-guateca no ambito do seu trabalho.

Assim, embora tenhamos, na medida das nossaspossibilidades, apostado na promocao concreta doportugues atraves de

• sugestao de normas de redaccao em portugues

Caminhos percorridos no mapa da portuguesificacao: A Linguateca em perspectiva Linguamatica – 27

Page 4: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

• formas de referir publicacoes em lıngua por-tuguesa

• sugestoes de terminologia e de desenho desıtios

• variadas intervencoes em foruns internacionaise nacionais sobre as diferencas e o respeitopela lıngua portuguesa

• localizacao e traducao para portugues sempreque necessario ou apropriado

nao podemos considerar, de forma alguma, queesta missao – a de termos influenciado o trabalhode todos os dias das pessoas que usam o portugues– esteja proxima de ser cumprida.

Muito pelo contrario, cada vez mais somos ins-tados por todos a render-nos a evidencia de queo que e “internacional”, isto e, escrito em ingles,e bom, e o que e nacional, isto e, escrito em por-tugues, e medıocre...

Assim, embora uma das palavras de ordem daLinguateca tenha sido a portuguesificacao5, de-masiado ainda se encontra por fazer.

De facto, penso mesmo que estamos pior doque estavamos na altura do comeco da Linguateca.Uma das conviccoes cada vez mais enraızadas nascamadas mais jovens – devida a forma como asagencias de financiamento definem a qualidade –e que os melhores escrevem em ingles e os pioresem portugues, o que leva naturalmente a que issoinfelizmente aconteca.6

Alguns exemplos que demonstram claramenteessa infeliz tendencia sao:

• o PROPOR – a conferencia internacional so-bre o processamento do portugues, com umacomissao de programa maioritariamente de lu-sofalantes, que desde 2003 e em ingles7

• a forma de avaliar os investigadores em Portu-gal e no Brasil: atraves de publicacoes “inter-nacionais”, mas esquecendo que o portugues– uma lıngua falada como lıngua materna, oupelo menos oficial, nos cinco continentes – euma lıngua internacional por excelencia!

• a lıngua das teses e das defesas das mesmasem Portugal, que cada vez mais e o ingles emvez do portugues

5E nao o aportuguesamento, ou seja, ir buscar coisas(ideias, tecnicas, ferramentas) la fora e adapta-las ao por-tugues.

6Note-se que eu nao estou a advogar publicacao exclusivaem portugues, mas sim um balanco entre divulgacao inter-nacional e divulgacao, didactica e documentacao na nossalıngua.

7Na altura, a justificacao avancada para esta mudancafoi a de que a editora Springer concedia qualidade as pu-blicacoes, e exigia o ingles como lıngua internacional.

• a lıngua nos sıtios na rede dedicados ao pro-cessamento da lıngua, no Brasil e em Portugal,que cada vez mais e o ingles em detrimento doportugues

Veja-se, a este proposito, o valioso contributo deGomes de Matos (1992) argumentando a favordo direito de ler e escrever na propria lıngua emciencia.

Por isso, parece-me evidente que a Linguatecatentou lutar contra a corrente mas que cada vezmenos o portugues e a lıngua usada (ou apreciada)no local de trabalho de todos os dias.

2.3 Ligacao da investigacaofundamental com as tecnologias

Esta e uma atitude, mais do que uma medida:Achamos que nesta area nao faz sentido uma se-paracao, mas sim uma inter-relacao entre desenvol-vimento de sistemas e investigacao com os mesmos.

Tentamos seguir sempre essa directiva, aliaspondo grande enfase na questao da avaliacao emtarefas praticas.

Contudo, pode ser que a linguıstica teorica e ainformatica teorica nos tenham ignorado sobran-ceiramente, como projecto aplicado e ateorico, enesse aspecto a nossa intervencao tenha sido nula.

Em suma, e bastante possıvel que tenhamos nosmais teorizado sobre a nossa pratica do que osteoricos tenham praticado gracas a nossa activi-dade.

Nao me parece, em resumo, que a Linguatecatenha de alguma forma intervindo neste aspecto,para alem da sua propria pratica. Que valha pelomenos o exemplo: insistimos sempre no estudo de-talhado dos fenomenos da lıngua que poderiam es-tar subjacentes a um dado resultado, ou desempe-nho, em vez de nos ficarmos por simples medidasquantitativas deste.

2.4 Dinamizacao dos metodosempıricos

Neste ponto, pelo contrario, penso poder afir-mar que a Linguateca contribuiu indiscutivelmentepara esta dinamizacao, quer atraves da sua activi-dade quer atraves da criacao de recursos que tor-nassem os metodos empıricos possıveis na pratica.

Neste momento, na area do processamento doportugues, ha muito mais avaliacao (atraves demetodos empıricos) e muito maior conscienciadesta.

Contudo, muitas das medidas que preconizeiestao longe (se calhar ainda mais longe) de seremuma realidade, senao veja-se:

Obrigar a que todos os projectos financi-ados publicamente tenham uma parte de

28– Linguamatica Diana Santos

Page 5: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

avaliacao (ou seja, esteja descrito na pro-posta como avaliar, e quando), de pre-ferencia controlavel independentemente(ou seja, que a avaliacao possa ser repe-tida por observadores externos).

Certamente que, se houve algo que nao correubem, foi a forma como o financiamento dos projec-tos nesta area foi atribuıdo em Portugal durantea existencia da Linguateca – e que, acentue-se,foi sempre realizado de forma totalmente indepen-dente desta.8

De uma forma superficial, dir-se-ia que este foiconcebido como precisamente uma compensacaoaos actores da area com filosofias e praticas maisdistantes da Linguateca, ou seja, quanto mais“afastados” da Linguateca, mais financiamento re-ceberiam.

Parece um criterio politicamente defensavel,mas os resultados praticos nao o sao necessaria-mente. Sobretudo se envolvem a repeticao de es-forcos ou o financiamento duplo de algo ja exis-tente, como e conviccao minha que aconteceu naopoucas vezes.

2.5 Servicos de desenvolvimento derecursos e ferramentas partilhaveis

Embora uma das areas em que a Linguateca maistenha investido tenha sido o desenvolvimento deservicos na rede (veja-se a seccao 4.3 abaixo), talnao tomou o caminho descrito no documento pre-paratorio. Convem talvez reflectir sobre as causasou explicacoes dessa diferenca aqui.

Com efeito, tınhamos preconizado a necessidadeou o interesse de desenvolver as seguintes redes derecursos:

• servico de traducao

• servico de terminologia

• rede de fala

• rede de processamento da lıngua escrita

A posteriori, parece-nos que a Linguateca se tor-nou a rede de processamento da lıngua escrita,e que, quanto aos outros servicos, ou foram im-plementados de forma completamente separada oununca chegaram a ser uma realidade.

Convem aqui indicar que, embora a intencaoinicial da Linguateca fosse cobrir e apoiar tanto oprocessamento da lıngua escrita como da falada,tal nunca se realizou, e, apos uma tentativa fa-lhada de, logo em 2000, criar um polo associado a

8Poderia imaginar-se que um projecto concebido para adisponibilizacao e avaliacao de recursos poderia ser envol-vido ou ser-lhe pedido um parecer quanto a novos projectosna area, com vista a garantir uma sua sustentacao posterior.Cabe por isso documentar que tal nunca sucedeu.

fala – que nunca se materializou porque nao houvecandidatos a essa posicao – acabamos por dirigir anossa atencao apenas para a parte escrita.

2.5.1 Traducao automatica

No inıcio da dinamizacao da avaliacao chegamos acriar uma lista associada a traducao automatica, evarios polos da Linguateca fizeram algum trabalhona area, mas de forma de tal maneira distinta queaparentemente nao chegou nunca sequer a havercolaboracao:

• O polo do Porto dedicou-se ao estudo deferramentas ja existentes e ao trabalho ne-cessario de pos-edicao, numa perspectiva es-sencialmente linguıstica ou mesmo de estudosde traducao (Sarmento et al., 2007; Maia eBarreiro, 2007).

• O polo de Braga dedicou-se a varios proble-mas tecnologicos associados ao paradigma datraducao automatica por exemplos, desenvol-vendo ferramentas para algumas dessas tare-fas (Simoes e Almeida, 2007) ou estudando atecnologia de memorias de traducao (Almeidae Simoes, 2007).

• Tambem se pode mencionar que implicita-mente a criacao do COMPARA (Frankenberg-Garcia e Santos, 2002) foi decisiva para estu-dos de traducao envolvendo o par de lınguasportugues e ingles,

• assim como o polo de Lisboa no LabEL (Bar-reiro e Ranchhod, 2005) produziu tambem al-gum trabalho na area.

Pese embora tanta actividade, nao se chegou, pelomenos ate agora, a atingir um estadio em que hou-vesse sistemas de traducao automatica envolvendoo portugues desenvolvidos no ambito da Lingua-teca (ou com o seu apoio) e que pudessem ser usa-dos, embora haja algumas propostas nesse sentido,e um sistema incipiente de parafrase (que poderaser estendido a uma versao bilingue) foi posto aoservico da comunidade (Barreiro, 2008).

2.5.2 Terminologia

Pior ainda, pelo menos aparentemente, foi o queaconteceu com a terminologia, visto que, emboraa Linguateca tivesse desenvolvido um sistema deraiz para trabalho serio na area, o Corpografo (Sar-mento, Maia e Santos, 2004; Maia, Sarmento eSantos, 2005; Maia, 2008b), alias com mais de 1600utilizadores espalhados por todo o mundo, nao foiaparentemente possıvel congregar outras pessoasrelacionadas com a area de terminologia, em Por-tugal ou no Brasil, de forma a trabalhar em rede.

Uma possıvel explicacao para esse facto poderaser a de ja existirem a nıvel internacional varias

Caminhos percorridos no mapa da portuguesificacao: A Linguateca em perspectiva Linguamatica – 29

Page 6: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

redes de terminologia envolvendo o portugues9, ecomo tal, em vez de criar mais uma, seria util simproduzir sistemas que ajudassem a esse trabalho.Parece-me assim que sera fundamental tentar en-tronizar o Corpografo como uma ferramenta a con-siderar nesses ambientes internacionais, em vez derepetir trabalho e aparecer como concorrente emvez de servico.

Uma das questoes que tera nesse caso de serequacionada e a questao da terminologia bilin-gue, que, embora tenha estado na agenda doCorpografo desde o primeiro momento (veja-se porexemplo Maia (2003) ou Maia e Matos (2008)),ainda nao tem suficiente tratamento nesse ambi-ente. Alias, seria de todo o interesse aproximar(em vez de afastar) os terminologos brasileiros,com uma longa tradicao de excelencia na area,note-se, e tentar na medida do possıvel fazer ter-minologia cientıfica comum nas areas em que issofaca sentido – a linguıstica e o processamento com-putacional da lıngua sao, na minha opiniao, umadelas.

Saliente-se, contudo, que houve algum trabalhode extraccao de terminologia bilingue no ambitoda Linguateca atraves da tese de doutoramento deAlberto Simoes (Simoes, 2008).

O fosso entre abordagens linguısticas e in-formaticas, ao contrario do que seria a minha in-tencao, tambem ocorre(u) dentro da propria Lin-guateca, nunca tendo havido sinergia entre os polosde Braga e do Porto nesse domınio.

Esse fosso, alias ja discutido por ocasiao do de-bate em 199910, e que tentamos reduzir durantee atraves da Primeira Escola de Verao, reapare-ceu como nao resolvido, no entender de Paulo Go-mes (Gomes, 2008) ou de Belinda Maia (Maia,2008a). Convem a esse respeito relembrar que Fer-nando Pereira, em 1999, tinha instado para que secriassem pessoas interdisciplinares ao contrario deequipas interdisciplinares. Ainda parece haver, noentanto, muitıssimo a fazer para que esse objectivoseja atingido.

2.6 Avaliacao e controlo de qualidadeem relacao ao portugues

Em relacao a este ponto, penso que a Lingua-teca deu um contributo decisivo, tendo-se de factotransformado no servico preconizado em 1999:

Seria, pois, vantajoso ter um servicopublico de “portuguesificacao” (poroposicao a aportuguesamento) da tec-

9De facto, muito anteriores a Linguateca, como e o casoda RITERM, fundada em 1988, da TERMIP, de 1989, ouda Realiter, de 1993.

10cuja transcricao continua acessıvel do sıtio da Lingua-teca

nologia, incumbido de organizar asconferencias de avaliacao e de informara comunidade, de garantir a distribuicaodos recursos, de levar a cabo ou enco-mendar testes de qualidade e representaro paıs em orgaos internacionais

A unica coisa que nao aconteceu foi a “repre-sentacao do paıs”, mas dado que isso seria um tra-balho sobretudo polıtico, foi certamente preferıvelque esse trabalho nao fosse misturado com o traba-lho cientıfico e tecnologico envolvido no resto dasactividades da Linguateca, e que naturalmente nosdeu muito trabalho e muito prazer.

De facto, mais do que isso: a questao “paıs”foi sempre substituıda por “lıngua”, tendo a Lin-guateca sempre defendido a lıngua portuguesa enao a lıngua dos portugueses, e tendo alias con-seguido muito boas parcerias com os investigado-res brasileiros11 exactamente por ter substituıdoa componente nacional por uma definida em ter-mos da lıngua, que nos continua a parecer ser aunica que faz sentido em termos do domınio deestudo e de pratica: ou seja, no que respeita aodesenvolvimento de sistemas que lidem natural einteligentemente com o portugues.

Assim, a organizacao de avaliacoes conjuntas ea sua motivacao foi uma das actividades mais flo-rescentes (e tambem mais absorventes) da Lingua-teca, como sera descrito na seccao 4.7.

2.7 Disponibilizacao de recursos (nassuas multiplas vertentes)

Historicamente, a Linguateca foi aprovada como nome bafiento e pouco imaginativo de Centrode Recursos - distribuıdo - para a Lıngua Portu-guesa (CRdLP), tendo como principal actividadea criacao e distribuicao de recursos.

Embora tenhamos mudado o nome e dedicadomuito do nosso trabalho e empenho a avaliacao,naturalmente que a criacao e disponibilizacao derecursos – assim como a sua manutencao – foi oprato forte da actividade da Linguateca, como aliassera descrito no decurso do presente artigo.

E interessante a esse respeito ver o que foi con-siderado relevante em 1998 e contrasta-lo com oque temos agora (na Linguateca ou na comunidademais vasta).

Em alguns casos, a lista referia produtos razo-avelmente vagos, e noutros, demasiado especıficos.Senao vejamos: Nao temos provavelmente termi-nologias, mas temos sistemas que as permitem de-senvolver; nao temos dicionarios com subcatego-rizacao, mas temos sistemas que permitem obte-

11Infelizmente, exceptuando alguns casos pontuais, a Lin-guateca nao conseguiu (ainda) atingir ou colaborar com ou-tros paıses de expressao portuguesa.

30– Linguamatica Diana Santos

Page 7: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

los a partir de corpos; nao temos dicionarios entreas variantes do portugues, mas temos sistemas dealinhamento que os podem eventualmente criar.

A propria terminologia tambem evoluiu (ou onıvel de ambicao): Em vez de tesauros, falamosagora de ontologias; em vez de corpos alinhados, decorpos paralelos; em vez de estudos de frequencia,temos servicos que nos permitem faze-los de formanao imaginada na altura.

Embora ainda haja certamente muitos recur-sos que podıamos e devıamos (como comunidade)criar, houve um claro progresso e pensamos po-der afirmar que o portugues se encontra entre aslınguas do mundo com mais recursos linguısticospublicos para o seu processamento.

Contudo, atentando nas propostas adiantadaspara o conseguir, reparamos que fizemos a maiorparte das coisas sozinhos, ou melhor, no ambitoda Linguateca, e nao atraves dos meios propostos,que continuam, passados dez anos, a nao passar dopapel:

a obrigatoriedade de inclusao de distri-buidores e avaliadores de recursos nasproprias propostas de projectos a seremfinanciados, de forma a que cada cen-tro ou grupo, alem das actividades dedesenvolvimento, investigacao, ensino edivulgacao tambem levasse a serio osservicos de teste, verificacao e forneci-mento de um servico.

Isto continua a ser uma miragem, nao ha qual-quer controlo de qualidade e disponibilidade dosresultados dos projectos financiados, pelo menosem Portugal.

Pelo contrario, a unica coisa que se nos tornouclara em relacao a disponibilizacao e que o nossomodelo publico, tudo gratis e sem entraves12,e a unica maneira de chegar realmente a toda acomunidade e de evitar a mesquinhez dos temposantigos.

Assim, como descrito na seccao 4.4, compramoso direito aos possuidores comerciais de disponibi-lizar recursos para todos, e isso foi um ovo de Co-lombo em que penso que fomos pioneiros.

Ja quanto a parte da postura arquivıstica,tambem mencionada no mesmo item,

Convem tambem referir que seria muitoutil uma postura arquivıstica a respeitodos recursos, ou seja, para poder distri-buir e descrever os recursos, ha necessi-dade de criacao (e de uso) de estruturas

12No inıcio do processo, nao tınhamos esta percepcao. Defacto, ate indico “Note-se que publico nao significa gratis”na respectiva seccao de Santos (1999b).

classificativas (taxonomias, tesauros clas-sificativos); assim como se devia fomentara codificacao da informacao em formatospartilhaveis (tais como XML, TEI), oupelo menos bem documentados.

temos de referir que nao foi um sucesso, e isto porduas razoes diferentes:

A primeira, passıvel de autocrıtica, foi nao ter-mos tentado o suficiente. A catalogacao foi sempreo parente pobre na Linguateca – ou seja, os nossoscolaboradores, sem excepcao, deram sempre me-nos prioridade a actualizar os diversos catalogos13

do que a desenvolver sistemas ou programas ouservicos.

A segunda, no que tem a ver com a questaodos padroes, correspondeu a uma decisao pensada:consideramos sempre que o conteudo era mais im-portante do que a forma, e que os padroes se-riam definidos ou emergiriam do uso e nao da esti-pulacao exterior. Penso que tivemos razao, e queos padroes mencionados nao sao mais do que umembrulho que qualquer outro grupo pode aplicar,se precisar. Assim, os nossos padroes surgiram dotrabalho que fizemos, nao da adopcao apriorısticade regras na moda.

Em contrapartida, a documentacao dos nossosprodutos, servicos e recursos foi considerada de ex-trema importancia, assim como a nossa presencana rede. Sentimos que a documentacao em por-tugues era necessaria quer para os falantes de por-tugues quer para a nossa identidade propria de de-senvolvedores de sistemas para o processamento doportugues (ver seccao 5.7).

2.8 Definicao do processamento doportugues como area prioritaria

Este ponto da proposta era muito vago e dirigidoaos orgaos de financiamento ou organizacoes gover-nativas. Ate pelos percalcos da actividade de go-vernacao, seria difıcil de implementar ou garantirpor governos sucessivos. Passe pois o conteudo de-magogico, e dediquemos apenas a atencao aos pon-tos concretos aventados, nomeadamente a questaoda continuidade, da medida do peso da lıngua, acriacao de um forum, e de uma comissao interna-cional.

A parte ınfima que foi levada a pratica foi acontinuidade da propria Linguateca, no sentido emque conseguimos sobreviver dez anos e nao os 2-3anos mencionados e que continuam a constituir oprazo dos projectos de investigacao.

Quanto a questao da avaliacao da area, pro-vavelmente no ambito de um observatorio estatal,nada foi para a frente que envolvesse o processa-mento da lıngua, nem mesmo a estipulacao de me-

13Como sera referido em mais pormenor em 5.5.1.

Caminhos percorridos no mapa da portuguesificacao: A Linguateca em perspectiva Linguamatica – 31

Page 8: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

didas a serem efectuadas. Contudo, existem ou-tras instituicoes como a Uniao Latina ou o Insti-tuto Camoes que poderiam tratar dessa questao.E de facto existe ja ha alguns anos o Observatorioda Lıngua Portuguesa14 que aparentemente faz al-guns desses estudos.15

Quanto a criacao de um forum, no sentido delista de discussao, ja havia – e continua a ha-ver – o forum-lp16, mas que infelizmente apenasveicula anuncios (muitas vezes ate em ingles!) equase nunca discussao. Das muitas listas que aLinguateca foi criando ao longo dos anos sobretematicas mais especıficas, como avaliacao con-junta, por exemplo, o mesmo resultado pode serdescrito: a comunidade portuguesa e brasileirana area do PLN nao gosta nem costuma discutirquestoes cientıficas ou outras nas listas.

Se o forum mencionado era uma conferencia, te-mos o PROPOR, e agora no Brasil o (S)TIL e cadavez mais conferencias em cada paıs. Mas como in-felizmente o primeiro e em ingles, e o segundo nao erestrito ao portugues, parece que ainda nao existea arena certa, ou pelo menos nenhuma especial-mente dedicada e que permita a comunicacao idealdos assuntos tratados. Aparentemente, as asso-ciacoes de linguıstica de Portugal e do Brasil, APLe ABRALIN, embora ambas em paıses de lınguaportuguesa, nao estabelecem foruns comuns, e porisso tambem nao parece possıvel usar nenhuma de-las para dedicar ao processamento da lıngua por-tuguesa em geral, em portugues. Tambem nao ha(ainda?) nenhuma revista so em portugues sobreo seu processamento, embora a Linguamatica sejaum caso em que o mesmo e acarinhado, o que e delouvar.

Com o afa de publicacao, temos de nos render aevidencia: as pessoas querem publicar, nao discutirnem mesmo convencer. Esse tal forum seria idealse fosse para as pessoas discutirem questoes e dadiscussao sair a luz. O formato de publicacao e co-municacao que existe nos tempos presentes (e quenao e exclusivo da nossa area ou dos nossos paıses)nao favorece nada, contudo, esse resultado...

Finalmente, a mencao de uma comissao inter-

14http://www.observatoriolp.com/15O “aparentemente” deve-se ao facto de, a 30 de Marco

de 2009, o grafico do “Conteudo da Internet por lınguas” sereferir ao ano de 2001, e o das “Lınguas da Populacao emlinha” se referir a Setembro de 2002, o que abona poucoquanto ao dinamismo e correccao de informacao no ditosıtio. As “Lınguas de maior influencia”, por seu turno,referiam-se a Dezembro de 1997...

16Lista criada a 6 de Junho de 1997 pelo entao de-nominado grupo “Glint - Grupo de Lıngua NaturalDI/FCT/UNL/PT”, do departamento de informatica daFCT da Universidade Nova de Lisboa. Na perspectiva daLinguateca, contra a duplicacao de esforcos, era obvio quedevıamos apoiar e ajudar, usando, esta lista, em vez de ten-tar com ela competir, e temo-la usado desde sempre.

nacional era um resquıcio da subserviencia naci-onal a norma: “la fora e melhor do que ca den-tro”, de que me congratulo sobremaneira nao terido avante. No caso da lıngua, isso parece-me trivi-almente falso. Na minha opiniao, ja existem dema-siadas comissoes internacionais de qualidade duvi-dosa a ameacar a nossa soberania intelectual.

2.9 Balanco em relacao aoenquadramento inicial

Santos (1999b), documento publicado na rede sempretensoes e discutido em 1999, era em muitos as-pectos ingenuo e pouco fundamentado, mas apon-tava algumas questoes concretas que era precisoatacar. Passados dez anos, e possıvel fazer planosmuito mais concretos, e tambem ter muito maioresambicoes quanto a area.

Agora ja nao falta (quase) tudo, como era ocaso na altura, e a comunidade do processamentodo portugues pode, se assim o desejar, fazer ava-liacao de qualidade e usar ou desenvolver recursosmais complexos. Nesse aspecto, e como alias ten-tarei mostrar no resto do artigo, a actividade daLinguateca foi decisiva, embora nao unica.

Por outro lado, o que se passou nesta decadademonstrou que, se era facil ou possıvel melhorara area no que se refere a investigacao, era certa-mente muitıssimo mais complicado faze-lo quantoao impacto na sociedade em geral. Nesse pontoainda esta praticamente tudo por fazer. Voltareia este assunto na seccao 7, depois de esmiucar asrazoes de satisfacao – e preocupacao – que o ba-lanco da propria Linguateca me suscita.

Antes disso, porem, farei uma pequena historiadas varias inflexoes que o projecto Linguatecasofreu, provocadas por um lado pela conjunturapolıtico-cientıfica distinta, e por outro por variascondicionantes pessoais da equipa da Linguateca:visto que a Linguateca sao as pessoas que acompoem ou compuseram ao longo do tempo, comas suas forcas e fraquezas especıficas e com inte-resses individuais distintos.

3 A evolucao

Podemos identificar alguns pontos de viragem, oude nascimento de novas actividades, em varios mo-mentos, nao necessariamente redutıveis ao histo-rial visıvel.17

Para referencia, indica-se uma lista dos polos18

17No sıtio da Linguateca, e possıvel consultar quer umhistorial quer uma lista de encontros organizados pela Lin-guateca.

18Conforme ja indicado, muitos deles sao ou foram polos“informais” por razoes administrativas. Para efeitos destecomputo, desde que exista um doutorado associado a Lin-guateca, considero que um polo existe, mesmo que a suabolsa nao seja paga pela Linguateca.

32– Linguamatica Diana Santos

Page 9: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

Figura 1: Actividade nos polos, nao necessariamente directamente financiada: a verde apresenta-seactividade exclusivamente no ambito de doutoramentos

da Linguateca:

Polo de Oslo Inicial, iniciado a 15 de Maio de1998

Polo do COMPARA Informalmente iniciadoem 1999, formalmente transferido para aFCCN no inıcio de 2007 e encerrado emDezembro de 2008

Polo de Odense Informalmente iniciado em2000, desde 2004 apenas contando comEckhard Bick como co-lıder da Floresta

Polo do NILC Iniciado em 2001 com o douto-rado sanduıche da Rachel Aires e encerradocom a conclusao deste em 2005

Polo de Braga Iniciado em 2000, sem pessoalafecto desde Outubro de 2007

Polo de Lisboa no LabEL Iniciado em 2002,encerrado em Setembro de 2006

Polo do Porto Iniciado em 2003, sem pessoalafecto desde Novembro de 2008

Polo de Lisboa no XLDB Iniciado em Janeirode 2004

Polo de Coimbra Iniciado informalmente emJulho de 2005, e formalmente em Fevereirode 2007

Alem do cronograma institucional, na figura 1,e da lista dos recursos humanos com que contamos,na tabela 1, que iremos brevemente analisar naseccao 3.4, podemos tambem mencionar activida-des especıficas de reuniao de varios polos num ob-jectivo maior, e que foram fulcrais para a ferti-lizacao cruzada dos muitos ambientes distintos quecompuseram a Linguateca ao longo dos tempos.

Durante os dois primeiros anos, alem da pre-paracao do documento discutido na seccao 2, fo-ram lancadas as sementes para a disponibilizacaodos corpos na rede (tanto o AC/DC (Santos e Bick,

2000) como o COMPARA (Frankenberg-Garcia eSantos, 2002) viram a luz do dia), e a primeira flo-resta para o portugues foi lancada, com tres bol-seiros em Odense (Afonso et al., 2001).

O primeiro grande acontecimento, que exigiumuito planeamento e muita discussao interna pre-liminar, foi o Encontro Preparatorio sobre Ava-liacao conjunta (EPAv), com o objectivo de pro-mover e iniciar o modelo da avaliacao conjunta nacomunidade do processamento computacional doportugues.

No ano seguinte ao EPAv, a parte de leao daactividade da Linguateca foi consagrada as Morfo-limpıadas (Santos, Costa e Rocha, 2003), enquantoo polo do Porto, o unico polo nao envolvido nas di-tas, dava os primeiros passos no desenvolvimentodo Corpografo, ainda pre-baptizado “gestor de cor-pora” (Sarmento e Maia, 2003).

Em 2003, foi entao sugerida uma expansao anıvel das competencias da Linguateca, que pas-sava por ter mais formacao (com a consequenteatribuicao de tres bolsas de doutoramento), e foiintegrada a area da recolha de informacao, ja pre-sente desde o inıcio do trabalho de doutoramentode Rachel Aires (Aires, 2005), atraves da criacaode um polo no XLDB em 2004.

Por essa altura tambem o CLEF (Rocha e San-tos, 2007) passou a tomar um peso consideravel naactividade da Linguateca, devido a estarmos neletanto como organizadores como participantes (na-turalmente, grupos ou indivıduos separados), e asua periodicidade ser anual.

A questao das ontologias passou a ser mais umaactividade com que a Linguateca se preocupou,quer do foro geografico quer com as ontologiaslexicais criadas a partir das definicoes de um di-cionario, o que levou a GeoNET (Chaves, Rodri-gues e Silva, 2007) e ao PAPEL (Goncalo Oliveiraet al., 2008b).

A segunda actividade que congregou mais umavez a Linguateca toda foi, contudo, o Primeiro HA-

Caminhos percorridos no mapa da portuguesificacao: A Linguateca em perspectiva Linguamatica – 33

Page 10: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

REM, que se estendeu por quase dois anos desdeo inıcio dos preparativos ate a publicacao do livroa ele referente (Santos e Cardoso, 2007).

Outro acontecimento foi a (Primeira) Escola deVerao da Linguateca, que teve lugar no Porto emJunho de 2006, com todos os seniores (e algunsconvidados) a disseminar o conhecimento e os re-cursos produzidos.19

Ao mesmo tempo, algumas actividades eramreduzidas ou paradas: foi o caso do servicoAnELL (Mota e Moura, 2003) no polo do LabEL,que nao chegou nunca a ter uma audiencia signifi-cativa,20 e da actividade de avaliacao de traducaoautomatica iniciada no polo do Porto (veja-se San-tos, Maia e Sarmento (2004)), que foi consideradademasiado difıcil para ser continuada, com os re-cursos que tınhamos e as prioridades dos polos.Tambem a actividade de busca inteligente, plane-ada como um cruzamento entre o conhecimentode terminologia e a recolha basica de informacao,embora esbocada em Oliveira et al. (2005), nuncachegou a ser concretizada.

Outras ideias de projectos, ainda, nao chega-ram sequer a sair da fase de ideia, embora algumapublicidade lhes tivesse sido feita para obter novoscolaboradores, mas em vao: um meta-dicionario(servico na rede conjugando a consulta a muitasbases lexicais diferentes), a analise de diarios asvisitas ao sıtio da Linguateca (e nao so dos seusservicos), e interaccao com fala.

Em 2006, uma nova proposta de continuacaopos a enfase no reforco de alguns projectos commaturidade, nomeadamente o COMPARA e o HA-REM (a sua segunda edicao), cobrindo o resto dofinanciamento do programa POSC.21

3.1 Diferentes eixos

O modelo IRA (informacao, recursos e avaliacao),descrito desde o inıcio como a trilogia fundamentalda nossa actividade, foi passando a ser complemen-tado, em novas versoes da apresentacao da Lin-guateca, com novos e variados eixos, a medida quenos compenetravamos de tudo o que nos tınhamoscomprometido a (ou tınhamos vontade de) fazer.

Senao vejamos: em Santos, Cabral e Costa(2006) ao fazer um balanco de sete anos da Lin-guateca, adicionamos as seguintes vertentes: ma-nutencao de recursos, apoio, investigacao (con-

19A boa maneira da Linguateca, todo o mate-rial de ensino foi tornado publico a seguir a escola,http://www.linguateca.pt/EscolaVerao2006/.

20Contudo, pode tambem interpretar-se como nao ter sidototalmente implementado – de facto, outros servicos existempara o portugues, tais como o do VISL, http://visl.sdu.dk/,e o recente F-EXT-WS (Fernandes, Milidiu e Santos, 2009).

21Programa para a Sociedade do Conheci-mento, activo em Portugal no perıodo 2000-2008,http://www.posc.mctes.pt/.

Figura 2: Eixos da actuacao da Linguateca

substanciada nos doutoramentos e mestrados) eformacao (relacionada com os varios simposiosdoutorais e sobretudo com a (Primeira) Escola deVerao da Linguateca), veja-se a figura 2.

Ainda agora nao tenho a certeza se o avancarpor todos estes eixos foi uma boa ideia ou se re-sultou em alguma dispersao. Contudo, no ambitoda propria Linguateca, a Escola de Verao foi con-siderada por varios dos seus membros no encon-tro em Aveiro como um dos pontos altos da ac-tividade. Possivelmente o facto de ter dado ori-gem a – ou pelo menos influenciado positivamente– novas escolas ministradas em portugues: a I eII EBRalC22, respectivamente em Sao Paulo e emSao Jose do Rio Preto, e as futuras escolas queterao lugar ainda este ano de 2009, a primeira so-bre “Aspectos do PLN em portugues”, no Porto,e a III EBraLC, no Rio de Janeiro.

3.2 Formas de apresentacao ao longodo tempo

Se compararmos a apresentacao da Linguateca aolongo do tempo, vemos que a enfase em catalogar ejuntar os recursos acessıveis ate a producao de fer-ramentas, sistemas ou avaliacoes conjuntas variouclaramente.

Assim, numa leitura actual de Santos (2000),qua fazia o balanco dos dois primeiros anos de ac-tividade, o que mais se destaca e a desproporcaosobre o que, passados dez anos, fizemos em ava-liacao e o que pretendıamos ou imaginavamos po-der fazer, em que ate esta mencionada a enco-menda dessa actividades a actores fora da Lingua-teca. Assim como esta bem patente a nossa espe-ranca, depois frustrada, de incluir a fala.

Alguns pormenores interessantes mencionados,que saliento aqui, tem a ver com a preocupacaode estabelecer uma metodologia (e formacao) da

22Escola Brasileira de Linguıstica Computacional

34– Linguamatica Diana Santos

Page 11: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

citacao dos recursos criados pela Linguateca. Dadaa explosao exponencial desses e doutros corpos nopanorama do portugues, tivemos de nos render aevidencia de que era quase impossıvel controlar oudirigir a forma como nos citavam ou apresentavamexemplos de corpos.

Tambem ja nessa altura pudemos apreciar queo repositorio, ou seja, o servico que iniciamos paraque os investigadores que nao tivessem possibili-dade de o fazer tivessem uma prateleira para ex-por e disponibilizar os seus trabalhos na rede, naoparecia muito interessante para a maioria da comu-nidade. Isto ainda veio a ser mais pertinente dadoque a presenca na rede de todas as instituicoes eactores passou a ser um dado adquirido, com o quealias nos congratulamos vivamente.

Em Santos (2002b), publicado precisamente an-tes da escolha do nome Linguateca, e patente que jaentramos na espiral da avaliacao conjunta, emboraainda tivessemos a esperanca de vir a ter polos noBrasil, o que nao foi nunca possıvel por questoespolıticas completamente fora do nosso alcance.

Santos e Costa (2005), por outro lado, ao apre-sentar a Linguateca numa revista de terminologia,poe a enfase na publicitacao dos varios recursos eprojectos, constatando que, estando a infraestru-tura montada, e altura de nos dedicarmos a tarefasmais complexas, de investigacao aplicada. Essaprevisao, e sobretudo a lista de tarefas apresen-tada, inspirada pelos assuntos que, na altura, seesperava que os novos doutorandos associados sededicassem, nao veio em geral a verificar-se. Maso artigo e sintomatico da fase por que passavamos(veja-se a proxima seccao), que obrigava a que nosafirmassemos tambem como um projecto cientıficoe nao apenas de apoio e servico a comunidade. Umfoco interessante desse artigo e a descricao do le-vantamento feito na comunidade em 2002 sobre asareas em que estariam interessados na avaliacao,algo que foi realizado nessa altura mas nunca maisrepetido ou actualizado.

Santos (2007a), por seu lado, e, ate agora, otexto que melhor explica o conceito de avaliacaoconjunta, e a motivacao para a Linguateca tomar apeito a sua divulgacao e sobretudo implementacao.Embora parcial porque so se refere a essa vertente,a da avaliacao, foi escrito – em 2004, embora publi-cado em 2007 – para divulgar sem pressupor qual-quer conhecimento desse paradigma de avaliacao.E que muito brevemente exponho de novo aqui,para que os leitores possam compreender melhor assubsequentes referencias as Morfolimpıadas, CLEFe HAREM: avaliacao conjunta e a comparacao dodesempenho de varios sistemas com base numa ta-refa comum, recursos comuns, e um aproximar detodos os interessados na area para o seu desenvol-vimento e validacao.

Finalmente, o presente artigo faz de novo umbalanco, ao passar para uma nova fase: estou con-vencida de que o modelo da Linguateca tem desofrer uma revisao substancial, e que a sua praticatera de ser mudada (ou transferida, ou encerrada)com base na reflexao que espero que este artigopossa suscitar.

3.3 Formas de apoio institucional aLinguateca (ou sua falta)

Parece-me que se deveria referir que a Linguatecanao foi um projecto com um apoio estavel ou comuma garantia de continuacao sustentada se os seusresultados e o seu impacto fossem francamentebons – como alias parece ser ser impossıvel numpaıs da comunidade europeia ou da comunidadedos paıses de lıngua portuguesa.

Penso que, dado o financiamento e as restricoesrecebidas, os resultados foram bons, e a Linguatecamerecia uma garantia de continuidade, mas issonao impediu a instabilidade e a total insegurancaquanto a continuacao do projecto em quase meiadezena de ocasioes, e alias algumas interrupcoesreais de financiamento ocorridas, que nao poucasvezes foram extremamente prejudiciais para os co-laboradores mais jovens.

De facto, como todos os que lidaram de perto oumesmo de longe com a nossa actividade sabem, aLinguateca materializou-se, do ponto de vista ins-titucional, com uma sequencia sempre precaria epouco reconhecida de “medidas” in extremis e aurgente necessidade de cumprir requisitos por ve-zes contraditorios de ano para ano, a medida queas fontes de financiamento foram surgindo ou mu-dando, assim como as regras a cumprir (de formafrequentemente inexplicavel).

Se isso por um lado se deveu a diferentes go-vernos, diferentes programas quadro e a diferen-tes reorganizacoes de tudo quanto e cientıfico-tecnologico em Portugal e na Europa, extrava-sando claramente a insignificancia da Linguatecae atingindo quase certamente toda a comunidadecientıfica em todas as areas,23 por outro e precisodar a ideia a quem nao sabe que nao fomos deforma alguma melhor tratados ou financiados doque qualquer outro projecto ou grupo em Portugal.De facto, foi elevada a percentagem de bolsas, con-tratos a recibos verdes, e trabalho voluntario paraa Linguateca, assim como o expediente de conside-rar o contrato da Linguateca com o SINTEF como“investimento”, de forma a garantir uma continui-

23Isto no que se refere ao financiamento da ciencia. Noque diz respeito a lıngua ou a cultura, ou melhor quanto aCPLP (e o seu IPLP) ou ao Instituto Camoes, apesar demais de dez anos de actividade da Linguateca, ainda naofomos reconhecidos sequer com um mero atalho nos sıtiosrespectivos.

Caminhos percorridos no mapa da portuguesificacao: A Linguateca em perspectiva Linguamatica – 35

Page 12: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

dade mınima (veja-se Santos (2008b) para os dadosdeste ultimo).

Uma questao que foi discutida no Encontro dos10 anos em Aveiro, mas que continua sem re-solucao, e exactamente que criterios de avaliacaodevem ser aplicados a uma iniciativa, ou orga-nizacao virtual, como a Linguateca: que e ou foiconcebida como um projecto de infraestrutura enao como um projecto cientıfico.

Temos contudo e experiencia negativa de emvarias alturas a Linguateca ter sido avaliada (feliz-mente que positivamente) como se apenas de maisum projecto cientıfico se tratasse (com criterios denumero de publicacoes, por exemplo), o que de-monstra mais uma vez um total desconhecimentoou falta de apoio dos organismos publicos que nosencomendaram a missao.

Em Costa e Cabral (2008), foram apresentadosalguns indicadores sobre a Linguateca referentes a2008, mas o estudo da verdadeira influencia (oufalta dela) atraves de um estudo da literatura naarea e areas afins seria relevante para uma com-preensao maior das consequencias da nossa activi-dade.

3.4 O material humano associado aLinguateca

Na figura 1 apresento um quadro aproximado daligacao e trabalho efectivo dos variados membrosafectos a Linguateca e pagos para tal.

Tornando a insistir na grande precariedade emque muitos elementos participaram na Linguateca,os “meses” sao pois uma abstraccao que se referemuitas vezes ao multiplicar e somar valores de con-tratos a prazo definidos a hora.

Se por um lado os mais de trinta elementos to-dos receberam mais ou menos formacao – e pelomenos experiencia – na manutencao e disponibi-lizacao de recursos e servico continuado a comuni-dade, por outro as tarefas e as apetencias de cadaum variaram muito, conforme alias o polo em queestiveram envolvidas.

Se para alguns a Linguateca representou umacidente de percurso, estou convencida de que paramuitos o espırito da Linguateca e o que aprende-ram nela foi ou sera importante para o seu futuro,e tambem penso que muito poucos lamentam a sualigacao.

E importante contudo salientar que escolhi fa-zer uma apresentacao e balanco puramente pes-soal – e nao organizacional, como foi feito noutroscasos, por exemplo em Santos et al. (2004) – eque este artigo devera e podera ser favoravelmentecomplementado pela apreciacao que cada um dosseniores da Linguaetca, na sua versao pessoal, fazda sua pertenca ou associacao, pelo tempo que du-

Diana Santos 120Signe Oksefjell 14Paulo Rocha 72Tom Funcke 3Susana Afonso 24Miguel Oliveira 6Rachel Marchi 18Renato Haber 12Alexsandro Soares 10Rosario Silva 21Pedro Moura 12Anabela Barreiro 6Luıs Costa 57Cristina Mota 22Luıs Sarmento 37Alberto Simoes 17Luıs Miguel Cabral 40Debora Oliveira 12Susana Inacio 50Nuno Seco 10Isabel Marcelino 12Rui Vilela 26Ana Sofia Pinto 12Nuno Cardoso 38Antonio Silva 12Ana Frankenberg Garcia 7Sergio Matos 12Claudia de Freitas 18Hugo Oliveira 15Pedro Martins Sousa 15David Cruz 14Paula Carvalho 13

Tabela 1: Colaboradores da Linguateca, por or-dem de entrada (primeiro contrato), e seu contri-buto em meses de trabalho

rou (no caso daqueles que ja se retiraram), da vidado seu polo e da integracao ou nao na Linguatecacomo um todo.

Porque e preciso tambem relembrar que a Lin-guateca, mais do que a soma de todas as pessoasenvolvidas, pode ser definida, estudada e explicadacomo a soma dos polos, cada um deles envolvidoem ambientes diferentes e com objectivos ultimosdiferentes.

4 Razoes para satisfacao e orgulho

De dez anos de trabalho em prol da comuni-dade, poder-se-ao naturalmente aduzir um grandenumero de razoes para louvar e agradecer a Lin-guateca a sua actividade. Indico aqui as que, domeu ponto de vista, sao as mais interessantes, em-bora nao necessariamente as mais conhecidas.

Penso que em muitas destas coisas nos fomosate pioneiros a nıvel mundial, embora com a res-salva de que, sem a bencao da publicacao interna-

36– Linguamatica Diana Santos

Page 13: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

cional, tal nunca sera provavelmente reconhecido.

4.1 A importancia da rede

Fomos dos primeiros a medir, de uma forma mo-tivada pelo conhecimento da nossa lıngua, a di-mensao da rede (em ingles, “Web”) em portugues(Aires e Santos, 2002). Alem disso, preocupamo-nos com a recolha de informacao nesse contexto,em vez de usar coleccoes de textos jornalısticos. Aprimeira tese de doutoramento na Linguateca (Ai-res, 2005) foi pois pioneira de varias formas, e emparticular pela sua intransigencia determinada emrecusar substitutos que nao a propria rede paraestudar e para desenvolver prototipos.

Tambem ajudamos ou incentivamos os motoresde pesquisa na nossa lıngua e/ou cultura ao dis-ponibilizar, e/ou ao ajudar a criacao de coleccoesda rede disponıveis para investigacao e desenvol-vimento de sistemas para a lıngua portuguesa. AWBR-99 (Calado, 1999), a WPT-03 (Cardoso etal., 2007) e a WPT-05 sao assim recursos relevan-tes para quem quer estudar a linguagem e a mor-fologia da rede em portugues.

Alem disso temos usado cada vez mais – aolongo de uma era em que a rede cada vez maisexplode em generos e contribuicoes – material pro-veniente da vida virtual de cada um em todos osmateriais de avaliacao que temos tido a ocasiao decriar. Assim, veja-se que, se nas Morfolimpıadaso texto da rede correspondia a menos de 10%, noPrimeiro HAREM essa percentagem passou para20% e no Segundo HAREM para 85%.24

Nao foi tambem por acaso que outras teses dedoutoramento se tenham concentrado em textos narede: tanto Chaves (2008) como Cardoso (2008b),embora de forma muito diferente, lidam primor-dialmente com a informacao geografica na rede.Com se vera na seccao seguinte, tambem o sis-tema de RAP desenvolvido na Linguateca, o Es-finge (Costa, 2005), usa a redundancia da redecomo um elemento principal.

Finalmente, o proprio uso da rede como recursopara outro tipo de dados, por exemplo para a com-pilacao de corpos paralelos, tambem foi investigadopelo polo de Braga desde muito cedo, como se podeapreciar em Almeida, Simoes e Castro (2002).

4.2 Novos modelos de respostaautomatica a perguntas

Estou tambem convencida de que a Linguatecadeu uma contribuicao importante a area da res-posta automatica a perguntas, RAP – e nao so aexistencia de varios sistemas e grupos interessados

24No caso do Segundo HAREM, estou a contar apenas acoleccao dourada, visto que a coleccao do Segundo HAREMfoi obtida a partir dessa e da coleccao CHAVE. Para maispormenores, ver Santos et al. (2008).

nessa aplicacao para o portugues.Com efeito, desde 2004 que somos co-

responsaveis pela organizacao da pista de RAP doCLEF, QA@CLEF, incluindo o portugues, veja-se por exemplo Vallin et al. (2005) e Forner etal. (2009), e o que e um resultado indiscutıvel doCLEF e que ja em 2007 o portugues foi a lınguacom mais sistemas participantes de RAP.

Contudo, a Linguateca tambem foi autora deuma proposta inovadorada de RAP colaborativa(Santos e Costa, 2007); da disponibilizacao decoleccoes sintacticamente anotadas para teste etreino de sistemas de RAP (Santos e Rocha, 2005);de um sistema desenvolvido de raiz para o por-tugues em codigo aberto, o Esfinge (Costa, 2005;Costa, 2006); e duma avaliacao conjunta pioneira,o GikiP (Santos et al., 2009), seguido pelo Giki-CLEF, em progresso neste momento.25

Alem disso, embora indirectamente, esperamoscontribuir para a existencia de mais trabalhos deinvestigacao na area ao incluirmos perguntas nacoleccao do Segundo HAREM, conforme explicadoem Carvalho et al. (2008).

Ao contrario de muito do trabalho corrente emRAP, cuja preocupacao e melhorar alguns pontospercentuais no desempenho de sistemas, sem en-trar em conta com a realidade e/ou pertinenciada tarefa ou com a validade linguıstica dos mo-delos empregues (veja-se por exemplo a tarefa dedeteccao do tipo de resposta descrita em Robertse Hickl (2008)), a nossa actuacao tentou semprepautar-se por trazer a RAP para a realidade dasnecessidades do utilizador e nao de uma comuni-dade cientıfica especıfica.

4.3 Recursos realmente acessıveis

O que fizemos com o projecto AC/DC foi de factopioneiro – colocar todos os corpos que pudemosdisponibilizar acessıveis de uma maneira identica,para facilitar o seu uso e manipulacao com ummınimo (ou nenhum) conhecimento informatico(Santos e Bick, 2000; Santos e Sarmento, 2003).

Convem relembrar que na altura nao havia ne-nhum sistema de procura ou acesso a corpos emportugues, e os poucos corpos existentes eram le-vantados em conjunto (ou seja, por “download”).

Depois disso, muitas outras instituicoes – algu-mas sem sequer nos mencionar ou citar (Bacelardo Nascimento, Mendes e Pereira, 2004; Aluisio etal., 2004), outras explicitamente explicando que onosso modelo nao lhes convinha (Aluısio, Oliveira ePinheiro, 2004) – puseram os seus corpos tambemacessıveis na rede.

Outros ainda criaram novos corpos e novas in-terfaces, o Corpus Informatizado do Portugues Me-

25Veja-se http://www.linguateca.pt/GikiCLEF/.

Caminhos percorridos no mapa da portuguesificacao: A Linguateca em perspectiva Linguamatica – 37

Page 14: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

dieval (Xavier et al., 1998), o Corpus do Por-tugues (Davies e Preto-Bay, 2008), o Corpus Brasi-leiro (Berber Sardinha, Moreira Filho e Alambert,2008). De facto, podemos agora afirmar que naoexiste efectivamente falta de material anotado so-bre o portugues, embora eu ache que do ponto devista da documentacao, o material da Linguatecae ainda incomparavelmente superior – o que naosignifica que nao possa ser melhorada.26 Por outrolado, no que respeita a usabilidade e a experienciade interaccao proporcionada ao utilizador, estamosdecididamente bem atras destes tres projectos.

Nao e possıvel, naturalmente, pronunciar-mesobre se todas estas iniciativas teriam existido namesma sem a Linguateca, ou se, pelo contrario,apareceram como uma resposta, positiva ou nega-tiva, a nossa actividade.

4.4 Modelos economicos

Uma questao em que a Linguateca sempre insis-tiu foi a de nao dever haver diferenca entre usoscomerciais e usos academicos. Tal distincao foi,alias, considerada um dos principais entraves afertilizacao cruzada entre investigacao e produtoscom impacto no dia a dia.

Assim, o CETEMPublico (Rocha e Santos,2000) foi negociado com o jornal PUBLICOexactamente nessa base, assim como o PA-PEL (Goncalo Oliveira et al., 2008b) e o CLAS-SLPPE, com a Porto Editora, o foram tambem.Estes casos sao alias a prova cabal de que nao hauma distincao de mentalidades entre empresas euniversidades. De facto, e ao contrario da tese “ascompanhias privadas so querem o proveito proprio,enquanto os universitarios estao conscientes do seupapel social”, as empresas foram em geral mais re-ceptivas a disponibilizar do que muitos grupos ouinvestigadores individuais.

Talvez tambem seja de realcar que, maisuma vez ao contrario do que poderia ser espe-rado, foram sempre sistemas comerciais ou semi-comerciais que venceram as avaliacoes conjuntasque organizamos: nomeadamente o PALAVRAS(Bick, 2000), o CorTex (Aranha, 2007) e o sistemada Priberam (Amaral et al., 2008). Nao se pode,pois, partir de uma hipotese definitivamente naocorroborada para continuar a defender a excelenciaacademica por oposicao a cegueira empresarial: nocontexto da lıngua portuguesa, isto simplesmentenao e verdade.

26Veja-se por exemplo a documentacao sobre a revisao daanotacao morfossintactica da parte portuguesa do COM-PARA (Inacio e Santos, 2008), que pretende indicar todasas opcoes tomadas em algo que e obviamente nao trivial.

Tipo de texto Abs. Tam. Rel.Texto traduzido 444 723807 61,34Texto original 258 818553 31,52

Tabela 2: Diferenca entre texto original e tradu-zido no que se refere a already no COMPARA13.1.4.

Expressao Freq. absoluta Freq. relativaja 3121 2,17

ja - already 811 0,56already 916 0,59

Tabela 3: Ocorrencias de ja e de already no COM-PARA, versao 13.1.4.: a frequencia relativa e pormil palavras da lıngua respectiva

4.5 Corpos paralelos

Outra area em que a Linguateca muito fez foina disponibilizacao e divulgacao de corpos para-lelos atraves do COMPARA (Frankenberg-Garciae Santos, 2002) e, mais tarde, do CorTrad27. Queeu saiba, o COMPARA e o maior corpo paralelorevisto morfossintacticamente no mundo inteiro, etem algumas funcionalidades unicas, tal como aprocura por notas de traducao e a distribuicao cru-zada (Santos, 2002a). Alem disso tem anotacaosemantica revista (Santos, Silva e Inacio, 2008),algo que tambem e raro, senao unico, em corposparalelos.

Ainda podemos salientar o facto de uma dasprimeiras analises quantitativas da interaccao dosutilizadores com um corpo paralelo ter sido feita noCOMPARA (Santos e Frankenberg-Garcia, 2007).

Contudo, um erro cometido no ambito doCOMPARA foi a dependencia demasiada emrelacao a autorizacoes demasiado especıficas de al-gumas editoras, o que implica (ou implicara, numfuturo proximo, dependente de cada autorizacao)o retirar dos pares de textos respectivos do acessopublico. E minha conviccao agora que nao de-verıamos ter investido tanto trabalho (de revisao eanotacao) em textos que teriam uma vida publicabreve.

De qualquer maneira, noto que o DISPARA fa-cilitou enormemente a obtencao de dados e de pes-quisas num corpo paralelo: por exemplo, para ob-ter a informacao de que already e mais frequenteem texto traduzido do que em texto original (vertabela 2), ou de que ja corresponde mais a alreadydo que already a ja (ver tabela 3), tabelas labori-osamente obtidas durante o meu doutoramento, ereferidas entre outros em Santos (1995) ou Santos(2008c), basta um simples comando no DISPARA.

27O CorTrad e um subprojecto do projeto COMET - Cor-pus Multilıngue para Ensino e Traducao, da Universidade deSao Paulo, cuja disponibilizacao e feita atraves do sistemaDISPARA, em parceria com a Linguateca e o NILC.

38– Linguamatica Diana Santos

Page 15: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

4.6 Analise gramatical

Outro dos pressupostos cientıficos da Linguateca,que pensamos ter sido completamente demons-trado, foi a inutilidade, e mesmo prejuızo, defocar em “POS tagging” (anotacao da categoriagramatical em contexto) em vez de tentar umaanalise sintactica mais complexa. Como defen-dido em Santos (1999c), essa aplicacao e boa parao ingles, mas pouco apropriada para lınguas que,como o portugues, tem mais de setenta formas ver-bais diferentes, alem de um sistema complexo deenclıticos e mesoclıticos. Claramente a enfase noque e problematico (e facil) na nossa lıngua e maisutil do que a importacao acrıtica de modelos cria-dos para lınguas diferentes.

E certo que o facto de termos um polo emOdense levou a que a Linguateca favorecesse,no sentido de publicitasse, o PALAVRAS (Bick,2000), mas nao so e preciso indicar que isso se de-veu ao desejo de Eckhard Bick colaborar com aLinguateca (uma colaboracao que se afigurou van-tajosa para ambas as partes), como nao houve nemha nenhum outro sistema de analise gramaticalcomparavel para o portugues, pelo menos de queeu tenha conhecimento. Por essa razao, existe decerta forma um monopolio do PALAVRAS para oprocessamento da lıngua portuguesa.28

Contudo, penso dever salientar que a Lingua-teca contribuiu para melhorar o PALAVRAS devarias formas distintas e nao insignificantes: Porum lado, ao ter entrado em varios projectos con-juntos que incluıam o VISL, em particular a Flo-resta Sinta(c)tica (Afonso et al., 2001; Bick et al.,2007; Freitas, Rocha e Bick, 2008a), em que umdos objectivos principais era mesmo a melhoriado analisador sintactico e das suas bases teoricaspara a descricao do portugues real (ao congregaruma equipa de linguistas debrucada sobre os maisınfimos pormenores), veja-se a seccao 4.8. Poroutro lado, a colaboracao e uso do PALAVRASem outros projectos, nomeadamente o AC/DC, oCOMPARA, o Esfinge29 e o CorTrad, levou a quefossem sendo enviados ao longo do tempo extensosrelatorios de problemas ou de sugestoes relativas aanalise sintactica computacional em portugues.

Saliente-se tambem que os corpos anotados noambito da Floresta e do AC/DC estao acessıveispublicamente (nos casos em que os detentores domaterial no-lo permitiram), assim como o servicoSketchEngine30 (Kilgarriff et al., 2005), que pro-

28Esse “monopolio” nao e, contudo, obra da Linguateca:o PALAVRAS tem sido empregue por quase todos os gruposde PLN no Brasil ou Portugal, sem qualquer relacao com anossa actividade.

29Neste ultimo caso, o PALAVRAS e usado apenas paraa parte da referencia anaforica, ver Cabral, Costa e Santos(2007).

30http://www.sketchengine.co.uk/

duz uma descricao automatica das propriedadesgramaticais e contextuais das palavras para efei-tos lexicograficos, e gratis para o portugues – eso para o portugues – porque baseado nos corposanotados da Linguateca.31

Esses corpos anotados deram alias origem pelomenos a um analisador estatıstico publico para oportugues (Wing e Baldrige, 2006).

Outro lado da nossa aposta na anotacao grama-tical foram as varias tentativas de discutir e/ou decentrar a atencao em muitos aspectos da analise dalıngua portuguesa ainda pouco explorados, ilustra-dos por Santos e Gasperin (2002), Afonso (2003),Santos (2004), Afonso (2004) ou Inacio, Santos eSilva (2008).

Refiram-se tambem as varias accoes pe-dagogicas e de explicacao dos varios conceitos en-volvidos, que foram realizadas em varias ocasioes(Santos, 2006a; Santos, 2008a) alem da constanteajuda aos utilizadores dos varios projectos envol-vendo anotacao gramatical.32

Finalmente, a nossa “Bıblia florestal” (Freitas eAfonso, 2008) nao pode deixar de ser referida comoum dos trabalhos mais extensos e completos, ba-seados em texto, criados nos ultimos tempos sobrea analise sintactica do portugues, e cobrindo, alemdisso, as duas variantes da lıngua.

4.7 Avaliacao conjunta

Quanto a avaliacao conjunta, foi a area em quedecididamente houve mais progresso no processa-mento computacional da lıngua portuguesa nestesdez anos:

Passamos de uma total ausencia e desconheci-mento desse paradigma ate a implantacao forte domodelo em (quase) toda a comunidade, e com oconsequente reconhecimento da necessidade e uti-lidade de novas iniciativas.

Para isso a Linguateca foi absolutamente funda-mental, desde a formacao e divulgacao ate a con-cepcao de iniciativas de reconhecido valor interna-cional e com pressupostos originais e unicos.

Visto que temos um livro expressamente dedi-31Pelo menos foi essa a combinacao feita com Adam Kil-

garriff e Eckhard Bick quando nos foi pedida autorizacaopara usar o CETEMPublico e o CETENFolha. Nao mepronuncio aqui sobre novas licencas e/ou formas de acedera esse servico que nao incluam nem sejam baseadas em ma-terial da Linguateca, mas insisto em que a Linguateca naotem quaisquer objeccoes a que o material por nos criado sejausado por empresas ou para fins comerciais.

32Esta e uma actividade que e de certa forma invisıvel, anao ser para aqueles que a recebem directamente, mas quepode corresponder a uma diferenca significativa em termosda utilidade para o exterior dos corpos e recursos disponi-bilizados. Pensamos que esta caracterıstica e especial daLinguateca, e que tal nao acontece com a maior parte dosoutros recursos ou servicos na rede, embora nao tenhamos,naturalmente, dados objectivos para o afirmar.

Caminhos percorridos no mapa da portuguesificacao: A Linguateca em perspectiva Linguamatica – 39

Page 16: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

cado a esse paradigma (e incluindo os participantesnas Morfolimpıadas) (Santos, 2007b), assim comodois outros livros referentes as duas edicoes do HA-REM, Santos e Cardoso (2007) e Mota e Santos(2008), nao me nos vou alongar aqui.

Gostava contudo de salientar tres tracos impor-tantes desta actividade que nem sempre sao obviospara quem esta de fora:

• a criacao e disponibilizacao publica de ferra-mentas e servicos de avaliacao (Seco et al.,2006; Goncalo Oliveira et al., 2008a; Cardoso,2008a);

• a documentacao e reflexao sobre os recursos,tambem publicos, de avaliacao (Santos e Bar-reiro, 2004; Barreiro e Afonso, 2007; Cardosoe Santos, 2007);

• a congregacao de comunidades ate aı inexis-tentes mas que se dedicam a uma mesma ta-refa (Santos, 2007a).

Alem disso, convem tambem apontar que o ReRe-lEM (Freitas et al., 2008; Freitas et al., 2009), atarefa de deteccao de relacoes entre entidades men-cionadas proposta no Segundo HAREM, ao conse-guir um cruzamento entre a deteccao automaticade referencia anaforica, tal como por exemplo ana-lisada pelo MUC (Chinchor e Robinson, 1998)ou pelo ARE (Orasan et al., 2008) e a deteccaode relacoes em texto tıpica da extraccao de in-formacao constitui um desafio original, emboracom parecencas com o ACE (NIST e ACE, 2007),que coloca o portugues entre as lınguas que des-bravam o processamento da linguagem natural.

4.8 A floresta mais complexa domundo?

Embora a Floresta Sinta(c)tica nao tenha tido osucesso ou impacto – em termos de utilizadores –que esperaria, penso que foi um projecto inovadore de grande qualidade que possivelmente criou umadas primeiras florestas com informacao sintacticacomplexa para qualquer lıngua.

Porque este me parece um caso paradigmaticode falta de impacto na comunidade apesar de umesforco consideravel para o contrario, refiro que aequipa tentou “tudo” para congregar o maximo deactores a volta dela, senao vejamos: i) apelamosruidosamente no inıcio do desenvolvimento da Flo-resta para que fosse um projecto de colaboracaoentre toda a comunidade, a quem pedıamos parasugerir e prover novos textos e novos analisado-res automaticos; ii) temos feito ao longo dos tem-pos sempre muita divulgacao em departamentosde linguıstica e de computacao no Brasil e emPortugal; iii) temos insistido em que se pode ob-ter dados mais simples (tal como sintagmas no-

minais nao complexos) para (avaliar) tarefas queapenas precisem de analise superficial; iv) a Flo-resta existe numa quase dezena de formatos dife-rentes “ao gosto do fregues” (Vilela et al., 2005), ecom variada informacao, semantica, anaforica, dediscurso, etc. (criada pelo VISL), (v) finalmente,esta integrada em diversos ambientes de processa-mento internacionais, tal como o NLP toolkit33,assim como foi usada em avaliacoes conjuntas in-ternacionais, como o CoNLL.

Muitas das opcoes tomadas e das ferramentasdesenvolvidas no ambito da Floresta tambem meparece terem sido originais: Por exemplo, o Pica-pau (Haber, 2001) esta bem a frente dos sistemasdesenvolvidos para lidar com florestas, como aliasse ve pela resenha e descricao feita em Lai e Bird(2004), que infelizmente tambem nao menciona oAguia (Santos, 2003b).34

Convem reflectir sobre a Floresta Sinta(c)tica esobre a pertinencia da sua criacao: O que e certo eque existe um recurso, por enquanto muito poucoexplorado, mas que permite uma enorme riquezade estudos e pesquisas ainda por estabelecer. Aque ponto e que tal riqueza seria necessaria em2000 (ou agora)? Deverıamos antes ter comecadopelas coisas mais simples? Isto e algo que tem sidobastante discutido pela comunidade que nos cerca.

A minha opiniao e que teria sido redutor naotentar ambos os caminhos, apostando assim no ser-vir o maximo de publico e de colaboradores interes-sados, embora nao desprezando outras formas deproduzir recursos menos ambiciosos. Veja-se umadiscussao inicial sobre o assunto em Inacio e Santos(2006), contrastando a revisao do COMPARA coma criacao da Floresta. Para outras achegas para odebate em torno da Floresta consulte-se as apre-sentacoes de balanco no Encontro “Um Passeio naFloresta Sintactica”, e os novos rumos e interfacesdo projecto (Freitas, 2008; Freitas, Rocha e Bick,2008b).

4.9 Publicar e catalogar em portugues

Uma das questoes mais obvias que se nos deparouno nosso trabalho interno de todos os dias foi afalta de qualidade dos sistemas de gestao de re-ferencias “internacionais” para lidarem com os fa-lantes, e autores, de lıngua portuguesa, o que levoua que acabassemos por ter de gizar de raiz um sis-tema para garantir esse (algum) controlo de quali-dade, o SUPeRB (Cabral, 2007; Cabral, Santos eCosta, 2008).

Em paralelo, a nossa experiencia convenceu-nos

33http://www.nltk.org/34E que, como alias voltarei ao assunto mais a frente,

na minha opiniao tambem existe, na comunidade de lınguainglesa, o preconceito de que “o que nao esta ainda feitopara o ingles, nao existe”, mesmo que publicado em ingles.

40– Linguamatica Diana Santos

Page 17: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

tambem de que a actualizacao manual de um sıtio,sem ajuda automatica, e muito pouco eficiente epossivelmente condenada ao insucesso (veja-se, porexemplo, a discussao em Pekar e Evans (2007) so-bre os catalogos na rede), e que o ideal sao siste-mas supervisionados em que o processamento au-tomatico e depois validado por especialistas: aliasuma opcao que nos parece fazer sentido em quasetodas as areas de PLN.

Assim, ao mesmo tempo que tentavamos aplicara tecnologia e o conhecimento do processamentoda nossa lıngua na nossa actividade quotidiana,nomeadamente na catalogacao (das publicacoes)da area, desenvolvemos um servico e um sistemaque poderia extravasar claramente a area da enge-nharia da linguagem e ser utilizado por todos osmembros da comunidade cientıfica lusofalante, ouseja, um SUPeRBibliotecario desenvolvido de raizpara o portugues mas com consciencia e conheci-mento do mundo da publicacao em ingles e noutraslınguas (por agora, apenas europeias).

Este sistema, alem de ser subjacente ao catalogode publicacoes da Linguateca (na area), e as vari-adas paginas de publicacoes de cada subprojecto(criadas automaticamente), foi usado no desen-volvimento e preparacao dos varios livros e ar-tigos desenvolvidos na Linguateca, e encontra-se,quer como servico, quer como programa em codigoaberto, acessıvel publicamente.

4.10 A contribuicao dasMorfolimpıadas

Parece-me importante retirar do esquecimento asPrimeiras Morfolimpıadas para o portugues, por-que, embora nao tenha havido seguimento nemaparentemente resultados baseados em estudos so-bre os recursos tornados acessıveis, varias coisasficaram claras:

Por um lado, a existencia de fortes divergenciasteoricas e de diferente importancia dada a diferen-tes fenomenos entre grupos que desenvolveram oudesenvolviam sistemas de analise morfologica.

Por outro lado, uma medicao concreta – e extre-mamente significativa – das diferencas em relacaoa atomizacao praticada por cada grupo (Santos,Costa e Rocha, 2003).

Mais uma vez penso que estas medidas foramas primeiras para qualquer lıngua, embora natural-mente outras medidas e outros problemas tivessemsido privilegiados para o alemao (Hausser, 1996), alıngua em que a primeira avaliacao conjunta relaci-onada com morfologia computacional foi levada acabo. Basta, contudo, reconhecer que esta ultimalıngua tem o problema dos compostos para se com-preender que outras questoes e outras medidas fa-zem sentido nas duas lınguas.

Finalmente, parece-me que tambem ficou claro

que, por ser uma tarefa demasiado teorica, ouseja, dependente de uma separacao arbitraria en-tre nıveis ou estratos de lıngua, muitas das opcoesficaram por avaliar, visto que nao se encontravaminseridas numa tarefa concreta com resultados con-sensuais, independentes do modelo teorico.

5 Razoes para preocupacao

Nao gostava contudo de terminar este balanco semindicar que tambem houve muita coisa que correumal, ou que poderia ter corrido melhor. Apresentoaqui estes variados pontos para ajudar a fazer naoso uma apreciacao justa da nossa actividade, comopara permitir a outros ou a nos, a comecar de novo,nao cometer os mesmos erros ou pelo menos terlogo em conta os riscos apontados.

Os quatro primeiros itens tem a ver com aaceitacao ou relacao da Linguateca com o seucontexto, e podem pois considerar-se do foro so-ciologico. O quinto ponto refere crıticas que nosforam feitas e com que concordo total ou parci-almente, ou que pelo menos considero importantereconhecer a sua existencia. Os ultimos pontosdiscutem questoes reconhecidamente difıceis mascom cujo tratamento nao me considero, de qual-quer maneira, totalmente satisfeita.

5.1 Pouco impacto

Atingimos muito poucas pessoas das que po-derıamos ter atingido. A grande maioria das pes-soas relacionadas com a lıngua portuguesa ou coma cultura portuguesa nunca ouviu falar da Lingua-teca. Isso reflecte-se tanto em alunos de doutora-mento em Portugal e Brasil como em pesquisado-res brasileiros ou portugueses em areas centrais ouproximas. Ainda agora nos aparecem pessoas que“encontraram o nosso sıtio por acaso”.

Se isso de certa forma constituiu uma escolhanossa, por termos definido como base de utiliza-dores (e beneficiarios) as pessoas que trabalhavamem ou com o processamento do portugues (ou seja,a area do PLN, da engenharia da linguagem ou dalinguıstica computacional), e nao com a area dalıngua portuguesa em geral, parece-nos de qual-quer maneira que o nosso impacto (e consequenteutilidade) deveria ter sido maior.

Da mesma forma, em areas em que a nossa ac-tividade poderia ter abrangido muito mais gente,como e o caso da publicacao cientıfica em geral,e em particular a criacao de listas bibliograficasem portugues ou incluindo correctamente auto-res de lıngua materna portuguesa, aparentementeninguem sabe que fizemos algo que lhes pode serutil, e que esta publico. Daı existirem muitos evariados projectos e iniciativas, ate de criar bibli-ografias relacionadas com a area (por exemplo delinguıstica), que poderiam beneficiar de interaccao,

Caminhos percorridos no mapa da portuguesificacao: A Linguateca em perspectiva Linguamatica – 41

Page 18: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

colaboracao e troca de dados e das proprias ferra-mentas desenvolvidas, mas que nao utilizam aquiloque oferecemos ou poderıamos oferecer.35

Isto demonstra que a colaboracao com outrasinstituicoes e o reuso de materiais ou trabalho feitopor um dado projecto e algo muito mais complexoe exige muito mais atencao do que ingenuamentesupusemos.

5.2 Pouco reconhecimento

Uma questao que esta relacionada com o poucoimpacto e que talvez contribua para ele mesmo ea falta de reconhecimento publico aos servicos ourecursos desenvolvidos ou providenciados pela Lin-guateca.

Penso que nao e exagero dizer que mesmo aspessoas que tem bom conhecimento da Linguatecanao fazem em geral qualquer esforco para a citarcomo deve ser, pese embora a nossa continuada in-sistencia em providenciar modelos e ate explicita-mente indicar como os recursos ou o nosso trabalhodevem ser citados. De facto, temos na lista de per-guntas ja respondidas a informacao de como citarcada recurso, assim como muitas vezes na propriapagina do dito recurso. No entanto, a maior partedas pessoas, se citam, dizem simplesmente “o cor-pus do Publico” (ou “da Folha”) ou ate os “corposda Linguateca”.

Mesmo as pessoas dentro da Linguateca de-monstram o espırito “fora e melhor”, porqueda publicacao internacional, como se pode verpela apresentacao do Mario J. Silva no encontroque fez um balanco da Linguateca passados dezanos (Silva, 2008b). Segundo ele, o trabalho feitopela Linguateca no CLEF foi muito mais util e im-portante que o por exemplo do HAREM, mesmoque a participacao de grupos de processamentoda lıngua portuguesa tenha sido mais reduzida36

e a influencia e qualidade do trabalho feito emrelacao ao portugues seja incomparavelmente me-nor37, dado que a exposicao internacional e muitosuperior no primeiro.

Mas, se esse espırito continua na comunidade doprocessamento do portugues, por definicao impedeque o portugues atinja a maioridade cientıfica, oque era exactamente uma das intencoes da Lin-guateca: demonstrar que, para o processamento

35Veja-se a tıtulo de exemplo a Bibliografia Correntede Linguıstica do Portugues, http://dupond.ci.uc.pt/celga/,com apenas dezassete entradas de linguıstica computacionalem Abril de 2009.

36Na pista geral do CLEF e no GeoCLEF, em cinco anose portanto cinco edicoes participaram apenas quatro gru-pos diferentes, brasileiros ou portugueses, entre os mais dequarenta. No HAREM participaram vinte em duas edicoes.

37Como pode ser facilmente apreciado, sendo precisodiscutir e chegar a consenso com uma mirıade de co-organizadores encarregados das outras lınguas.

da lıngua portuguesa, os proprios membros da co-munidade que conheciam a lıngua como sua lınguamaterna eram naturalmente os melhores para essatarefa.

De facto, a questao do portugues na comuni-dade internacional e de alguma forma interessanteproblematizar: nao so considero (Santos, 2007c)bastante pernicioso para o proprio PLN em geral,como disciplina que nao haja investigacao feita denovo para outras lınguas – em particular a nossa –como e muito mais facil publicar dados empıricoserrados ou mal interpretados quando a comissaode programa nao percebe a lıngua. Alem disso,convem nao esquecer que a maioria dos nossos co-legas anglofalantes tem arreigada uma concepcaocompletamente errada, na minha opinao, da area,e que se traduz no seguinte: “todas as inovacoescomecam no ingles”, donde a historia da area faz-se com base sempre, ou quase sempre, na historiada cultura anglo-americana.

No entanto, se os portugueses e brasileiros con-tinuarem sem citar nem mencionar os seus paresna comunidade do processamento do portugues, ese projectos como a Linguateca nao receberem amencao que deveriam ao ter contribuıdo para o tra-balho descrito, esta-se a perpetuar essa percepcaona comunidade internacional, e na da lıngua por-tuguesa.

5.3 Falta de confianca?

Embora a Linguateca tenha dito desde o primeirodia que queria servir a comunidade, a nossa ofertade disponibilizar os corpos de outras instituicoesfoi recebida com desconfianca (quase) total, e es-sas instituicoes foram desenvolver e criar as suasproprias solucoes (com o seu proprio financiamentoou com financiamento publico), o que teria sidomuito mais bem empregue em parceria connoscoem vez de contra nos.

Com efeito, nos oferecemo-nos para disponi-bilizar todos os corpos de portugues existentes(atraves do projecto AC/DC). Contudo, muitosprojectos para fazer exactamente isso foram ini-ciados e levados a cabo depois. Dado que nos ofe-recıamos a tecnologia e o nosso saber-fazer, e mui-tas dessas instituicoes ate eram academicas e naoespecialmente interessadas em tecnologia ou dis-ponibilizacao, e difıcil compreender a rejeicao, ouignorancia voluntaria, dessa oferta.

Outra dessas manifestacoes e a procura de umadada ferramenta e/ou servico, que depois, ao des-cobrirem que nao existe para a lıngua portuguesa,ou pelo menos nao na Linguateca, acaba numa pro-posta de projecto que, regra geral, nao inclui comocolaboracao ou parceria, ou sequer consultoria, aLinguateca.

Nao seria melhor para todos se tambem se acon-

42– Linguamatica Diana Santos

Page 19: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

selhassem, ou perguntassem a nossa opiniao sobreuma possıvel colaboracao ou participacao no dese-nho dos requisitos, em vez de apenas nos utilizaremcomo bibliotecarios especializados? Mais uma vez,penso que essa forma de proceder nao e a melhorpara a comunidade como um todo, porque da prio-ridade aos interesses especıficos de um dado grupo.

Outra possibilidade aventada para explicar estecomportamento e a questao do protagonismo. Emelhor fazer as coisas sozinho, para receber todosos louros, e o reconhecimento de ser primeiro ouoriginal, do que em colaboracao com outros, aliasporque o financiamento e por competicao.

De facto, uma das coisas que se tornou maisclara para mim e que muitas pessoas preferem in-dependencia a colaboracao, e que nao sao movidaspor um desejo de avancar a area como um todo,mas sim de se tornarem os lıderes incontestadosnum determinado nicho ou sub-area.

Sera preciso reflectir se esta atitude e saudavelou se e preciso reforcar a interdependencia ou, pelocontrario, proceder a uma distribuicao de feudospor diferentes actores para estimular o progresso.

De qualquer forma, a unica afirmacao que e in-discutıvel e que, mesmo sempre nos apresentandocomo um servico, muitos houve que nao quiserampartilhar a fama ou os trabalhos connosco.

Outra questao que e preciso mencionar e que ede grande importancia tem a ver com o facto de aLinguateca ter sido um projecto iniciado por Por-tugal e de nunca se ter conseguido (ainda?) porde pe os mecanismos formais para criar polos noBrasil, assim como uma estrutura paralela ou ge-minada. Isto faz ou fez com que de facto seja muitomais difıcil estabelecer projectos comuns com gru-pos brasileiros e/ou sobretudo obter financiamentopara tal.

Ora exactamente para aproveitar o facto deque em portugues nos entendemos seria essencialpromover um apoio, por exemplo, a participacaoem avaliacoes conjuntas especialmente promovidaspara estimular o progresso do processamento doportugues, assim como a realizacao e promocao deforuns, conferencias, encontros, escolas, em por-tugues para discutir a lıngua e o seu processa-mento.

5.4 Livros difıceis de obter?

Um dos resultados mais facil de medir objectiva-mente e a actividade de organizacao de livros noambito da Linguateca: quatro livros distintos so-bre a actividade da Linguateca vieram a luz (San-tos, 2007b; Santos e Cardoso, 2007; Costa, Santose Cardoso, 2008; Mota e Santos, 2008).38

38Outros livros tambem organizados parcialmente noambito da Linguateca foram Almeida (2003) e Peters et al.

Mas, alem de tal actividade se ter demonstradomuito complexa, tenho fortes duvidas de que osresultados sejam positivos no computo geral: Comefeito, o objectivo de organizarmos nos proprios oslivros e podermos ter o controlo total da qualidade,e alias dos assuntos tratados. No entanto, se es-ses livros nao receberem um canal de publicacaoapropriado e nao forem portanto passıveis da di-vulgacao por nos desejada, nao cumprirao o seuobjectivo.

Em relacao ao primeiro livro, nao so se revelouum processo complicadıssimo obter uma saıda edi-torial (atrasando mais de tres anos a distribuicaodo seu conteudo), como a opcao por uma editoracomercial impediu a facil divulgacao dos textos.No segundo e terceiro casos, a opcao de publicardirectamente na rede, embora resultando numa di-vulgacao muito mais rapida, diminuiu claramenteo valor cientıfico-comercial do produto, e possivel-mente mesmo a sua longevidade.

Neste momento, dado que nenhuma alternativaparece ser realmente satisfatoria, ainda nos encon-tramos num processo de reflexao no que se referea publicacao da quarta obra.

5.5 Crıticas variadas

Nao posso naturalmente deixar de reconhecer quemuitas das crıticas que nos foram feitas, alias porocasiao do balanco dos dez anos, sao justas e me-recem que as reconhecamos como pontos em quefalhamos.

5.5.1 Egocentrismo institucionalUma das missoes da Linguateca era a de catalo-gar a area, construindo um portal de entrada paratudo o que existisse na rede e pudesse ser util aoprocessamento computacional do portugues.

Contudo, e facil de ver que o nosso sıtio (doqual se apresenta um ecra na figura 3) esta muitomais centrado na nossa actividade do que na da ca-talogacao (Nunes, 2008). Com efeito, ao lado doscatalogos de recursos, ferramentas, actores e pu-blicacoes, que reflectem ou deviam reflectir a areacomo um todo, temos muitıssimas outras opcoespara seduzir o visitante incauto ou interessado, quenao va ja com um objectivo determinado.

Em primeiro lugar, damos “Acesso a recursos”da Linguateca primeiro que ao catalogo em ge-ral, “Catalogo de recursos”, e iniciamos a lista deopcoes no menu da esquerda pela pouca modestaapresentacao (da Linguateca); depois juntamos,alem dos catalogos e de informacao interessante,a rubrica “Avaliacao conjunta” em que tambemtivemos um papel fundamental.

Em segundo lugar, os itens “sistemas de pro-cura” e “perguntas ja respondidas”, que sao uti-

(2008).

Caminhos percorridos no mapa da portuguesificacao: A Linguateca em perspectiva Linguamatica – 43

Page 20: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

Figura 3: Ecra da pagina de entrada da Linguateca

litarios associados ao sıtio da Linguateca (cujo de-senho nao e obvio) pendem claramente para o ladoda Linguateca e nao da area em geral. Ou seja, asperguntas sao exclusivamente sobre a Linguatecae os seus recursos, e os sistemas de procura temcomo universo (ou base) todas as paginas apon-tadas pelo sıtio da Linguateca mais as propriaspaginas criadas por nos, o que significa, por de-finicao, que incluem muito mais informacao sobrea Linguateca do que sobre qualquer outro projectona area.

Por um lado, isto pode compreender-se dadoque e assim que funcionam todos os sistemas debusca locais (quem quer procurar de forma glo-bal e nao local, usaria os motores gerais), mas,por outro lado, o objectivo de criar um sistema debusca na area, melhor do que os outros para estaarea especıfica, porque informado por mais conhe-cimento, claramente falhou redondamente. Naopor desıgnio propositado, mas por o trabalho nessaferramenta ter sido sempre preterido em relacao aoutros que pareciam mais urgentes ou que tinhamutilizadores mais exigentes.

Provavelmente, este e um caso ovo-galinhaclassico: nunca tivemos um sistema suficiente-mente bom para motivar utilizadores, donde estesnunca puxaram por nos, e por isso o sistema nunca

foi desenvolvido como deveria.Neste caso, a decisao e planeamento de quais as

prioridades levou a que esse caminho ficasse atrofi-ado, muito embora a Linguateca ate tenha abertoum polo no grupo especializado nessa area em Por-tugal, o XLDB.

Voltando ao ponto de partida, e verdade que osıtio da Linguateca nao se conseguiu impor comoum catalogo actualizado, dinamico e interessantepara a area. Pelo contrario, a grande maioria dosnossos visitantes foram utilizadores dos recursosque criamos ou participantes nas actividades queorganizamos.

Talvez tambem associado a esta questao,rarıssimos foram os membros da comunidade quenos contactaram para incluirmos os seus recursosou projectos no nosso sıtio.

5.5.2 Falta de directivas

Embora tenhamos ganho muita experiencia ao fa-zer e organizar avaliacoes conjuntas, medicoes dearea e panoramicas, nao propagamos suficiente-mente (ou nada) como e que isso se deve fazer,como referido por Ferreira e Teixeira (2008).

Tal neste caso foi inocentemente motivado porimaginarmos que a Linguateca seria sempre onucleo dessa organizacao, que grupos individuais

44– Linguamatica Diana Santos

Page 21: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

nao se sentissem com motivacao para levar aosombros esse tipo de tarefa. Mas fica a chamadade atencao de que seria interessante tentar ensinarcomo fazer – refira-se que em Ferreira et al. (2009)ja os mesmos autores demonstram a vantagem deo fazer no domınio da medicina.

5.5.3 Falta de ligacao a comunidadeempresarial

Outra crıtica que nos foi feita, de formas variadas,foi que a Linguateca nao olhou especialmente nemdedicou nenhuma vertente aos actores comerciais:assim, nao so nao nos preocupamos em ganhar di-nheiro nem ajudar outros que connosco colaboras-sem a ganha-lo, ou que quisessem colaborar con-nosco se nos os ajudassemos a ganhar dinheiro.

Embora eu nao tenha a certeza de que concordeque isto deva ser visto como crıtica – e de facto otestemunho de Braga e Dias (2008) pareca indicarque fomos, seja como for, uteis para algumas em-presas, reconheco que e profundamente verdade.

Nos nao dedicamos atencao diferente a nenhumtipo de actor e assumimos que a nossa actividadeseria benefica para todos por igual. Esta questaomerece ser equacionada a luz destas crıticas ou ob-servacoes:

Seria aceitavel ou (mais) produtivo se algumaactividade da Linguateca fosse dirigida (e mesmopaga) por actores comerciais, como aventado porDaniela Braga no encontro em Aveiro?

Seria natural transformar a Linguateca numaincubadora de empresas cujo objectivo seria ren-tabilizar e disseminar recursos publicos, como pro-posto por Anabela Barreiro no mesmo encontro?

Ficam as perguntas, e o repto de que essesmodelos teriam de ser propostos e equacionadostambem por esses mesmos actores.

Alias, e dada a (na minha opiniao, triste) con-versao progressiva das proprias universidades emmaquinas de ganhar dinheiro, esta questao podeser expandida a todos os modelos de colaboracaocom instituicoes no futuro.

O que nao me parece fazer sentido, e proporque a Linguateca seja ela transformada numa ac-tividade lucrativa.

5.6 Ferramentas em codigo aberto

Voltando a carregar na tecla “Casa de ferreiro, es-peto de pau”, o facto de o primeiro polo da Lingua-teca em Portugal, o de Braga, ser especialista emcodigo aberto e na disponibilizacao desse tipo deferramentas nao foi suficiente para conseguir quea Linguateca tivesse uma actividade consequente,profissional e de impacto profundo, quer na ditacomunidade, quer em geral.

Com efeito, embora todo o codigo que tenhamoscriado tenha vindo, melhor ou pior, a ser disponibi-

lizado publicamente (o que nao significa que tenhasido usado ou disseminado como deve ser), toda acultura de desenvolvimento de codigo aberto naofoi aproveitada, nem nos aproveitamos as possibi-lidades que terıamos de teste aos programas pelacomunidade.

Por um lado, isso deveu-se ou deve-se a grandequantidade de linguagens de programacao e am-bientes usados, donde qualquer opcao ou escolhanossa iria apenas satisfazer (ou melhor, apenas sa-tisfez) um fragmento ou fraccao da comunidade.39

Por outro lado, tivemos muitas vezes a im-pressao de que a maioria dos membros da comu-nidade preferiam obter programas a funcionar (enesse caso como servicos na rede) do que estar aprogramar ou mexer em codigo de outrem. Os ver-dadeiros programadores, por outro lado, nao ab-dicavam de programar tudo outra vez (de raiz) eestavam mais interessados em recursos ou ideias.

De qualquer maneira, temos de dar a mao apalmatoria e confirmar que nao conseguimos, nes-tes dez anos de actividade, produzir sistemas com-putacionais que fossem usados e manipulados poruma faixa grande de membros da nossa comuni-dade. Conseguimos isso em relacao aos recursos,mas nao a programas informaticos.

Embora tambem o NLP registry40 seja um casodesses que parece nao ter conseguido descolar41, eque a maior parte dos programas de codigo aberto,mesmo no SourceForge, nao tem sucesso (Fei-telson, Heller e Schach, 2006), nos estamos cla-ramente conscientes de que nos faltou uma es-trategia nesse aspecto, assim como uma actividadede producao e manutencao dos sistemas ja dispo-nibilizados.42 De facto, tal questao ja tinha sidoabordada criticamente em Santos (2000), mas naofoi por isso resolvida.

Alguns exemplos de ma pratica:O atomizador da Linguateca foi distribuıdo

como um modulo do PLNbase pelo AlbertoSimoes, a cavalo noutro atomizador por ele de-senvolvido (mas sem qualquer informacao sobre asdiferencas entre os dois). A primeira edicao doatomizador e separador de frases foi publicada em2004; desde essa altura e embora na Linguatecaproblemas pontuais e pequenas melhorias tenham

39A tıtulo anedotico, refira-se que, so dentro do ambito daLinguateca, tem sido desenvolvidos e tornados publicos pro-gramas nas seguintes e diversas linguagens de programacao:Perl, Java, PHP, C, R, Lisp, awk, Groovy e JavaScript.

40http://registry.dfki.de/41Embora ja na sua quarta versao, contem pouquıssimas

entradas, e em muitas delas a informacao sobre disponibili-dade e simplesmente: “to negotiate”.

42Tanto o catalogo de ferramentas, como o Jardim de Fer-ramentas, nunca tiveram de facto cobertura, publicidade eatencao suficientes para se tornarem eles proprios ferramen-tas uteis.

Caminhos percorridos no mapa da portuguesificacao: A Linguateca em perspectiva Linguamatica – 45

Page 22: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

continuado a ser efectuadas, tal nunca (ate agora)foi reflectido na versao publica.43

O Corpografo foi disponibilizado em codigoaberto antes de ser instalado em Barcelona,44 maso codigo ainda estava cheio de problemas e dequestoes nao resolvidas, e so em fins de 2008 umanova versao mais estavel foi colocada ao dispor dacomunidade. Este exemplo demonstra o que e bemsabido por todos os produtores comerciais: as ve-zes e preciso publicar ou por nas bancas um pro-duto por razoes que nao sao a de estar perfeitoou acabado. No nosso caso, foi para garantir queo produto seria tratado como codigo aberto pelainstituicao na qual foi instalado.

O codigo do Esfinge tambem foi disponibili-zado desde 2006, veja-se Costa (2007), mas sema garantia que as novas versoes deste sistema, pi-oneiro para a lıngua portuguesa, estivessem logoacessıveis para a comunidade. Como so as pessoasque desenvolvem programas podem saber, nao etrivial a documentacao e manutencao de sistemasque evoluem ao longo de anos de trabalho, e existesempre uma diferenca entre uma versao estavel edocumentada e o programa do momento.

Finalmente, a questao da disponibilizacao desistemas complexos ainda provoca mais dificuldadedevido a questao das dependencias: nao faz sentidocomecar a fazer tudo do nada, mas, se se incluioutros sistemas, como seria natural e boa pratica,obriga-se o utilizador incauto a instalar e ter delevar em conta muitos outros programas desenvol-vidos por terceiros e que podem eles proprios serdifıceis de instalar ou compreender.

5.7 Documentacao – a semprevilipendiada

Ha duas leis na informatica: a de que a docu-mentacao e essencial, e a de que a documentacaonunca esta actualizada. Todos os projectos lutamcom estas duas leis, e embora no caso da Lingua-teca tenhamos feito um esforco nao irrisorio de boadoumentacao, nao conseguimos tambem escapar asegunda lei, de que ainda falta documentar ou me-lhorar muita coisa.

Ao contrario do que certas pessoas pregam, deque um programa ou sistema bom ou bem dese-nhado nao precisa de explicacao ou documentacao,tal parece-me completamente errado no caso daarea do processamento de uma lıngua. Nao voupois argumentar em geral, mas apenas no domınio

43A reforcar o ja dito anteriormente sobre as lingua-gens de programacao, uma total reescrita do mesmo ato-mizador noutra linguagem foi recentemente disponibili-zada por Nuno Cardoso no ambito do seu sistema REM-BRANDT (Cardoso, 2008c).

44No ambito da colaboracao entre o CLUP/Linguatecae o grupo de Teresa Cabre no Institut Universitari deLinguıstica Aplicada (IULA) na Universitat Pompeu Fabra.

em que trabalhamos.Dando alguns exemplos concretos:

• qual a utilidade de saber quantos substantivosou adjectivos ha num texto, sem saber quaisos criterios de classificacao de uma e outra ca-tegoria?

• qual a utilidade de saber quais as palavrasmais frequentes, ou a frequencia de um con-junto de palavras, sem se saber qual a base(os textos) usada para essas contagens?

• que vantagem tem um sistema que anotaum texto, sem que se saiba os criterios deanotacao usados?

Ou: como e que se pode avaliar um dado sis-tema se nao se consegue interpretar a sua saıda?Como e que se pode usar um sistema para fazeruma coisa quando foi desenhado para outra?

Em todos os casos de trabalho serio, e precisosaber como e que cada tarefa ınfima e feita – outer a possibilidade de o saber. Sem isso, estamosno reino da “banha da cobra”, e nao estamos acriar recursos ou ferramentas que possam contri-buir para o progresso e que possam ser melhora-dos por outros. Estamos apenas a tentar vender,no sentido de convencer a usar, um produto deforma irresponsavel.

Este aspecto da documentacao e da explicacaode como e que os recursos foram criados, e quais ospressupostos envolvidos na sua criacao, e uma dastonicas mais importantes postas pela Linguatecano seu trabalho.

Outra questao – menos crıtica – e a remocao deassuntos ou paginas claramente desactualizadas ouirrelevantes, que tendem a ficar perdidas ou pendu-radas num sıtio da rede em vez de activamente lim-pas ou reescritas pelos gestores do sıtio. Emboraisto faca parte do manual dos gestores de sıtios,e preciso reconhecer ou relembrar que as princi-pais capacidades da Linguateca nao sao a de gestaoprofissional de sıtios. Apenas muito recentemente,ha menos de um ano, passamos a gerir uma parte(ınfima) das nossas actividades em wiki, como sepode ver em relacao a pagina do GikiCLEF. Taldeveu-se, mais uma vez, a nao haver pessoal comapetencia especial para manutencao de sıtios e aofacto de termos ja uma quantidade de programase rotinas desenhadas para gerir o sıtio da Lingua-teca, e que reconverte-las levaria a muito trabalho– que seria afinal so cosmetico.

Assim, embora a documentacao e a apre-sentacao sejam de certa forma acessorias ao ver-dadeiro trabalho da Linguateca, sao requisitos ne-cessarios para que este seja compreendido e usado.Sistemas ou servicos sem documentacao, sao com-pletamente inuteis – ou ate perigosos, se induzirem

46– Linguamatica Diana Santos

Page 23: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

as pessoas em erro.Mas sistemas e servicos que devido a sua ma

apresentacao assustam ou repelem os utilizadoresa quem foram destinados tambem constituem umentrave serio ao impacto da Linguateca e a nossapossibilidade de sermos uteis a comunidade.

5.8 A usabilidade e preocupacao comos utilizadores

De facto, uma outra area que e preciso mencionar,e a usabilidade, ou seja, a preocupacao da Lingua-teca com os utilizadores dos varios programas quedesenvolvemos, avaliamos ou estudamos. Pese em-bora a nossa consciencializacao sobre o assunto,e uma tentativa de actuacao variada, o computogeral parece mais negativo do que positivo.

Esta preocupacao pode apreciar-se em variosramos diferentes da nossa intervencao na area doprocessamento da lıngua:

Por um lado, refira-se o estudo serio de necessi-dades de informacao como preliminar para o desen-volvimento posterior do sistema de recolha de in-formacao na rede de Rachel Aires (Aires e Aluısio,2003), que alias fez girar toda a problematica dasua tese a volta da formalizacao e deteccao dasnecessidades do utilizador, e efectuou testes comutilizadores para avaliar o sistema implementado.

Por outro, tivemos sempre uma atitude muitocrıtica em relacao a forma como algumas tarefasforam definidas no CLEF, pondo-nos no lugar deutilizadores de lıngua portuguesa, ou de simplespessoas interessadas em recolha de informacao cru-zada (Santos e Rocha, 2005; Santos e Cardoso,2005). Em muitas ocasioes, fomos de certa formaos primeiros a gritar que “o rei vai nu”: muitasdas hipoteses tomadas como obvias num ambienteanglofalante caem pela base ao considerar outraslınguas, no nosso caso o portugues.

Como ja mencionado, fomos dos primeiros anıvel internacional a levar a cabo, e a publicar, da-dos sobre utilizadores de um servico de corpos, oCOMPARA (Santos e Frankenberg-Garcia, 2007),em que explicitamente aplicamos metodos de in-vestigacao nao-obstrusiva da actividade dos utili-zadores aos diarios de interaccao com o servico.

Fomos tambem dos primeiros a executar estu-dos dos diarios de procura na rede com base noinstantaneo da rede portuguesa WPT03 para efei-tos de processamento da lıngua ou recolha de in-formacao (Seco e Cardoso, 2006).

Finalmente, a um nıvel completamente dife-rente, implementamos um servico cooperativo deresposta aos utilizadores de forma a dar sempreresposta as mais variadas questoes, como mencio-nado na seccao anterior.

Contudo, a aparencia dos nossos servicos e in-

formacao na rede foi sempre o nosso calcanhar deAquiles e, nas palavras crıticas de um dos leitoresdo presente artigo:

E uma imagem que me transporta parameados dos anos 90. (...) qualquer uti-lizador banal vai pensar que o site nao eactualizado ha anos e que nao vai encon-trar la nada de util. Transmite a ideiade site criado por amadores, sem conhe-cimentos de informatica.

Numa altura em que todas as empresas, pelo me-nos as associadas a meios de comunicacao social oueditorial, aplicam rotineiramente analise de diariose de comportamento de utilizadores para melho-rar a sua presenca na rede, a Linguateca, emborapossivelmente a frente na comunidade cientıfica doprocessamento da lıngua, esta muito atras da rea-lidade da vida de todos os dias.

5.9 Publicacao em nome da Linguateca

Embora a Linguateca possa apregoar um grandenumero de publicacoes e apresentacoes produzidosao longo destes dez ou onze anos – trezentas aquatrocentas, nao podemos infelizmente garantirou confirmar que todos os textos publicados com achancela da Linguateca tenham sido verificados emtermos de qualidade ou mesmo de oportunidade.

A existencia de cerca de trinta colaboradoresao longo do tempo e o facto de as publicacoes naoestarem prontas na maior parte das vezes a temposuficiente antes da data final de entrega levou auma publicacao muito descentralizada e que naousufruiu, na maior parte dos casos, das vantagensque poderia colher ao ser redigida no seio de umequipa de peritos.

Isso, alias, e claramente patente na ausencia, namaior parte dos artigos, de agradecimentos a re-visao cruzada de outros elementos da Linguateca.Nao dizendo que isto e um problema especıfico danossa equipa, falhou claramente, na maior partedos casos, tambem entre nos a possibilidade de re-torno e de discussao cientıfica seria antes da pu-blicacao.

Idealmente, deverıamos ter definido normasmais concretas tanto quanto a divulgacao da Lin-guateca em geral como ao posicionamento do tra-balho relatado no plano geral da nossa actividade,assim como deverıamos ter estipulado um certoconjunto de normas de qualidade, empıricas, a queos artigos da Linguateca como Linguateca deviamobedecer, e que em alguns casos teriam levado auma reescrita ou a nao publicacao do artigo comotrabalho realizado no ambito da Linguateca. Se vi-ermos a continuar como instituicao virtual, parece-me que isto tem de ser decididamente contempladono futuro, ate porque teria sido uma forma relati-

Caminhos percorridos no mapa da portuguesificacao: A Linguateca em perspectiva Linguamatica – 47

Page 24: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

vamente facil de obter maior impacto.Que e possıvel empenhar a equipa – e mesmo

elementos de fora da Linguaetca mas que possamrever-se como pertencendo ao cırculo da mesma– foi patente em relacao ao presente texto, oqual foi extraordinariamente melhorado devidoao excelente retorno e problematizacao de variasafirmacoes e opinioes patentes em versoes anterio-res, por mais de uma dezena de leitores interessa-dos.

6 A saude do processamentocomputacional do portugues

Embora este artigo seja sobre a Linguateca, naoposso deixar de chamar aqui a atencao sobre ou-tras vitorias nesta area durante o perıodo cobertopor esta reflexao, completamente independentes danossa accao. Nao gostava de forma nenhuma deparecer estar a afirmar que, sem nos, nada teriaacontecido, ou que, excepto nos, ninguem fez nada.

Assim, gostava de salientar – sem quaisquer pre-tensoes de exaustividade, visto que tal assunto po-deria e deveria constituir um artigo novo – algunsacontecimentos ou sistemas que me parece fazerema diferenca, ou seja, serem vitorias incontornaveisdo portugues no campo internacional:

• o primeiro detector automatico de metaforasfoi desenvolvido para o portugues – e depoisaplicado ao ingles – por Tony Berber Sardi-nha (Berber Sardinha, 2006; Berber Sardi-nha, 2007);

• o primeiro sistema automatico para producaode livros auditivos foi criado por uma parceriaentre o INESC e a FCUL (Serralheiro et al.,2003);

• o primeiro servico automatico com classi-ficacao semantica foi feito no VISL para o por-tugues (Bick, 2006; Bick, 2007)45;

• o primeiro motor de procura sobre a rede com-pleta de um paıs foi efectuado pela equipa dotumba! (Gomes e Silva, 2005);

• a primeira legendagem automatica de telejor-nais para deficientes auditivos foi realizadapelo projecto Tecnovoz (Meinedo, Viveiros eNeto, 2008);

• a primeira geracao de fala para formulas ma-tematicas ou equacoes foi descrita em Rolo eSerralheiro (2008).

45E preciso notar que embora Eckhard Bick tenha umarelacao estreita com a Linguateca, a grande maioria dosrtrabalhos efectuados pelo projecto VISL sao completa-mente independentes desta. O que tambem se aplica aogrupo do XLDB ou outros que sejam mencionados nestaseccao.

Mesmo quando nao estamos a falar de primeirospara qualquer lıngua, nao queremos deixar de cha-mar a atencao, que, para o portugues, houve na-turalmente muitıssimos “primeiros” sem qualquerrelacao com a Linguateca.

Por exemplo, os tres seguintes sistemas ou re-cursos nasceram no NILC:

• o primeiro sistema de sumarizacao automaticapara o portugues (Pardo e Rino, 2002);

• a primeira ontologia lexical para o portuguesinspirada pelo metodo da WordNet (Oliveira,Dias da Silva e Moraes, 2002);

• o primeiro detector da estrutura retorica deum texto para o portugues (Pardo, Nunes eRino, 2004).

E outros primeiros foram:

• o primeiro sistema de RAP em portugues ba-seado em analise sintactica, pelo VISL (Bick,2003);

• o primeiro sistema completo de sıntese debase articulatoria suportada em estudos deproducao para o portugues, pelo IETA emAveiro (Oliveira, 2009);

• o primeiro sistema de desenvolvimento de on-tologias a partir de texto pela PUC-RS (Gas-perin, 2001);

• o primeiro modelo cognitivo quantitativo parao estudo da evolucao diacronica de variedadesdo portugues (Silva, 2008a).

Tal e sinal evidente de que o processamentodo portugues tem boas pernas para andar. Pensoque – de preferencia com a colaboracao de todos– poderemos ir longe na investigacao e desenvolvi-mento de sistemas computacionais que lidem per-feitamente com a nossa lıngua.

7 Comentarios finais

Neste artigo, comecei por comparar as intencoesiniciais e o ponto de situacao efectuado no comecoda actividade da Linguateca, como um exercıciosalutar de avaliacao, dez anos passados. Apresen-tei brevemente a historia da Linguateca, depois sa-lientei sucintamente as actividades ou areas de in-tervencao em que penso que a Linguateca foi utilpara a comunidade do processamento do portuguese nem so, passando a indicar os problemas ou areasem relacao aos quais a Linguateca nao conseguiu,na minha opiniao, dar um contributo suficiente-mente positivo.

Tentei mostrar que ao longo da nossa historiamuito de bom aconteceu, apresentando alguns ca-sos de maturidade e de inovacao na area. Tambem

48– Linguamatica Diana Santos

Page 25: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

considero, contudo, que muito mais podia ter sidofeito se tivesse havido confianca na Linguateca eum espırito de colaboracao entre os varios gru-pos ou instituicoes dedicados a area, especialmenteem Portugal. Espırito esse que foi apanagio demuito dos nossos colegas brasileiros, que coope-raram, produziram recursos para o repositorio, eaproveitaram (como nos querıamos) o nosso tra-balho, e a quem estou particularmente grata porisso.

Se pudesse comecar de novo, e mais uma vezesta e uma visao muito pessoal, continuaria a or-ganizar avaliacoes conjuntas e a criar recursos deavaliacao em conjunto com membros da comuni-dade, mas nao tentaria catalogar a area ou ob-serva-la, tentando fixa-la num sıtio megalomano.Pelo contrario, tentaria que todos discutissem ecomunicassem atraves de listas de discussao e datroca de ideias e, claro, da participacao em ava-liacoes conjuntas.

Assim como temos um servico de resposta a to-das as perguntas que nos fazem (mas que sao limi-tadas e muitas vezes fora do contexto da propriaLinguateca), tentaria fazer com que essas pergun-tas fossem feitas e respondidas num verdadeiroforum de todos os interessados na area (como acon-tece por exemplo na lista corpora), permitindo ainteraccao, o conhecimento dos intervenientes, euma resposta cooperativa que ajuda a quem per-guntou mas tambem aos outros que estao a ouvirporque fazem parte da comunidade.

Tentaria tambem oferecer a Linguateca comoum servico de avaliacao no sentido de poder-mos ajudar a criar materiais de teste ou mesmometricas para avaliar trabalhos ou sistemas de em-presas ou academicos, devido a nossa experienciano assunto.

Finalmente, se fosse a continuacao da Lingua-teca que estava em jogo, e nos fossem concedidosmais dez anos, seria essencial focar-nos em pro-jectos com impacto nacional ou internacional (emlıngua portuguesa, claro), tal como o Museu daPessoa, a procura inteligente nas obras da(s) Bi-blioteca(s) Nacional(is), a procura na rede, o ar-quivo da rede portuguesa e brasileira, e sistemas detraducao automatica com respeito pelo portugues,nao descurando, tambem, toda a parte cultural emultimodal associada a procura em imagens, vıdeoe sons, e em meios mistos.

E minha conviccao de que uma Linguateca fu-tura teria de ter uma componente pratica muitomaior envolvendo empresas e instituicoes, e o seufito deveria ser aplicar a tecnologia existente a re-alidade de todos os dias.

Nao faz sentido a continuacao da Linguatecacomo e agora, apenas com parceiros academicos ecom impacto na comunidade cientıfica: a Lingua-

teca para merecer sobreviver e poder continuar aser util, tera de se “praticalizar”, ou seja, tomarem maos aspectos e projectos claramente praticos.

Agradecimentos

Este artigo foi escrito no ambito da Linguateca,contrato numero 339/1.3/C/NAC, financiado pelogoverno portugues e pela Uniao Europeia.

A existencia da Linguateca deve-se, em pri-meiro lugar, ao interesse do entao ministro daCiencia e da Tecnologia, Jose Mariano Gago, pelaquestao da lıngua, que levou a inclusao deste as-sunto no Livro Verde e depois no Livro Branco,e, em segundo lugar, ao apoio constante, institu-cional e pessoal, do presidente da FCCN46, PedroVeiga.

Agradeco a todos os membros da Linguateca,a todas as pessoas que colaboraram com a Lin-guateca, a todos os que contribuıram, com as suasperguntas, pedidos ou sugestoes, para a melhoriado nosso projecto, e finalmente a todos os que co-mentaram, criticaram e enriqueceram o presentetexto.

Referencias

Afonso, Susana. 2003. Clara e sucintamente:um estudo em corpus sobre a coordenacao deadverbios em -mente. Em Amalia Mendes eTiago Freitas, editores, Actas do XVIII En-contro Nacional da Associacao Portuguesa deLinguıstica (APL 2002), pp. 27–36, Lisboa, 2-4de Outubro, 2003. APL.

Afonso, Susana. 2004. Estudo dos argumen-tos verbais e ambiguidade dos sintagmaspreposicionais atraves do Aguia. Relatoriotecnico, Linguateca, 21 de Abril, 2004.http://www.linguateca.pt/documentos/ArgumentosambiguidadeAfonso2004.pdf.

Afonso, Susana, Eckhard Bick, Renato Haber, eDiana Santos. 2001. Floresta sinta(c)tica:um treebank para o portugues. Em Ana-bela Goncalves e Clara Nunes Correia, edito-res, Actas do XVII Encontro Nacional da Asso-ciacao Portuguesa de Linguıstica (APL 2001),pp. 533–545, Lisboa, Portugal, 2-4 de Outubro,2001. APL.

Aires, Rachel e Diana Santos. 2002. Measuring theWeb in Portuguese. Em Brian Matthews, BobHopgood, e Michael Wilson, editores, Euroweb2002 conference. pp. 198–199, 17-18 Dezembro,2002.

Aires, Rachel Virgınia Xavier. 2005. Uso de mar-cadores estilısticos para a busca na Web em por-

46A FCCN e a instituicao portuguesa que, em termosjurıdicos, e “executora” do projecto Linguateca desde 2000.

Caminhos percorridos no mapa da portuguesificacao: A Linguateca em perspectiva Linguamatica – 49

Page 26: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

tugues. Tese de doutoramento, ICMC - USP -Sao Carlos, Agosto, 2005.

Aires, Rachel Virgınia Xavier e Sandra MariaAluısio. 2003. Como incrementar a qualidadedas maquinas de busca: da analise de logs a in-teracao em portugues. Revista Ciencia da In-formacao, 32(1):5–16.

Almeida, Jose Joao, editor. 2003. CorporaParalelos, Aplicacoes e Algoritmos Associados(CP3A). Universidade do Minho, Braga.

Almeida, Jose Joao e Alberto Simoes. 2007.XML::TMX - Processamento de Memorias deTraducao de Grandes Dimensoes. Em Jose Car-los Ramalho, Joao Correia Lopes, e LuısCarrico, editores, XML: Aplicacoes e Tecnolo-gias Associadas (XATA2007), pp. 83–93. Uni-versidade do Minho, 15-16 de Fevereiro, 2007.

Almeida, Jose Joao, Alberto Manuel Simoes, eJose Alves Castro. 2002. Grabbing parallel cor-pora from the web. Sociedade Espanola para elProcesamiento del Lenguaje Natural, 29:13–20.

Aluisio, Sandra, Gisele Montilha Pinheiro, AlineM. P. Manfrin, Leandro H. M. de Oliveira,Luiz C. Genoves Jr., e Stella E. O. Tagnin.2004. The Lacio-Web: Corpora and tools toadvance Brazilian Portuguese language investi-gations and computational linguistic tools. EmMaria Teresa Lino, Maria Francisca Xavier,Fatima Ferreira, Rute Costa, e Raquel Silva,editores, Proceedings of the 4th InternationalConference on Language Resources and Evalu-ation (LREC’2004), pp. 1779–1782, 26-28 deMaio, 2004.

Aluısio, Sandra Maria, Leandro H.M. de Oliveira,e Gisele Montilha Pinheiro. 2004. Os tiposde anotacoes, a codificacao, e as interfaces doProjeto Lacio-Web: Quao longe estamos dospadroes internacionais para corpus? Em IIAnais do TIL - Workshop de Tecnologia da In-formacao e Linguagem Humana, pp. 1–10, 5 a6 de Agosto, 2004.

Amaral, Carlos, Helena Figueira, Afonso Mendes,Pedro Mendes, Claudia Pinto, e Tiago Veiga.2008. Adaptacao do sistema de reconhecimentode entidades mencionadas da Priberam ao HA-REM. Em Cristina Mota e Diana Santos, edito-res, Desafios na avaliacao conjunta do reconhe-cimento de entidades mencionadas: O SegundoHAREM. Linguateca.

Aranha, Christian Nunes. 2007. O Cortex e asua participacao no HAREM. Em Diana San-tos e Nuno Cardoso, editores, Reconhecimentode entidades mencionadas em portugues: Docu-mentacao e actas do HAREM, a primeira ava-

liacao conjunta na area. Linguateca, pp. 113–122.

Bacelar do Nascimento, Maria Fernanda, AmaliaMendes, e Luısa Pereira. 2004. Providing on-line access to portuguese language resources:corpora & lexicons. Em Maria Teresa Lino,Maria Francisca Xavier, Fatima Ferreira, RuteCosta, e Raquel Silva, editores, Proceedings ofthe 4th International Conference on LanguageResources and Evaluation (LREC’2004), pp.1825–1828, 26-28 de Maio, 2004.

Barreiro, Anabela. 2008. ParaMT: a Paraphraserfor Machine Translation. Em Antonio Teixeira,Vera Lucia Strube de Lima, Luıs Caldas de Oli-veira, e Paulo Quaresma, editores, Computatio-nal Processing of the Portuguese Language, 8thInternational Conference, Proceedings (PRO-POR 2008), volume Vol. 5190. Springer Verlag,pp. 202–211, 8-10 de Setembro, 2008.

Barreiro, Anabela e Susana Afonso. 2007. Cons-trucao da lista dourada para as primeiras Mor-folimpıadas do portugues. Em Diana Santos,editor, Avaliacao conjunta: um novo paradigmano processamento computacional da lıngua por-tuguesa. IST Press, Lisboa, Portugal, pp. 107–118.

Barreiro, Anabela e Elisabete Ranchhod. 2005.Machine Translation Challenges for Portuguese.Linguisticæ Investigationes, 28(1):3–18.

Berber Sardinha, Tony. 2006. An online programfor tagging metaphors in corpora. Em S. Zyn-gier, V. Viana, e A. M. Spallanzani, editores,Linguagens e Tecnologias: Estudos Empıricos,pp. 165–182, Rio de Janeiro, Brasil. Editora daUFRJ.

Berber Sardinha, Tony. 2007. Metafora. Para-bola, Sao Paulo, Brasil.

Berber Sardinha, Tony, J. L. Moreira Filho, eE. Alambert. 2008. O corpus brasileiro. Co-municacao ao VII Encontro de Linguıstica deCorpus, 2008, UNESP, Sao Jose do Rio Preto,SP, Brasil.

Bick, Eckhard. 2000. The Parsing System”Palavras”: Automatic Grammatical Analysisof Portuguese in a Constraint Grammar Fra-mework. Tese de doutoramento, Aarhus Uni-versity, Aarhus, Denmark, Novembro, 2000.

Bick, Eckhard. 2003. A Constraint GrammarBased Question-Answering System for Portu-guese. Em Fernando Moura Pires e SalvadorAbreu, editores, Progress in Artificial Intelli-gence: 11th Portuguese Conference on Artifi-cial Intelligence, EPIA 2003. Beja, Portugal,December 2003, Proceedings, pp. 414–418, Ber-lin/Heidelberg. Springer.

50– Linguamatica Diana Santos

Page 27: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

Bick, Eckhard. 2006. Noun sense tagging: Seman-tic prototype annotation of a portuguese tree-bank. Em Jan Hajic e Joakim Nivre, editores,Proceedings of the Fifth Workshop on Treebanksand Linguistic Theories (TLT 2006), 1-2 de De-zembro, 2006.

Bick, Eckhard. 2007. Automatic semantic role an-notation for portuguese. Em TIL, V Workshopem Tecnologia da Informacao e da LinguagemHumana, pp. 1715–1719, 30 de Junho a 6 deJulho, 2007.

Bick, Eckhard, Diana Santos, Susana Afonso, eRachel Marchi. 2007. Floresta Sinta (c)tica:Ficcao ou realidade? Em Diana Santos, edi-tor, Avaliacao conjunta: um novo paradigmano processamento computacional da lıngua por-tuguesa. IST Press, Lisboa, Portugal, pp. 291–300.

Braga, Daniela e Miguel Sales Dias. 2008. Osrecursos da Linguateca ao servico do desenvol-vimento da tecnologia de fala na Microsoft. EmLuıs Costa, Diana Santos, e Nuno Cardoso, edi-tores, Perspectivas sobre a Linguateca / Actasdo encontro Linguateca : 10 anos. Linguateca,pp. 29–33.

Cabral, Luıs Miguel. 2007. SUPeRB - SistemaUniformizado de Pesquisa de Referencias Bi-bliograficas. Tese de Mestrado, Faculdade deEngenharia da Universidade do Porto, Porto,Marco, 2007.

Cabral, Luıs Miguel, Luıs Fernando Costa, e Di-ana Santos. 2007. Esfinge at CLEF 2007: Firststeps in a multiple question and multiple answerapproach. Em Alessandro Nardi e Carol Peters,editores, Working Notes for the CLEF 2007Workshop (CLEF 2007), pp. s/pp, 19-21 de Se-tembro, 2007.

Cabral, Luıs Miguel, Diana Santos, e Luıs Fer-nando Costa. 2008. SUPeRB - Gerindo re-ferencias de autores de lıngua portuguesa. EmVI Workshop Information and Human Lan-guage Technology (TIL’08), 28-29 de Outubro,2008.

Calado, Pavel. 1999. The WBR-99 Collec-tion: Description of the WBR-99 Web col-lection data-structures and file formats. Re-latorio tecnico, LATIN - Laboratorio parao Tratamento de Informacao, Departamentode Computacao, Universidade Federal de Mi-nas Gerais. http://www.linguateca.pt/Repositorio/WBR-99/wbr99.pdf.

Cardoso, Nuno. 2008a. Apendice H: SAHARA -Servico de Avaliacao HAREM Automatico. EmCristina Mota e Diana Santos, editores, Desa-fios na avaliacao conjunta do reconhecimento de

entidades mencionadas: O Segundo HAREM.Linguateca.

Cardoso, Nuno. 2008b. Novos rumos para a recu-peracao de informacao geografica em portugues.Em Luıs Costa, Diana Santos, e Nuno Cardoso,editores, Perspectivas sobre a Linguateca / Ac-tas do encontro Linguateca: 10 anos. Lingua-teca, pp. 71–85.

Cardoso, Nuno. 2008c. REMBRANDT - Reconhe-cimento de Entidades Mencionadas Baseado emRelacoes e ANalise Detalhada do Texto. EmCristina Mota e Diana Santos, editores, Desa-fios na avaliacao conjunta do reconhecimento deentidades mencionadas: O Segundo HAREM.Linguateca.

Cardoso, Nuno, Bruno Martins, Daniel Gomes, eMario J. Silva. 2007. WPT 03: a primeiracoleccao publica proveniente de uma recolha daweb portuguesa. Em Diana Santos, editor, Ava-liacao conjunta: um novo paradigma no proces-samento computacional da lıngua portuguesa.IST Press, Lisboa, Portugal, pp. 279–288.

Cardoso, Nuno e Diana Santos. 2007. Directivaspara a identificacao e classificacao semantica nacoleccao dourada do HAREM. Em Diana San-tos e Nuno Cardoso, editores, Reconhecimentode entidades mencionadas em portugues: Docu-mentacao e actas do HAREM, a primeira ava-liacao conjunta na area. Linguateca, pp. 211–238.

Carvalho, Paula, Hugo Goncalo Oliveira, DianaSantos, Claudia Freitas, e Cristina Mota. 2008.Segundo HAREM: Modelo geral, novidades eavaliacao. Em Cristina Mota e Diana Santos,editores, Desafios na avaliacao conjunta do re-conhecimento de entidades mencionadas: O Se-gundo HAREM. Linguateca.

Chaves, Marcirio, Catarina Rodrigues, e Mario J.Silva. 2007. Data Model for Geographic On-tologies Generation. Em Jose Carlos Rama-lho, Joao Correia Lopes, e Luıs Carrico, edito-res, XML: Aplicacoes e Tecnologias Associadas(XATA2007), pp. 47–58. Universidade do Mi-nho, 15-16 de Fevereiro, 2007.

Chaves, Marcirio Silveira. 2008. Uma Metodolo-gia para Construcao de Geo-Ontologias. Tesede doutoramento, Faculdade de Ciencias, Uni-versidade de Lisboa, Dezembro, 2008.

Chinchor, Nancy e P. Robinson. 1998. MUC-7 Na-med Entity Task Definition (version 3.5). EmProceedings of the 7th Message UnderstandingConference (MUC-7), Fairfax, Virginia, EUA.

Chubin, Daryl E. e Edward J. Hackett. 1990. Pe-erless Science: Peer Review and U.S. Science

Caminhos percorridos no mapa da portuguesificacao: A Linguateca em perspectiva Linguamatica – 51

Page 28: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

Policy. State University of New York Press,Nova Iorque, EUA.

Costa, Luıs. 2005. Esfinge - Resposta a pergun-tas usando a Rede. Em Jose Marıa Gutierrez,Flavia Maria Santoro, e Pedro Isaıas, edito-res, Proceedings da conferencia IADIS Ibero-Americana WWW/Internet 2005, pp. 616–619.IADIS Press, 18-19 de Outubro, 2005.

Costa, Luıs. 2006. Esfinge - A Question AnsweringSystem in the Web using the Web. Em Proce-edings of the 11th Conference of the EuropeanChapter of the Association for ComputationalLinguistics (EACL 2006), pp. 127–130, 3-7 deAbril, 2006.

Costa, Luıs. 2007. Question answering beyondCLEF document collections. Em Carol Peters,Paul Clough, Fredric C. Gey, Jussi Karlgren,Bernardo Magnini, Douglas W. Oard, Maar-ten de Rijke, e Maximilian Stempfhuber, edi-tores, Evaluation of Multilingual and Multi-modal Information Retrieval - 7th Workshop ofthe Cross-Language Evaluation Forum, CLEF2006. Alicante, Spain, September, 2006. Revi-sed Selected papers, volume 4730 of Lecture No-tes in Computer Science. Springer, Berlin / Hei-delberg, pp. 405–414.

Costa, Luıs. 2008. Resumo da actividade daLinguateca de 16 de Dezembro de 2006 a 31de Dezembro de 2008. Relatorio tecnico, Lin-guateca, Dezembro, 2008. Com a colaboracao(por ordem alfabetica) de Ana Frankenberg-Garcia, Anabela Barreiro, Claudia Freitas,Cristina Mota, David Cruz, Diana Santos,Hugo Oliveira, Luıs Cabral, Nuno Cardoso,Paula Carvalho Paulo Rocha, Sergio Matos,http://www.linguateca.pt/documentos/RelatorioLinguateca20072008.pdf.

Costa, Luıs e Luıs Miguel Cabral. 2008. Medindoa Linguateca, 11 de Setembro, 2008. http://www.linguateca.pt/Linguateca10anos/Apresentacoes/AprCostaCabralL10.pdf.

Costa, Luıs, Diana Santos, e Nuno Cardoso, edi-tores. 2008. Perspectivas sobre a Linguateca /Actas do encontro Linguateca : 10 anos. Lin-guateca.

Davies, Mark e Ana Maria Raposo Preto-Bay.2008. The Corpus do Portugues and the Rou-tledge frequency dictionary of Portuguese: Newtools for learners and teachers. Em TaLC 8Lisbon: Proceedings of 8th Teaching and Lan-guage Corpora Conference (3-6 July 2008). As-sociacao de Estudos e de Investigacao Cientıficado ISLA - Lisboa, pp. 96–99.

Feitelson, Dror G., Gillian Z. Heller, e Stephen R.Schach. 2006. An empirically-based criterion

for determining the success of an open-sourceproject. Em Australian Software EngineeringConference, pp. 363–368, Abril, 2006.

Fernandes, Eraldo R., Ruy L. Milidiu, e Cicero N.Santos. 2009. Portuguese language processingservice. Em 18th International World WideWeb Conference, 20-24 de Abril. 2009.

Ferreira, Liliana, Cesar Telmo Oliveira, AntonioTeixeira, e Joao Paulo Silva Cunha. 2009. Ex-traccao de informacao de relatorios medicos.Linguamatica, 1, Maio, 2009.

Ferreira, Liliana e Antonio Teixeira. 2008. Lin-guateca e Processamento de Linguagem Naturalna Area da Saude: Alguns Comentarios e Su-gestoes. Em Luıs Costa, Diana Santos, e NunoCardoso, editores, Perspectivas sobre a Lingua-teca / Actas do encontro Linguateca : 10 anos.Linguateca, pp. 43–48, 11 de Setembro, 2008.

Forner, Pamela, Anselmo Penas, Inaki Alegria, Co-rina Forascu, Nicolas Moreau, Petya Osenova,Prokopis Prokopidis, Paulo Rocha, Bogdan Sa-caleanu, Richard Sutcliffe, e Erik Tjong KimSang. 2009. Overview of the CLEF 2008Multilingual Question Answering Track. EmCarol Peters, Tomas Deselaers, Nicola Ferro,Julio Gonzalo, Gareth J.F.Jones, Mikko Ku-rimo, Thomas Mandl, Anselmo Penas, e Vi-viane Petras, editores, Evaluating Systems forMultilingual and Multimodal Information Ac-cess 9th Workshop of the Cross-Language Eva-luation Forum, CLEF 2008, Aarhus, Denmark,September 17-19, 2008, Revised Selected Pa-pers. Springer.

Frankenberg-Garcia, Ana e Diana Santos. 2002.COMPARA, um corpus paralelo de portuguese de ingles na Web. Cadernos de Traducao,IX(1):61–79.

Freitas, Claudia. 2008. A Floresta Sintacticano Ensino de Portugues, 3 de Julho, 2008.http://www.linguateca.pt/documentos/FreitasWorkshopTaLC2008.pdf.

Freitas, Claudia e Susana Afonso. 2008. BıbliaFlorestal: Um manual linguıstico da FlorestaSinta (c)tica. http://linguateca.dei.uc.pt/Floresta/BibliaFlorestal/.

Freitas, Claudia, Paulo Rocha, e Eckhard Bick.2008a. Um mundo novo na Floresta Sinta(c)tica - o treebank para Portugues. Ca-lidoscopio - Revista de Pos Graduacao emLinguıstica Aplicada da Unisinos, Rio Grandedo Sul, 6(3), Set / Dezembro, 2008.

Freitas, Claudia, Paulo Rocha, e Eckhard Bick.2008b. Um mundo novo na Floresta Sinta

52– Linguamatica Diana Santos

Page 29: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

(c)tica - o treebank para Portugues. Ca-lidoscopio - Revista de Pos Graduacao emLinguıstica Aplicada da Unisinos, Rio Grandedo Sul, 6(3), Set / Dezembro, 2008.

Freitas, Claudia, Diana Santos, Hugo Goncalo Oli-veira, Paula Carvalho, e Cristina Mota. 2008.Relacoes semanticas do ReRelEM: alem das en-tidades no Segundo HAREM. Em CristinaMota e Diana Santos, editores, Desafios na ava-liacao conjunta do reconhecimento de entida-des mencionadas: O Segundo HAREM. Lingua-teca, 31 de Dezembro, 2008.

Freitas, Claudia, Diana Santos, Hugo Goncalo Oli-veira, Paula Carvalho, e Cristina Mota. 2009.Relation detection between named entities: re-port of a shared task. Em Proceedings ofSemantic Evaluations Workshop, 4 de Junho,2009.

Gasperin, Caroline Varaschin. 2001. Extracaoautomatica de relacoes semanticas a partir derelacoes sintaticas. Tese de Mestrado, Facul-dade de Informatica da Pontifıcia UniversidadeCatolica do Rio Grande do Sul.

Gomes, Daniel e Mario J. Silva. 2005. Characteri-zing a National Community Web. ACM Tran-sactions on Internet Technology, 5(3):508–531,Agosto, 2005.

Gomes, Paulo. 2008. Linguateca: Polo deCoimbra - Plantando Florestas e Cri-ando Papel, 11 de Setembro, 2008. http://www.linguateca.pt/Linguateca10anos/Apresentacoes/AprGomesL10.pdf.

Gomes de Matos, Francisco. 1992. O cientista delıngua portuguesa e seus direitos linguısticos.Revista Internacional de Lıngua Portuguesa,7:79–81.

Goncalo Oliveira, Hugo, Cristina Mota, ClaudiaFreitas, Diana Santos, e Paula Carvalho. 2008a.Avaliacao a medida no Segundo HAREM. EmCristina Mota e Diana Santos, editores, Desa-fios na avaliacao conjunta do reconhecimento deentidades mencionadas: O Segundo HAREM.Linguateca, 31 de Dezembro, 2008.

Goncalo Oliveira, Hugo, Diana Santos, PauloGomes, e Nuno Seco. 2008b. PAPEL: adictionary-based lexical ontology for Portu-guese. Em Antonio Teixeira, Vera Lucia Strubede Lima, Luıs Caldas de Oliveira, e PauloQuaresma, editores, Computational Processingof the Portuguese Language, 8th InternationalConference, Proceedings (PROPOR 2008), pp.31–40. Springer Verlag, 8-10 de Setembro, 2008.

Haber, Renato Ribeiro. 2001. Pica-pau: Umprototipo de ferramenta para visualizacao

e edicao de arvores sintaticas. Texto pro-duzido no ambito da Floresta Sinta (c)tica,http://www.linguateca.pt/treebank/Picapau.html.

Hausser, Roland, editor. 1996. Linguistis-che Verifikation: Dokumentation zur ErstenMorpholympics 1994. Max Niemeyer Verlag.

Inacio, Susana e Diana Santos. 2006. Syntacti-cal Annotation of COMPARA: Workflow andFirst Results. Em Renata Vieira, Paulo Qua-resma, Maria da Graca Volpes Nunes, Nuno J.Mamede, Claudia Oliveira, e Maria Carme-lita Dias, editores, Computational Processingof the Portuguese Language: 7th Internatio-nal Workshop, PROPOR 2006. Itatiaia, Bra-zil, May 2006, volume LNAI 3960, pp. 256–259,Berlin/Heidelberg, 13-17 de Maio, 2006. Sprin-ger.

Inacio, Susana e Diana Santos. 2008. Do-cumentacao da anotacao morfossintactica daparte portuguesa do COMPARA, Dezembro,2008. Primeira versao: 9 de Dezembro de2005, http://www.linguateca.pt/COMPARA/DocAnotacaoPortCOMPARA.pdf.

Inacio, Susana, Diana Santos, e Rosario Silva.2008. COMPARAndo cores em portugues eingles. Em Sonia Frota e Ana Lucia Santos,editores, Artigos seleccionados do XXIII En-contro da Associacao Portuguesa de Linguıstica(APL), pp. 271–286, 1-3 de Outubro de 2007,2008.

Kilgarriff, Adam, Pavel Rychly, Pavel Smrz, e Da-vid Tugwell. 2005. The Sketch Engine. EmProc. Euralex. pp. 105–116, Julho, 2005.

Lai, Catherine e Steven Bird. 2004. Querying andupdating treebanks: A critical survey and re-quirements analysis. Em In Proceedings of theAustralasian Language Technology Workshop,pp. 139–146.

Maia, Belinda. 2003. Constructing comparableand parallel corpora for terminology extraction- work in progress. Em Dawn Archer, Paul Ray-son, Andrew Wilson, e Tony McEnery, editores,Proceedings of the Corpus Linguistics 2003 con-ference (CL2003), 28-31 de Marco. 2003.

Maia, Belinda. 2008a. Alice no Paıs dasMaravilhas ou as aventuras e desven-turas de uma linguista no mundo doPLN, 11 de Setembro, 2008. http://www.linguateca.pt/Linguateca10anos/Apresentacoes/AprMaiaL10.pdf.

Maia, Belinda. 2008b. Corpografo V4 - Tools forEducating Translators. Em Elia Yuste Rodrigo,

Caminhos percorridos no mapa da portuguesificacao: A Linguateca em perspectiva Linguamatica – 53

Page 30: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

editor, Topics in Language Resources for Trans-lation and Localisation. John Benjamins Pub.Co, Amsterdam/Philadelphia, pp. 57–70, No-vembro, 2008.

Maia, Belinda e Anabela Barreiro. 2007. Umaexperiencia de recolha de exemplos classifica-dos de traducao automatica de ingles para por-tugues. Em Diana Santos, editor, Avaliacaoconjunta: um novo paradigma no processa-mento computacional da lıngua portuguesa. ISTPress, Lisboa, Portugal, pp. 205–216, 20 deMarco, 2007.

Maia, Belinda e Sergio Matos. 2008. CorpografoV4 - Tools for Researchers and Teachers usingComparable Corpora. Em Pierre Zweigen-baum, Eric Gaussier, e Pascale Fung, editores,LREC 2008 Workshop on Comparable Corpora(LREC 2008). European Language ResourcesAssociation (ELRA), pp. 79–82, 31 de Maio,2008.

Maia, Belinda, Luıs Sarmento, e Diana Santos.2005. Introduzindo o Corpografo - um con-junto de ferramentas para criar corpora espe-cializados e comparaveis e bases de dados temi-nologicas. Terminometro, 7:61–62. Numero es-pecial - A terminologia em Portugal e nos paısesde lıngua portuguesa em Africa.

Meinedo, Hugo, Marcio Viveiros, e Joao Pauloda Silva Neto. 2008. Evaluation of a live bro-adcast news subtitling system for Portuguese.Em Interspeech 2008. ISCA, Setembro, 2008.

Mota, Cristina e Pedro Moura. 2003. ANELL: AWeb System for Portuguese Corpora Annota-tion. Em Nuno J. Mamede, Jorge Baptista, Isa-bel Trancoso, e Maria das Gracas Volpe Nunes,editores, Computational Processing of the Por-tuguese Language: 6th International Workshop,PROPOR 2003. Faro, Portugal, June 2003, pp.184–188, Berlin/Heidelberg. Springer Verlag.

Mota, Cristina e Diana Santos, editores. 2008.Desafios na avaliacao conjunta do reconheci-mento de entidades mencionadas: O SegundoHAREM. Linguateca.

NIST e ACE. 2007. Automatic Content Ex-traction 2008 Evaluation Plan (ACE08)– Assessment of Detection and Recogni-tion of Entities and Relations within andacross Documents. Relatorio tecnico, NIST.http://www.nist.gov/speech/tests/ace/2008/doc/ace08-evalplan.v1.2d.pdf.

Nunes, Maria das Gracas Volpe. 2008.Relato sobre a parceria Linguateca-NILC, 11 de Setembro, 2008. http://www.linguateca.pt/Linguateca10anos/Apresentacoes/AprNunesL10.pdf.

Oliveira, Catarina Alexandra Monteiro de.2009. Do Grafema ao Gesto: ContributosLinguısticos para um Sistema de Sıntese deBase Articulatoria. Tese de doutoramento,Universidade de Aveiro.

Oliveira, Debora, Luıs Sarmento, Belinda Maia, eDiana Santos. 2005. Corpus analysis for in-dexing: when corpus-based terminology makesa difference. Em Pernilla Danielsson e Mar-tijn Wagenmakers, editores, Proceedings fromthe Corpus Linguistics 2005 Conference Series,volume 1, 14-17 de Julho. 2005.

Oliveira, Mirna, Bento C. Dias da Silva, e HelioMoraes. 2002. Groundwork for the Develop-ment of the Brazilian Portuguese Wordnet. EmNuno Mamede e Elisabete Ranchhod, edito-res, Advances in Natural Language Processing:Third International Conference, Proceedings(PorTAL 2002), Lecture Notes in Artificial In-telligence, pp. 189–196, Berlin/Heidelberg, 23-26 de Junho, 2002. Springer.

Orasan, Constantin, Dan Cristea, Ruslan Mitkov,e Antonio Branco. 2008. Anaphora resolu-tion exercise: An overview. Em Proceedingsof the Sixth International Language Resourcesand Evaluation (LREC’08), Marraqueche, Mar-rocos, 28 - 30 de Maio, 2008.

Pardo, Thiago A. S., Maria das Gracas VolpeNunes, e Lucia H. M. Rino. 2004. DiZer:An Automatic Discourse Analyzer for BrazilianPortuguese. Em Ana L.C. Bazzan e SofianeLabidi, editores, Advances in Artificial Intelli-gence. XVII Brazilian Symposium on ArtificialIntelligence (SBIA’04), Lecture Notes in Com-puter Science, pp. 224–234, Berlin/Heidelberg,29 de Setembro - 1 de Outubro, 2004. SpringerVerlag.

Pardo, Thiago A. S. e Lucia H. M. Rino. 2002.DMSumm: Review and Assessment. Em NunoMamede e Elisabete Ranchhod, editores, Ad-vances in Natural Language Processing: ThirdInternational Conference, Proceedings (Por-TAL 2002), Lecture Notes in Artificial Intel-ligence, pp. 263–274, Berlin/Heidelberg, 23-26de Junho, 2002. Springer.

Pekar, Viktor e Richard Evans. 2007. Discovery oflanguage resources on the web: Information ex-traction from heterogeneous documents. Lite-rary and Linguistic Computing, 22(3):329–343.

Peters, Carol, Valentin Jijkoun, Thomas Mandl,Henning Muller, Doug W. Oard, AnselmoPenas, Vivien Petras, e Diana Santos, edito-res. 2008. Advances in Multilingual and Multi-modal Information Retrieval: 8th Workshop ofthe Cross-Language Evaluation Forum, CLEF

54– Linguamatica Diana Santos

Page 31: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

2007, Budapest, Hungary, September 19-21,2007, Revised Selected Papers, volume 5152 ofLecture Notes in Computer Science. Springer,Berlin.

Roberts, Kirk e Andrew Hickl. 2008. Scalinganswer type detection to large hierarchies. EmProceedings of the Sixth International LanguageResources and Evaluation (LREC’08). ELRA,28-30 Maio, 2008.

Rocha, Paulo e Diana Santos. 2007. CLEF:Abrindo a porta a participacao internacionalem avaliacao de RI do portugues. Em DianaSantos, editor, Avaliacao conjunta: um novoparadigma no processamento computacional dalıngua portuguesa. IST Press, Lisboa, Portugal,pp. 143–158.

Rocha, Paulo Alexandre e Diana Santos. 2000.CETEMPublico: Um corpus de grandes di-mensoes de linguagem jornalıstica portuguesa.Em Maria das Gracas Volpe Nunes, editor, VEncontro para o processamento computacionalda lıngua portuguesa escrita e falada (PROPOR2000), pp. 131–140, Sao Paulo, 19-22 de Novem-bro, 2000. ICMC/USP.

Rolo, Carlos Juzarte e Antonio Joaquim Serra-lheiro. 2008. An approach to natural lan-guage equation reading in digital talking bo-oks. Em Antonio Teixeira, Vera Lucia Strubede Lima, Luıs Caldas de Oliveira, e PauloQuaresma, editores, Computational Processingof the Portuguese Language, 8th InternationalConference, Proceedings (PROPOR 2008), vo-lume 5190. Springer Verlag, pp. 268–271.

Santos, Diana. 1995. On grammatical trans-lationese. Em Kimmo Koskenniemi, editor,Short papers presented at the Tenth Scandina-vian Conference on Computational Linguistics.pp. 59–66, 29-30 de Maio, 1995.

Santos, Diana. 1999a. Porque processamentocomputacional do portugues e nao processa-mento de linguagem natural?, 24 de Marco,1999. http://www.linguateca.pt/branco/Porque.html.

Santos, Diana. 1999b. Processamento compu-tacional da lıngua portuguesa: Documento detrabalho. Versao base de 9 de Fevereiro de1999; revista a 13 de Abril de 1999, http://www.linguateca.pt/branco/index.html.

Santos, Diana. 1999c. Towards language-specificapplications. Machine Translation, 14(2):83–112, Junho, 1999.

Santos, Diana. 2000. O projecto ProcessamentoComputacional do Portugues: Balanco e pers-pectivas. Em Maria das Gracas Volpe Nunes,

editor, V Encontro para o processamento com-putacional da lıngua portuguesa escrita e falada(PROPOR 2000). ICMC/USP, Sao Paulo, pp.105–113, 19-22 de Novembro, 2000.

Santos, Diana. 2002a. DISPARA, a system fordistributing parallel corpora on the Web. EmNuno Mamede e Elisabete Ranchhod, edito-res, Advances in Natural Language Processing:Third International Conference, Proceedings(PorTAL 2002), Lecture Notes in ArtificialIntelligence, pp. 209–218, Berlin/Heidelberg.Springer.

Santos, Diana. 2002b. Um centro de recursospara o processamento computacional do por-tugues. DataGramaZero - Revista de Cienciada Informacao, 3(1), Fevereiro, 2002.

Santos, Diana. 2003a. Relatorio Lin-guateca 2000-2003. Relatorio tecnico,Linguateca, Setembro, 2003. http://www.linguateca.pt/documentos/RelatorioLinguateca2000-2003Revisto.pdf.

Santos, Diana. 2003b. Timber! Issues in treebankbuilding and use. Em Nuno J. Mamede, JorgeBaptista, Isabel Trancoso, e Maria das GracasVolpe Nunes, editores, Computational Proces-sing of the Portuguese Language: 6th Interna-tional Workshop, PROPOR 2003. Faro, Portu-gal, June 2003, pp. 151–158, Berlin/Heidelberg.Springer.

Santos, Diana. 2004. Aonde vamos em relacao aaonde. the ESPecialist, 25(1):85–103.

Santos, Diana. 2005. Relatorio da Linguateca de15 de Maio de 2004 a 14 de Maio de 2005. Re-latorio tecnico, Linguateca, 2 de Junho, 2005.http://www.linguateca.pt/documentos/RelatorioLinguatecaMaio2005.pdf.

Santos, Diana. 2006a. Desenho, construcao eutilizacao de corpora, 10 de Julho, 2006. http://www.linguateca.pt/escolaverao2006/Corpora/CorporaEscolaVerao.pdf.

Santos, Diana. 2006b. Resumo da actividadeda Linguateca de 15 de Maio de 2003 a 15de Dezembro de 2006. Relatorio tecnico,Linguateca, Dezembro, 2006. Com a cola-boracao (por ordem alfabetica) de AlbertoSimoes, Ana Frankenberg-Garcia, BelindaMaia, Luıs Costa, Luıs Miguel Cabral, LuısSarmento, Marcirio Chaves, Mario J. Silva,Nuno Cardoso, Paulo Gomes e Rui Vilela,http://www.linguateca.pt/documentos/RelatorioLinguateca2003-2006.pdf.

Santos, Diana. 2007a. Avaliacao conjunta. EmDiana Santos, editor, Avaliacao conjunta: um

Caminhos percorridos no mapa da portuguesificacao: A Linguateca em perspectiva Linguamatica – 55

Page 32: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

novo paradigma no processamento computaci-onal da lıngua portuguesa. IST Press, Lisboa,Portugal, pp. 1–12, 20 de Marco, 2007.

Santos, Diana, editor. 2007b. Avaliacao conjunta:um novo paradigma no processamento computa-cional da lıngua portuguesa. IST Press, Lisboa,Portugal.

Santos, Diana. 2007c. Computational lin-guistics beyond the processing of en-glish. http://www.linguateca.pt/Diana/download/FirstWords2007.pdf.

Santos, Diana. 2008a. Curso avancadode estudos contrastivos usando o COM-PARA como ferramenta, 3-5 de Novembro,2008. Modulo na EBraLC, Segunda EscolaBrasileira de Linguıstica Computacional,http://www.linguateca.pt/documentos/cursoCOMPARASantosEBRALC2008.pdf.

Santos, Diana. 2008b. Linguateca 10 anos:festejo ou luto?, 11 de Setembro, 2008. http://www.linguateca.pt/Linguateca10anos/Apresentacoes/AprSantosL10.pdf.

Santos, Diana. 2008c. Perfect mismatches: Resultin English and Portuguese. Em Margaret Ro-gers e Gunilla Anderman, editores, Incorpora-ting Corpora: The Linguist and the Translator.Multilingual matters, Clevedon, pp. 217–242.

Santos, Diana e Anabela Barreiro. 2004. Onthe problems of creating a consensual goldenstandard of inflected forms in. Em Maria Te-resa Lino, Maria Francisca Xavier, FatimaFerreira, Rute Costa, e Raquel Silva, edito-res, Proceedings of the 4th International Con-ference on Language Resources and Evaluation(LREC’2004), pp. 483–486, 26-28 de Maio,2004.

Santos, Diana e Eckhard Bick. 2000. Provi-ding Internet access to Portuguese corpora: theAC/DC project. Em Maria Gavrilidou, GeorgeCarayannis, Stella Markantonatou, Stelios Pi-peridis, e Gregory Stainhauer, editores, Proce-edings of the Second International Conferenceon Language Resources and Evaluation (LREC2000), pp. 205–210, 31 de Maio - 2 de Junho,2000.

Santos, Diana, Luıs Miguel Cabral, e LuısCosta. 2006. Linguateca: seven ye-ars working for the computational pro-cessing of Portuguese, 23 de Novembro,2006. http://www.linguateca.pt/Diana/download/AprLinguatecaNov2006.pdf.

Santos, Diana e Nuno Cardoso. 2005. Portu-guese at CLEF 2005: Reflections and Chal-lenges. Em Carol Peters, editor, Cross Lan-guage Evaluation Forum: Working Notes for

the CLEF 2005 Workshop (CLEF 2005), pp.s/pp, Viena, Austria, 21-23 de Setembro, 2005.Centromedia.

Santos, Diana e Nuno Cardoso, editores. 2007.Reconhecimento de entidades mencionadas emportugues: Documentacao e actas do HAREM,a primeira avaliacao conjunta na area. Lingua-teca.

Santos, Diana, Nuno Cardoso, Paula Carvalho,Iustin Dornescu, Sven Hartrumpf, Johannes Le-veling, e Yvonne Skalban. 2009. GikiP atGeoCLEF 2008: Joining GIR and QA for-ces for querying Wikipedia. Em Carol Pe-ters, Tomas Deselaers, Nicola Ferro, Julio Gon-zalo, Gareth J.F.Jones, Mikko Kurimo, Tho-mas Mandl, Anselmo Penas, e Viviane Pe-tras, editores, Evaluating Systems for Multi-lingual and Multimodal Information Access 9thWorkshop of the Cross-Language EvaluationForum, CLEF 2008, Aarhus, Denmark, Sep-tember 17-19, 2008, Revised Selected Papers.Springer.

Santos, Diana e Luıs Costa. 2005. A Linguatecae o projecto ’Processamento Computacional doportugues’. Terminometro, 7:63–69. Numeroespecial - A terminologia em Portugal e nospaıses de lıngua portuguesa em Africa.

Santos, Diana e Luıs Costa. 2007. QolA: foste-ring collaboration within QA. Em Carol Pe-ters, Paul Clough, Fredric C. Gey, Jussi Karl-gren, Bernardo Magnini, Douglas W. Oard,Maarten de Rijke, e Maximilian Stempfhuber,editores, Evaluation of Multilingual and Multi-modal Information Retrieval - 7th Workshop ofthe Cross-Language Evaluation Forum, CLEF2006. Alicante, Spain, September, 2006. Revi-sed Selected papers, volume 4730 of Lecture No-tes in Computer Science, pp. 569–578, Berlin /Heidelberg. Springer.

Santos, Diana, Luıs Costa, e Paulo Rocha. 2003.Cooperatively evaluating Portuguese morpho-logy. Em Nuno J. Mamede, Jorge Baptista, Isa-bel Trancoso, e Maria das Gracas Volpe Nunes,editores, Computational Processing of the Por-tuguese Language: 6th International Workshop,PROPOR 2003. Faro, Portugal, June 2003, pp.259–266, Berlin/Heidelberg. Springer Verlag.

Santos, Diana e Ana Frankenberg-Garcia. 2007.The corpus, its users and their needs: a user-oriented evaluation of COMPARA. Internati-onal Journal of Corpus Linguistics, 12(3):335–374, Maio, 2007.

Santos, Diana, Claudia Freitas, Hugo Goncalo Oli-veira, e Paula Carvalho. 2008. Second HA-REM: new challenges and old wisdom. Em

56– Linguamatica Diana Santos

Page 33: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

Antonio Teixeira, Vera Lucia Strube de Lima,Luıs Caldas de Oliveira, e Paulo Quaresma,editores, Computational Processing of the Por-tuguese Language, 8th International Confe-rence, Proceedings (PROPOR 2008), volumeVol. 5190, pp. 212–215. Springer Verlag.

Santos, Diana e Caroline Gasperin. 2002. Evalu-ation of parsed corpora: experiments in user-transparent and user-visible evaluation. EmManuel Gonzalez Rodrigues e Carmen Paz Su-arez Araujo, editores, Proceedings of the ThirdInternational Conference on Language Resour-ces and Evaluation (LREC 2002). ELRA, Paris,pp. 597–604, 29-31 de Maio, 2002.

Santos, Diana, Belinda Maia, e Luıs Sarmento.2004. Gathering empirical data to evalu-ate MT from English to Portuguese. EmLambros Kranias, Nicoletta Calzolari, Gre-gor Thurmair, Yorick Wilks, Eduard Hovy,Gudrun Magnusdottir, Anna Samiotou, e Kha-lid Choukri, editores, Proceedings of LREC2004 Workshop on the Amazing Utility of Pa-rallel and Comparable Corpora. pp. 14–17, 25de Maio, 2004.

Santos, Diana e Paulo Rocha. 2005. The key tothe first CLEF in Portuguese: Topics, ques-tions and answers in CHAVE. Em Carol Pe-ters, Paul Clough, Julio Gonzalo, Gareth J. F.Jones, Michael Kluck, e Bernardo Magnini,editores, Multilingual Information Access forText, Speech and Images, 5th Workshop ofthe Cross-Language Evaluation Forum, CLEF2004, Bath, UK, September 15-17, 2004, Re-vised Selected Papers, volume 3491 of Lec-ture Notes in Computer Science. Springer, Ber-lin/Heidelberg, pp. 821–832.

Santos, Diana e Luıs Sarmento. 2003. O projectoAC/DC: acesso a corpora/disponibilizacao decorpora. Em Amalia Mendes e Tiago Frei-tas, editores, Actas do XVIII Encontro Naci-onal da Associacao Portuguesa de Linguıstica(APL 2002), pp. 705–717, Lisboa, 2-4 de Outu-bro de 2002, 2003. APL.

Santos, Diana, Rosario Silva, e Susana Inacio.2008. What’s in a colour? Studying and con-trasting colours with COMPARA. Em Pro-ceedings of the 6th International Conferenceon Language Resources and Evaluation (LREC2008), pp. s/pp. European Language ResourcesAssociation (ELRA), 28-30 de Maio, 2008.

Santos, Diana, Alberto Simoes, Ana Frankenberg-Garcia, Ana Pinto, Anabela Barreiro, BelindaMaia, Cristina Mota, Debora Oliveira, EckhardBick, Elisabete Ranchhod, Jose Joao Diasde Almeida, Luıs Cabral, Luıs Costa, Luıs Sar-mento, Marcirio Chaves, Nuno Cardoso, Paulo

Rocha, Rachel Aires, Rosario Silva, Rui Vilela,e Susana Afonso. 2004. Linguateca: um centrode recursos distribuıdo para o processamentocomputacional da lıngua portuguesa. Em Guil-lermo De Ita Luna, Olac Fuentes Chavez, eMauricio Osorio Galindo, editores, Proceedingsof the international workshop ”Taller de Her-ramientas y Recursos Linguısticos para el Es-panol y el Portugues”, IX Iberoamerican Con-ference on Artificial Intelligence (IBERAMIA2004), pp. 147–154, Novembro, 2004.

Sarmento, Luıs, Anabela Barreiro, Belinda Maia,e Diana Santos. 2007. Avaliacao de TraducaoAutomatica: alguns conceitos e reflexoes. EmDiana Santos, editor, Avaliacao conjunta: umnovo paradigma no processamento computaci-onal da lıngua portuguesa. IST Press, Lisboa,Portugal, pp. 181–190.

Sarmento, Luıs e Belinda Maia. 2003. Gestorde corpora - Um ambiente Web integrado paraLinguıstica baseada em Corpora. Em Jose JoaoAlmeida, editor, Corpora Paralelos, Aplicacoese Algoritmos Associados (CP3A), pp. 25–30,Braga, 3 de Junho, 2003. Universidade do Mi-nho.

Sarmento, Luıs, Belinda Maia, e Diana Santos.2004. The Corpografo - a Web-based envi-ronment for corpora research. Em Maria Te-resa Lino, Maria Francisca Xavier, FatimaFerreira, Rute Costa, e Raquel Silva, edito-res, Proceedings of the 4th International Con-ference on Language Resources and Evalua-tion (LREC’2004). pp. 449–452, 26-28 de Maio,2004.

Seco, Nuno e Nuno Cardoso. 2006. Detectinguser sessions in the tumba! web log. Relatoriotecnico, Linguateca, Marco, 2006. http://eden.dei.uc.pt/~nseco/tumba.pdf.

Seco, Nuno, Diana Santos, Rui Vilela, e NunoCardoso. 2006. A Complex Evaluation Ar-chitecture for HAREM. Em Renata Vieira,Paulo Quaresma, Maria da Graca Volpes Nu-nes, Nuno J. Mamede, Claudia Oliveira, e Ma-ria Carmelita Dias, editores, ComputationalProcessing of the Portuguese Language: 7th In-ternational Workshop, PROPOR 2006. Itati-aia, Brazil, May 2006, volume LNAI 3960, pp.260–263, Berlin/Heidelberg. Springer Verlag.

Serralheiro, A., I. Trancoso, D. Caseiro, T. Cham-bel, L. Carrico, e N. Guimaraes. 2003. Towardsa repository of digital talking books. EmEUROSPEECH 2003 - 8th European Confe-rence on Speech Communication and Techno-logy (Interspeech’2003). Genebra, Suıca, Setem-bro, 2003.

Caminhos percorridos no mapa da portuguesificacao: A Linguateca em perspectiva Linguamatica – 57

Page 34: Caminhos percorridos no mapa da portuguesi cac~ ao: A ......Caminhos percorridos no mapa da portuguesi cac~ ao: A Linguateca em perspectiva Diana Santos Linguateca, SINTEF ICT Diana.Santos@sintef.no

Silva, Augusto Soares. 2008a. Integrando a va-riacao social e metodos quantitativos na inves-tigacao sobre linguagem e cognicao: para umasociolinguıstica cognitiva do portugues europeue brasileiro. Revista de Estudos da Linguagem,16(1):49–81.

Silva, Mario J. 2008b. Polo XLDB da Linguateca:4 anos, 11 de Setembro, 2008. Apresentacaono Encontro Linguateca: 10 anos, http://www.linguateca.pt/Linguateca10anos/Apresentacoes/AprMJSilvaL10.pdf.

Simoes, Alberto. 2008. Extraccao de Recursosde Traducao com base em Dicionarios Proba-bilısticos de Traducao. Tese de doutoramento,Faculdade de Engenharia da Universidade doMinho, Braga, Marco, 2008.

Simoes, Alberto e Jose Joao Almeida. 2007. Pa-rallel Corpora based Translation Resources Ex-traction. Procesamiento del Lenguaje Natural,39:265–272, Setembro, 2007.

Vallin, Alessandro, Bernardo Magnini, ChristelleAyache, Gregor Erbach, Anselmo Penas, Ma-arten de Rijke, Paulo Rocha, Kiril Simov, eRichard Sutcliffe. 2005. Overview of theCLEF 2004 Multilingual Question answeringtrack. Em Carol Peters, Paul Clough, JulioGonzalo, Gareth J. F. Jones, Michael Kluck,e Bernardo Magnini, editores, Multilingual In-formation Access for Text, Speech and Images,5th Workshop of the Cross-Language Evalua-tion Forum, CLEF 2004, Bath, UK, Septem-ber 15-17, 2004, Revised Selected Papers, vo-lume 3491 of Lecture Notes in Computer Sci-ence. Springer, Berlin/Heidelberg, pp. 371–391.

Vilela, Rui, Alberto Manuel Simoes, Eckhard Bick,e Jose Joao Almeida. 2005. Representacao emXML da Floresta Sintactica. Em Jose Car-los Ramalho, Alberto Simoes, e Joao Cor-reia Lopes, editores, 3a Conferencia Nacionalem XML, Aplicacoes e Tecnologias Aplicadas(XATA 2005), pp. 351–361. Departamento deInformatica, Universidade do Minho.

Wing, Benjamin e Jason Baldrige. 2006. Adap-tation of Data and Models for Probabilis-tic Parsing of Portuguese. Em Renata Vi-eira, Paulo Quaresma, Maria da Graca Vol-pes Nunes, Nuno J. Mamede, Claudia Oli-veira, e Maria Carmelita Dias, editores, Com-putational Processing of the Portuguese Lan-guage: 7th International Workshop, PRO-POR 2006. Itatiaia, Brazil, May 2006 (PRO-POR’2006), volume LNAI 3960, pp. 140–149,Berlin/Heidelberg. Springer.

Xavier, Maria Francisca, Maria de Lurdes Crispim,Graca Vicente, A. Castro, Alexandra Fieis, Ma-

ria Cristina Silva, e M. Lobo. 1998. Uti-lizacoes informaticas de corpora textuais me-dievais. Em Palmira Marrafa e Maria AntoniaMota, editores, Linguıstica Computacional: In-vestigacao Fundamental e Aplicacoes. Actas doI Workshop sobre Linguıstica Computacionalda Associacao Portuguesa de Linguıstica. Co-libri, Lisboa, pp. 347–358.

58– Linguamatica Diana Santos