linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas
DESCRIPTION
Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas. Sandra Maria Aluísio. Fórum de Conhecimento e Tecnologia da Informação 9/12/2004 - Unicamp. Prefácio do Livro “Lingüística de Corpus” – Tony Sardinha, 2004. - PowerPoint PPT PresentationTRANSCRIPT
Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas
Sandra Maria Aluísio
Fórum de Conhecimento e Tecnologia da Informação 9/12/2004 - Unicamp
2
Prefácio do Livro “Lingüística de Corpus” – Tony Sardinha, 2004
Está em curso uma verdadeira revolução no pensamento lingüístico, com implicações sérias sobre como respondemos a questões fundamentais, tais como o que é língua, como ela é organizada, como deve ser estudada, como deve ser ensinada. A mola propulsora dessa revolução é a tecnologia, mais especificamente o computador.
...
Para entender essa revolução, é preciso acompanhar a Lingüística de Corpus, uma área que trata do uso de corpora computadorizados (coletâneas de textos, escritos ou de transcrições de fala, mantidas em arquivo de computador). Ao revelar uma quantidade surpreendente de evidências lingüísticas provindas de corpora eletrônicos, a Lingüística de Corpus questiona os paradigmas estabelecidos dos estudos lingüísticos e mostra novos caminhos para o lingüista, o tradutor, o lexicógrafo, e muitos outros profissionais.
3
Há 15 anos atrás ...
A comunidade internacional que trabalha com Lingüística Computacional e Processamento de Língua Natural (PLN) teve o mesmo entusiasmo com métodos empíricos e estatísticos para análise da linguagem.
Entretanto, esse interesse em métodos estatísticos baseado em córpus reacendeu todas as velhas controvérsias: filosofias racionalistas vs. empiristas, metodologias baseadas em teoria vs. dirigidas por dados, técnicas simbólicas vs. estatísticas.
4
Com uma análise histórica do que aconteceu no eixo Estados Unidos – Europa podemos aprender e encurtar caminhos para colocar o processamento e o estudo da língua
portuguesa do Brasil mais próximos dos avanços de outras, principalmente o inglês.
Além disso, quanto a criação de córpus, podemos aproveitar para aprender com os erros no desenvolvimento do BNC discussões, ferramentas e padrões que estão sendo
utilizados atualmente no desenvolvimento do ANC e alavancar o Português do Brasil, trazendo-o para o
cenário mundial das pesquisas em Lingüística de Córpus
5
Continuando no prefácio...
A influência mais visível no mundo contemporâneo está na preparação de dicionários. Hoje, todos os grandes dicionários da língua inglesa (de Oxford até Cambridge, Collins, Longman) são feitos com base em Lingüística de Corpus.
6
Para o português do Brasil ...
Temos também um dicionário com ocorrências reais: o “Dicionário de Usos do Português do Brasil” (DUP), do Prof. Borba e equipe, lançado em 2002.
Entretanto, o córpus que deu base ao dicionário: diferentemente dos para a língua inglesa, não foi construído
como um consórcio entre editoras e/ou empresas de software, governo e academia
possui somente textos escritos não está livremente e extensivamente disponível (ou a um baixo
custo) para consulta/pesquisa, agora que o dicionário está pronto.
7
Estrutura da Apresentação
Um pouco de História Exemplos de trabalhos e forma de trabalho
no NILC Lácio-Web Mestrado em Estudos Lingüísticos na
UFSCar com três linhas de pesquisa (submetido à Capes): Linguagem e Discurso, Ensino e Aprendizagem de Língua e Linguagem Humana e Tecnologia
8
Algumas definições ...
Divisão histórica: Lingüística Computacional na Lingüística, Processamento de Língua Natural na Computação, Reconhecimento/Tratamento da Fala (TF) na Engenharia Elétrica, Psico-lingüística Computacional* (psicologia cognitiva) na Psicologia
Lingüística Computacional é o estudo científico da linguagem a partir de uma perspectiva
computacional. Interesse em modelos computacionais de vários tipos de fenômenos
lingüísticos. Processamento de Língua Natural (PLN)
é uma ciência da computação que usa computadores para processar linguagem escrita e falada para aplicações práticas.
Inclui métodos e teorias para as fases de processamento, como é o caso da tradução de língua natural: análise fonético-fonológica , morfológica, sintática, semântica, pragmático-discursiva.
Linguagem Humana e Tecnologia abarca pesquisas em PLN e Lingüística Computacional.
9
Análises empíricas e estatísticas da LN eram populares Havia uma grande comunidade de lingüistas trabalhando com dados
quantitativos nos EUA e Europa, estudando métodos para aprender informações léxicas e sintáticas de córpus
Depois da II Guerra Mundial
Gramática Gerativa: fins dos 50’s inicio dos 60’s A ênfase em julgamentos intuitivos sobre a gramaticalidade de textos
ocasionou um confronto com os lingüistas quantitativos Primeiro, Chomsky defendeu que lingüistas não deveriam ser
meramente descritivos, mas sim Segundo, Chomsky argumentou contra o aprendizado de uma língua a
partir de córpus, pois acreditava que partes principais da linguagem são inatas e não aprendidas
A abordagem empirista também postula que existe alguma habilidade cognitiva presente no cérebro. A diferença entre as abordagens não é absoluta mas de grau
Polarização de opiniões; nenhuma interação produtiva
10
70’s e 80’s Poucos grupos de PLN persistiram na abordagem probabilística A abordagem baseada em regras dominou o campo, mesmo nas
equipes industriais que trabalhavam com PLN A comunidade de TF amadureceu e deu ênfase para a indução de
modelos estatísticos da língua a partir de dados de treinamento
Fim dos 80’s e começo dos 90’s O campo de PLN deu um giro radical devido a duas razões:
incentivo da DARPA para a união das 2 abordagens o aumento da disponibilidade de textos eletrônicos
Os problemas da comunidade de lingüistas computacionais estavam sendo resolvidos com sucesso pela comunidade de TF que utilizava aprendizado a partir de córpus em vez de construir manualmente regras para tratar estes problemas
A princípio, o interesse por métodos estatísticos baseados em corpus
esquentou as controvérsias entre racionalismo vs. empirismo; as técnicas simbólicas vs. estatísticas
11
1994: The Balancing Act Workshop nos EUA Foi planejado quando havia grande alvoroço nas duas comunidades:
mesmo que partes das comunidades estivessem trabalhando nas mesmas bases, não havia entrosamento para mostrarem os resultados.
Começou a busca pela combinação de abordagens.
Fillmore 1992 in Svartvik (ed), p.35 I don’t think there can be any corpora, however large, that contain
information about all of the areas of English lexicon and grammar that I want to explore; all that I have seen are inadequate
Every corpus that I've had a chance to examine, however small, has taught me facts that I couldn't imagine finding out about in any other way
My conclusion is that the two kinds of linguists need each other. Or better, that the two kinds of linguists, wherever possible, should exist in the same body.
12
Por que as coisas mudaram???
Cada comunidade precisa da experiência da outra: abordagens quantitativas facilitam
a aquisição automatizada ou semi-automatizada de conhecimento, somam robustez e cobertura a sistemas de PLN restritos, e permitem a extensão ou transporte para um novo conjunto de
dados, nova tarefa ou domínio abordagens quantitativas são dependentes da natureza dos
dados utilizados e assim precisam também de conhecimento lingüístico; métodos indutivos tem melhor desempenho quando guarnecidos
com conhecimento inicial preciso
Computadores mais rápidos, armazenagem mais barata e iniciativas para a construção de córpus se tornaram regra e não exceção.
13
Necessidade da construção de sistemas que trabalham no mundo real e não mais os tradicionais sistemas de PLN que trabalhavam em domínios restritos. Esta virada pede as vantagens de métodos quantitativos, pois
essas aplicações trabalham com dados incorretos e, ao mesmo tempo os usuários estão se ajustando para aceitar resultados menos perfeitos.
Com as mudanças políticas e econômicas ocorridas no mundo, há uma grande ênfase em resultados e avaliações caso das avaliações conjuntas e da disponibilização na Web
de dados de treinamento para comparação de abordagens.
O próprio pêndulo intelectual, mesmo em outras áreas de pesquisa, está voltando para o empirismo, procurando a construção de modelos da língua que levem em
conta a incerteza e a variabilidade.
14
E a Lingüística de Córpus? O que ela pode oferecer aos lingüistas tradicionais?
Começo dos anos 90´s: utilizava-se os termos “abordagem baseada em córpus” ou Análise Textual
Atualmente, existem várias conferências, incluindo a bianual “Corpus Linguistics” nas quais o público alvo é diverso: tanto da computação como lingüística; livros; córpus em várias línguas e ferramentas disponíveis na Web.
Essa área oferece uma oportunidade para: Lingüistas tradicionais trabalharem de uma nova forma com as velhas
disciplinas (como faz o lingüista computacional) e juntamente com pesquisadores de PLN em outras tarefas que
provavelmente nunca pensou em trabalhar!
Áreas de Pesquisa: compilação de córpus (crus ou anotados); desenvolvimento de ferramentas; descrição da linguagem; aplicação de córpus (ensino de línguas, reconhecimento de voz, tradução, etc.)
É uma área onde todos tem muito a aprender – pode ser a melhor chance que temos de começar a trabalhar de forma diferente
15
Bibliografia
Brill, E. and Mooney, R. An Overview of Empirical Natural Language Processing, AI Magazine, Winter 1997, p. 13-24.
Klavans, J. and Resnik, P. The Balancing Act - Combining Symbolic and Statistical Approaches to Language, The MIT Press, 1996.
Church, K. and Mercer, R. Introduction to the Special Issue on Computational Linguistics Using Large Corpora, Computational Linguistics 19, p. 1-24, 1993.
Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.
Daniel Jurafsky & James H. Martin. Speech and Language Processing. Prentice-Hall, 2000.
16
Exemplos de trabalhos e forma de trabalho no NILC
The Núcleo Interinstitucional de Lingüística Computacional (NILC) wascreated in 1993 to foster research and development projects in ComputationalLinguistics and Natural Language Processing, such as Corpus and LexiconDevelopment, Automatic Summarization, Machine Translation, WritingSupporting Tools. Though it was originally conceived by scientists from theDepartment of Computer Science and Institute of Physics from theUniversidade de São Paulo (USP) in São Carlos, it now includes computerscientists, linguists and research fellows from Universidade Federal de SãoCarlos (UFSCar), Universidade Estadual Paulista (UNESP) of Araraquara.
O ReGra foi a aplicação que deu origem ao NILC, em 1993, com financiamento da ITAUTEC-Philco e agências do governo
17
ReGra
Treinamento de Etiquetadores Morfossintáticos (taggers) a partir de grandes córpus
Extração Automática de Terminologia
Aprendizado Automático dos elementos da Estrutura Esquemática de Artigos Científicos
Todos os trabalhos acima utilizaram córpus de formas diferentes:
controlar a intuição lingüística; avaliação; anotar características manualmente, semi-automaticamente e automaticamente; treinamento de classificadores; extração de informação.
Comentários sobre os trabalhos
18
ReGra Corretor gramatical (baseado na gramática normativa) inserido no
Office
Criado um córpus (o Córpus NILC com 35 milhões de ocorrências) com uma organização especial em 3 conjuntos:
textos corrigidos textos semicorrigidos textos não-corrigidos
Gramática do ReGra: criada manualmente segundo a abordagem simbólica (regras).
A gramática do ReGra será usada em uma ferramenta para criação de um córpus de desvio para anotar automaticamente os erros e permitir a sub-classificação manual deles e assim diminuir o tempo de anotação. É usada na ferramenta de suporte à escrita SCIPO
Córpus: usado para levantamento de padrões e avaliação do desempenho
19
Taggers do Lácio-Web Anotam automaticamente as sentenças de um texto com categorias
gramaticais.
Certos algoritmos de treinamento exigem grande quantidade de palavras anotadas manualmente, cerca de 1 milhão. O Mac-Morpho (Lácio-Web) possui ~ 1,2 milhões de palavras
Treinados 3 taggers que usam modelos diferentes para futuramente criar um outro seguindo o modelo de combinação de classificadores para salientar os acertos dos 3 e evitar os seus erros.
Um dos modelos é simbólico (Brill), pois usa regras para representar o conhecimento aprendido ( vantagem de ser legível por humanos, comparado com grandes matrizes de probabilidades)
Córpus: usado para treinar classificadores segundo um aprendizado supervisionado que exigiu a anotação manual de cada palavra do córpus de treinamento (80%)
Não foi feita nenhuma inclusão de conhecimento lingüístico para pós-processamento ou melhorar a marcação de palavras desconhecidas
20
Extração automática de terminologia
Extração de listas de candidatos a termos de um dado córpus de textos técnicos/científicos.
Existem 3 tipos de métodos: estatísticos, lingüísticos e híbridos (combinação dos 2 primeiros)
Projeto ExPorTer avaliou algoritmos dos 3 métodos; híbrido teve melhor desempenho em 2 córpus diferentes.
Córpus: usado como fonte da extração. Não há aprendizado da tarefa.
No método estatístico, há o cálculo de medidas estatísticas de associação para n-gramas (informação mútua, log-like, etc.)
No método lingüístico, há a aplicação de taggers, uso de padrões lingüísticos (subs-adj, subs-prep-subs) e padrões de definição/descrição para localizar o ponto de extração
21
Classificador da estrutura esquemática de artigos
Anota automaticamente uma seção de um artigo com os elementos de uma estrutura esquemática pré-definida
Dada uma estrutura esquemática de uma seção do artigo, por exemplo o Resumo:
Contexto, Lacuna, Propósito, Metodologia, Resultado, Conclusão, Estrutura
o classificador utiliza um córpus com suas sentenças manualmente anotadas com os elementos acima, mas não trabalha com as sentenças diretamente e sim com vetores de atributos dessas sentenças:
Tamanho, localização, presença de citações, presença de expressões formulaicas, tempo, voz, presença de auxiliar modal, histórico
Córpus: usado para treinar o modelo de anotação com um aprendizado supervisionado; as sentenças são também processadas para criação dos atributos e nessa fase
são utilizadas várias fontes de conhecimento lingüístico como taggers, regras sintáticas, listas de expressões padrões, etc.
22
O Projeto Lácio-Web (LW) (1)
Objetivos: Desenvolvimento e distribuição gratuita na Web de vários tipos
de córpus; Elaboração de ferramentas de análise de lingüística:
Análise Qualitativa: construção de dicionários, descrição da língua, etc.; Análise Quantitativa: estatísticas dos dados para etiquetadores, extratores,
corretores, etc.;
Principais características: Tipologia ortogonal e quadripartida de classificação de textos:
privilegia o Gênero, Tipo de Texto, Domínio e Meio de Distribuição; Autorização de uso dos textos; Interfaces de pesquisa e montagem de subcórpus via Web.
Projeto de 30 meses, financiado pelo CNPq e concluído em junho/ 2004
23
O Projeto Lácio-Web (LW) (2)
Lácio-Ref Mac-Morpho Par-C Comp-C Lácio-Sint Lácio-Dev
LW – 6 córpus
aberto, sincrônico, PB contemporâneo
fechado, anotado morfossintaticamente
(manualmente)
aberto, paralelo (inglês-português)
aberto, comparável (textos jurídicos
inglês-português)
fechado, etiquetado aut. com lemas, etiquetas
morfossintáticas e
sintáticas. aberto, textos não
revisados em relação à norma
culta
Todos implementados com cabeçalhos em XML com classificações tipológicas e bibliográficas e informações sobre o
conjunto de caracteres.
Não implementados.
Futuras pesquisas de mestrado e
doutoradoLácio-Sint Lácio-Dev
fechado, etiquetado aut. com lemas, etiquetas
morfossintáticas e
sintáticas. aberto, textos não
revisados em relação à norma
culta
24
O Projeto Lácio-Web (LW) (3)
Interfaces de Pesquisa e Montagem de Subcórpus: Pesquisa Simples: é a mais genérica e considera
apenas 3 campos de pesquisa (Meio de Distribuição, Supergenêro e Gênero) ;
Pesquisa Avançada: é a intermediária e permite um refinamento dos campos de pesquisa;
Pode apresentar até 6 campos; Pesquisa Personalizada: é a mais refinada e permite
um recorte específico do subcórpus. Pode apresentar até 15 campos;
25
O Projeto Lácio-Web (LW) (4)
Interfaces de Ferramentas para aplicação nos subcórpus montados: Contadores de Freqüência:
“Padrão” e “Por Palavra”: tratamento de lexia complexa (nomes próprios e palavras compostas);
Concordanciadores; Etiquetadores Morfossintáticos: TreeTagger, Bril e
MXPost;
26
Material do LW e Disponibilizações Públicas
Material Institucional: Fundação Victor Civita - Editora Abril, Fapesp, Associação Brasileira de Cerâmica, Folha de São Paulo, USP, Editora Guanabara Koogan, and Revista Brasil de Literatura Editora.
Material Individual: teses e dissertações - site SABER Pesquisadores do NILC (com artigos, teses e relatórios técnicos).
Primeira disponibilização em 20/1/2004; segunda em 30/6/2004; anúncio em várias listas relacionadas a córpus, por exemplo [email protected]
Existe ainda material autorizado para ser disponibilizado.
27
Página Principal do Portal (em Português)
28
Os corpora disponíveis
29
Tipos de Pesquisa e Arquivos Disponíveis
30
Pesquisa Simples
31
Informações adicionais
32
Montagem de um subcorpus
33
Finalizando o subcorpus
34
Download e Ferramentas
35
Contadores de Freqüência
36
Tela de resultado dos Contadores de Freqüência
Estou coletando a fala de seis crianças com idades entre 1 e 3 anos, num intervalo de aproximadamente quinze dias. O objetivo é formar um banco de dados longitudinal para descrever aspectos da aquisição lexical, tais como freqüência, vizinhança, essas coisas, que poderão ser utilizadas em outros trabalhos. A minha tese especificamente vai estar centrada em ...
Paralelo a isto, porém, estou fazendo uma descrição do vocabulário das crianças em termos de freqüência, campo semântico, classe gramatical, tonicidade, número de sílabas e tipo de sílabas. É nesses aspectos que gostaria de utilizar os dados que acho que vcs dispõe, a fim de comparar a aquisição lexical infantil com dados do português como um todo. Ou seja: gostaria de saber se vcs. tem dados como: que classe gramatical é mais freqüente? Existem mais palavras dissílabas ou trissílabas? Qual a porcentagem de paroxítonas? essas coisas.
37
O Concordanciador
38
Resultado do Concordanciador
39
Contexto ampliado do Concordanciador
40
LW em Números Lácio-Ref – pretende ser um grande córpus de Referência do PB,
funcionando, por exemplo, como córpus de controle para comparação com um dado córpus de estudo. 4,278 arquivos 8,291,818 ocorrências
Par-C (córpus paralelo) 646 arquivos em inglês e 646 in Português da Revista Pesquisa Fapesp 893,283 ocorrências
Comp-C (gerador de córpus comparáveis) Textos originais em Inglês e Português – obtidos com uma ferramenta de
busca Córpus de Referencia de Textos em Inglês (Ref-Ig) para o domínio
jurídico 29 arquivos e 61,149 ocorrências
No total, LW tem 5,708 files e 10,413,524 ocorrências
41
Distribuição Final dos Textos no LW
42
O Lácio-Web é hoje: um Portal de acesso a córpus que disponibiliza gratuitamentegratuitamente:
4 tipos distintos de córpus; ferramentas lingüístico-computacionais para aplicação em subcórpus; 3 tipos de interfaces de pesquisa e montagem de subcórpus; ambiente de navegação dinâmica e didática que incentiva o uso de córpus
Futuramente, o Lácio-Web receberá ferramentas desenvolvidas em projetos do NILC como alinhadores de sentença, extratores de termos etc.
Será que precisamos de um Córpus Nacional do Português Brasileiro, seguindo os moldes dos megacórpus BNC e ANC?
43
Contribuem para:
Descrição e ensino da língua Desenvolvimento de Ferramentas de PLN Criação de recursos (gramáticas e dicionários)
Como o custo de criar e anotar córpus é muito alto tanto em recursos financeiros como em demanda de pessoal especializado, agências finnaciadoras e pesquisadores esperam amortizar esse custo pelo reuso desse recurso em mais de um projeto e por mais de um grupo de pesquisa, incluindo sua distribuição mundial.
O alto custo também força o desenvolvimento de arquiteturas de dados, formatos de codificação e formalismos de anotação para os recursos de língua que possibilitarão o intercâmbio
Um exemplo é o padrão XCES, (usa XML) que está sendo desenvolvido pelo grupo do projeto ANC ao mesmo tempo da criação do megacórpus
Projetos de Megacórpus
44
Tipos de informações relevantes para codificação
1 – Documentation (header): bibliographic description of the document, character set, description of encoding convention, etc.
2 – Primary data
1.1 – Gross structure: volume, chapter, paragraph, footnotes, titles, tables, figures, etc.
1.2 – Sub-paragraph structures: sentences, quotations, words, abbreviations, dates, highligted words, etc.3 – Linguistic annotation: linguistic information about segments e.g., POS and syntactic tagging, alignment of parallel texts.
CES
XCES valida a arquitetura de dados CES, na qual anotação lingüística (incluindo o cabeçalho) são mantidas em documentos separados que apontam o original, gerando um “hiperdocumento” composto do texto origina e todas as anotações
45
Codificação dos Córpus do LW
Lácio-Ref Mac-Morpho Par-C Comp-C
Córpus do LW
fechado, anotado morfossintaticamente
(manualmente)
aberto, paralelo (inglês-português)
aberto, comparável (textos jurídicos
inglês-português)
Lácio-Ref, Par-C e Comp-C: cabeçalho XML com info bibliográfica e tipologias, conjunto de carcateres e codificação. Inserido manualmente
Mac-Morpho: 2 formatos: 1) buscas --- etiquetas XML para nome do arquivo, título, subtítulo, parágrafo, sentença; 2) treinamento de taggers --- pares palavra–tag separados por linhas
Aberto, síncrono, PB contemporâneo
Fechado, anotado manualmente com
etiquetas POS
Aberto, paralelo (Inglês-Português)
aberto, comparável (textos jurídicos P-I)
Lácio-ref + Ref-Ig
46
Cabeçalho de classificação em XML: Informações Tipológicas:
Supergênero, Gênero, Subgênero, Tipo de Texto, Meio de Distribuição, Domínio, Subdomínio;
Informações Bibliográficas: Nome do Autor, Editor, Local de Publicação, Data, Titulo, Subtítulo,
Língua, Número de Páginas, Número de Palavras etc.;
<?xml version="1.0" encoding="ISO-8859-1"?>
<header>
<>...</> <title> <fileName>RE-IF-F-ci-ago02_01.txt</fileName> <corpus>Referência</corpus> <nPages>1</nPages> <nWords>311</nWords> <sample>Íntegra</sample> </title><>...</> <textClassification> <textGenre> <genre>Informativo</genre> <subgenre>Jornalístico</subgenre> </textGenre> <textType>Notícia</textType> <domain> <generalDomain defined="annotador-def">Científico/Ciências Biológicas</generalDomain> <specificDomain>Ecologia</specificDomain> <generalSecondaryDomain defined="annotador-def">Científico/Ciências Agrárias</generalSecondaryDomain> <specificSecondaryDomain>Medicina Veterinária</specificSecondaryDomain> </domain> <distribution>Revista</distribution> </textClassification></header>
Cabeçalho do LW
Conjunto de caracteres e codificação
Parte da Descrição Bibliográfica
Gênero e Sub-gênero
Tipo de Texto
Meio de DistribuiçãoDomínio e Sub-domínio
47
<?xml version="1.0" encoding="ISO-8859-1"?>
<header>
<>...</> <title> <fileName>RE-IF-F-ci-ago02_01.txt</fileName> <corpus>Referência</corpus> <nPages>1</nPages> <nWords>311</nWords> <sample>Íntegra</sample> </title><>...</> <textClassification> <textGenre> <genre>Informativo</genre> <subgenre>Jornalístico</subgenre> </textGenre> <textType>Notícia</textType> <domain> <generalDomain defined="annotador-def">Científico/Ciências Biológicas</generalDomain> <specificDomain>Ecologia</specificDomain> <generalSecondaryDomain defined="annotador-def">Científico/Ciências Agrárias</generalSecondaryDomain> <specificSecondaryDomain>Medicina Veterinária</specificSecondaryDomain> </domain> <distribution>Revista</distribution> </textClassification></header>
X Y Z K C N ... ...
X ...Genre
Y ...Subgenre
Z ...Text type
K ...Dist.
N ...Domain
C ...Subdomain
Text
Base de Dados
Cabeçalho do LW
48
Corpo do Texto - LW
Texto e cabeçalho estão juntos em um arquivo
Não estamos seguindo a arquitetura de dados usada no XCES.
Não anotamos em XML vários elementos da gross structure, por exemplo, capítulos, parágrafos, sub-parágrafos, notas de rodapé
Esses elementos estão formatados e padronizados para permitir visualização fácil com quebra de linhas, caixa-alta, etc.
Somente a anotação de elementos gráficos, bibliografia, palavras-chave e resumo foram feitas em XML
Palavras com ênfase foram perdidas quando o texto foi convertido no formato txt (foi uma opção de projeto)
49
Mestrado em Estudos Lingüísticos na UFSCar
Em julgamento pela CAPES; resposta no próximo dia 21/12
A linha “Linguagem Humana e Tecnologia”, começa com 3 pesquisadoras do NILC (Gladis Maria de Barcellos Almeida, Lúcia Helena Machado Rino e Sandra Maria Aluísio) e foi pré-avaliada com elogios por trazer um diferencial.
Aceitará alunos da Computação e da Lingüística trabalhando com as abordagens baseada em córpus e simbólica e, principalmente, com a combinação dessas
Disciplinas Iniciais: Introdução a Metodologias Baseadas em Conhecimento Lingüística de Corpus Introdução ao Processamento de Línguas Naturais (PLN) Terminologia e Ferramentas Computacionais Sumarização Automática (SA) Seminários de Linguagem Humana e Tecnologia
50
Links interessantes
Site do NILC:http://www.nilc.icmc.usp.br/nilc/index.html
Arquivo das mensagen das lista corpora:http://nora.hd.uib.no/corpora/archive.html
Site da Linguateca – córpus e ferramentas:www.linguateca.pt
Obrigada!