Criando corpora pessoais Corpógrafo – presente e
futuroBelinda Maia
PRESENTE
Corpógrafo
Um conjunto de ferramentas que permitem:• Criar corpora
• Analisar corpora
• Extrair e catalogar itens linguísticos
• Armazenar o material estudado
• Exportar os resultados
Corpógrafo
Versão online:• Tem todas as funções
• Cada pessoa ou grupo trabalha num espaço próprio
• O trabalho de cada espaço é privado
Versão descarregável• Tem de pedir licenças para certas funções
• Não compatível com Windows
Criar corpora
Colecção de textos Limpeza de formatação –
e.g. .doc, .pdf, .ps, .html Fraseamento do texto Dicionário Registo de metadata
• Referências bibliográficas, fontes, etc
• Classificação - ‘medium’, género, domínio
• Língua
Criar corpora
Organização – e reorganização - de textos em corpora
Registo de metadata Relacionar corpora Alinhamento de textos paralelos Criação de corpora paralelos Exportação de corpora
Analisar corpora
Concordância frase – frase inteira Concordância Janela – até 15 átomos de
cada lado Concordância KWIC – até 15 átomos ou
100 caráteres N-grams – até 15 – ordem alfabética /
frequência
Concordâncias
Pode ver• Metadata do texto fonte
• Estatísticas do átomo / frase no corpus
• Outra forma de concordância
Em concordância janela – pode reorganizar por colunas à esquerda ou direita
Tipos de pesquisa
Por expressões regulares MySQL Por PoS NooJ – em Francês, Inglês ou
Português• Utiliza dicionários etiquetados
Por sequências de expressões regulares ou gramáticas NooJ
Centro de conhecimento
Bases de dados terminológicas• Objectivo original – extracção de terminologia
Bases de dados fraseológicas• Objectivo mais recente – permitir extracção e
classificação de• Itens do léxico geral
• Expressões multi-palavras
Bases de dados terminólogicas
BDs - multilingual Ferramentas:
• n-gram com filtros para extracção de ‘candidatos a termos’
• Possibilidade de pesquisar definições e relações semânticas
• Escolha de termos > traz metadata do corpus Dados terminológicos – registo de informação Material multimedia
Informação em BD
Geração de estatísticas dos termos• Frequência
• Co-ocurrência em textos
Ferramenta para ‘bootstrapping’ textos a partir de termos escolhidos
Concordância de corpora comparáveis Criação de relações semânticas pelo
pesquisador
BDs Fraseológicas
Algumas funções iguais ou semelhantes às BDs terminológicas
MAS Pesquisa com gramáticas NooJ – resultados >
BD Relações discursivos (Rhetorical Structure
Theory) Possibilidade de criar classificações do
investigador
Exportação de dados
Exportação de corpora Exportação de BDs
FUTURO
Funcionamento
Acelerar processamento Tornar possível manuseamento de maior
quantidade de dados Permitir mais interacção entre áreas
privadas quando desejado Criar possibilidade de projectos em
grupo mais sofisticados
Textos e corpora
Ferramenta para ‘bootstrapping’ de textos na Net na área de ‘uploading’ textos
Criar possibilidades de aceitar mais tipos de ficheiros - .docx, ppt, pptx, etc
Criar possibilidade de utilizar Corpografo com línguas como polaco, russo, grego, e até árabe e chinês etc
Melhorar sistema de limpeza de textos
Listas do léxico
Actualmente podemos criar um ‘dicionário’ de cada texto ou corpus
Criar• ‘standard wordlists’ para comparação
• + sistema estatística relacionado
• Etiquetagem PoS automática + ferramentas de correcção
Pesquisa de corpora
My SQL - aumentar possibilidades com mais exemplos e tutorial próprio – para linguístas
Possibilidades de utilizar vários sistemas (semi-)automáticos de anotação
Integração de uma ferramenta que permite ao utilizador criar a sua própria anotação
Outras Ideias
Aumentar possibilidades de criar relações• Sintácticos
• Semânticos Criar possibilidades de visualizar as
relações estabelecidos Usar métodos estatísticos para criar ‘word
clouds’ para futuro estudo e análise por linguístas > melhores ferramentas para data mining
Aproveitar
Wordnet – original e em PT Framenet – original e em PT Outros maneiras ‘linguísticas’ de analisar
a linguagem …… Sistemas informáticos > word clouds
Por exemplo
http://news.bbc.co.uk/2/hi/americas/7813432.stm
What words did George Bush use most during this eight-year presidency?
Wortschatz – Univ. Leipzig
http://corpora.informatik.uni-leipzig.de/?dict=uk• Computational
• Linguistics
• Artificial
• Intelligence