criando corpora pessoais corpógrafo – presente e futuro belinda maia

28
Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Upload: internet

Post on 17-Apr-2015

116 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Criando corpora pessoais Corpógrafo – presente e

futuroBelinda Maia

Page 2: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

PRESENTE

Page 3: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Corpógrafo

Um conjunto de ferramentas que permitem:• Criar corpora

• Analisar corpora

• Extrair e catalogar itens linguísticos

• Armazenar o material estudado

• Exportar os resultados

Page 4: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Corpógrafo

Versão online:• Tem todas as funções

• Cada pessoa ou grupo trabalha num espaço próprio

• O trabalho de cada espaço é privado

Versão descarregável• Tem de pedir licenças para certas funções

• Não compatível com Windows

Page 5: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Criar corpora

Colecção de textos Limpeza de formatação –

e.g. .doc, .pdf, .ps, .html Fraseamento do texto Dicionário Registo de metadata

• Referências bibliográficas, fontes, etc

• Classificação - ‘medium’, género, domínio

• Língua

Page 6: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Criar corpora

Organização – e reorganização - de textos em corpora

Registo de metadata Relacionar corpora Alinhamento de textos paralelos Criação de corpora paralelos Exportação de corpora

Page 7: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Analisar corpora

Concordância frase – frase inteira Concordância Janela – até 15 átomos de

cada lado Concordância KWIC – até 15 átomos ou

100 caráteres N-grams – até 15 – ordem alfabética /

frequência

Page 8: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Concordâncias

Pode ver• Metadata do texto fonte

• Estatísticas do átomo / frase no corpus

• Outra forma de concordância

Em concordância janela – pode reorganizar por colunas à esquerda ou direita

Page 9: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Tipos de pesquisa

Por expressões regulares MySQL Por PoS NooJ – em Francês, Inglês ou

Português• Utiliza dicionários etiquetados

Por sequências de expressões regulares ou gramáticas NooJ

Page 10: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Centro de conhecimento

Bases de dados terminológicas• Objectivo original – extracção de terminologia

Bases de dados fraseológicas• Objectivo mais recente – permitir extracção e

classificação de• Itens do léxico geral

• Expressões multi-palavras

Page 11: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Bases de dados terminólogicas

BDs - multilingual Ferramentas:

• n-gram com filtros para extracção de ‘candidatos a termos’

• Possibilidade de pesquisar definições e relações semânticas

• Escolha de termos > traz metadata do corpus Dados terminológicos – registo de informação Material multimedia

Page 12: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Informação em BD

Geração de estatísticas dos termos• Frequência

• Co-ocurrência em textos

Ferramenta para ‘bootstrapping’ textos a partir de termos escolhidos

Concordância de corpora comparáveis Criação de relações semânticas pelo

pesquisador

Page 13: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

BDs Fraseológicas

Algumas funções iguais ou semelhantes às BDs terminológicas

MAS Pesquisa com gramáticas NooJ – resultados >

BD Relações discursivos (Rhetorical Structure

Theory) Possibilidade de criar classificações do

investigador

Page 14: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Exportação de dados

Exportação de corpora Exportação de BDs

Page 15: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

FUTURO

Page 16: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Funcionamento

Acelerar processamento Tornar possível manuseamento de maior

quantidade de dados Permitir mais interacção entre áreas

privadas quando desejado Criar possibilidade de projectos em

grupo mais sofisticados

Page 17: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Textos e corpora

Ferramenta para ‘bootstrapping’ de textos na Net na área de ‘uploading’ textos

Criar possibilidades de aceitar mais tipos de ficheiros - .docx, ppt, pptx, etc

Criar possibilidade de utilizar Corpografo com línguas como polaco, russo, grego, e até árabe e chinês etc

Melhorar sistema de limpeza de textos

Page 18: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Listas do léxico

Actualmente podemos criar um ‘dicionário’ de cada texto ou corpus

Criar• ‘standard wordlists’ para comparação

• + sistema estatística relacionado

• Etiquetagem PoS automática + ferramentas de correcção

Page 19: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Pesquisa de corpora

My SQL - aumentar possibilidades com mais exemplos e tutorial próprio – para linguístas

Possibilidades de utilizar vários sistemas (semi-)automáticos de anotação

Integração de uma ferramenta que permite ao utilizador criar a sua própria anotação

Page 20: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Outras Ideias

Aumentar possibilidades de criar relações• Sintácticos

• Semânticos Criar possibilidades de visualizar as

relações estabelecidos Usar métodos estatísticos para criar ‘word

clouds’ para futuro estudo e análise por linguístas > melhores ferramentas para data mining

Page 21: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Aproveitar

Wordnet – original e em PT Framenet – original e em PT Outros maneiras ‘linguísticas’ de analisar

a linguagem …… Sistemas informáticos > word clouds

Page 22: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Por exemplo

http://news.bbc.co.uk/2/hi/americas/7813432.stm

What words did George Bush use most during this eight-year presidency?

Page 23: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia
Page 24: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

Wortschatz – Univ. Leipzig

http://corpora.informatik.uni-leipzig.de/?dict=uk• Computational

• Linguistics

• Artificial

• Intelligence

Page 25: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia
Page 26: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia
Page 27: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia
Page 28: Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia