![Page 1: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/1.jpg)
Construção, Manutenção e Disponibilização de Corpora
Marcelo Muniz, Kleber Infante, Fernando MunizSandra Aluísio
III Workshop do Projeto PLN-BR - 9/5/2008 – ICMC-USP
![Page 2: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/2.jpg)
Atividades do sub-projeto
1. Definição dos Protocolos e Padrões de Representação dos Documentos
2. Disponibilização dos Córpus de Treinamento
3. Construção da Plataforma de Acesso aos Córpus – o Portal de Córpus
PLUS: disponibilização do córpus global (PLN-BR FULL - 29.014.089 tokens ) no ambiente Philologic:
http://moodle.icmc.usp.br/philologic-plnbr1/http://moodle.icmc.usp.br/philologic-plnbr2/http://moodle.icmc.usp.br/philologic-plnbr3/
![Page 3: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/3.jpg)
Definição dos Protocolos e Padrões de Representação dos Documentos
1.1 Adotamos o padrão XCES para anotação: dos cabeçalhos dos textos dos córpus da estrutura geral (parágrafos e sentenças)
1.2 Essas 2 últimas foram geradas automaticamente com a ajuda do segmentador sentencial SENTER, citado acima.
1.3 A anotação é stand-off, mas oferecemos também a intercalada, realizada por uma ferramenta disponibilizada pelo projeto do American National Corpus (ANC)
Estamos trabalhando na criação de um script independente que gere as 3 anotações (marcação lógica de parágrafos, de sentenças e cabeçalho XCES mínimo) para ser usado fora do ambiente do Portal
Um RT está para sair e deve descrever tanto as anotações estruturais quanto lingüísticas
![Page 4: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/4.jpg)
Updates
Estamos trabalhando na criação de um script independente que gere as 3 anotações (marcação lógica de parágrafos, de sentenças e cabeçalho XCES mínimo) para ser usado fora do ambiente do Portal
Um RT está para sair e deve descrever tanto as anotações estruturais quanto lingüísticas
Dois RT:– Aluísio, S. M., Muniz, F.A.M., Infante, K.M. (2007). Projeto Pln-Br: O
Cabeçalho em Xml para os Textos do Córpus e o Editor Web de Cabeçalhos. Nilc-Tr-07-05, Junho 2007, 69 p.
–
Aluísio, S. M., Muniz, F.A.M. (2007). Instalação e Administração do Portal de Córpus do Projeto PLN-BR. Nilc-Tr-07-12, Outubro 2007, 17 p.
![Page 5: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/5.jpg)
Disponibilização dos Córpus de Treinamento
Córpus Gold Standard (PLN-BR GOLD - 338.441 tokens) - Público
amostra aleatória estratificada e proporcional à distribuição do córpus global do projeto PLN-BR com relação aos textos dos cadernos.
Ela é formada por 1% dos textos do córpus maior e possui somente notícias e reportagens (o que equivale a 1.024 textos).
Córpus para treinamento de classificadores de conteúdo (PLN-BR CATEG - 9.780.220 tokens) – Restrito aos membros
Amostra com 29.999 textos, seguindo o mesmo tipo de amostra do Córpus Gold Standard
![Page 6: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/6.jpg)
Updates
GOLD receberá a última versão das anotações POS, Phrases, WORDS, vinda do Palavras via script criado pelo grupo de Renata.
![Page 7: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/7.jpg)
Construção da Plataforma de Acesso aos Córpus – o Portal de Córpus [1]
A plataforma possui: um Editor Web de Cabeçalhos que preenche um banco de dados
(BD) com informações dos cabeçalhos dos textos. Com os dados dos textos no BD há a possibilidade de:– várias formas de pesquisa aos textos dos córpus e montagem de sub-
córpus. O sub-córpus criado com as pesquisas:
é disponibilizado para download seguindo o padrão XCES, a partir dos dados do banco de dados e em texto crú
pode ainda ser consultado via uma ferramenta de exploração gráfica – o PEx-Corpus Tool [2]– O PEx-Corpus é uma adaptação do projeto Projection Explorer (PEx)
que permite inspecionar visualmente um subcórpus para explorar o seu conteúdo e criar outros subcórpus com base numa seleção de tópicos.
[1] http://www.nilc.icmc.usp.br:8180/portal/[2] http://www.lcad.icmc.usp.br/~paulovic/pex/
![Page 8: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/8.jpg)
Updates: Resultados de Pesquisa, Divulgação
Só 1 artigo sobre o Portal – precisamos divulgar melhor o projeto que pode beneficiar muitos pesquisadores
Disponibilização do código do Portal na Incubadora Fapesp– Ótimo para divulgação e facilidade de acesso– Uso do Portal em 2 mestrados:
Filipi Silveira (Vera Strube) – agregou funcionalidades de compilação de córpus a partir de vários formatos e funcionalidades para análise de córpus e vai deixar disponível publicamente o Entrelinhas
Fernando Muniz (Sandra Aluísio) – vai integrar o Portal num ambiente colaborativo de geração de produtos terminológicos e-termos, integrar métodos prontos para extração de termos (do mestrado de Junior, aluno de Renata???) e trabalhar com o tema normatização de manuais de software, via simplificação textual
![Page 9: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/9.jpg)
Proposta de pesquisa - artigos
Mostrar como o Portal pode ser integrado em projetos maiores de compilação/uso de córpus via 2 estudos de caso:
– Entrelinhas (Vera Strube)– E-Termos + Métodos de Extração de Termos (Sandra,
Gladis e Renata)
Mostrar usos do PLN-BR FULL para – Glosagem da Wordnet.Br e sua Indexação à WordNet
de Princeton (Bento)– Aprendizagem Automática de Informações Lexicais
(Violeta)
![Page 10: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/10.jpg)
Coisas que não sei
Não sei como os córpus foram usados pelos subprojetos:– Sumarização Automática e Recuperação da
Informação Textual – Representação do Conhecimento Textual
Mas adoraria saber ;)
![Page 11: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/11.jpg)
Fernando Muniz
Vai explicar a parte técnica do Portal
![Page 12: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/12.jpg)
Portal de Córpus do Projeto PLN-BR
Marcelo Muniz, Fernando Paulovich, Rosane Minghim, Kleber Infante, Fernando Muniz, Renata Vieira, Sandra Aluísio
![Page 13: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/13.jpg)
O Portal de Córpus
Desenvolvido usando tecnologias open source Arquitetura Cliente-Servidor Um portal de Córpus compatível com XCES
– Baseado em um banco de dados que mapeia o formato XCES em entidades relacionais para permitir consultas rápidas
Acesso público em: http://www.nilc.icmc.usp.br:8180/portal/
Download do Portal disponível na Incubadora Fapesp:
http://incubadora.fapesp.br/projects/portal-corpus/
![Page 14: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/14.jpg)
Client Side Server Side
Browser(Portal)
Web server(servlet container)
MySQLHeader Editor +Corpus Uploader
(java applet)
PEx-Corpus Tool(java applet)
texts
XCES
Senter + ANC Tools
XCES, text, annotations
search results
Portal de Córpus client/server architecture
![Page 15: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/15.jpg)
Portal de Córpus
Características– Acesso controlado– Córpus público ou privado– Inserir/Editar informações de cabeçalho (Header
editor)– Inserir/Editar anotações stand-off (Header editor)– Funções de busca para construir subcorpora
o Text type, keywords, Bibliographic data, newspaper sections
– PEx-corpus tool (visual document map)
![Page 16: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/16.jpg)
Efetuando buscas
Efetuar login Selecionar córpus Selecionar tipo de Busca Fazer download do resultado Mapeamento de documentos através da
ferramenta PEx-Corpus
![Page 17: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/17.jpg)
![Page 18: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/18.jpg)
![Page 19: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/19.jpg)
Efetuando buscas
![Page 20: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/20.jpg)
Efetuando buscas - resultado
![Page 21: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/21.jpg)
![Page 22: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/22.jpg)
Header Editor
Acesso restrito – Usuário, senha, endereço do servidor, nome da base de dados
Possui uma interface gráfica (java applet) que permite ao usuário– criar, manter e visualizar informações do cabeçalho
de textos que estão armazenados em um banco de dados MySQL
Cada córpus é armazenado em um base de dados diferente
Opção de inserir vários textos de uma vez
![Page 23: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/23.jpg)
![Page 24: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/24.jpg)
Conexão com o banco de dados
![Page 25: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/25.jpg)
![Page 26: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/26.jpg)
Administração do portal
Administração de usuários Administração de Córpus
– Criar, desativar, alterar
Atualização do portal com notícias Configurações gerais
– Links, arquivos, páginas do portal
www.nilc.icmc.usp.br:8180/portal/admincp/index.jsp
![Page 27: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/27.jpg)
![Page 28: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/28.jpg)
Recomendações
A utilização da ferramenta de busca e do PEx-Córpus pode ser feita a partir de qualquer computador com acesso à internet e um navegador web disponível.
A utilização do Header Editor preferencialmente deve ser feita em ambiente de INTRANET.
![Page 29: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/29.jpg)
Portal Interno
Acesso restrito – Cadastro independente do Portal de Córpus
Endereço:http://www.nilc.icmc.usp.br:8180/portalinterno/
Córpus disponíveis:
PLN-BR CATEG (30.000)
PLN-BR FULL (100.000)
![Page 30: Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008](https://reader035.vdocuments.com.br/reader035/viewer/2022062512/552fc12d497959413d8d22a3/html5/thumbnails/30.jpg)
PLN-BR FULL no Philologic
Acesso restrito Parte 1 - 1994-1997
– http://moodle.icmc.usp.br/philologic-plnbr1/
Parte 2 - 1998-2001 – http://moodle.icmc.usp.br/philologic-plnbr2/
Parte 3 - 2002-2005 – http://moodle.icmc.usp.br/philologic-plnbr3/