resumo siicusp out-2010

2
Pós-processamento de Sumários Multidocumento: Ordenação de Sentenças com base na CST (Cross-document Structure Theory) Jader Bruno Pereira Lima Thiago A. S. Pardo Instituto de Ciências Matemáticas e de Computação, USP, SP 1. Introdução A internet atualmente é um dos mais poderosos meios de comunicação, onde podemos conseguir informações com muita velocidade e praticidade. Pensando nessas características, está sendo desenvolvido no NILC (Núcleo Interinstitucional de Lingüística Computacional, USP – São Carlos) um grande projeto que visa à criação de uma ferramenta que auxilie a qualquer pessoa que busca se informar sobre algo de seu interesse. Trata-se de um sumarizador automático de vários textos que versam sobre o mesmo assunto. Esta ferramenta criará automaticamente um resumo, contendo as informações mais relevantes a partir de vários textos vindos de diferentes sites da internet, achados através de uma busca por algum termo chave. Para a realização dessa tarefa os trabalhos estão sendo baseados na teoria discursiva multidocumento CST (Cross-document Structure Theory) (Radev, 2000), que é um modelo lingüístico-computacional que classifica relações entre as sentenças dos textos. E é nesse projeto que meu trabalho está envolvido. Mais informações são expostas a seguir. 2. Objetivos As sentenças desses sumários automáticos necessitam de um processamento final antes de serem apresentadas ao usuário, e uma das principais tarefas é a ordenação das sentenças, pois isso influencia diretamente na coerência dos sumários, como mostra a Tabela 1 (Barzilay et al., 2002). Dez sumários gerados automaticamente foram avaliados por diferentes julgadores, que avaliaram os textos como incompreensível, parcialmente compreensível e compreensível. Há uma melhoria considerável se compararmos os sumários que tiveram algum tratamento da ordem das sentenças com aqueles apresentados assim como saem do sumarizador automático. Com isso muitas pesquisas nesta determinada área da sumarização estão sendo feitas, e em nosso projeto meu trabalho consiste em implementar estratégias de organização das sentenças utilizando varias informações retiradas dos textos de origem do sumário. 10 sumários Sem ordenaçã o Com ordenação Incompreensíveis 7 3 Parc. compreensíveis 2 2 Compreensíveis 1 5

Upload: jader-lima

Post on 01-Jul-2015

149 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Resumo SIICUSP Out-2010

Pós-processamento de Sumários Multidocumento: Ordenação de Sentenças com base na CST (Cross-document Structure Theory)

Jader Bruno Pereira Lima Thiago A. S. PardoInstituto de Ciências Matemáticas e de Computação, USP, SP

1. Introdução

A internet atualmente é um dos mais poderosos meios de comunicação, onde podemos conseguir informações com muita velocidade e praticidade. Pensando nessas características, está sendo desenvolvido no NILC (Núcleo Interinstitucional de Lingüística Computacional, USP – São Carlos) um grande projeto que visa à criação de uma ferramenta que auxilie a qualquer pessoa que busca se informar sobre algo de seu interesse. Trata-se de um sumarizador automático de vários textos que versam sobre o mesmo assunto. Esta ferramenta criará automaticamente um resumo, contendo as informações mais relevantes a partir de vários textos vindos de diferentes sites da internet, achados através de uma busca por algum termo chave. Para a realização dessa tarefa os trabalhos estão sendo baseados na teoria discursiva multidocumento CST (Cross-document Structure Theory) (Radev, 2000), que é um modelo lingüístico-computacional que classifica relações entre as sentenças dos textos. E é nesse projeto que meu trabalho está envolvido. Mais informações são expostas a seguir.

2. Objetivos

As sentenças desses sumários automáticos necessitam de um processamento final antes de serem apresentadas ao usuário, e uma das principais tarefas é a ordenação das sentenças, pois isso influencia diretamente na coerência dos sumários, como mostra a Tabela 1 (Barzilay et al., 2002). Dez sumários gerados automaticamente foram avaliados por diferentes julgadores, que avaliaram os textos como incompreensível, parcialmente compreensível e compreensível. Há uma melhoria considerável se compararmos os sumários que tiveram algum tratamento da ordem das sentenças com aqueles apresentados assim como saem do sumarizador automático. Com isso muitas

pesquisas nesta determinada área da sumarização estão sendo feitas, e em nosso projeto meu trabalho consiste em implementar estratégias de organização das sentenças utilizando varias informações retiradas dos textos de origem do sumário.

10 sumáriosSem

ordenaçãoCom

ordenação

Incompreensíveis 7 3

Parc. compreensíveis 2 2

Compreensíveis 1 5

Tabela 1: Classificação de sumários gerados a partir de vários textos fontes.

3. Métodos e Procedimentos

Serão usados vários métodos de ordenação que utilizam informações retiradas das próprias sentenças, algums exemplos são: a) ordem cronológica da criação dos textos fonte de sua respectiva sentença, b) segmentação topical, que divide as sentenças de um determinado texto fonte em tópicos segundo uma equivalência de significado ou idéia que está sendo transmitida e c) relações CST entre as sentenças dos textos fonte.

4. Conclusões Parciais

Nesta fase inicial do trabalho já concluo que pós-processamento de sumários é essencial para sua qualidade, como pode ser visto no pequeno experimento realizado.

5. Referências Bibliográficas

[1] ESPINA, A. e RINO, L. H. M.; MARTINS, C. B.; PARDO, T. A. S.(2001). Introdução à Sumarização Automática. RT-DC 002/2001 (Relatório Técnico do Departamento de Computação da UFSCar).

[2] Barzilay, R., McKeown, K., & Elhadad, M. (2002). Inferring Strategies for Sentence Ordering in MultidocumentNews Summarization. Journal of Artificial Intelligence Research 17 (2002) 35-55.