proposta para interface web do projeto -...

24
Interface Web para o projeto: Sumarização Automática Multidocumento para o Português do Brasil com Base na Teoria de Estruturação Multidocumento CST (Cross-document Structure Theory) Pedro Paulo Balage Filho 1

Upload: ngodien

Post on 26-Jan-2019

217 views

Category:

Documents


0 download

TRANSCRIPT

Interface Web para o projeto: Sumarização Automática Multidocumento para o Português do Brasil com Base na Teoria de Estruturação Multidocumento CST (Cross-document StructureTheory)

Pedro Paulo Balage Filho

1

Introdução

� Cenário do projeto

2

Textos-fonte sobre

um mesmo tópico

Sumário

SAM

Usuário/leitor

Buscador de notícias

Arquitetura Genérica de SA

3

Arquitetura do Processo de Sumarização

4

Seleção de Textos

•Recuperação de Documentos por tópico•Agrupamento de Documentos em sub-tópicos

Análise

•Análise CST dos textos de entrada•Segmentação e detecção topical•Resolução de expressões temporais•Resolução de correferências

Transformação

•Seleção de conteúdo relevante•Ranqueamento da informação

Síntese

•Fusão de informações•Ordenação de sentenças•Seleção de expressões referenciais

Apresentação do Sumário Final

•Indexação de termos/sentenças/entidades•Formas de apresentação do sumário

Arquitetura do Processo de Sumarização

5

Seleção de Textos

Recuperação de Documentos por

tópico

Sistema Web(Pedro)

Agrupamento de Documentos em sub-tópicos

Sistema Web (Pedro) /Sistema Newshead (Felipe)

Arquitetura do Processo de Sumarização

6

Análise

Segmentação e detecção topical

Ferramentas para análise: segmentação e detecção topical

(Luis)

Resolução de expressões temporais

Ferramentas para análise: resolução de

expressões temporais, etc. (Luis)

Resolução de correferências

Resolução de correferências multidocumento

(Jefferson)

Análise CST dos textos de entrada

Métodos para análise CST automática

(Erick)

Arquitetura do Processo de Sumarização

7

TransformaçãoSeleção de conteúdo

relevante e ranqueamento da informação

Experimento com modelos simples de sumarização

(Wilker)

Seleção de conteúdo com base em relações

CST(Lucia)

Métodos de sumarização baseados em grafos e

preferências de sumarização (Takeo)

Métodos de sumarização baseados em redes complexas (Rafael)

Uso de conhecimento semântico na sumarização multidocumento (Paula)

Aplicação de aprendizado de máquina para produção de sumários multidocumento

(Verônica)

Arquitetura do Processo de Sumarização

8

Síntese

Fusão de informações

Etapa envolvida com a Seleção de conteúdo relevante e

ranqueamento da informação (Lucia, Paula, Verônica, Rafael,

Takeo, Wilker)

Ordenação de sentençasOrdenação de sentenças em sumários multidocumento

(Marco)

Seleção de expressões referenciais

Ferramentas para síntese e apresentação de sumários:

expressões referenciais (Jader)

Arquitetura do Processo de Sumarização

9

Apresentação do Sumário Final

Indexação de termos/sentenças/entidades; Formas de apresentação do

sumário

Ferramentas para síntese e apresentação de sumários: síntese de voz, navegação sumários-textos, etc. (Jader)

Alinhamentos textos-sumários (Wilker)

c

Arquitetura do Sistema WebSeleção de Textos

10

Tela Principal

Termo de

pesquisa

Recuperação de documentos por

tópico

Agrupamento de documentos em sub-tópicosConteúdo dos

documentos

recuperados

Apresentação dos resultados ao usuário

Iteração do usuário

com os textos

recuperados

Sumarizar

Sistema

Newshead

Arquitetura do Sistema WebSeleção de Textos

11

Seleção das características de sumarização

Extração de informações dos documentos

Processamento pelo PALAVRAS

Opções para

sumarização

Sumarizar

•Tipo de sumarização

• Operador para

sumarização CST

•Taxa de Compressão

•Etc...

Texto; Título; Data; Seções

Arquivo parameters.txt

Documentos

XML

Documentos em formato

XMLTexto

Anotação

XML

Anotação PALAVRAS em

XMLAnotação Morfo-

Sintátiica

Segmentação textual do PALAVRAS

Textos em sentenças

Segmentação textual do PALAVRAS

Textos em sentenças

12

Seleção das características de sumarização

Extração de informações do

texto

Processamento pelo PALAVRAS

Opções para

sumarização

Sumarizar

•Tipo de sumarização

• Operador para

sumarização CST

•Taxa de Compressão

•Etc...

Texto; Título; Data; Seções

Arquivo parameters.txt

Texto em formato XMLTexto

Anotação

XML

Anotação PALAVRAS em

XMLAnotação Morfo-

Sintátiica

Arquitetura do Sistema WebSeleção de Textos

13

Seleção das características de sumarização

Extração de informações do

texto

Processamento pelo PALAVRAS

Opções para

sumarização

Sumarizar

•Tipo de sumarização

• Operador para

sumarização CST

•Taxa de Compressão

•Etc...

Texto; Título; Data; Seções

Arquivo parameters.txt

Texto

Anotação

XML

Anotação PALAVRAS em

XMLAnotação Morfo-

Sintátiica

Documentos

XML

Documentos em formato

XML

Arquitetura do Sistema WebSeleção de Textos

Arquivo parameters.txt

14

Seleção das características de sumarização

Extração de informações do

texto

Processamento pelo PALAVRAS

Opções para

sumarização

Sumarizar

•Tipo de sumarização

• Operador para

sumarização CST

•Taxa de Compressão

•Etc...

Texto; Título; Data; Seções

Texto em formato XMLTexto

Anotação Morfo-

Sintátiica

Anotação

XML

Anotação PALAVRAS em

XML

Arquitetura do Sistema WebSeleção de Textos

15

Seleção das características de sumarização

Extração de informações do

texto

Processamento pelo PALAVRAS

Opções para

sumarização

Sumarizar

•Tipo de sumarização

• Operador para

sumarização CST

•Taxa de Compressão

•Etc...

Texto; Título; Data; Seções

Arquivo parameters.txt

Texto em formato XMLTexto

Anotação

XML

Anotação PALAVRAS em

XMLAnotação Morfo-

Sintátiica

Segmentação textual do PALAVRAS

Textos em sentenças

Arquitetura do Sistema WebSeleção de Textos

Arquitetura do Sistema WebAnálise

16

Arquivo parameters.txt

Documentos em formato XML Tópicos

do texto

Anotação PALAVRAS em XML

Textos em sentenças

Arquivos produzidos pela

Seleção de Textos

Detecção topicalFerramentas para

análise: resolução de expressões temporais

Resolução de correferências multidocumento

Métodos para análise CST automática

Modificações no XML dos documento

Expressões

temporais

Modificações no XML dos documento

Modificações no XML dos documento

Coreferências

presentes no

texto

Jefferson

Luis

Erick

Anotação CST dos documentosRelações CST

entre

Sentenças

Arquitetura do Sistema WebAnálise

17

Arquivo parameters.txt

Documentos em formato XML Tópicos

do texto

Anotação PALAVRAS em XML

Textos em sentenças

Arquivos produzidos pela

Seleção de Textos

Detecção topicalFerramentas para

análise: resolução de expressões temporais

Resolução de correferências multidocumento

Métodos para análise CST automática

Modificações no XML dos documento

Expressões

temporais

Modificações no XML dos documento

Modificações no XML dos documento

Coreferências

presentes no

texto

Jefferson

Luis

Erick

Anotação CST dos documentosRelações CST

entre

Sentenças

Arquitetura do Sistema WebTransformação e Síntese

18

Arquivo parameters.txt

Documentos em formato XML

Anotação PALAVRAS em XML

Textos em sentenças

Arquivos produzidos pela

Seleção e Análise de Textos

Anotação CST dos documentos

Seleção de conteúdo com base em relações

CST

Métodos de sumarização baseados em grafos e

preferências de sumarização

Métodos de sumarização baseados em redes complexas

XML de seleção de sentenças para o

sumário

Lucia

Seleção de conteúdo relevante

XML de seleção de sentenças para o

sumário

Wilker

Experimento com modelos simples de

sumarização

Seleção de conteúdo relevante

XML de seleção de sentenças para o

sumário

Rafael

Seleção de conteúdo relevante

XML de seleção de sentenças para o

sumário

Takeo

Seleção de conteúdo relevante

Arquitetura do Sistema WebTransformação e Síntese

19

Arquivo parameters.txt

Documentos em formato XML

Anotação PALAVRAS em XML

Textos em sentenças

Arquivos produzidos pela

Seleção e Análise de Textos

Anotação CST dos documentos

Uso de conhecimento semântico na sumarização

multidocumento

Aplicação de aprendizado de máquina

para produção de sumários

multidocumento

XML de seleção de sentenças para o

sumário

Paula

Seleção de conteúdo relevante

XML de seleção de sentenças para o

sumário

Verônica

Seleção de conteúdo relevante

Arquitetura do Sistema WebTransformação e Síntese

20

Arquivo parameters.txt

Documentos em formato XML

Anotação PALAVRAS em XML

Textos em sentenças

Arquivos produzidos pela

Seleção e Análise de Textos

Anotação CST dos documentos

Uso de conhecimento semântico na sumarização

multidocumento

Aplicação de aprendizado de máquina

para produção de sumários

multidocumento

XML de seleção de sentenças para o

sumário

Paula

Seleção de conteúdo relevante

Verônica

Seleção de conteúdo relevante

XML de seleção de sentenças para o

sumário

Arquitetura do Sistema WebSíntese

21

Arquivo parameters.txt

Documentos em formato XML

Anotação PALAVRAS em XML

Textos em sentenças

Arquivos produzidos pela s

fases anteriores

Anotação CST dos documentos

Ordenação de sentenças em sumários

multidocumento

XML de seleção de sentenças para o

sumário modificado

Marco

XML de seleção de sentenças para o sumário

Sumário

Ferramentas para síntese e apresentação

de sumários: expressões referenciais

XML de seleção de sentenças para o

sumário modificado

Jader

Sumário

Sumário

Arquitetura do Sistema WebSíntese

22

Arquivo parameters.txt

Documentos em formato XML

Anotação PALAVRAS em XML

Textos em sentenças

Arquivos produzidos pela s

fases anteriores

Anotação CST dos documentos

Ordenação de sentenças em sumários

multidocumento

XML de seleção de sentenças para o

sumário modificado

Paula

XML de seleção de sentenças para o sumário

Sumário

Ferramentas para síntese e apresentação

de sumários: expressões referenciais

XML de seleção de sentenças para o

sumário modificado

Jader

Sumário

Sumário

Arquitetura do Sistema WebApresentação do Sumário Final

23

Arquivo parameters.txt

Documentos em formato XML

Anotação PALAVRAS em XML

Textos em sentenças

Arquivos produzidos pelas

fases anteriores

Anotação CST dos documentos

Ferramentas para síntese e apresentação de sumários: síntese de voz, navegação sumários-textos, etc.

Jader

XML de seleção de sentenças para o sumário

Sumário

Alinhamentos textos-sumários

Wilker

Ferramenta de visualização de alinhamento de Textos-Sumários

Ferramentas para apresentação de sumários

Interface Web para o projeto: Sumarização Automática Multidocumento para o Português do Brasil com Base na Teoria de Estruturação Multidocumento CST (Cross-document StructureTheory)

24