pucrs clei2003, montevidéu, uruguai - 25-29 novembro de 2002 desenvolvimento e avaliação de uma...

25
PUCRS CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima [email protected] [email protected]

Upload: internet

Post on 17-Apr-2015

102 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

PUCRS

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Desenvolvimento e Avaliação de umaEstrutura Multitesauro para

Recuperação de Informações

Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima [email protected] [email protected]

Page 2: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Introdução

Desenvolvimento e Avaliação de uma Estrutura Multitesauro para

Recuperação de Informações

• Tesauro • Estrutura Multitesaural• Recuperação de Informações (RI)• Resultados obtidos

Page 3: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Tesauro?

"É uma compilação ordenada de conceitos, com ênfase na associação entre eles, que serve, no campo da informação e da documentação, para indexação e recuperação em um dado domínio documentário" (Ruge, 1999)

Caminhoneiro -> Caminhão, Motorista, CargaCobra -> Animal, Réptil, Cobra VenenosaComputador -> Processador, CPU, Processamento

Page 4: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Relações Semânticas da ISO 2788

• Relação de Equivalência – Sinonímia, Quase-sinonímia, Equivalentes Lexicais

• Computação USE Informática

• Relações Hierárquicas– Hiponímia (Narrower Term)

• Mamífero NT Leão

– Hiperonímia (Broader Term)• Leão BT Mamífero

• Relações Associativas– Termos Relacionados

• Passageiro RT Automóvel

Page 5: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Multitesauro

• LDPUCRS – Lista de descritores da Biblioteca Ir. José Otão – PUCRS;

• VCUSP– Vocabulário Controlado da USP – Tesauro em CDROM;

• VCBS– Vocabulário Controlado Básico do Senado;

• LTOCSS– Tesauro construído automaticamente através do corpus do NILC

da “Folha de São Paulo” do ano de 1994. – Relações obtidas por cálculo de similaridade sintática através das

técnicas descritas por Grefenstette (1994), adaptadas ao português por Gasperin (2001).

Page 6: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Características

• Tesauros LDPUCRS, VCUSP e VCBS: – São facilmente convertidos para a uma estrutura baseada na ISO

2788;– Apresentam informações que podem podem ser descartadas

• Scope Note (Notas de Escopo) são úteis para bibliotecários, mas não aparentam utilidade na RI automática

• Tesauro LTOCSS– Como os significados das relações não são conhecidos, elas são

associadas à relação RT da ISO 2788.– As relações semânticas apresentam uma medida de similaridade

entre os termos.

Page 7: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

LTOCSS

ISO 2788

<THESAURUS><TERM term=“Eletroeletrônicos”>

<TERM term=“Televisão”><UF term=“TV”/><RT term=“Audiência”/><RT term=“Telespectador” value=“0.99”/>

</TERM><NT term=“Videocassete”/>

</TERM><TERM term=“Videocassete”>

<SN>Utilize este termo quando for um aparelho

com mídia em fita magnética.</SN><BT term=“Eletroeletrônicos”/>

</TERM><TERM term=“Audiência”/>

</THESAURUS>

Estrutura Multitesauro

Page 8: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Recuperação de Informações

• Desenvolvimento de uma Heurística de Expansão de Consultas– Utilizar a estrutura em uma aplicação de RI;– Demonstrar que, através de uma estrutura padrão é

possível a utilização conjunta de diferentes tesauros (multitesauro) por uma mesma aplicação.

Page 9: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Expansão de consulta?

• A adição de termos a uma consulta de forma que o conjunto de documentos relevantes encontrados seja maior que o conjunto da consulta original.

DocumentosRelevantes

Termo A

Termo B

Termo C

Page 10: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

É uma ferramenta de expansão de consulta (EC) que utiliza tesauros definidos de acordo com uma estrutura padrão.

O nome QET é um acrônimo para Query Expansion Tool e a ferramenta teve seu desenvolvimento em Borland Kylix 2 - Open Edition sobre uma plataforma Linux.

O que é o QET?

Page 11: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Heurística de Expansão de Consultas

Acidente de Carro

Automóvel

UF (0.8)

Relação Semântica com pesos em [0,1)

Acidente de Trânsito

RT (0.2)

β = 0.8

β = 0.16

Direção Perigosa

RT (0.2)β = 0.032 < σ (0.1)

XXXXXXXXX

Page 12: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Heurística de Expansão de Consultas

Acidente de Carro

Automóvel

UF (0.8)

Acidente de Trânsito

RT (0.2)

β = 0.6

β = 0.16NT (0.6)

δ = 0.76 > λ (0.7)

Page 13: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Medidas de avaliação

• Precisão:

• Recall:

• F-Measure:

c

bP

Corpus

a cb

Documentos Relevantes

Documentos Recuperados

a

bR

RP

PRF

2

Page 14: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

• Testes em corpus– Corpus do NILC de artigos diversos da folha de São

Paulo do ano de 1994, com 1.323.700 palavras em 5093 artigos. Cada artigo corresponde a um arquivo diferente.

– Indexação e consulta aos arquivos realizada pela ferramenta ASPSeek, através de interface Web/CGI.

• Verificação manual de relevância.• Geração semi-automática de estatísticas.

– Marcação de relevância para 13 assuntos.

Avaliação

Page 15: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Definição dos pesos para as relações

Peso de RT altos diminuem a precisão

Peso de BT elevado aumenta o recall mas reduz a precisão

Page 16: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

0,0000

0,1000

0,2000

0,3000

0,4000

0,5000

0,6000

0,7000

0,8000

0,9000

1,0000

1 2 3 4 5 6 7 8 9 10 11 12 13

Consultas

Ab

ran

nci

a

Consulta Original Consulta Expandida

Recall

Page 17: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

0,0000

0,1000

0,2000

0,3000

0,4000

0,5000

0,6000

0,7000

0,8000

0,9000

1,0000

1 2 3 4 5 6 7 8 9 10 11 12 13

Consultas

Pre

cis

ão

Consulta Original Consulta Expandida

Precisão

Page 18: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

0,0000

0,1000

0,2000

0,3000

0,4000

0,5000

0,6000

0,7000

0,8000

1 2 3 4 5 6 7 8 9 10 11 12 13

Consultas

Me

did

a-F

Consulta Original Consulta Expandida

F-Measure

Page 19: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Avaliação

• Médias das 13 consultas

Médias Precisão Recall F-Measure

Consulta Normal 0,4563 0,2336 0,3090

Consulta Expandida 0,3867 0,5247 0,4452

-15,25% +124,61% +44,08%

Page 20: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Considerações

• A estrutura tesaural desenvolvida possibilita a utilização conjunta de diferentes tipos de tesauros e demonstrou sua utilidade na RI através do método de expansão de consultas desenvolvido.

• O método de expansão apresenta bons resultados (F-Measure) e melhora a RI.

Page 21: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Trabalhos Futuros

• Indexação e recuperação de documentos no QET;

• Utilizar outros tipos de tesauros construídos automaticamente;

• Descobrir melhores valores para os parâmetros da heurística;

Page 22: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

• O desenvolvimento da estrutura multitesauro;• A heurística utilizada na expansão de consulta

implementada na ferramenta QET.• Uma avaliação da utilização da estrutura na RI.

Foco do estudo

Page 23: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Agradecimentos

• Artigo/projeto parcialmente suportado pelo convênio DELL/PUCRS

• Conselho Nacional de Pesquisa Científica

• Departamento Técnico do Sistema Integrado de Bibliotecas da USP

• Subsecretaria de Biblioteca do Senado Federal

• Biblioteca Ir. José Otão da PUCRS

• Núcleo Interinstitucional de Lingüística Computacional

Page 24: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações sintáticas. Dissertação de Mestrado. Faculdade de Informática da Pontifícia Universidade Católica do Rio Grande do Sul. 2001.

GREFENSTETTE, Gregory. Explorations in Automatic Thesaurus Discovery. EUA: Kluwer Academic Publishers. 1994. 305 p.

ISO 2788. International Organization for Standardization. ISO 2788: Guidelines for the establishment and development of monolingual thesauri. 2nd ed. Geneva: ISO, 1986.

RUGE, G. Combining Corpus Linguistics and Human Memory Models for Automatic Term Association. In: STRZALKOWSKI, Tomek. Natural Language Information Retrieval. 1999. p75-98.

Referências

Page 25: PUCRS CLEI2003, Montevidéu, Uruguai - 25-29 novembro de 2002 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

PUCRS

CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

Desenvolvimento e Avaliação de uma Estrutura Multitesauro para

Recuperação de Informações

Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima

[email protected] [email protected]

http://www.inf.pucrs.br/~pizzato