PUCRS
WONTO-SBIE’02.
Unisinos. São Leopoldo, 13-14 Novembro 2002
Estrutura Multitesauro para a Recuperação de Informações
Luiz Augusto Sangoi Pizzato
Vera Lúcia Strube de Lima
2 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
O que será visto ...
• Introdução aos conceitos de tesauro e relações semânticas;
• Objetivos deste trabalho;• Recursos disponíveis;• Estrutura multitesauro desenvolvida;• Heurística de expansão de consultas implementada;• Avaliação;• Trabalhos relacionados;• Considerações;
3 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
O que é um tesauro?
"É uma compilação ordenada de conceitos, com ênfase na associação entre eles, que serve, no campo da informação e da documentação, para indexação e recuperação em um dado domínio documentário" (Ruge, 1999)
Caminhoneiro -> Caminhão, Motorista, CargaCobra -> Animal, Réptil, Cobra VenenosaComputador -> Processador, CPU, Processamento
4 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Relações semânticas da ISO 2788
• Relação entre sinônimos– Entre Termos Preferenciais (TP) e Termos Não-Preferenciais
(TNP).• USE
– TNP USE TP– Motorista de caminhão USE Caminhoneiro
• UF (Used For)– TP UF TNP– Caminhoneiro UF Motorista de caminhão
5 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Relações semânticas da ISO 2788
• Relações entre TP• Broader Term - BT
– Automóvel BT Veículo
• Narrower Term - NT– Veículo NT Automóvel
• Related Term - RT– Automóvel RT Rodovia
6 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Objetivos deste trabalho
• Criar uma estrutura de tesauros que seja útil à Recuperação de Informação (RI).
• Demonstrar a possibilidade de utilização de múltiplos tesauros de forma conjunta (multitesauro) através da utilização de uma estrutura padrão.
7 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Recursos disponíveis
• Tesauros– LDPUCRS
• Lista de descritores da Biblioteca Ir. José Otão – PUCRS;
– VCUSP• Vocabulário Controlado da USP – Tesauro em CDROM;
– VCBS• Vocabulário Controlado Básico do Senado;
– LTOCSS• Lista de termos obtida por cálculo de similaridade sintática através das
técnicas descritas por Gasperin (2001).
• Tesauro construído automaticamente através do corpus do NILC da “Folha de São Paulo” do ano de 1994.
8 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
• Tesauros LDPUCRS, VCUSP, VCBS podem ser facilmente convertidos para a uma estrutura baseada na ISO 2788
• Algumas informações presentes nos tesauros podem ser descartadas– Scope Note (Notas de Escopo) são úteis para bibliotecários, mas não
aparentam utilidade na RI automática
• As relações semânticas do tesauro LTOCSS apresentam uma medida de similaridade entre os termos. – Como os significados das relações não são conhecidos, elas são
associadas à relação RT da ISO 2788.
Desenvolvimento da estrutura multitesauro
9 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
LTOCSS
ISO 2788
<THESAURUS><TERM term=“Eletroeletrônicos”>
<TERM term=“Televisão”><UF term=“TV”/><RT term=“Audiência”/><RT term=“Telespectador” value=“0.99”/>
</TERM><NT term=“Videocassete”/>
</TERM><TERM term=“Videocassete”>
<SN>Utilize este termo quando for um aparelho
com mídia em fita magnética.</SN><BT term=“Eletroeletrônicos”/>
</TERM><TERM term=“Audiência”/>
</THESAURUS>
Estrutura multitesauro
10 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Estrutura aplicada a RI
• Desenvolvimento de um heurística de Expansão de Consulta
– Objetivos:• Utilizar a estrutura em uma aplicação de RI;
• Demonstrar que, através de uma estrutura padrão é possível a utilização conjunta de diferentes tesauros (multitesauro) por uma mesma aplicação.
11 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Expansão de consulta?
• A adição de termos a uma consulta de forma que o conjunto de documentos relevantes encontrados seja maior que o conjunto da consulta original.
DocumentosRelevantes
Termo A
Termo B
Termo C
12 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
O que é o QET?
É uma ferramenta de expansão de consulta (EC) que utiliza tesauros definidos de acordo com uma estrutura padrão.
O nome QET é um acrônimo para Query Expansion Tool e a ferramenta teve seu desenvolvimento em Borland Kylix 2 - Open Edition sobre uma plataforma Linux.
13 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Carro AutomóvelUF
(0.8)Acidente de Trânsito
RT
(0.2)
RT
(0.2)
Carro AutomóvelUF
(0.8)Acidente de Trânsito
RT
(0.2)
Carro AutomóvelUF
(0.8)
Heurística da Expansão
• Um termo t é adicionado à consulta expandida se o valor δ(t) for maior que um limiar λ proposto.
• O valor δ(t) é soma de todos valores β(t) > σ .• A cada tipo de relação é atribuído um peso entre (0,1]
β = 0.8 > σ (0.1)
β = 0.16 > σ (0.1)
β = 0.032 < σ (0.1)
Acidente Acidente de TrânsitoNT
(0.6)δ = 0.6 + 0.16 > λ (0.6)
14 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Medidas de avaliação
• Precisão:
• Recall:
• F-Measure:
c
bP
Corpus
a cb
Documentos Relevantes
Documentos Recuperados
a
bR
RP
PRF
2
15 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Definição dos pesos para as relações
Peso de RT altos diminuem a precisão
Peso de BT elevado aumenta o recall mas reduz a precisão
16 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Avaliação
• Testes em corpus– Corpus do NILC de artigos diversos da folha de São Paulo do ano
de 1994, com 1.323.700 palavras em 5093 artigos. Cada artigo corresponde a um arquivo diferente.
– Indexação e consulta aos arquivos realizada pela ferramenta ASPSeek, através de interface Web/CGI.
• Verificação manual de relevância.
• Geração semi-automática de estatísticas.
– Marcação de relevância para 13 assuntos.
17 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Recall
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
0,7000
0,8000
0,9000
1,0000
1 2 3 4 5 6 7 8 9 10 11 12 13
Consultas
Ab
ran
gê
nci
a
Consulta Original Consulta Expandida
18 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Precisão
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
0,7000
0,8000
0,9000
1,0000
1 2 3 4 5 6 7 8 9 10 11 12 13
Consultas
Pre
cis
ão
Consulta Original Consulta Expandida
19 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
F-Measure
0,0000
0,1000
0,2000
0,3000
0,4000
0,5000
0,6000
0,7000
0,8000
1 2 3 4 5 6 7 8 9 10 11 12 13
Consultas
Me
did
a-F
Consulta Original Consulta Expandida
20 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Avaliação
• Médias das 13 consultas
Médias Precisão Recall F-Measure
Consulta Normal 0,4563 0,2336 0,3090
Consulta Expandida 0,3867 0,5247 0,4452
-15,25% +124,61% +44,08%
21 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Trabalhos Relacionados
• Sintichakis & Constantopoulus (1997) apresentam um método de efetuar a junção de tesauros monolíngües;
• Robin & Ramalho (2001) realizam a expansão de consultas com as relações de sinonímia e hiperonímia da WordNet.
• Tudhope et al. (2001) propõem uma técnica para medir a distância semântica entre termos utilizando diferentes pesos para as diferentes relações semânticas.
• Mandala et al. (1999) utilizam a WordNet, junto ao tesauro de Roget e outros tesauros gerados automaticamente, na expansão de consultas.
22 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Considerações
• A estrutura tesaural desenvolvida possibilita a utilização conjunta de diferentes tipos de tesauros e demonstrou sua utilidade na RI através do método de expansão de consultas desenvolvido.
• O método de expansão apresenta bons resultados (F-Measure) e melhora a RI.
23 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Foco da Dissertação
• O desenvolvimento da estrutura multitesauro;• A heurística utilizada na expansão de consulta
implementada na ferramenta QET.• Uma avaliação da utilização da estrutura na RI.
24 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Agradecimentos
• Artigo/projeto parcialmente suportado pelo convênio DELL/PUCRS
• Conselho Nacional de Pesquisa Científica
• Departamento Técnico do Sistema Integrado de Bibliotecas da USP
• Subsecretaria de Biblioteca do Senado Federal
• Biblioteca Central da PUCRS
• Núcleo Interinstitucional de Lingüistica Computacional
25 /28PUCRSPUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002
Referências
GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações sintáticas. Dissertação de Mestrado. Faculdade de Informática da Pontifícia Universidade Católica do Rio Grande do Sul. 2001.
ISO 2788. International Organization for Standardization. ISO 2788: Guidelines for the establishment and development of monolingual thesauri. 2nd ed. Geneva: ISO, 1986.
MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Complementing wordnet with roget's and corpus-based thesauri for information retrieval. In: 9th Conference Of The European Chapter Of The Association For Computational Linguistics (EACL'99), 1999. Proceedings ... . 1999. p.94-101.
MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Combining multiple evidence from dierent types of thesaurus for query expansion. In: 22nd Annual International ACM SIGIR Conference On Research And Development In Information Retrieval, 1999. Proceedings .... ACM Press, 1999. p.191-197.
ROBIN, J.; RAMALHO, F. S. Empirically evaluating WordNet-based query expansion in a web search engine setting. In: IR'2001, 2001,Oulu, Finland. Proceedings … . 2001.
RUGE, G. Combining Corpus Linguistics and Human Memory Models for Automatic Term Association. In: STRZALKOWSKI, Tomek. Natural Language Information Retrieval. 1999. p75-98.
SINTICHAKIS, Marios; CONSTANTOPOULOS, Panos. A method for monolingual thesauri merging. In: 20th International Conference On Research And Development In Information Retrieval, 1997. Proceedings ... . 1997. p.129-138.
TUDHOPE, Douglas; ALANI, Harith; JONES, Christopher. Augmenting thesaurus relationships: possibilities for retrieval. Journal of Digital Information, v.1, n.8, Fevereiro 2001.
PUCRS
WONTO-SBIE’02.
Unisinos. São Leopoldo, 13-14 Novembro 2002
Estrutura Multitesauro para a Recuperação de Informações
Luiz Augusto Sangoi Pizzato
Vera Lúcia Strube de Lima{pizzato,vera}@inf.pucrs.br{pizzato,vera}@inf.pucrs.br