recuperação de informação clássica

48
1 Recuperação de Informação Clássica Tipos de Consultas & Operações sobre Consultas Caps. 4 e 5 do livro [Baeza-Yates & Ribeiro- Neto 1999] Flávia Barros CIn-UFPE

Upload: natala

Post on 15-Jan-2016

24 views

Category:

Documents


0 download

DESCRIPTION

Recuperação de Informação Clássica. Tipos de Consultas & Operações sobre Consultas Caps. 4 e 5 do livro [Baeza-Yates & Ribeiro-Neto 1999]. Fases e Etapas de um Sistemas de RI. Etapas da Fase 1 - Criação da Base de índices Aquisição (seleção) dos documentos Preparação dos documentos - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Recuperação de Informação Clássica

1

Recuperação de Informação Clássica

Tipos de Consultas &Operações sobre Consultas

Caps. 4 e 5 do livro [Baeza-Yates & Ribeiro-Neto 1999]

Flávia Barros

CIn-UFPE

Page 2: Recuperação de Informação Clássica

2

Fases e Etapas de um Sistemas de RI

Etapas da Fase 1 - Criação da Base de índices Aquisição (seleção) dos documentos Preparação dos documentos

Criação da representação dos documentos Indexação dos documentos

Criação da base de índices invertidos

Etapas da Fase 2 - Consulta à Base de índices Construção da consulta (query) Busca (casamento com a consulta do usuário) Ordenação dos documentos recuperados Apresentação dos resultados Feedback de relevância

Page 3: Recuperação de Informação Clássica

Roteiro

Tipos de consultas

Operações sobre consultas Expansão de consultas Reformulação de consultas

Feedback de relevância

CIn-UFPE 3

Page 4: Recuperação de Informação Clássica

4

Tipos de Consultas

Existem diversos tipos de consultas que podem ser submetidas aos sistemas de RI

Contudo... Nem todos os tipos podem ser usados em

todos os sistemas Isso vai depender do modelo de RI adotado

pelo sistema

Page 5: Recuperação de Informação Clássica

Tipos de Consultas

Consultas baseadas em Palavras-Chaves Baseadas em palavras isoladas Com contexto Booleanas Em Linguagem Natural

Com casamento de Padrão

Com estrutura

5

Page 6: Recuperação de Informação Clássica

6

Consultas baseadas em Palavras-chave

Tipos Baseadas em palavras isoladas Com contexto Booleanas Em Linguagem Natural

Permitem ordenamento das respostas segundo a função de relevância do modelo de

RI adotado Segundo algum outro critério adicional

Page 7: Recuperação de Informação Clássica

7

Consulta baseada em Palavras-chave isoladas

Single Keyword query Tipo mais simples de consulta a um sistema de RI Consiste em uma lista de palavras

Sem operadores booleanos explícitos Porém funciona como ‘OR’

Funcionamento geral O sistema de RI recupera todos os documentos

que contêm pelo menos uma das palavras da consulta

Em seguida, os documentos recuperados são ordenados de acordo com o modelo de RI implementado pelo sistema

Page 8: Recuperação de Informação Clássica

8

Consultas com ContextoConsideram a posição das Palavras

Alguns sistemas de RI são capazes de buscar palavras dentro de algum “contexto” Documentos onde as palavras da consulta

aparecem próximas uma da outra podem ser mais relevantes do que aqueles onde as palavras aparecem distantes Ex.: “recuperação” e “informação” no contexto de

docs. sobre o tema de Recuperação de Informação

A consulta também é formulada como uma lista de palavras Contudo, a ordenação dos documentos depende

da posição das palavras nesses documentos

Page 9: Recuperação de Informação Clássica

9

Consultas com ContextoPosição das Palavras

Como verificar essa proximidade? Depende da implementação do sistema de RI

E.g., Bases de índices invertidos que guardam a posição onde cada palavra ocorre em cada documento

Palavra Documento Casa (Doc1, 12); (Doc2, 1); .... Amarela (Doc1, 13); (Doc2, 20); .... ... ...

Page 10: Recuperação de Informação Clássica

10

Consultas com Contexto Grupos Nominais

Consultas baseadas em Grupos Nominais (GN) recuperam documentos com um GN específico

i.e., lista de palavras contíguas no texto do documento

ex., “inteligência artificial”

Pode levar em consideração stopwords e/ou stemming Exemplo - “venda carro” casa com

“venda de carros” “vendendo carro”,…

Page 11: Recuperação de Informação Clássica

11

Consultas com Contexto Grupos Nominais

A Base de índices do sistema de RI deve armazenar as posições de cada palavra no documento

Processo de recuperação Recuperar os documentos que contêm todas as

palavras da consulta Registrando as posições de cada palavra nos

docs Fazer a intersecção entre documentos

recuperados Para eliminar redundâncias

Verificar a ocorrência do GN (palavras contíguas)

Page 12: Recuperação de Informação Clássica

13

Consultas com Contexto Distância máxima permitida

Consulta semelhante a GN, porém considera a distância máxima permitida entre os

termos da consulta Exemplo: “carro; corrida; 2” Consulta com os termos “carro” e “corrida” com

distância máxima de 2 palavras entre esses termos Exemplo de doc: “…carro que ganhou a corrida…”

As palavras não precisam estar na mesma ordem em que foram definidas na consulta Exemplo: “…corrida terminou com carro…”

Pode também levar em conta stemming e/ou stopwords

Page 13: Recuperação de Informação Clássica

15

Consultas com ContextoOrdenação dos Documentos

Documentos que satisfazem uma consulta com Contexto podem ser ordenados da mesma forma que no caso das consultas básicas i.e., de acordo com o modelo de RI

implementado pelo sistema

Para consultas que levam em conta a posição das palavras, a distância entre os termos também pode ser levada em conta para definir a relevância do documento Ex.: documento com o texto “…corrida de

carro…” seria mais relevante que documento com texto “…carro que ganhou a corrida…”

Page 14: Recuperação de Informação Clássica

16

Consultas Booleanas

Palavras combinadas com operadores booleanos: OR: (ki OR kj ) AND: (ki AND kj ) BUT: (ki BUT kj )

Satisfaz ki but not kj

Em geral, sistemas de RI não usam o operador NOT Uma vez que um número muito grande de

documentos poderia ser recuperado Operador BUT restringe o universo de documentos

Problema Usuários inexperientes têm dificuldades com

lógica booleana

Page 15: Recuperação de Informação Clássica

17

Consultas BooleanasRecuperação com índices

invertidos

Palavra isolada Recupera documentos contendo essa palavra

OR Recupera docs. com ki e kj , e faz a união dos

resultados

AND Recupera docs. com ki e kj , e faz a interseção dos

resultados

BUT Recupera docs. com ki e kj , e utiliza o conjunto

complementar dos resultados

Page 16: Recuperação de Informação Clássica

18

Consultas em Linguagem Natural

Em geral, consultas de texto completo são consideradas como strings arbitrárias pelos sistemas de RI de propósito geral Excluímos aqui os sistemas de Pergunta-

Resposta, e os sistema de RI com interface em Linguagem Natural

No modelo Espaço Vetorial, essas consultas São tratadas como um “bag” de palavras São processadas usando métodos padrão de

recuperação com Espaço Vetorial

Page 17: Recuperação de Informação Clássica

19

Casamento de Padrão

Alguns sistemas de RI permitem consultas que “casam” com strings em lugar de apenas palavras isoladas

Um padrão é descrito por um conjunto de características sintáticas Padrão simples

ex., uma palavra, um prefixo, um sufixo, etc Padrão complexo

ex., expressões regulares

Page 18: Recuperação de Informação Clássica

20

Casamento de Padrão

Estamos interessados em documentos que contêm segmentos de texto que casam com o padrão especificado

Isso requer estruturas de dados e algoritmos mais sofisticados do que índices invertidos para uma recuperação eficiente

Page 19: Recuperação de Informação Clássica

21

Casamento de PadrãoPadrões Simples

Prefixos Padrão que casa com o início da palavra “anti” casa com “antiguidade”, “anticorpos”, etc.

Sufixos Padrão que casa com o final da palavra “ções” casa com “canções”, “infecções”, etc.

Substrings Padrão que casa seqüências quaisquer de caracteres “cid” casa com “capacidade”, “genocídio” etc.

Intervalos Pares de strings que casam com qualquer palavra

“alfabeticamente” entre eles “tin” to “tix” casa com “tipo”, “tiro”, “tísico”, etc.

Page 20: Recuperação de Informação Clássica

22

Casamento de Padrões Simples Tratamento de Erros

Permite a recuperação de documentos com palavras “similares” a uma dada palavra Caso de consulta ou documentos com erros

Erros de edição, erros de OCR, espaço no meio da palavra, dentre outros

Recupera documentos que são similares até um dado limite, medido por Distância de edição

Levenstein distance Subseqüência comum mais longa

Longest Common Subsequence (LCS)

Page 21: Recuperação de Informação Clássica

23

Casamento de Padrões Simples Tratamento de Erros

Distância de edição - Levenstein distance Número mínimo de caracteres deletados,

adicionados ou substituídos necessários para tornar os 2 strings equivalentes “casamento” para “casmento” tem distância

= 1 “casamento” para “casammentto” tem

distância = 2 “casamento” para “cazammeno” tem

distância = 3

Page 22: Recuperação de Informação Clássica

24

Casamento de Padrões Simples Tratamento de Erros

Subseqüência comum mais longa Computa o tamanho da subseqüência de

caracteres mais longa comum aos dois strings Uma subseqüência de um string é obtida pela

eliminação de zero ou mais caracteres Exemplos:

“casamento” e “asamento” = 8 “casamento” e “casammentto” = 5

Page 23: Recuperação de Informação Clássica

25

Casamento de Padrões Complexos

Expressões Regulares

Linguagem para compor padrões complexos a partir de padrões simples Um caractere individual é uma expressão regular (ER) União

Se e1 e e2 são ERs, então (e1 | e2 ) é uma ER que casa com tudo que e1 ou e2 casam

Concatenação Se e1 e e2 são ERs, então e1 e2 é uma ER que casa

com um string que consiste em um substring que casa com e1 imediatamente seguido de um substring que casa e2

Repetição (Kleene closure): Se e1 é uma ER, então e1* é uma ER que casa com uma

seqüência de zero ou mais strings que casam com e1

Page 24: Recuperação de Informação Clássica

26

Casamento de Padrões Complexos

Expressões Regulares

Exemplos de Expressões Regulares (u|e)nabl(e|ing) casa com

unable unabling enable Enabling

(un|en)*able casa com able unable unenable enununenable

Page 25: Recuperação de Informação Clássica

27

Consultas com Estrutura

Assumem que o documento possui uma estrutura que pode ser explora na busca Estruturas hierárquicas em forma de árvore Conjunto fixo de campos (meta-dados)

e.g. título, autor, resumo, etc.

Permitem consultas por textos que ocorrem em campos específicos:

“inteligência artificial” aparecendo no título do capítulo

capítulo

título seção título seção

título subseção

capítulo

livro

Page 26: Recuperação de Informação Clássica

28

Operações sobre as Consultas

Expansão de Consultas

Reformulação de consultas Feedback de Relevância

Page 27: Recuperação de Informação Clássica

29

Expansão de Consultas

Objetivo: Adicionar novos termos (correlacionados) à

consulta

Motivação Aumentar a quantidade de documentos

recuperados Cobertura do sistema de RI

Page 28: Recuperação de Informação Clássica

30

Para cada termo t da consulta, expande a consulta com os sinônimos e palavras relacionadas a t contidos no tesauro

Esse método geralmente aumenta a cobertura da recuperação Recupera mais documentos

Porém, pode diminuir significativamente a precisão Recuperar documentos irrelevantes Particularmente para termos ambíguos

Expansão de consultas usando Tesauros

Page 29: Recuperação de Informação Clássica

31

Expansão de Consulta com WordNet

WordNet

http://wordnet.princeton.edu/

Adiciona sinônimos no mesmo synset Adiciona hipônimos para inserir termos

especializados Adiciona hiperônimos para generalizar uma

consulta Adiciona outros termos relacionados para

expandir a consulta

Page 30: Recuperação de Informação Clássica

32

Expansão com Tesauro Estatístico

Análise Automática Global

Tesauros produzidos manualmente são limitados no tipo de relações semânticas

que representam

Termos semanticamente relacionados podem ser descobertos a partir de análises estatísticas em um corpus de documentos

Page 31: Recuperação de Informação Clássica

33

Constrói matrizes que “quantificam” associações entre termos Matriz de associação

Considera a co-ocorrência (ou freqüência comum) dos termos em todos os documentos do corpus

Matriz de correlação métrica considera a distância entre os termos nos

documentos do corpus as distâncias entre todas as ocorrências desses

termos no mesmo documento são contadas, o que indiretamente quantifica a co-ocorrência dos termos

Expande consultas usando os termos mais similares estatisticamente i.e., com maior associação

Análise Automática Global

Page 32: Recuperação de Informação Clássica

Análise Automática Global

Ocultei os slides do cálculo das matrizes de associação e de correlação métrica...

34

Page 33: Recuperação de Informação Clássica

40

Análise Automática Global Expansão da Consulta

Regra Geral Para cada termo i da consulta, expanda a

consulta com os n termos j com maior valor de cij (correlação)

Mais de um fator de correlação pode ser combinado para escolher os termos para a expansão Por exemplo, pegar os n maiores termos de

ambas as matrizes e fazer a interseção determinando que termos estão relacionados em

ambas as matrizes

Page 34: Recuperação de Informação Clássica

41

Expansão da Consulta Problemas com a Análise Global

Ambigüidade pode introduzir termos estatisticamente

relacionados que, mesmo assim, são irrelevantes para a consulta “Apple computer” “Apple red fruit computer” apple e red fruit estão relacionados no corpus de

docs. Porém, red fruit não é relevante para a consulta

original

Redundância Uma vez que os termos adicionados são

correlacionados aos termos da consulta original, a expansão pode não recuperar muitos documentos adicionais

Page 35: Recuperação de Informação Clássica

42

Após a consulta inicial, determina termos correlacionados analisando os m primeiros documentos recuperados i.e., de melhor ranking

Esta análise se baseia apenas em um conjunto “local” de documentos específico para uma consulta

Evita ambigüidade, uma vez que considera apenas documentos relevantes em um contexto “Apple computer”

“Apple computer Powerbook laptop”

Expansão da Consulta Análise Automática Local

Page 36: Recuperação de Informação Clássica

43

Análise Global vs. Análise Local

Análise Global requer computação intensiva off-line

durante a construção da matriz de correlações entre termos

Análise Local Requer menos computação para cálculo das

correlações Entretanto, esse cálculo é refeito para cada

consulta em tempo de execução

Análise local tem gerado melhores resultados experimentais

Page 37: Recuperação de Informação Clássica

45

Expansão de Consultas Conclusões

Expansão de consultas com termos relacionados pode melhorar desempenho do sistema de RI Particularmente, a cobertura

Contudo, termos similares devem ser escolhidos com cuidado para evitar perda de precisão

Page 38: Recuperação de Informação Clássica

46

Reformulação da consultaFeedback de relevância

Após apresentar os resultados de uma consulta, o sistema de RI pode permitir ao usuário fornecer feedback sobre um ou mais documentos recuperados

Esse feedback pode ser usado para reformular a consulta inicial Novos resultados serão produzidos com base na

consulta reformulada Processo é interativo e iterativo

Page 39: Recuperação de Informação Clássica

Arquitetura para Feedback de Relevância

Rankings

Sistemas de RI

documentos

Documentos ordenados

1. Doc1 2. Doc2 3. Doc3 . .

1. Doc1 2. Doc2 3. Doc3 . .

Feedback

Consultainicial

Consulta revisada

Documentos reordenados

1. Doc2 2. Doc4 3. Doc5 . .

Reformulação da consulta

Page 40: Recuperação de Informação Clássica

48

Feedback de relevância Repesagem de Termos

Term reweighting

Objetivo: Aumentar o peso dos termos que aparecem em

documentos relevantes e diminuir o peso de termos que aparecem em documentos irrelevantes

Existem diversos algoritmos para reformular consultas com base em repesagem de pesos

Page 41: Recuperação de Informação Clássica

49

Feedback de relevância Repesagem de Termos

Reformulação de consulta para o Modelo Vetorial Nesse modelo, consultas e documentos são

representados como vetores de pesos Modelo vetorial recupera documentos que são

similares à consulta do usuário Se soubéssemos a priori que documentos são

relevantes, saberíamos quais consultas seriam as mais adequadas As consultas ideais seriam aquelas mais similares

aos documentos relevantes no espaço vetorial

Page 42: Recuperação de Informação Clássica

50

Feedback de relevância Repesagem de Termos

Reformulação de Consulta para o Modelo Vetorial

Adicione à consulta inicial os vetores dos documentos considerados com relevantes

Subtraia da consulta inicial os vetores dos documentos considerados com irrelevantes

Desta forma, os pesos da consulta são reformulados, aproximando-se dos documentos relevantes

Page 43: Recuperação de Informação Clássica

51

Feedback de relevância Repesagem de Termos

Métodos: Método Rochio Padrão Método Ide Método Ide “Dec Hi”

Ocultei os slides porque é muita fórmula……..

Page 44: Recuperação de Informação Clássica

57

Feedback de relevância Repesagem de Termos

Comparação dos Métodos Todos os métodos, de uma forma geral,

melhoram os resultados da RI Resultados experimentais não indicam uma

dominância clara de nenhum método Geralmente, parâmetros são definidos como

constantes iguais a 1 Alguns autores usam apenas o conjunto dos

documentos relevantes (ou seja = 0 ) Método de Feedback Positivo

Page 45: Recuperação de Informação Clássica

58

Feedback de relevância

Porque Feedback não é largamente usado Usuários algumas vezes relutam em fornecer

feedback explícito Requer maior tempo de computação Às vezes, dificulta o entendimento de porque

um determinado documento foi recuperado

Page 46: Recuperação de Informação Clássica

59

Pseudo-Feedback

Usa feedback de relevância sem uma entrada explícita do usuário

Apenas assume que os top m documentos recuperados são relevantes, e então reformulam a consulta É um método de feedback positivo

Melhorou o desempenho de RI no corpus do TREC

Page 47: Recuperação de Informação Clássica

Arquitetura de Pseudo-Feedback

RankingsSistema

RI

Corpus de Documentos

DocumentosOrdenados

1. Doc1 2. Doc2 3. Doc3 . .

Consulta

inicial

Consulta

Reformulada Documentosreordenados

1. Doc2 2. Doc4 3. Doc5 . .

Reformulaçãoda consulta

1. Doc1 2. Doc2 3. Doc3 . .

PseudoFeedbac

k

Page 48: Recuperação de Informação Clássica

61

Próxima aula

Construção de bases de índices

Definição das equipes e dos projetos