recuperação de informação clássica
DESCRIPTION
Recuperação de Informação Clássica. Tipos de Consultas & Operações sobre Consultas Caps. 4 e 5 do livro [Baeza-Yates & Ribeiro-Neto 1999]. Fases e Etapas de um Sistemas de RI. Etapas da Fase 1 - Criação da Base de índices Aquisição (seleção) dos documentos Preparação dos documentos - PowerPoint PPT PresentationTRANSCRIPT
1
Recuperação de Informação Clássica
Tipos de Consultas &Operações sobre Consultas
Caps. 4 e 5 do livro [Baeza-Yates & Ribeiro-Neto 1999]
Flávia Barros
CIn-UFPE
2
Fases e Etapas de um Sistemas de RI
Etapas da Fase 1 - Criação da Base de índices Aquisição (seleção) dos documentos Preparação dos documentos
Criação da representação dos documentos Indexação dos documentos
Criação da base de índices invertidos
Etapas da Fase 2 - Consulta à Base de índices Construção da consulta (query) Busca (casamento com a consulta do usuário) Ordenação dos documentos recuperados Apresentação dos resultados Feedback de relevância
Roteiro
Tipos de consultas
Operações sobre consultas Expansão de consultas Reformulação de consultas
Feedback de relevância
CIn-UFPE 3
4
Tipos de Consultas
Existem diversos tipos de consultas que podem ser submetidas aos sistemas de RI
Contudo... Nem todos os tipos podem ser usados em
todos os sistemas Isso vai depender do modelo de RI adotado
pelo sistema
Tipos de Consultas
Consultas baseadas em Palavras-Chaves Baseadas em palavras isoladas Com contexto Booleanas Em Linguagem Natural
Com casamento de Padrão
Com estrutura
5
6
Consultas baseadas em Palavras-chave
Tipos Baseadas em palavras isoladas Com contexto Booleanas Em Linguagem Natural
Permitem ordenamento das respostas segundo a função de relevância do modelo de
RI adotado Segundo algum outro critério adicional
7
Consulta baseada em Palavras-chave isoladas
Single Keyword query Tipo mais simples de consulta a um sistema de RI Consiste em uma lista de palavras
Sem operadores booleanos explícitos Porém funciona como ‘OR’
Funcionamento geral O sistema de RI recupera todos os documentos
que contêm pelo menos uma das palavras da consulta
Em seguida, os documentos recuperados são ordenados de acordo com o modelo de RI implementado pelo sistema
8
Consultas com ContextoConsideram a posição das Palavras
Alguns sistemas de RI são capazes de buscar palavras dentro de algum “contexto” Documentos onde as palavras da consulta
aparecem próximas uma da outra podem ser mais relevantes do que aqueles onde as palavras aparecem distantes Ex.: “recuperação” e “informação” no contexto de
docs. sobre o tema de Recuperação de Informação
A consulta também é formulada como uma lista de palavras Contudo, a ordenação dos documentos depende
da posição das palavras nesses documentos
9
Consultas com ContextoPosição das Palavras
Como verificar essa proximidade? Depende da implementação do sistema de RI
E.g., Bases de índices invertidos que guardam a posição onde cada palavra ocorre em cada documento
Palavra Documento Casa (Doc1, 12); (Doc2, 1); .... Amarela (Doc1, 13); (Doc2, 20); .... ... ...
10
Consultas com Contexto Grupos Nominais
Consultas baseadas em Grupos Nominais (GN) recuperam documentos com um GN específico
i.e., lista de palavras contíguas no texto do documento
ex., “inteligência artificial”
Pode levar em consideração stopwords e/ou stemming Exemplo - “venda carro” casa com
“venda de carros” “vendendo carro”,…
11
Consultas com Contexto Grupos Nominais
A Base de índices do sistema de RI deve armazenar as posições de cada palavra no documento
Processo de recuperação Recuperar os documentos que contêm todas as
palavras da consulta Registrando as posições de cada palavra nos
docs Fazer a intersecção entre documentos
recuperados Para eliminar redundâncias
Verificar a ocorrência do GN (palavras contíguas)
13
Consultas com Contexto Distância máxima permitida
Consulta semelhante a GN, porém considera a distância máxima permitida entre os
termos da consulta Exemplo: “carro; corrida; 2” Consulta com os termos “carro” e “corrida” com
distância máxima de 2 palavras entre esses termos Exemplo de doc: “…carro que ganhou a corrida…”
As palavras não precisam estar na mesma ordem em que foram definidas na consulta Exemplo: “…corrida terminou com carro…”
Pode também levar em conta stemming e/ou stopwords
15
Consultas com ContextoOrdenação dos Documentos
Documentos que satisfazem uma consulta com Contexto podem ser ordenados da mesma forma que no caso das consultas básicas i.e., de acordo com o modelo de RI
implementado pelo sistema
Para consultas que levam em conta a posição das palavras, a distância entre os termos também pode ser levada em conta para definir a relevância do documento Ex.: documento com o texto “…corrida de
carro…” seria mais relevante que documento com texto “…carro que ganhou a corrida…”
16
Consultas Booleanas
Palavras combinadas com operadores booleanos: OR: (ki OR kj ) AND: (ki AND kj ) BUT: (ki BUT kj )
Satisfaz ki but not kj
Em geral, sistemas de RI não usam o operador NOT Uma vez que um número muito grande de
documentos poderia ser recuperado Operador BUT restringe o universo de documentos
Problema Usuários inexperientes têm dificuldades com
lógica booleana
17
Consultas BooleanasRecuperação com índices
invertidos
Palavra isolada Recupera documentos contendo essa palavra
OR Recupera docs. com ki e kj , e faz a união dos
resultados
AND Recupera docs. com ki e kj , e faz a interseção dos
resultados
BUT Recupera docs. com ki e kj , e utiliza o conjunto
complementar dos resultados
18
Consultas em Linguagem Natural
Em geral, consultas de texto completo são consideradas como strings arbitrárias pelos sistemas de RI de propósito geral Excluímos aqui os sistemas de Pergunta-
Resposta, e os sistema de RI com interface em Linguagem Natural
No modelo Espaço Vetorial, essas consultas São tratadas como um “bag” de palavras São processadas usando métodos padrão de
recuperação com Espaço Vetorial
19
Casamento de Padrão
Alguns sistemas de RI permitem consultas que “casam” com strings em lugar de apenas palavras isoladas
Um padrão é descrito por um conjunto de características sintáticas Padrão simples
ex., uma palavra, um prefixo, um sufixo, etc Padrão complexo
ex., expressões regulares
20
Casamento de Padrão
Estamos interessados em documentos que contêm segmentos de texto que casam com o padrão especificado
Isso requer estruturas de dados e algoritmos mais sofisticados do que índices invertidos para uma recuperação eficiente
21
Casamento de PadrãoPadrões Simples
Prefixos Padrão que casa com o início da palavra “anti” casa com “antiguidade”, “anticorpos”, etc.
Sufixos Padrão que casa com o final da palavra “ções” casa com “canções”, “infecções”, etc.
Substrings Padrão que casa seqüências quaisquer de caracteres “cid” casa com “capacidade”, “genocídio” etc.
Intervalos Pares de strings que casam com qualquer palavra
“alfabeticamente” entre eles “tin” to “tix” casa com “tipo”, “tiro”, “tísico”, etc.
22
Casamento de Padrões Simples Tratamento de Erros
Permite a recuperação de documentos com palavras “similares” a uma dada palavra Caso de consulta ou documentos com erros
Erros de edição, erros de OCR, espaço no meio da palavra, dentre outros
Recupera documentos que são similares até um dado limite, medido por Distância de edição
Levenstein distance Subseqüência comum mais longa
Longest Common Subsequence (LCS)
23
Casamento de Padrões Simples Tratamento de Erros
Distância de edição - Levenstein distance Número mínimo de caracteres deletados,
adicionados ou substituídos necessários para tornar os 2 strings equivalentes “casamento” para “casmento” tem distância
= 1 “casamento” para “casammentto” tem
distância = 2 “casamento” para “cazammeno” tem
distância = 3
24
Casamento de Padrões Simples Tratamento de Erros
Subseqüência comum mais longa Computa o tamanho da subseqüência de
caracteres mais longa comum aos dois strings Uma subseqüência de um string é obtida pela
eliminação de zero ou mais caracteres Exemplos:
“casamento” e “asamento” = 8 “casamento” e “casammentto” = 5
25
Casamento de Padrões Complexos
Expressões Regulares
Linguagem para compor padrões complexos a partir de padrões simples Um caractere individual é uma expressão regular (ER) União
Se e1 e e2 são ERs, então (e1 | e2 ) é uma ER que casa com tudo que e1 ou e2 casam
Concatenação Se e1 e e2 são ERs, então e1 e2 é uma ER que casa
com um string que consiste em um substring que casa com e1 imediatamente seguido de um substring que casa e2
Repetição (Kleene closure): Se e1 é uma ER, então e1* é uma ER que casa com uma
seqüência de zero ou mais strings que casam com e1
26
Casamento de Padrões Complexos
Expressões Regulares
Exemplos de Expressões Regulares (u|e)nabl(e|ing) casa com
unable unabling enable Enabling
(un|en)*able casa com able unable unenable enununenable
27
Consultas com Estrutura
Assumem que o documento possui uma estrutura que pode ser explora na busca Estruturas hierárquicas em forma de árvore Conjunto fixo de campos (meta-dados)
e.g. título, autor, resumo, etc.
Permitem consultas por textos que ocorrem em campos específicos:
“inteligência artificial” aparecendo no título do capítulo
capítulo
título seção título seção
título subseção
capítulo
livro
28
Operações sobre as Consultas
Expansão de Consultas
Reformulação de consultas Feedback de Relevância
29
Expansão de Consultas
Objetivo: Adicionar novos termos (correlacionados) à
consulta
Motivação Aumentar a quantidade de documentos
recuperados Cobertura do sistema de RI
30
Para cada termo t da consulta, expande a consulta com os sinônimos e palavras relacionadas a t contidos no tesauro
Esse método geralmente aumenta a cobertura da recuperação Recupera mais documentos
Porém, pode diminuir significativamente a precisão Recuperar documentos irrelevantes Particularmente para termos ambíguos
Expansão de consultas usando Tesauros
31
Expansão de Consulta com WordNet
WordNet
http://wordnet.princeton.edu/
Adiciona sinônimos no mesmo synset Adiciona hipônimos para inserir termos
especializados Adiciona hiperônimos para generalizar uma
consulta Adiciona outros termos relacionados para
expandir a consulta
32
Expansão com Tesauro Estatístico
Análise Automática Global
Tesauros produzidos manualmente são limitados no tipo de relações semânticas
que representam
Termos semanticamente relacionados podem ser descobertos a partir de análises estatísticas em um corpus de documentos
33
Constrói matrizes que “quantificam” associações entre termos Matriz de associação
Considera a co-ocorrência (ou freqüência comum) dos termos em todos os documentos do corpus
Matriz de correlação métrica considera a distância entre os termos nos
documentos do corpus as distâncias entre todas as ocorrências desses
termos no mesmo documento são contadas, o que indiretamente quantifica a co-ocorrência dos termos
Expande consultas usando os termos mais similares estatisticamente i.e., com maior associação
Análise Automática Global
Análise Automática Global
Ocultei os slides do cálculo das matrizes de associação e de correlação métrica...
34
40
Análise Automática Global Expansão da Consulta
Regra Geral Para cada termo i da consulta, expanda a
consulta com os n termos j com maior valor de cij (correlação)
Mais de um fator de correlação pode ser combinado para escolher os termos para a expansão Por exemplo, pegar os n maiores termos de
ambas as matrizes e fazer a interseção determinando que termos estão relacionados em
ambas as matrizes
41
Expansão da Consulta Problemas com a Análise Global
Ambigüidade pode introduzir termos estatisticamente
relacionados que, mesmo assim, são irrelevantes para a consulta “Apple computer” “Apple red fruit computer” apple e red fruit estão relacionados no corpus de
docs. Porém, red fruit não é relevante para a consulta
original
Redundância Uma vez que os termos adicionados são
correlacionados aos termos da consulta original, a expansão pode não recuperar muitos documentos adicionais
42
Após a consulta inicial, determina termos correlacionados analisando os m primeiros documentos recuperados i.e., de melhor ranking
Esta análise se baseia apenas em um conjunto “local” de documentos específico para uma consulta
Evita ambigüidade, uma vez que considera apenas documentos relevantes em um contexto “Apple computer”
“Apple computer Powerbook laptop”
Expansão da Consulta Análise Automática Local
43
Análise Global vs. Análise Local
Análise Global requer computação intensiva off-line
durante a construção da matriz de correlações entre termos
Análise Local Requer menos computação para cálculo das
correlações Entretanto, esse cálculo é refeito para cada
consulta em tempo de execução
Análise local tem gerado melhores resultados experimentais
45
Expansão de Consultas Conclusões
Expansão de consultas com termos relacionados pode melhorar desempenho do sistema de RI Particularmente, a cobertura
Contudo, termos similares devem ser escolhidos com cuidado para evitar perda de precisão
46
Reformulação da consultaFeedback de relevância
Após apresentar os resultados de uma consulta, o sistema de RI pode permitir ao usuário fornecer feedback sobre um ou mais documentos recuperados
Esse feedback pode ser usado para reformular a consulta inicial Novos resultados serão produzidos com base na
consulta reformulada Processo é interativo e iterativo
Arquitetura para Feedback de Relevância
Rankings
Sistemas de RI
documentos
Documentos ordenados
1. Doc1 2. Doc2 3. Doc3 . .
1. Doc1 2. Doc2 3. Doc3 . .
Feedback
Consultainicial
Consulta revisada
Documentos reordenados
1. Doc2 2. Doc4 3. Doc5 . .
Reformulação da consulta
48
Feedback de relevância Repesagem de Termos
Term reweighting
Objetivo: Aumentar o peso dos termos que aparecem em
documentos relevantes e diminuir o peso de termos que aparecem em documentos irrelevantes
Existem diversos algoritmos para reformular consultas com base em repesagem de pesos
49
Feedback de relevância Repesagem de Termos
Reformulação de consulta para o Modelo Vetorial Nesse modelo, consultas e documentos são
representados como vetores de pesos Modelo vetorial recupera documentos que são
similares à consulta do usuário Se soubéssemos a priori que documentos são
relevantes, saberíamos quais consultas seriam as mais adequadas As consultas ideais seriam aquelas mais similares
aos documentos relevantes no espaço vetorial
50
Feedback de relevância Repesagem de Termos
Reformulação de Consulta para o Modelo Vetorial
Adicione à consulta inicial os vetores dos documentos considerados com relevantes
Subtraia da consulta inicial os vetores dos documentos considerados com irrelevantes
Desta forma, os pesos da consulta são reformulados, aproximando-se dos documentos relevantes
51
Feedback de relevância Repesagem de Termos
Métodos: Método Rochio Padrão Método Ide Método Ide “Dec Hi”
Ocultei os slides porque é muita fórmula……..
57
Feedback de relevância Repesagem de Termos
Comparação dos Métodos Todos os métodos, de uma forma geral,
melhoram os resultados da RI Resultados experimentais não indicam uma
dominância clara de nenhum método Geralmente, parâmetros são definidos como
constantes iguais a 1 Alguns autores usam apenas o conjunto dos
documentos relevantes (ou seja = 0 ) Método de Feedback Positivo
58
Feedback de relevância
Porque Feedback não é largamente usado Usuários algumas vezes relutam em fornecer
feedback explícito Requer maior tempo de computação Às vezes, dificulta o entendimento de porque
um determinado documento foi recuperado
59
Pseudo-Feedback
Usa feedback de relevância sem uma entrada explícita do usuário
Apenas assume que os top m documentos recuperados são relevantes, e então reformulam a consulta É um método de feedback positivo
Melhorou o desempenho de RI no corpus do TREC
Arquitetura de Pseudo-Feedback
RankingsSistema
RI
Corpus de Documentos
DocumentosOrdenados
1. Doc1 2. Doc2 3. Doc3 . .
Consulta
inicial
Consulta
Reformulada Documentosreordenados
1. Doc2 2. Doc4 3. Doc5 . .
Reformulaçãoda consulta
1. Doc1 2. Doc2 3. Doc3 . .
PseudoFeedbac
k
61
Próxima aula
Construção de bases de índices
Definição das equipes e dos projetos