recuperação de informação
DESCRIPTION
Recuperação de Informação. Mariana Lara Neves ([email protected]). Conteúdo da apresentação. Introdução Técnicas de IR Aspectos relevantes em IR Busca na Web Agentes + IR Conclusões Referências. Introdução. Crescimento das coleções de textos digitais - PowerPoint PPT PresentationTRANSCRIPT
![Page 2: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/2.jpg)
2
Conteúdo da apresentação
Introdução Técnicas de IR Aspectos relevantes em IR Busca na Web Agentes + IR Conclusões Referências
![Page 3: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/3.jpg)
3
Introdução
Crescimento das coleções de textos digitais(bibliotecas digitais, Internet, Intranets, ...)
Crescimento exponencial da World Wide Web
Novas técnicas de recuperação de informações (IR)
+
![Page 4: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/4.jpg)
4
Introdução
OBJETIVO:
Encontrar (de forma eficiente) osmelhores documentos que
satisfaçam a query do usuário.
![Page 5: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/5.jpg)
5
Técnicas de IR
Sistema de indexação baseado em palavras-chave:
Constróem (ou atualizam) o IndexBase (IB)
robôs
queries: lista de palavras-chave, expressões booleanas, etc.
![Page 6: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/6.jpg)
6
Técnicas de IR
Sistema de indexação baseado em palavras-chave:
Desvantagens: retorna uma grande quantidade de documentos irrelevantes; classificação estática (manual e/ou automática).
Exemplos: Yahoo!, AltaVista, HotBot, Lycos, Infoseek, Cadê.
![Page 7: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/7.jpg)
7
Técnicas de IR
Sistema baseado em ontologias:
Classificação dinâmica de páginas, podendo variar de acordo com as necessidades atuais do usuário.
Utilizando-se ontologias, o usuário pode selecionar os conceitos para construir seu contexto em cada query.
Objetivo: aumentar a precisão da busca.
Vantagens: flexibilidade e transparência.
![Page 8: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/8.jpg)
8
Técnicas de IR
Sistema baseado em ontologias:
Aplicação:
pesquisa realizada no DI-UFPE para o sistema Bright!
Sistema de busca para uma intranet de uma empresa de grande porte: ontologias criadas por um especialista para um domínio restrito e conhecido.
![Page 9: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/9.jpg)
9
Técnicas de IR
Term Frequency-Inverse Document Frequency (TFIDF): atribui pesos às palavras de um documento. TF(w): frequência da palavra w (número de vezes que w aparece no documento. DF(w): frequência de documentos com a palavra w (número de documentos em que a palavra ocorre).
)(log)()(
DF
DTFTFIDF
D = número total de documentos.
![Page 10: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/10.jpg)
10
Aspectos Relevantes em IR
1. Integração de Soluções
Banco de dadosdas empresas
Sistema de IR
Mudanças nas técnicas de indexação e otimização dasqueries (novas linguagens). Capacidade de
multimídia
![Page 11: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/11.jpg)
11
Aspectos Relevantes em IR 2. IR Distribuída
Solução: sistema multi-agente. Exemplo: Miner.
searchengine
searchengine
searchengine
ranking dedocumentos
ranking dedocumentos
ranking dedocumentos
Rankingúnico
dedocumentos
![Page 12: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/12.jpg)
12
Aspectos Relevantes em IR 3. Eficiência na Indexação
• tempo de resposta da query;• velocidade de indexação.
Pesquisas na área: novos algoritmos para solucionar estes problemas; algoritmos de compressão de textos (diminuindo o tempo de armazenamento e de manipulação); capacidade de lidar com vários tipos de arquivos (SGML, HTML, Acrobat, etc.).
![Page 13: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/13.jpg)
13
Aspectos Relevantes em IR 4. Expansão do Vocabulário
A informação buscada pode ser expressada pordiferentes palavras nos documentos relevantes.
Latent Semantic Indexing (LSI): transforma o documento e a representação da query; utilizando-se um dicionário de sinônimos..
![Page 14: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/14.jpg)
14
Aspectos Relevantes em IR 5. Interface do sistema
As interfaces devem tornar o sistema de fácil uso e compreensão.
Devem suportar funções tais como: formulação de queries; apresentação da informação recuperada; feedback; browsing.
![Page 15: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/15.jpg)
15
Aspectos Relevantes em IR 6. Filtragem da Informação
Processo de identificar documentos relevantes em um conjunto de informações, baseando-se no profile do usuário.
usuários + profiles
comparação
um documentoindividualverdadeiro
documento
![Page 16: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/16.jpg)
16
Aspectos Relevantes em IR 6. Filtragem da Informação
Deve lidar com um grande volume de documentos (± 10 MB/hora) e muitos usuários (± 10.000).
Eficiência
Algoritmos que fazem uma “podagem”, para separar os documentos relevantes dos não-relevantes.
Eficácia
![Page 17: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/17.jpg)
17
Aspectos Relevantes em IR 7. Eficácia da Recuperação
Relação entre o n° de documentos relevantes retornados e o n° total de documentos relevantes.
Recall
Relação entre o n° de documentos relevantes retornados e n° total de documentos retornados.
Precisão
![Page 18: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/18.jpg)
18
Aspectos Relevantes em IR 7. Eficácia da Recuperação
Todos os documentos
Documentos relevantes
Documentos retornados
Relevantes retornados
Recall = Precisão =
![Page 19: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/19.jpg)
19
Aspectos Relevantes em IR 8. Recuperação Multimídia
Refere-se às técnicas em desenvolvimento para que se possa indexar e acessar imagens, vídeos e sons sem uma descrição para texto.
Soluções gerais para a indexação de de multimídia são difíceis (soluções específicas).
Reconhecimento de faces
Indexação de imagens peladistribuição de cores
![Page 20: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/20.jpg)
20
Aspectos Relevantes em IR 9. Extração de Informação
Extrai dados relevantes (para um determinado objetivo) a partir de documentos digitais.
Etapas: reconhecimento do trecho de informação; extração da informação.
Exemplo (projeto de mestrado de Carla):
BD (CNCT):
Autor: .... Ano: ....
Título: .... Local: ....
![Page 21: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/21.jpg)
21
Aspectos Relevantes em IR 9. Extração de Informação
![Page 22: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/22.jpg)
22
Aspectos Relevantes em IR 10. Feedback
Processo em que o usuário identifica os documentos relevantes retornados em uma lista
inicial, para em seguida o sistema criar uma nova query baseada nesta amostra de
documentos.
![Page 23: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/23.jpg)
23
Busca na Web
Opções de busca
Resultado das pesquisas
Facilidade de uso
Fonte: Info Exame (nov/99)
Gerais
![Page 24: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/24.jpg)
24
Busca na Web
Opções de busca
Resultado das pesquisas
Facilidade de uso
Brasileiros
![Page 25: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/25.jpg)
25
Busca na Web
Sites em querealiza busca
Qualidade dapesquisa
Facilidade de uso
Organizaçãodos resultados
Metabusca
![Page 26: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/26.jpg)
26
Agentes + IR
Agente
documentos
queries
documentos
queries
feedback
![Page 27: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/27.jpg)
27
Agentes + IR
IR se encaixa no modelo de agente;
necessidade de acesso a múltiplas fontes de informação;
necessidade de distribuição.
Por quê?
![Page 28: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/28.jpg)
28
Conclusões
Fato: grande volume de informação; necessidade de novas técnicas para buscar
toda esta informação.
O que se pode melhorar? Tempo de resposta da busca; aumentar a eficiência da busca.
![Page 29: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/29.jpg)
29
Referências
Barros, Flávia; Gonçalves, Pedro; Ontologies for Enhacing Web Searches’ Precision and Recall (1998).
Croft, Bruce; What Do People Want from Information Retrieval? (1995).
Lewis, David D., Representation and Learning in Information Retrieval (1992).
Ramos, Tagil Oliveira; Irrelevância mata! Ou não? (1999) InfoExame n° 164 ano 14.
Ribeiro, Juliana N.; Categorização de Textos usando Redes Neurais (1997).
![Page 30: Recuperação de Informação](https://reader036.vdocuments.com.br/reader036/viewer/2022062409/56814f5f550346895dbd127d/html5/thumbnails/30.jpg)
30
Referências - WWW
Universidade de Marylandhttp://www.cs.umbc.edu/abir
Searching the Webhttp://www.esrl.lib.md.us/refdesk/searching.html
Center for Intelligent Information Retrievalhttp://ciir.cs.umass.edu/
Information Retrievalhttp://www.dcs.gla.ac.uk/ir/new/pages/IR_Home.html