recuperação de informação na web - marilia.unesp.br que descrevem o assunto tratado na página...

07/05/2014

1

Recuperação de Informação na WEB

Recuperação de informação na WEB

� Sites de Busca (search engines/buscadores)◦ Permitem ao usuário submeter sua expressão de

busca e recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação ◦ Maioria de uso geral◦ Em um acervo extremamente grande como é a

Web é essencial uma indexação antecipada de seus documentos (páginas).� A maioria dos mecanismos de busca da Web gera

índices.� Pelo caráter dinâmico da Web esses índices devem

permanecer em constante processo de atualização

07/05/2014

2


� Sites de busca

◦ Índexação

� Não Automática

� O autor fornece dados sobre sua página e associa a ela uma ou mais

categorias que descrevem o assunto tratado na página

� Automática

� Spiders (robôs, crawlers ou worms)

� Partindo de uma lista inicial de URLs, rastreiam a estrutura

hipertextual da WEB, colhendo informações sobre as páginas que

encontram;

� Idexam cada página utilizando métodos de indexação automática


� Indexação não-automática (manual)◦ Indexadores profissionais especificam uma hierarquia

de assuntos e indexam as páginas Web utilizando tais categorias.◦ Uma URL submetida pode ser associada a uma

categoria de qualquer nível. Por exemplo, ela pode ser ligada a uma categoria principal, “Ciência”, ou à subcategoria, “Ciências Humanas”, ou à sub-subcategoria, “Biblioteconomia e Ciência da Informação”.◦ A URL cadastrada é avaliada por profissionais, que

podendo alterar os dados fornecidos pelo usuário.◦ Caso um usuário não consiga encontrar uma

categoria apropriada para descrever sua página, ele pode sugerir uma nova categoria.

07/05/2014

3



� Indexação automática◦ A indexação automática é realizada através de duas

etapas:� Seleção de endereços (URLs) de páginas;� Indexação das páginas, gerando para cada uma um conjunto de

termos de indexação.

◦ Existem programas que “viajam” através da Web a fim de selecionar URLs de páginas de potencial interesse para que sejam indexadas. Utilizando a metáfora da Web, esses programas são chamados de spiders (aranhas) ou ainda robôs, crawlers ou worms.◦ Partindo de uma lista inicial de URLs, esses robôs

rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram.

07/05/2014

4


� Indexação automática: Estratégias◦ breadth-first - visa maximizar a amplitude da

pesquisa descendo apenas poucos níveis de cada site

◦ depth-first - visa maximizar a profundidade buscando um maior detalhamento do assunto tratado pelo site.

� Quando uma nova página é recuperada, o spider extrai todas as URLs dessa página e os adiciona na sua base de dados.


� Indexação automática

◦ Para aumentar a velocidade de cobertura da Web

podem ser usados vários spiders trabalhando em

paralelo, cada um cobrindo uma região ou um

domínio diferente da Web e enviando suas URLs para

a base de dados

◦ Depois de formado o banco de dados de URLs o

robô poderá acessar cada página e indexá-la usando

métodos de indexação automática.

07/05/2014

5


� Buscas◦ Geralmente dois níveis de busca: básico e

avançado

◦ Básico:� Buscas booleanas utilizando os operadores AND,

OR, NOT ou alguma outra forma;

◦ Avançado:� Buscas por proximidade: NEAR, ADJ

� Buscas por tipo de mídia ou tipo de arquivo: “.JPG”, “.MPEG”, “.GIF”, etc.


07/05/2014

6



� Meta-buscadores◦ Realizam buscas utilizando diversos

mecanismos de busca;� A expressão de busca é traduzida e enviada para

cada um dos mecanismos que o meta-buscador utiliza.

� Cada buscador retornará uma lista de URLs

� O meta-buscador agrega as listas em uma única lista, eliminando possíveis duplicações.

07/05/2014

7



07/05/2014

8

Interfaces

http://digitalvaults.org/

07/05/2014

9

http://moebio.com/research/lifeuniverse/

recuperação de informação na web - marilia.unesp.br que descrevem o assunto tratado na página...

Documents