recuperação de informação na web - marilia.unesp.br que descrevem o assunto tratado na página...
TRANSCRIPT
07/05/2014
1
Recuperação de Informação na WEB
Recuperação de informação na WEB
� Sites de Busca (search engines/buscadores)◦ Permitem ao usuário submeter sua expressão de
busca e recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação ◦ Maioria de uso geral◦ Em um acervo extremamente grande como é a
Web é essencial uma indexação antecipada de seus documentos (páginas).� A maioria dos mecanismos de busca da Web gera
índices.� Pelo caráter dinâmico da Web esses índices devem
permanecer em constante processo de atualização
07/05/2014
2
Recuperação de informação na WEB
� Sites de busca
◦ Índexação
� Não Automática
� O autor fornece dados sobre sua página e associa a ela uma ou mais
categorias que descrevem o assunto tratado na página
� Automática
� Spiders (robôs, crawlers ou worms)
� Partindo de uma lista inicial de URLs, rastreiam a estrutura
hipertextual da WEB, colhendo informações sobre as páginas que
encontram;
� Idexam cada página utilizando métodos de indexação automática
Recuperação de informação na WEB
� Indexação não-automática (manual)◦ Indexadores profissionais especificam uma hierarquia
de assuntos e indexam as páginas Web utilizando tais categorias.◦ Uma URL submetida pode ser associada a uma
categoria de qualquer nível. Por exemplo, ela pode ser ligada a uma categoria principal, “Ciência”, ou à subcategoria, “Ciências Humanas”, ou à sub-subcategoria, “Biblioteconomia e Ciência da Informação”.◦ A URL cadastrada é avaliada por profissionais, que
podendo alterar os dados fornecidos pelo usuário.◦ Caso um usuário não consiga encontrar uma
categoria apropriada para descrever sua página, ele pode sugerir uma nova categoria.
07/05/2014
3
Recuperação de informação na WEB
Recuperação de informação na WEB
� Indexação automática◦ A indexação automática é realizada através de duas
etapas:� Seleção de endereços (URLs) de páginas;� Indexação das páginas, gerando para cada uma um conjunto de
termos de indexação.
◦ Existem programas que “viajam” através da Web a fim de selecionar URLs de páginas de potencial interesse para que sejam indexadas. Utilizando a metáfora da Web, esses programas são chamados de spiders (aranhas) ou ainda robôs, crawlers ou worms.◦ Partindo de uma lista inicial de URLs, esses robôs
rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram.
07/05/2014
4
Recuperação de informação na WEB
� Indexação automática: Estratégias◦ breadth-first - visa maximizar a amplitude da
pesquisa descendo apenas poucos níveis de cada site
◦ depth-first - visa maximizar a profundidade buscando um maior detalhamento do assunto tratado pelo site.
� Quando uma nova página é recuperada, o spider extrai todas as URLs dessa página e os adiciona na sua base de dados.
Recuperação de informação na WEB
� Indexação automática
◦ Para aumentar a velocidade de cobertura da Web
podem ser usados vários spiders trabalhando em
paralelo, cada um cobrindo uma região ou um
domínio diferente da Web e enviando suas URLs para
a base de dados
◦ Depois de formado o banco de dados de URLs o
robô poderá acessar cada página e indexá-la usando
métodos de indexação automática.
07/05/2014
5
Recuperação de Informação na WEB
� Buscas◦ Geralmente dois níveis de busca: básico e
avançado
◦ Básico:� Buscas booleanas utilizando os operadores AND,
OR, NOT ou alguma outra forma;
◦ Avançado:� Buscas por proximidade: NEAR, ADJ
� Buscas por tipo de mídia ou tipo de arquivo: “.JPG”, “.MPEG”, “.GIF”, etc.
Recuperação de Informação na WEB
07/05/2014
6
Recuperação de Informação na WEB
Recuperação de Informação na WEB
� Meta-buscadores◦ Realizam buscas utilizando diversos
mecanismos de busca;� A expressão de busca é traduzida e enviada para
cada um dos mecanismos que o meta-buscador utiliza.
� Cada buscador retornará uma lista de URLs
� O meta-buscador agrega as listas em uma única lista, eliminando possíveis duplicações.