recuperar informação consiste em identificar, no...a recuperação de informação envolve: ... o...

40
24/05/2017 1 Recuperação de Informação Recuperação de Informação Recuperar informação consiste em identificar, no conjunto de documentos de um sistema, quais atendem à necessidade de informação do usuário.

Upload: others

Post on 22-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

1

Recuperação de Informação

Recuperação de Informação

� Recuperar informação consiste em identificar, no conjunto de documentos de um sistema, quais atendem à necessidade de informação do usuário.

Page 2: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

2

Recuperação de Informação

� A recuperação de informação envolve:◦ um acervo documental;

◦ pessoas que buscam por documentos relevantes para satisfazer suas necessidades de informação.

� Recuperar informação implica em operar seletivamente um estoque de informação◦ envolve processos cognitivos difíceis de serem formalizados.

� A utilização de recursos computacionais nessa tarefa parte de inevitáveis simplificações teóricas e de adequações de conceitos subjetivos◦ relevância

◦ necessidade de informação

◦ informação

O processo de recuperação de informação

Page 3: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

3

O processo de recuperação de informação

Documento

Page 4: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

4

Documento

� Documentos◦ Segundo Buckland (1991):

� o termo informação é utilizado na maioria das vezes vinculado a um objeto que contém informação: um documento. Assim, o termo informação poderia também designar “algo atribuído a um objeto, tal como dado e documento que se referem à informação, porque deles se espera que sejam informativos”.

◦ Para Le Coadic (2004, p.5):� documento é o termo genérico que designa os objetos

portadores de informação. Um documento é todo artefato que representa ou expressa um objeto, uma ideia ou uma informação por meio de signos gráficos e icônicos (palavras, imagens, diagramas, mapas, figuras, símbolos), sonoros e visuais (gravados em suporte de papel ou eletrônicos).

O processo de recuperação de informação

Page 5: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

5

Representação de documentos

Representação de documentos

� A principal característica do processo de representação da informação é a substituição de uma entidade linguística longa e complexa - o texto do documento - por sua descrição abreviada. O uso de tal sumarização não é apenas uma consequência de restrições práticas quanto ao volume de material a ser armazenado e recuperado. Essa sumarização é desejável pois sua função é demonstrar a essência do documento. Ela funciona então como um artifício para enfatizar o que é essencial no documento considerando sua recuperação.

Novellino (1996)

Page 6: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

6

Representação de documentos

� Representação Descritiva (catalogação descritiva)

� Representação Temática (catalogação de assunto)

Representação Descritiva(catalogação descritiva)

� Representa as características específicas do documento, denominada descrição bibliográfica, que permite a individualização do documento.

� Ela também define e padroniza os pontos de acesso, responsáveis pela busca e recuperação da informação, assim como pela reunião de documentos semelhantes, por exemplo, todas as obras de um determinado autor ou de uma série específica.

(MAIMONE; SILVEIRA; TÁLAMO, 2011)

Page 7: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

7

Representação Descritiva(catalogação descritiva)

� É composta pelo conjunto de características próprias ou atribuídas ao documento, que o individualiza em um catálogo, repositório ou outro sistema informacional.

� É necessário algum modo de padronização, tanto na estrutura de descrição (elementos descritivos ou metadados) como também nos valores que devem ser representados na estrutura de descrição.

(ALVES; SANTOS, 2013).

� Proporcionar a caracterização do recurso, tornando-o único e, ao mesmo tempo, reunindo-o com outros recursos semelhantes.

� Com a representação é possível garantir:◦ o armazenamento consistente dos dados de um documento;

◦ garantir o acesso físico ou digital ao documento;

◦ melhorar a busca e recuperação dos recursos que passam a ser identificáveis nos sistemas;

◦ etc

(ALVES, 2010).

Representação Descritiva(catalogação descritiva)

Marc

Page 8: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

8

Representação Descritiva(catalogação descritiva)

� Dublin Core◦ Title

◦ Creator

◦ Subject

◦ Description

◦ Publisher

◦ Contributor

◦ Date.

◦ Type

◦ Format

◦ Identifier

◦ Source

◦ Language

◦ Relation

◦ Coverage

◦ Rights

Representação Descritiva(catalogação descritiva)

� FRBR◦ Functional Requirements for Bibliographic Records (FRBR)

(Requisitos Funcionais para Registros Bibliográficos)

◦ Utilizada o modelo Entidade-Relacionamento;

◦ Não é um código de catalogação, não é um formato, não é uma norma, não é um padrão, não é um princípio de catalogação. Assim, não é adequado dizer coisas como “vou catalogar usando o FRBR”.

◦ Objetivos:� prover um quadro definido com clareza e estruturado para

relacionar os dados que são registrados em registros de bibliográficos às necessidades dos usuários desses registros;

� recomendar um nível básico de funcionalidade para registros criados por agências bibliográficas nacionais.

(Fabrício Assumpção)

Page 9: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

9

Representação Descritiva(catalogação descritiva)

� FRBR

Representação Temática(catalogação de assunto)

� Resumo◦ Texto breve e coerente que se destina a informar o usuário

sobre os conhecimentos essenciais transmitidos por um documento;

� Extrato◦ Versão abreviada de um documento, feita mediante a

extração de frases do próprio documento;

� Índice◦ Representação do conteúdo temático de um documento

por meio da utilização de um conjunto de palavras ou termos

(LANCASTER, 2004)

Page 10: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

10

Indexação

Indexação

� A indexação de um documento visa representar o seu conteúdo temático por meio de um conjunto de termos.

� Os termos de indexação servem também como pontos de acesso mediante os quais o documento é localizado e recuperado em um sistema de informação.

� Lancaster (2004, p.18) distingue dois tipos de indexação:◦ indexação por extração

� A seleção dos termos fica restrita ao contexto do próprio documento. � O indexador, utilizando critérios institucionais e pessoais, seleciona no texto

palavras que serão utilizados para representar o documento.

◦ indexação por atribuição.� Utiliza-se de um elemento externo ao documento, um conjunto de termos

previamente definidos e normalizados (léxico) cuja complexidade pode variar deste uma lista de cabeçalhos de assunto até um tesauro ou uma ontologia.

� Após a leitura do texto, o indexador escolhe os termos mais adequados para representar o conteúdo informacional do documento.

Page 11: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

11

Indexaçãoautomática

Indexação Automática

� Embora a prática da indexação possa ser regulada por políticas e princípios institucionais, o processo de indexação manual é dependente de critérios subjetivos e pessoais, relacionados à formação e experiência do indexador.

� O tempo despendido e a qualidade da indexação ficam fortemente atrelados a fatores não controláveis, o que pode afetar o custo desse processo.

� As dificuldades inerentes à indexação manual e a grande quantidade de documentos publicados e disponibilizados, justificaram estudos que buscavam soluções alternativas para auxiliar o indexador no exercício de sua atividade.

� As primeiras pesquisas em indexação automática aconteceram no final dos anos de 1950.

� A popularização da microinformática a partir dos anos de 1980, mas principalmente o surgimento da Web nos anos de 1990 fez com que o nível de interesse nas pesquisas sobre indexação automática permanecesse praticamente constante até os dias de hoje.

Page 12: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

12

Indexação Automática

� Vantagens◦ baixo custo da indexação automática;◦ facilidade de aplicação a grandes conjuntos de documentos◦ homogeneidade desse processo quando realizados por

algoritmos computacionais.

� O resultado da indexação realizada por seres humanos pode variar de um indexador para outro, bem como de um mesmo indexador em momentos diferentes;

� Um sistema computacional irá realizar a indexação de maneira uniforme, utilizando sempre os mesmos critérios para o qual foi programado, independentemente da quantidade de documentos ou de qualquer fator externo.

(ANDERSON; PEREZ-CARBALLO, 2001)

Indexação Automática: tipos

� De forma semelhante à sua classificação da indexação manual, Lancaster (2004, p.285) identifica dois tipos de indexação automática:◦ indexação automática por extração automática

� realizada geralmente por meio de cálculos matemáticos de frequência das palavras encontradas no texto de um documento.

◦ indexação automática por atribuição automática� é utilizado um elemento externo aos textos com o objetivo de

normalizar os termos de indexação atribuídos aos documentos.

Page 13: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

13

O processo de recuperação de informação

Usuário

� Segundo Le Coadic (2004, p.38-40), existem dois tipos de necessidades de informação: a necessidade de informação em função do conhecimento, originária do desejo de saber, e a necessidade de informação em função da ação, derivada de necessidades materiais determinadas pela realização de atividades humanas, profissionais e individuais.Ambas serão representadas pelo usuário quando entram em contato com o ambiente que escolheram para satisfazer a sua necessidade informacional.

Page 14: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

14

O processo de recuperação de informação

Expressão de Busca

� Meio que o usuário emprega para comunicar a sua necessidade informacional para o sistema de informação.

� Podem ser especificada em linguagem natural ou por meio de uma linguagem artificial, dependendo dos recursos oferecidos pelo sistema.

� Os usuários necessitam ter um mínimo de conhecimento do tema de interesse e do seu vocabulário do domínio.

� Principal dificuldade: predizer quais os termos que foram usadas para representar os documentos que satisfarão sua necessidade.

Page 15: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

15

O processo de recuperação de informação

Representação da Expressão de Busca

� É necessário que a expressão de busca seja representada de forma similar à utilizada na representação dos documentos.

� Essa homogeneidade permitirá a comparação entre a busca e todos os documentos do corpus do sistema por meio da função de busca.

Page 16: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

16

Interfaces de busca

Interfaces de busca

Bem concebidos, os sistemas eficazes geram sentimentos positivos em seus usuários. Quando um sistema é bem projetado, a interface quase desaparece, permitindo que os usuários se concentrar em seu trabalho, realizando-o de maneira prazerosa.

Em Sistemas de Recuperação de Informação, a função da interface de busca é auxiliar o usuário a entender e expressar a sua necessidade de informação

Page 17: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

17

Interfaces de Busca1997 - Protótipo

1999 - Beta

out.2013

Page 18: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

18

Page 19: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

19

O processo de recuperação de informação

Modelo de Recuperação de Informação

� É a especificação formal de três elementos:◦ a representação dos documentos;

◦ a representação da necessidade de informação por meio de uma expressão de busca;

◦ como estes dois elementos serão comparados: a função de busca.

� A eficiência de um sistema de recuperação de informação está diretamente ligada ao modelo que ele utiliza, influenciando diretamente em seu modo de operação.

Page 20: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

20

Modelo Booleano

� No modelo booleano um documento é representado por um conjunto de termos de indexação que podem ser definidos de forma intelectual (manual) por profissionais especializados ou automaticamente, utilizando algoritmos computacionais.

� As buscas são formuladas por meio de uma expressão booleana composta por termos ligados por operadores lógicos AND, OR e NOT e apresentam como resultado os documentos cuja representação satisfazem às restrições lógicas da expressão de busca.

Modelo Booleano

� Uma expressão de busca que utiliza apenas um termo t1 terá como resultado o conjunto de documentos indexados por t1;

Page 21: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

21

Modelo Booleano

DesmatamentoMata AtlânticaMadeireiras

Reflorestamento

Desmatamento

DesmatamentoAmazônia

Grilagem de terrasReflorestamento

Modelo Booleano

� Uma expressão conjuntiva de enunciado t1 AND t2

recuperará documentos indexados por ambos os termos (t1 e t2).

� Esta operação equivale à interseção do conjunto dos documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo t2, representado pela área cinza na figura.

Page 22: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

22

Modelo Booleano

DesmatamentoMata Atlântica

MadeireirasReflorestamento

DesmatamentoAND

Mata Atlântica

DesmatamentoAmazônia

Grilagem de terrasReflorestamento

Modelo Booleano

� Uma expressão disjuntiva t1 OR t2 recuperará o conjunto dos documentos indexados pelo termo t1ou pelo termo t2.

� Essa operação equivale à união entre o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados pelo termo t2.

Page 23: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

23

Modelo Booleano

DesmatamentoMata Atlântica

MadeireirasReflorestamento

DesmatamentoOR

Mata Atlântica

DesmatamentoAmazônia

Grilagem de terrasReflorestamento

Modelo Booleano

� A expressão NOT t1 recuperará os documentos que não são indexados pelo termo t1, representados pela área cinza da figura.

Page 24: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

24

Modelo Booleano

DesmatamentoMata AtlânticaMadeireiras

Reflorestamento

NOT Desmatamento

DesmatamentoAmazônia

Grilagem de terrasReflorestamento

Modelo Booleano

� As expressões t1 NOT t2 ou t1 AND NOT t2 terão o mesmo resultado: o conjunto dos documentos indexados por t1 e que não são indexados por t2.

� Neste caso o operador NOT pode ser visto como um operador da diferença entre conjuntos.

Page 25: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

25

Modelo Booleano

DesmatamentoMata AtlânticaMadeireiras

Reflorestamento

DesmatamentoAND NOT Madeireiras

DesmatamentoAmazônia

Grilagem de terrasReflorestamento

Modelo Booleano

� Termos e operadores booleanos podem ser combinados para especificar buscas mais amplas ou restritivas.

� Como a ordem de execução das operações lógicas de uma expressão influencia no resultado da busca, muitas vezes é necessário explicitar essa ordem, delimitando partes da expressão por meio de parênteses.

Page 26: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

26

Modelo Booleano

� As áreas cinza da figura representam o resultado de duas expressões de busca que utilizam os mesmos termos e os mesmos operadores, mas diferem na ordem de execução.

(Recuperação AND Informação) OR WEB Recuperação AND (Informação OR WEB)

Modelo Booleano

DesmatamentoMata AtlânticaMadeireiras

Reflorestamento

( Desmatamento AND Reflorestamento )OR

Amazônia

DesmatamentoAmazônia

Grilagem de terras Reflorestamento

Page 27: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

27

Modelo Booleano

DesmatamentoMata AtlânticaMadeireiras

Reflorestamento

DesmatamentoAND

( Reflorestamento OR Amazônia )

DesmatamentoAmazônia

Grilagem de terras Reflorestamento

Modelo Booleano

� Operadores de Proximidade◦ Surgimento dos sistemas de texto completo

◦ Operadores� Termos adjacentes

� Desmatamento ADJ Amazônia� Desmatamento NEAR/10 Amazônia

� Sistema STAIRS� Desmatamento WITH Amazônia (mesmo parágrafo)� Desmatamento SAME Amazônia (mesma frase)

◦ Frase Exata� “Recuperação de Informação”; “Desmatamento na Amazônia”

◦ Composição de Operadores� “Recuperação de” ADJ (informação OR documentos)

Page 28: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

28

Modelo Vetorial:

� Um documento é representado por um vetor onde cada elemento representa o peso, ou relevância, do respectivo termo de indexação para o documento.

� Cada vetor descreve a posição do documento em um espaço multidimensional, onde cada termo de indexação representa uma dimensão ou eixo.

� Cada elemento do vetor (peso) é normalizado de forma a assumir valores entre zero e um. Os pesos mais próximos de 1 indicam termos com maior importância para a descrição do documento.

Modelo Vetorial

Desmatamento 0.7Mata Atlântica 0.6Madeireiras 0.3Reflorestamento 0.2

0,7 0,6 0,3 0,2

Page 29: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

29

Modelo Vetorial

� Uma expressão de busca também é representada por um vetor numérico onde cada elemento representa a importância (peso) do respectivo termo na representação da necessidade de informação do usuário, substanciada na expressão de busca.

Usuário e sua necessidade de informação

Mata Atlântica 0.5

Desmatamento 0.8

Causas 0.7

0,5 0,8 0,7

Modelo Vetorial:cálculo da similaridade

� A utilização de uma mesma forma de representação tanto para os documentos como para as expressões de busca permite calcular a similaridade entre uma expressão de busca e cada um dos documentos do corpus, ou ainda entre dois documentos;

� Em um espaço vetorial contendo N dimensões, a similaridade (sim) entre um documento dj e uma expressão de busca q pode ser calculada utilizando a seguinte fórmula:

∑∑

==

=

×

×

=N

iqi

N

iji

qi

N

i ji

j

ww

wwqdsim

1,

2

1,

2

,1 , )(),(

onde wi,j é o peso do i-ésimo termo do documento dj e wi,q é o peso do i-ésimotermo da expressão de busca q.

Page 30: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

30

O processo de recuperação de informação

Resultado da Busca

� Geralmente é composto por um conjunto de documentos que supostamente serão úteis para o usuário.

� É apresentado na forma de uma lista ordenada pelo grau de similaridade calculada pela função de busca.

� Uma busca deve resultar na recuperação de uma quantidade de documentos que possibilite ao usuário a verificação de cada um deles a fim de selecionar os que lhe serão úteis.

� O fato de um termo utilizado na expressão de busca aparecer na representação de um documento não significa que este documento seja relevante para a necessidade do usuário.

Page 31: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

31

Visualização de Resultados de Busca

Visualização de Resultados de Busca

Page 32: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

32

Visualização de Resultados de Busca

� A interface utilizada em sistema de recuperação de informação mudou muito pouco desde a década de 1950, apesar de existir muitas interfaces alternativas sendo propostas e desenvolvidas por vários pesquisadores.

� Os usuários fornecem uma lista de palavras-chave e é apresentada lista de páginas que contêm as palavras-chave;

� Os usuário se veem diante da tarefa de verificar cada um dos documentos (links) para obter as informações que procuram.

Visualização de Resultados de Busca

� As desvantagens das interfaces (textuais) baseadas em uma lista de (links a) documentos são:◦ O usuário precisa verificar sequencialmente uma longa

lista de resultados;

◦ O usuário não é informado o motivo pelo qual um determinado documento foi recuperado;

◦ Da mesma forma, o usuário não é informado da relação entre um determinado documento com a sua busca;

◦ Não é apresentada similaridades entre documentos;

◦ São apresentados aos usuários apenas um pequeno fragmento do documento.

Page 33: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

33

Visualização de Resultados de busca

� Grokker

Recuperação de Informação na WEB

Page 34: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

34

Recuperação de informação na WEB

� Sites de Busca (search engines/buscadores)◦ Permitem ao usuário submeter sua expressão de busca e

recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação

◦ Maioria de uso geral

◦ Em um acervo extremamente grande como é a Web é essencial uma indexação antecipada de seus documentos (páginas).� A maioria dos mecanismos de busca da Web gera índices.� Pelo caráter dinâmico da Web esses índices devem

permanecer em constante processo de atualização

Recuperação de informação na WEB

� Sites de busca◦ Índexação

� Não Automática� O autor fornece dados sobre sua página e associa a ela uma ou

mais categorias que descrevem o assunto tratado na página

� Automática� Spiders (robôs, crawlers ou worms)� Partindo de uma lista inicial de URLs, rastreiam a estrutura

hipertextual da WEB, colhendo informações sobre as páginas que encontram;

� Idexam cada página utilizando métodos de indexação automática

Page 35: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

35

Recuperação de informação na WEB

� Indexação não-automática (manual)◦ Indexadores profissionais especificam uma hierarquia de

assuntos e indexam as páginas Web utilizando tais categorias.

◦ Uma URL submetida pode ser associada a uma categoria de qualquer nível. Por exemplo, ela pode ser ligada a uma categoria principal, “Ciência”, ou à subcategoria, “Ciências Humanas”, ou à sub-subcategoria, “Biblioteconomia e Ciência da Informação”.

◦ A URL cadastrada é avaliada por profissionais, que podendo alterar os dados fornecidos pelo usuário.

◦ Caso um usuário não consiga encontrar uma categoria apropriada para descrever sua página, ele pode sugerir uma nova categoria.

Recuperação de informação na WEB

Page 36: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

36

Recuperação de informação na WEB

� Indexação automática◦ A indexação automática é realizada através de duas

etapas:� Seleção de endereços (URLs) de páginas;� Indexação das páginas, gerando para cada uma um conjunto

de termos de indexação.

◦ Existem programas que “viajam” através da Web a fim de selecionar URLs de páginas de potencial interesse para que sejam indexadas. Utilizando a metáfora da Web, esses programas são chamados de spiders (aranhas) ou ainda robôs, crawlers ou worms.

◦ Partindo de uma lista inicial de URLs, esses robôs rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram.

Recuperação de informação na WEB

� Indexação automática: Estratégias◦ breadth-first - visa maximizar a amplitude da pesquisa

descendo apenas poucos níveis de cada site

◦ depth-first - visa maximizar a profundidade buscando um maior detalhamento do assunto tratado pelo site.

� Quando uma nova página é recuperada, o spider

extrai todas as URLs dessa página e os adiciona na sua base de dados.

Page 37: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

37

Recuperação de informação na WEB

� Indexação automática◦ Para aumentar a velocidade de cobertura da Web podem

ser usados vários spiders trabalhando em paralelo, cada um cobrindo uma região ou um domínio diferente da Web e enviando suas URLs para a base de dados

◦ Depois de formado o banco de dados de URLs o robô poderá acessar cada página e indexá-la usando métodos de indexação automática.

Recuperação de Informação na WEB

� Buscas◦ Geralmente dois níveis de busca: básico e avançado

◦ Básico:� Buscas booleanas utilizando os operadores AND, OR, NOT ou

alguma outra forma;

◦ Avançado:� Buscas por proximidade: NEAR, ADJ� Buscas por tipo de mídia ou tipo de arquivo: “.JPG”, “.MPEG”,

“.GIF”, etc.

Page 38: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

38

Recuperação de Informação na WEB

Recuperação de Informação na WEB

� Meta-buscadores◦ Realizam buscas utilizando diversos mecanismos de

busca;� A expressão de busca é traduzida e enviada para cada um dos

mecanismos que o meta-buscador utiliza.� Cada buscador retornará uma lista de URLs� O meta-buscador agrega as listas em uma única lista,

eliminando possíveis duplicações.

Page 39: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

39

Recuperação de Informação na WEB

Recuperação de Informação na WEB

Page 40: Recuperar informação consiste em identificar, no...A recuperação de informação envolve: ... o armazenamento consistente dos dados de um documento; ... princípios institucionais,

24/05/2017

40

Referências

Referências bibliográficas

� ANDERSON, J.D.; PEREZ-CARBALLO, J. The nature of indexing: how humans and machines analyze messages and texts for retrieval - Part I: Research, and the nature of human indexing. Information Processing and Management, v.37, n.2, 2001.

� ALVES, R. C. V. Metadados como elementos do processo de catalogação. 2010. 132f. Tese (Doutorado em Ciência da Informação)-Faculdade de Filosofia e Ciências, Universidade Estadual Paulista, Marília, 2010.

� ALVES, R. C. V.; SANTOS, P. L. V. A. da C. Metadados no domínio bibliográfico. Rio de Janeiro: Intertexto, 2013.

� BUCKLAND, M.K. Information as thing. Journal of the American Society ofInformation Science, v.42, n.5, 1991. p.351-360.

� LE COADIC, Y-F. A Ciência da Informação. 2.ed. Brasília: Briquet de Lemos, 2004.

� LANCASTER, F.W. Indexação e Resumos: teoria e prática. 2ªed. Brasilia, DF: Briquet de Lemos, 2004,

� MAIMONE, G. D.; SILVEIRA, N. C.; TÁLAMO, M. de. F. G. M. Reflexões acerca das relações entre representação temática e descritiva. Informação & Sociedade: Estudos, João Pessoa, v. 21, n. 1, p. 27-35, jan./abr. 2011.

� NOVELLINO, Maria Salet Ferreira. Instrumentos e metodologias de representação da informação. Informação & Informação, Londrina, v.1, n.2, p.37-45, jul./dez. 1996.