unesp - faculdade de filosofia e ciências - câmpus de marília - meio ambiente da recuperação de...

Post on 20-Jan-2021

2 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Revisão

Meio ambiente da Recuperação de Informação

� Linguagem

� Analógico x Digital

2

Recuperação de Informação� Recuperação de informação é o nome dado ao processo

ou método pelo qual um potencial usuário de

informação é capaz de converter a sua necessidade

de informação em uma lista real de citações a

documentos em um acervo contendo informações úteis

para ele.

(CALVIN MOOERS, 1951, p.25)

Recuperação de Informação

� Para Saracevic (1999), a Recuperação de Informação pode ser considerada a vertente tecnológica da Ciência da Informação e é resultado da relação desta com a Ciência da Computação.

Ciência da Informação

Ciência da Computação

Recuperação

de Informação

3

Recuperação de Informação

� Para Saracevic (1999), a Recuperação de Informação pode ser considerada a vertente tecnológica da Ciência da Informação e é resultado da relação desta com a Ciência da Computação.

Ciência da Informação

Ciência da Computação

Recuperação

de Informação

Recuperação de Informação

4

Documento� Buckland (1991):

◦ o termo informação é utilizado na maioria das vezes vinculado a um objeto que contém informação: um documento. Assim, o termo informação poderia também designar “algo atribuído a um objeto, tal como dado e documento que se referem à informação, porque deles se espera que sejam informativos”.

� Le Coadic (2004, p.5):

◦ documento é o termo genérico que designa os objetos portadores de informação. Um documento é todo artefato que representa ou expressa um objeto, uma ideia ou uma informação por meio de signos gráficos e icônicos (palavras, imagens, diagramas, mapas, figuras, símbolos), sonoros e visuais (gravados em suporte de papel ou eletrônicos).

Documento

� Suzanne Briet (2006, p.10):◦ Uma estrela é um documento? Um seixo rolando

na torrente de um rio é um documento? Um animal vivo [na natureza] é um documento? Não.◦ Mas as fotografias e os catálogos de estrelas, as

pedras em um museu de mineralogia, e os animais que são catalogados e apresentados em um zoológico são documentos.

“qualquer signo físico ou simbólico, preservado ou registrado, com a intenção de representar, reconstruir ou demonstrar um fenômeno físico ou abstrato”

5

Representação de Documentos

� Representação Descritiva

◦ Representação descritiva (ou Catalogação) tem como objetivo propor parâmetros e normas para representar/descrever um item informacional geralmente utilizando metadados.

� Representação Temática

◦ Análise de assunto de um documento e a colocação do resultado desta análise numa expressão linguística;

◦ Indexação� Por extração

� O indexador seleciona no texto, palavras que serão utilizados para representar o documento

� Por atribuição� Após a leitura do texto, o indexador escolhe em um vocabulário controlado, os termos

mais adequados para representar o documento

Indexação

� A indexação de um documento visa representar o seu conteúdo temático por meio de um conjunto de termos com o objetivo de sintetizar o seu conteúdo, ressaltando o que lhe é essencial.

6

Indexação Automática� As dificuldades inerentes à indexação manual e a grande

quantidade de documentos publicados e disponibilizados, justificaram estudos que buscavam soluções alternativas para auxiliar o indexador no exercício de sua atividade.

� As primeiras pesquisas em indexação automática aconteceram no final dos anos de 1950.

� A popularização da microinformática a partir dos anos de 1980, mas principalmente o surgimento da Web nos anos de 1990 fez com que o nível de interesse nas pesquisas sobre indexação automática permanecesse praticamente constante até os dias de hoje.

Indexação Automática� Vantagens:

◦ baixo custo;

◦ facilidade de aplicação a grandes conjuntos de documentos;

◦ homogeneidade desse processo quando realizados por algoritmos computacionais.

� O resultado da indexação realizada por seres humanos pode variar de um indexador para outro, bem como de um mesmo indexador em momentos diferentes.

� Um sistema computacional irá realizar a indexação de maneira uniforme, utilizando sempre os mesmos critérios para o qual foi programado, independentemente da quantidade de documentos ou de qualquer fator externo

(ANDERSON; PEREZ-CARBALLO, 2001):

7

Indexação AutomáticaPROCESSO

1. Identificação das palavras (tokens) do texto;

2. Remoção de palavras muito frequentes que são insuficientemente específicas para representar o conteúdo do documento (stop words);

3. Redução das palavras a uma forma normalizada ou ao seu radical (stemming);

4. Formação de termos compostos como termos de indexação;

5. Atribuição de peso a cada termo de indexação;

Recuperação de Informação

8

Usuário

� Modelos Centrados no Usuário◦ Wilson

◦ Kuhlthau

◦ Dervin

◦ Ellis

Usuário� Relevance Feedback

◦ Processo composto de interações sucessivas com o sistema no qual, após submeter sua expressão de busca e obter um primeiro conjunto de documento, o usuário marca ou sinaliza, aqueles documentos que ele considera relevantes.

� O processo de Relevance Feedback pode ser resumido nos seguintes passos:◦ O usuário formula uma consulta (expressão de busca) e submete ao sistema;

◦ O sistema retorna um conjunto inicial de documentos;

◦ O usuário marca como relevante (ou não-relevante) alguns dos documentos recuperados e submete esses documentos juntamente com sua expressão de busca ao novamente ao sistema;

◦ O sistema calcula uma melhor representação da necessidade de informação baseada no feedback do usuário.

◦ O sistema apresenta um novo conjunto de documentos presumivelmente com um aumento da precisão dos resultados.

9

Usuário

� Expansão de Consulta◦ Expansão de consulta é o termo utilizado para

referenciar os métodos e processos que visam melhorar a eficiência da recuperação de informação baseados no pressuposto de que as consultas definidas pelos usuários muitas vezes não refletem suas reais necessidades de informação.

◦ O objetivo principal é adicionar novos termos à consulta inicialmente formulada pelo usuário a fim de melhorar os resultados obtidos.

Usuário

Interfaces de Busca

10

11

Como as pessoas buscam informação?modelo linear (clássico)

Como as pessoas buscam informação?modelo dinâmico

a necessidade de informação varia

durante o processo de busca.

12

Recuperação de Informação

Modelos de Recuperação de Informação

� No modelo booleano um documento é representado por um conjunto de termos de indexação que podem ser definidos de forma intelectual (manual) por profissionais especializados ou automaticamente, utilizando algoritmos computacionais.

� As buscas são formuladas por meio de uma expressão booleana composta por termos ligados por operadores lógicos AND, OR e NOT e apresentam como resultado os documentos cuja representação satisfazem às restrições lógicas da expressão de busca.

13

Modelo Booleano

Desmatamento

Mata Atlântica

Madeireiras

Reflorestamento

Desmatamento

AND

Mata Atlântica

Desmatamento

Amazônia

Grilagem de terras

Reflorestamento

Modelo Booleano

� Operadores de Proximidade◦ Surgimento dos sistemas de texto completo

◦ Operadores� Termos adjacentes

� Desmatamento ADJ Amazônia

� Desmatamento NEAR/10 Amazônia

� Sistema STAIRS� Desmatamento WITH Amazônia (mesmo parágrafo)

� Desmatamento SAME Amazônia (mesma frase)

◦ Frase Exata� “Recuperação de Informação”; “Desmatamento na Amazônia”

◦ Composição de Operadores� “Recuperação de” ADJ (informação OR documentos)

14

Modelo Vetorial

Desmatamento 0.7

Mata Atlântica 0.6

Madeireiras 0.3

Reflorestamento 0.2

Desmatamento 0.8

Mata Atlântica 0.5

Causa 0.7

causa do desmatamento na mata atlântica

������ , � ∑ � ,� � � ,�

� ��

∑ � ,�� �

�� � ∑ � ,�� �

��

0,73

Recuperação de Informação

15

Resultados de Busca

Resultados de Busca

16

Resultados de busca

� Agrupamento (Clustering) - Grokker

Digital Vaults

17

RECUPERAÇÃO DEINFORMAÇÃO NA WEB

Recuperação de informação na WEB

� Sites de Busca (search engines/buscadores)◦ Permitem ao usuário submeter sua expressão de

busca e recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação

◦ Em um acervo extremamente grande como é a Web é essencial uma indexação antecipada de seus documentos (páginas).� A maioria dos mecanismos de busca da Web gera índices.

� Pelo caráter dinâmico da Web esses índices devem permanecer em constante processo de atualização

18

Recuperação de informação na WEB

� Índexação◦ Não Automática

� O autor fornece dados sobre sua página e associa a ela uma ou mais categorias que descrevem o assunto tratado na página

◦ Automática� Crowlers (robôs, spiders ou worms)

� Partindo de uma lista inicial de URLs, rastreiam a estrutura hipertextual da WEB, colhendo informações sobre as páginas que encontram;

� Indexam cada página utilizando métodos de indexação automática

Recuperação de informação na WEB

� Indexação automática◦ A indexação automática é realizada através de duas etapas:

� Seleção de endereços (URLs) de páginas;

� Indexação das páginas, gerando para cada uma um conjunto de termos de indexação.

◦ Existem programas que “viajam” através da Web a fim de selecionar URLs de páginas de potencial interesse para que sejam indexadas. Esses programas são chamados de crawlers.

◦ Partindo de uma lista inicial de URLs, esses programas rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram.

19

MEDIDAS DE AVALIAÇÃO

Medidas de Avaliação

Documentos relevantes para atender

a necessidade de informação do

usuário

Documentos não relevantes para o

usuário

Para qualquer necessidade sempre

haverá mais documentos não

relevantes (-) do que relevantes (+);

O problema está em recuperar o

maior número possível de itens

relevantes e o menor número possível

de itens não relevantes;

O quadrado menor representa o

resultado de uma busca.

20

Medidas de Avaliaçãoprecisão (precision)

Foram recuperados 20 itens, sendo

6 relevantes e 14 não relevantes

Precisão nº docs relevantes recuperados

nº docs recuperados

3,020

6 Precisão ==

Precisão = 30%

Expressa o quanto o sistema é

capaz de recuperar apenas itens

relevantes.

Medidas de Avaliaçãorevocação (recall)

Expressa o quanto o sistema é

capaz de recuperar todos os itens

relevantes.

5,012

6 Revocação ==

Revocação = 50%

Dos 12 documentos relevantes

existente no corpus, apenas 6 foram

recuperados

Revocação nº docs relevantes recuperados

nº docs relevantes

21

Medidas de Avaliaçãorevocação x precisão

Para melhorar a revocação deve-se

fazer uma busca mais genérica,

representado pelo quadrado maior.

%1818,049

9 Precisão =≈=

%7575,012

9 Revocação ===

Revocação

Precisão

Medidas de Avaliação

Revocação x Precisão

top related