unesp - faculdade de filosofia e ciências - câmpus de marília - meio ambiente da recuperação de...

21
1 Revisão Meio ambiente da Recuperação de Informação Linguagem Analógico x Digital

Upload: others

Post on 20-Jan-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

1

Revisão

Meio ambiente da Recuperação de Informação

� Linguagem

� Analógico x Digital

Page 2: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

2

Recuperação de Informação� Recuperação de informação é o nome dado ao processo

ou método pelo qual um potencial usuário de

informação é capaz de converter a sua necessidade

de informação em uma lista real de citações a

documentos em um acervo contendo informações úteis

para ele.

(CALVIN MOOERS, 1951, p.25)

Recuperação de Informação

� Para Saracevic (1999), a Recuperação de Informação pode ser considerada a vertente tecnológica da Ciência da Informação e é resultado da relação desta com a Ciência da Computação.

Ciência da Informação

Ciência da Computação

Recuperação

de Informação

Page 3: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

3

Recuperação de Informação

� Para Saracevic (1999), a Recuperação de Informação pode ser considerada a vertente tecnológica da Ciência da Informação e é resultado da relação desta com a Ciência da Computação.

Ciência da Informação

Ciência da Computação

Recuperação

de Informação

Recuperação de Informação

Page 4: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

4

Documento� Buckland (1991):

◦ o termo informação é utilizado na maioria das vezes vinculado a um objeto que contém informação: um documento. Assim, o termo informação poderia também designar “algo atribuído a um objeto, tal como dado e documento que se referem à informação, porque deles se espera que sejam informativos”.

� Le Coadic (2004, p.5):

◦ documento é o termo genérico que designa os objetos portadores de informação. Um documento é todo artefato que representa ou expressa um objeto, uma ideia ou uma informação por meio de signos gráficos e icônicos (palavras, imagens, diagramas, mapas, figuras, símbolos), sonoros e visuais (gravados em suporte de papel ou eletrônicos).

Documento

� Suzanne Briet (2006, p.10):◦ Uma estrela é um documento? Um seixo rolando

na torrente de um rio é um documento? Um animal vivo [na natureza] é um documento? Não.◦ Mas as fotografias e os catálogos de estrelas, as

pedras em um museu de mineralogia, e os animais que são catalogados e apresentados em um zoológico são documentos.

“qualquer signo físico ou simbólico, preservado ou registrado, com a intenção de representar, reconstruir ou demonstrar um fenômeno físico ou abstrato”

Page 5: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

5

Representação de Documentos

� Representação Descritiva

◦ Representação descritiva (ou Catalogação) tem como objetivo propor parâmetros e normas para representar/descrever um item informacional geralmente utilizando metadados.

� Representação Temática

◦ Análise de assunto de um documento e a colocação do resultado desta análise numa expressão linguística;

◦ Indexação� Por extração

� O indexador seleciona no texto, palavras que serão utilizados para representar o documento

� Por atribuição� Após a leitura do texto, o indexador escolhe em um vocabulário controlado, os termos

mais adequados para representar o documento

Indexação

� A indexação de um documento visa representar o seu conteúdo temático por meio de um conjunto de termos com o objetivo de sintetizar o seu conteúdo, ressaltando o que lhe é essencial.

Page 6: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

6

Indexação Automática� As dificuldades inerentes à indexação manual e a grande

quantidade de documentos publicados e disponibilizados, justificaram estudos que buscavam soluções alternativas para auxiliar o indexador no exercício de sua atividade.

� As primeiras pesquisas em indexação automática aconteceram no final dos anos de 1950.

� A popularização da microinformática a partir dos anos de 1980, mas principalmente o surgimento da Web nos anos de 1990 fez com que o nível de interesse nas pesquisas sobre indexação automática permanecesse praticamente constante até os dias de hoje.

Indexação Automática� Vantagens:

◦ baixo custo;

◦ facilidade de aplicação a grandes conjuntos de documentos;

◦ homogeneidade desse processo quando realizados por algoritmos computacionais.

� O resultado da indexação realizada por seres humanos pode variar de um indexador para outro, bem como de um mesmo indexador em momentos diferentes.

� Um sistema computacional irá realizar a indexação de maneira uniforme, utilizando sempre os mesmos critérios para o qual foi programado, independentemente da quantidade de documentos ou de qualquer fator externo

(ANDERSON; PEREZ-CARBALLO, 2001):

Page 7: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

7

Indexação AutomáticaPROCESSO

1. Identificação das palavras (tokens) do texto;

2. Remoção de palavras muito frequentes que são insuficientemente específicas para representar o conteúdo do documento (stop words);

3. Redução das palavras a uma forma normalizada ou ao seu radical (stemming);

4. Formação de termos compostos como termos de indexação;

5. Atribuição de peso a cada termo de indexação;

Recuperação de Informação

Page 8: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

8

Usuário

� Modelos Centrados no Usuário◦ Wilson

◦ Kuhlthau

◦ Dervin

◦ Ellis

Usuário� Relevance Feedback

◦ Processo composto de interações sucessivas com o sistema no qual, após submeter sua expressão de busca e obter um primeiro conjunto de documento, o usuário marca ou sinaliza, aqueles documentos que ele considera relevantes.

� O processo de Relevance Feedback pode ser resumido nos seguintes passos:◦ O usuário formula uma consulta (expressão de busca) e submete ao sistema;

◦ O sistema retorna um conjunto inicial de documentos;

◦ O usuário marca como relevante (ou não-relevante) alguns dos documentos recuperados e submete esses documentos juntamente com sua expressão de busca ao novamente ao sistema;

◦ O sistema calcula uma melhor representação da necessidade de informação baseada no feedback do usuário.

◦ O sistema apresenta um novo conjunto de documentos presumivelmente com um aumento da precisão dos resultados.

Page 9: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

9

Usuário

� Expansão de Consulta◦ Expansão de consulta é o termo utilizado para

referenciar os métodos e processos que visam melhorar a eficiência da recuperação de informação baseados no pressuposto de que as consultas definidas pelos usuários muitas vezes não refletem suas reais necessidades de informação.

◦ O objetivo principal é adicionar novos termos à consulta inicialmente formulada pelo usuário a fim de melhorar os resultados obtidos.

Usuário

Interfaces de Busca

Page 10: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

10

Page 11: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

11

Como as pessoas buscam informação?modelo linear (clássico)

Como as pessoas buscam informação?modelo dinâmico

a necessidade de informação varia

durante o processo de busca.

Page 12: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

12

Recuperação de Informação

Modelos de Recuperação de Informação

� No modelo booleano um documento é representado por um conjunto de termos de indexação que podem ser definidos de forma intelectual (manual) por profissionais especializados ou automaticamente, utilizando algoritmos computacionais.

� As buscas são formuladas por meio de uma expressão booleana composta por termos ligados por operadores lógicos AND, OR e NOT e apresentam como resultado os documentos cuja representação satisfazem às restrições lógicas da expressão de busca.

Page 13: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

13

Modelo Booleano

Desmatamento

Mata Atlântica

Madeireiras

Reflorestamento

Desmatamento

AND

Mata Atlântica

Desmatamento

Amazônia

Grilagem de terras

Reflorestamento

Modelo Booleano

� Operadores de Proximidade◦ Surgimento dos sistemas de texto completo

◦ Operadores� Termos adjacentes

� Desmatamento ADJ Amazônia

� Desmatamento NEAR/10 Amazônia

� Sistema STAIRS� Desmatamento WITH Amazônia (mesmo parágrafo)

� Desmatamento SAME Amazônia (mesma frase)

◦ Frase Exata� “Recuperação de Informação”; “Desmatamento na Amazônia”

◦ Composição de Operadores� “Recuperação de” ADJ (informação OR documentos)

Page 14: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

14

Modelo Vetorial

Desmatamento 0.7

Mata Atlântica 0.6

Madeireiras 0.3

Reflorestamento 0.2

Desmatamento 0.8

Mata Atlântica 0.5

Causa 0.7

causa do desmatamento na mata atlântica

������ , � ∑ � ,� � � ,�

� ��

∑ � ,�� �

�� � ∑ � ,�� �

��

0,73

Recuperação de Informação

Page 15: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

15

Resultados de Busca

Resultados de Busca

Page 16: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

16

Resultados de busca

� Agrupamento (Clustering) - Grokker

Digital Vaults

Page 17: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

17

RECUPERAÇÃO DEINFORMAÇÃO NA WEB

Recuperação de informação na WEB

� Sites de Busca (search engines/buscadores)◦ Permitem ao usuário submeter sua expressão de

busca e recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação

◦ Em um acervo extremamente grande como é a Web é essencial uma indexação antecipada de seus documentos (páginas).� A maioria dos mecanismos de busca da Web gera índices.

� Pelo caráter dinâmico da Web esses índices devem permanecer em constante processo de atualização

Page 18: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

18

Recuperação de informação na WEB

� Índexação◦ Não Automática

� O autor fornece dados sobre sua página e associa a ela uma ou mais categorias que descrevem o assunto tratado na página

◦ Automática� Crowlers (robôs, spiders ou worms)

� Partindo de uma lista inicial de URLs, rastreiam a estrutura hipertextual da WEB, colhendo informações sobre as páginas que encontram;

� Indexam cada página utilizando métodos de indexação automática

Recuperação de informação na WEB

� Indexação automática◦ A indexação automática é realizada através de duas etapas:

� Seleção de endereços (URLs) de páginas;

� Indexação das páginas, gerando para cada uma um conjunto de termos de indexação.

◦ Existem programas que “viajam” através da Web a fim de selecionar URLs de páginas de potencial interesse para que sejam indexadas. Esses programas são chamados de crawlers.

◦ Partindo de uma lista inicial de URLs, esses programas rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram.

Page 19: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

19

MEDIDAS DE AVALIAÇÃO

Medidas de Avaliação

Documentos relevantes para atender

a necessidade de informação do

usuário

Documentos não relevantes para o

usuário

Para qualquer necessidade sempre

haverá mais documentos não

relevantes (-) do que relevantes (+);

O problema está em recuperar o

maior número possível de itens

relevantes e o menor número possível

de itens não relevantes;

O quadrado menor representa o

resultado de uma busca.

Page 20: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

20

Medidas de Avaliaçãoprecisão (precision)

Foram recuperados 20 itens, sendo

6 relevantes e 14 não relevantes

Precisão nº docs relevantes recuperados

nº docs recuperados

3,020

6 Precisão ==

Precisão = 30%

Expressa o quanto o sistema é

capaz de recuperar apenas itens

relevantes.

Medidas de Avaliaçãorevocação (recall)

Expressa o quanto o sistema é

capaz de recuperar todos os itens

relevantes.

5,012

6 Revocação ==

Revocação = 50%

Dos 12 documentos relevantes

existente no corpus, apenas 6 foram

recuperados

Revocação nº docs relevantes recuperados

nº docs relevantes

Page 21: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no

21

Medidas de Avaliaçãorevocação x precisão

Para melhorar a revocação deve-se

fazer uma busca mais genérica,

representado pelo quadrado maior.

%1818,049

9 Precisão =≈=

%7575,012

9 Revocação ===

Revocação

Precisão

Medidas de Avaliação

Revocação x Precisão