unesp - faculdade de filosofia e ciências - câmpus de marília - meio ambiente da recuperação de...
Post on 20-Jan-2021
2 Views
Preview:
TRANSCRIPT
1
Revisão
Meio ambiente da Recuperação de Informação
� Linguagem
� Analógico x Digital
2
Recuperação de Informação� Recuperação de informação é o nome dado ao processo
ou método pelo qual um potencial usuário de
informação é capaz de converter a sua necessidade
de informação em uma lista real de citações a
documentos em um acervo contendo informações úteis
para ele.
(CALVIN MOOERS, 1951, p.25)
Recuperação de Informação
� Para Saracevic (1999), a Recuperação de Informação pode ser considerada a vertente tecnológica da Ciência da Informação e é resultado da relação desta com a Ciência da Computação.
Ciência da Informação
Ciência da Computação
Recuperação
de Informação
3
Recuperação de Informação
� Para Saracevic (1999), a Recuperação de Informação pode ser considerada a vertente tecnológica da Ciência da Informação e é resultado da relação desta com a Ciência da Computação.
Ciência da Informação
Ciência da Computação
Recuperação
de Informação
Recuperação de Informação
4
Documento� Buckland (1991):
◦ o termo informação é utilizado na maioria das vezes vinculado a um objeto que contém informação: um documento. Assim, o termo informação poderia também designar “algo atribuído a um objeto, tal como dado e documento que se referem à informação, porque deles se espera que sejam informativos”.
� Le Coadic (2004, p.5):
◦ documento é o termo genérico que designa os objetos portadores de informação. Um documento é todo artefato que representa ou expressa um objeto, uma ideia ou uma informação por meio de signos gráficos e icônicos (palavras, imagens, diagramas, mapas, figuras, símbolos), sonoros e visuais (gravados em suporte de papel ou eletrônicos).
Documento
� Suzanne Briet (2006, p.10):◦ Uma estrela é um documento? Um seixo rolando
na torrente de um rio é um documento? Um animal vivo [na natureza] é um documento? Não.◦ Mas as fotografias e os catálogos de estrelas, as
pedras em um museu de mineralogia, e os animais que são catalogados e apresentados em um zoológico são documentos.
“qualquer signo físico ou simbólico, preservado ou registrado, com a intenção de representar, reconstruir ou demonstrar um fenômeno físico ou abstrato”
5
Representação de Documentos
� Representação Descritiva
◦ Representação descritiva (ou Catalogação) tem como objetivo propor parâmetros e normas para representar/descrever um item informacional geralmente utilizando metadados.
� Representação Temática
◦ Análise de assunto de um documento e a colocação do resultado desta análise numa expressão linguística;
◦ Indexação� Por extração
� O indexador seleciona no texto, palavras que serão utilizados para representar o documento
� Por atribuição� Após a leitura do texto, o indexador escolhe em um vocabulário controlado, os termos
mais adequados para representar o documento
Indexação
� A indexação de um documento visa representar o seu conteúdo temático por meio de um conjunto de termos com o objetivo de sintetizar o seu conteúdo, ressaltando o que lhe é essencial.
6
Indexação Automática� As dificuldades inerentes à indexação manual e a grande
quantidade de documentos publicados e disponibilizados, justificaram estudos que buscavam soluções alternativas para auxiliar o indexador no exercício de sua atividade.
� As primeiras pesquisas em indexação automática aconteceram no final dos anos de 1950.
� A popularização da microinformática a partir dos anos de 1980, mas principalmente o surgimento da Web nos anos de 1990 fez com que o nível de interesse nas pesquisas sobre indexação automática permanecesse praticamente constante até os dias de hoje.
Indexação Automática� Vantagens:
◦ baixo custo;
◦ facilidade de aplicação a grandes conjuntos de documentos;
◦ homogeneidade desse processo quando realizados por algoritmos computacionais.
� O resultado da indexação realizada por seres humanos pode variar de um indexador para outro, bem como de um mesmo indexador em momentos diferentes.
� Um sistema computacional irá realizar a indexação de maneira uniforme, utilizando sempre os mesmos critérios para o qual foi programado, independentemente da quantidade de documentos ou de qualquer fator externo
(ANDERSON; PEREZ-CARBALLO, 2001):
7
Indexação AutomáticaPROCESSO
1. Identificação das palavras (tokens) do texto;
2. Remoção de palavras muito frequentes que são insuficientemente específicas para representar o conteúdo do documento (stop words);
3. Redução das palavras a uma forma normalizada ou ao seu radical (stemming);
4. Formação de termos compostos como termos de indexação;
5. Atribuição de peso a cada termo de indexação;
Recuperação de Informação
8
Usuário
� Modelos Centrados no Usuário◦ Wilson
◦ Kuhlthau
◦ Dervin
◦ Ellis
Usuário� Relevance Feedback
◦ Processo composto de interações sucessivas com o sistema no qual, após submeter sua expressão de busca e obter um primeiro conjunto de documento, o usuário marca ou sinaliza, aqueles documentos que ele considera relevantes.
� O processo de Relevance Feedback pode ser resumido nos seguintes passos:◦ O usuário formula uma consulta (expressão de busca) e submete ao sistema;
◦ O sistema retorna um conjunto inicial de documentos;
◦ O usuário marca como relevante (ou não-relevante) alguns dos documentos recuperados e submete esses documentos juntamente com sua expressão de busca ao novamente ao sistema;
◦ O sistema calcula uma melhor representação da necessidade de informação baseada no feedback do usuário.
◦ O sistema apresenta um novo conjunto de documentos presumivelmente com um aumento da precisão dos resultados.
9
Usuário
� Expansão de Consulta◦ Expansão de consulta é o termo utilizado para
referenciar os métodos e processos que visam melhorar a eficiência da recuperação de informação baseados no pressuposto de que as consultas definidas pelos usuários muitas vezes não refletem suas reais necessidades de informação.
◦ O objetivo principal é adicionar novos termos à consulta inicialmente formulada pelo usuário a fim de melhorar os resultados obtidos.
Usuário
Interfaces de Busca
10
11
Como as pessoas buscam informação?modelo linear (clássico)
Como as pessoas buscam informação?modelo dinâmico
a necessidade de informação varia
durante o processo de busca.
12
Recuperação de Informação
Modelos de Recuperação de Informação
� No modelo booleano um documento é representado por um conjunto de termos de indexação que podem ser definidos de forma intelectual (manual) por profissionais especializados ou automaticamente, utilizando algoritmos computacionais.
� As buscas são formuladas por meio de uma expressão booleana composta por termos ligados por operadores lógicos AND, OR e NOT e apresentam como resultado os documentos cuja representação satisfazem às restrições lógicas da expressão de busca.
13
Modelo Booleano
Desmatamento
Mata Atlântica
Madeireiras
Reflorestamento
Desmatamento
AND
Mata Atlântica
Desmatamento
Amazônia
Grilagem de terras
Reflorestamento
Modelo Booleano
� Operadores de Proximidade◦ Surgimento dos sistemas de texto completo
◦ Operadores� Termos adjacentes
� Desmatamento ADJ Amazônia
� Desmatamento NEAR/10 Amazônia
� Sistema STAIRS� Desmatamento WITH Amazônia (mesmo parágrafo)
� Desmatamento SAME Amazônia (mesma frase)
◦ Frase Exata� “Recuperação de Informação”; “Desmatamento na Amazônia”
◦ Composição de Operadores� “Recuperação de” ADJ (informação OR documentos)
14
Modelo Vetorial
Desmatamento 0.7
Mata Atlântica 0.6
Madeireiras 0.3
Reflorestamento 0.2
Desmatamento 0.8
Mata Atlântica 0.5
Causa 0.7
causa do desmatamento na mata atlântica
������ , � ∑ � ,� � � ,�
� ��
∑ � ,�� �
�� � ∑ � ,�� �
��
0,73
Recuperação de Informação
15
Resultados de Busca
Resultados de Busca
16
Resultados de busca
� Agrupamento (Clustering) - Grokker
Digital Vaults
17
RECUPERAÇÃO DEINFORMAÇÃO NA WEB
Recuperação de informação na WEB
� Sites de Busca (search engines/buscadores)◦ Permitem ao usuário submeter sua expressão de
busca e recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação
◦ Em um acervo extremamente grande como é a Web é essencial uma indexação antecipada de seus documentos (páginas).� A maioria dos mecanismos de busca da Web gera índices.
� Pelo caráter dinâmico da Web esses índices devem permanecer em constante processo de atualização
18
Recuperação de informação na WEB
� Índexação◦ Não Automática
� O autor fornece dados sobre sua página e associa a ela uma ou mais categorias que descrevem o assunto tratado na página
◦ Automática� Crowlers (robôs, spiders ou worms)
� Partindo de uma lista inicial de URLs, rastreiam a estrutura hipertextual da WEB, colhendo informações sobre as páginas que encontram;
� Indexam cada página utilizando métodos de indexação automática
Recuperação de informação na WEB
� Indexação automática◦ A indexação automática é realizada através de duas etapas:
� Seleção de endereços (URLs) de páginas;
� Indexação das páginas, gerando para cada uma um conjunto de termos de indexação.
◦ Existem programas que “viajam” através da Web a fim de selecionar URLs de páginas de potencial interesse para que sejam indexadas. Esses programas são chamados de crawlers.
◦ Partindo de uma lista inicial de URLs, esses programas rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram.
19
MEDIDAS DE AVALIAÇÃO
Medidas de Avaliação
Documentos relevantes para atender
a necessidade de informação do
usuário
Documentos não relevantes para o
usuário
Para qualquer necessidade sempre
haverá mais documentos não
relevantes (-) do que relevantes (+);
O problema está em recuperar o
maior número possível de itens
relevantes e o menor número possível
de itens não relevantes;
O quadrado menor representa o
resultado de uma busca.
20
Medidas de Avaliaçãoprecisão (precision)
Foram recuperados 20 itens, sendo
6 relevantes e 14 não relevantes
Precisão nº docs relevantes recuperados
nº docs recuperados
3,020
6 Precisão ==
Precisão = 30%
Expressa o quanto o sistema é
capaz de recuperar apenas itens
relevantes.
Medidas de Avaliaçãorevocação (recall)
Expressa o quanto o sistema é
capaz de recuperar todos os itens
relevantes.
5,012
6 Revocação ==
Revocação = 50%
Dos 12 documentos relevantes
existente no corpus, apenas 6 foram
recuperados
Revocação nº docs relevantes recuperados
nº docs relevantes
21
Medidas de Avaliaçãorevocação x precisão
Para melhorar a revocação deve-se
fazer uma busca mais genérica,
representado pelo quadrado maior.
%1818,049
9 Precisão =≈=
%7575,012
9 Revocação ===
Revocação
Precisão
Medidas de Avaliação
Revocação x Precisão
top related