biblioteca de suporte para desenvolvimento de sistemas de recuperação de informação
DESCRIPTION
Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação. Bruno Augusto Vivas e Pôssas 09/04/2003 Departamento de Ciência da Computação Universidade Federal de Minas Gerais. Motivação. Quantas versões de indexadores temos para cada uma dos grupos presentes? - PowerPoint PPT PresentationTRANSCRIPT
Biblioteca de suporte para desenvolvimento de sistemas
de Recuperação de Informação
Bruno Augusto Vivas e Pôssas
09/04/2003
Departamento de Ciência da Computação
Universidade Federal de Minas Gerais
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
2
Motivação
Quantas versões de indexadores temos para cada uma dos grupos presentes?
Esses indexadores eram o foco inicial de investigação?
Quanto tempo foi gasto na criação da infra-estrutura para a investigação em questão?
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
3
Objetivo
Fomentar a pesquisa em recuperação de informação direcionando todos os esforços de
implementação diretamente no foco de investigação
disponibilizando um ambiente integrado de desenvolvimento e avaliação dos resultados
facilitando a transmissão de conhecimentos entre os grupos de pesquisa envolvidos
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
4
Biblioteca: Composição
Módulos: Coleta Processamento Indexação Classificação Filtragem Busca ...
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
5
Biblioteca: Composição
Módulos: Validação e avaliação dos resultados Coleções de referência Visualização ...
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
6
Metodologia de Desenvolvimento
Modelagem inicial de cada módulo a partir das experiências dos grupos envolvidos
Desenvolvimento guiado por um processo simples e não burocratizado de engenharia de software
Documentação e testes de regressão de cada módulo implementado
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
7
Decisões de Projeto
Ambiente de desenvolvimento: Qualquer ambiente integrado ao savannah
Ambiente de execução: Multi-plataforma
Linguagem de programação: Ansi C/C++ Java ...
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
8
Decisões de Projeto
Módulo de Coleta: capaz de coletar documentos, imagens,
áudio, vídeo, ... implementação baseada no software wget
(http://www.wget.org)
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
9
Decisões de Projeto
Módulo de Processamento: capaz de processar e extrair o conteúdo de
documentos nos seguintes formatos:• SGML, HTML e XML• coleções de referência
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
10
Decisões de Projeto
Módulo de Indexação: capaz de indexar grandes coleções de
documentos• técnicas de compressão• informação posicional• informação de links• determinação de passagens
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
11
Decisões de Projeto
Módulo de Busca: capaz de recuperar documentos a partir da
necessidade de informação dos usuários para cada um dos modelos clássicos
• booleano• vetorial• probabilístico
extensão dos modelos implementados através da análise de links
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
12
Decisões de Projeto
Módulo de Validação e Avaliação dos Resultados: capaz de validar e avaliar os resultados dos
modelos de recuperação de informação a partir das métricas usuais:
• revocação (recall)• precisão (precision)• tempo de resposta• recursos utilizados (memória, etc)• ...
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
13
Decisões de Projeto
Módulo para Coleções de Referência: capaz de extrair e processar os documentos,
tópicos e conjuntos resposta das principais coleções de referência
• TReC, CACM, CFC, CISI, MEDL, etc
capaz de determinar o conjunto resposta de um determinada consulta a partir da mesma metodologia utilizada pela NIST
• pool de respostas
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
14
Decisões de Projeto
Módulo de Visualização: capaz de apresentar os documentos
retornados a partir de uma consulta• simples lista ordenada de documentos baseados
na similaridade com a consulta
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
15
Prova de Conceito
Combinação dos módulos implementados para a criação de uma máquina de busca simplificada
Disponibilização da biblioteca como contribuição para a comunidade de recuperação de informação mg, smart, ...
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
16
Decisões de Projeto
Módulo de Classificação: capaz de acessar e navegar sobre uma
ontologia representada por um thesaurus capaz de determinar a partir de passagens e
do conjunto de definições presentes em um thesaurus, qual a melhor classificação para um documento
LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
17
Decisões de Projeto
Módulo de Filtragem: capaz de determinar a relevância de um novo
documento a partir de uma consulta