biblioteca de suporte para desenvolvimento de sistemas de recuperação de informação

17
Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação Bruno Augusto Vivas e Pôssas 09/04/2003 Departamento de Ciência da Computação Universidade Federal de Minas Gerais

Upload: phelan-orr

Post on 03-Jan-2016

47 views

Category:

Documents


0 download

DESCRIPTION

Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação. Bruno Augusto Vivas e Pôssas 09/04/2003 Departamento de Ciência da Computação Universidade Federal de Minas Gerais. Motivação. Quantas versões de indexadores temos para cada uma dos grupos presentes? - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

Biblioteca de suporte para desenvolvimento de sistemas

de Recuperação de Informação

Bruno Augusto Vivas e Pôssas

09/04/2003

Departamento de Ciência da Computação

Universidade Federal de Minas Gerais

Page 2: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

2

Motivação

Quantas versões de indexadores temos para cada uma dos grupos presentes?

Esses indexadores eram o foco inicial de investigação?

Quanto tempo foi gasto na criação da infra-estrutura para a investigação em questão?

Page 3: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

3

Objetivo

Fomentar a pesquisa em recuperação de informação direcionando todos os esforços de

implementação diretamente no foco de investigação

disponibilizando um ambiente integrado de desenvolvimento e avaliação dos resultados

facilitando a transmissão de conhecimentos entre os grupos de pesquisa envolvidos

Page 4: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

4

Biblioteca: Composição

Módulos: Coleta Processamento Indexação Classificação Filtragem Busca ...

Page 5: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

5

Biblioteca: Composição

Módulos: Validação e avaliação dos resultados Coleções de referência Visualização ...

Page 6: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

6

Metodologia de Desenvolvimento

Modelagem inicial de cada módulo a partir das experiências dos grupos envolvidos

Desenvolvimento guiado por um processo simples e não burocratizado de engenharia de software

Documentação e testes de regressão de cada módulo implementado

Page 7: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

7

Decisões de Projeto

Ambiente de desenvolvimento: Qualquer ambiente integrado ao savannah

Ambiente de execução: Multi-plataforma

Linguagem de programação: Ansi C/C++ Java ...

Page 8: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

8

Decisões de Projeto

Módulo de Coleta: capaz de coletar documentos, imagens,

áudio, vídeo, ... implementação baseada no software wget

(http://www.wget.org)

Page 9: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

9

Decisões de Projeto

Módulo de Processamento: capaz de processar e extrair o conteúdo de

documentos nos seguintes formatos:• SGML, HTML e XML• coleções de referência

Page 10: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

10

Decisões de Projeto

Módulo de Indexação: capaz de indexar grandes coleções de

documentos• técnicas de compressão• informação posicional• informação de links• determinação de passagens

Page 11: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

11

Decisões de Projeto

Módulo de Busca: capaz de recuperar documentos a partir da

necessidade de informação dos usuários para cada um dos modelos clássicos

• booleano• vetorial• probabilístico

extensão dos modelos implementados através da análise de links

Page 12: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

12

Decisões de Projeto

Módulo de Validação e Avaliação dos Resultados: capaz de validar e avaliar os resultados dos

modelos de recuperação de informação a partir das métricas usuais:

• revocação (recall)• precisão (precision)• tempo de resposta• recursos utilizados (memória, etc)• ...

Page 13: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

13

Decisões de Projeto

Módulo para Coleções de Referência: capaz de extrair e processar os documentos,

tópicos e conjuntos resposta das principais coleções de referência

• TReC, CACM, CFC, CISI, MEDL, etc

capaz de determinar o conjunto resposta de um determinada consulta a partir da mesma metodologia utilizada pela NIST

• pool de respostas

Page 14: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

14

Decisões de Projeto

Módulo de Visualização: capaz de apresentar os documentos

retornados a partir de uma consulta• simples lista ordenada de documentos baseados

na similaridade com a consulta

Page 15: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

15

Prova de Conceito

Combinação dos módulos implementados para a criação de uma máquina de busca simplificada

Disponibilização da biblioteca como contribuição para a comunidade de recuperação de informação mg, smart, ...

Page 16: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

16

Decisões de Projeto

Módulo de Classificação: capaz de acessar e navegar sobre uma

ontologia representada por um thesaurus capaz de determinar a partir de passagens e

do conjunto de definições presentes em um thesaurus, qual a melhor classificação para um documento

Page 17: Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

17

Decisões de Projeto

Módulo de Filtragem: capaz de determinar a relevância de um novo

documento a partir de uma consulta