propriedades de documentos eveline alonso veloso puc-minas

Post on 17-Apr-2015

105 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Propriedades de Documentos

Eveline Alonso VelosoPUC-MINAS

Referências

BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 6.

Introdução Documento:

unidade de informação. Pode ser uma unidade lógica

completa; um artigo científico; um livro; um

manual; um e-mail; uma página Web. Pode ser uma das partes de um

texto maior; um capítulo de um livro; um

parágrafo; uma passagem no texto; uma entrada em um dicionário.

Introdução Um documento possui:

sintaxe e estrutura; ditadas pela aplicação ou pela pessoa que o

criou; semântica;

especificada por seu autor; estilo de apresentação;

que especifica como ele deve ser exibido. O estilo de apresentação usualmente é dado

pela sintaxe e estrutura do documento; e está relacionado com uma aplicação específica.

Introdução

Um documento também pode ter metadados; que não são apresentados a

quem está visualizando-o.

sintaxe

documento

texto + estrutura +

outras mídias

estilo de apresentação

semântica

Metadados Muitos documentos e coleções

possuem; associados a eles; o que é conhecido como metadados.

Metadados: “dados sobre os dados”. Tipos:

descritivos; semânticos.

Podem ser utilizados como uma das evidências para a recuperação do documento.

Metadados Descritivos Metadados que são externos ao

significado do documento; estão mais relacionados a seu processo

de criação. Exemplos:

nome do autor do documento; data de publicação do documento; tamanho;

(em número de páginas; palavras ou bytes); tipo do documento;

(livro; página Web; etc).

Metadados Semânticos Metadados que caracterizam o

assunto; que pode ser encontrado no

conteúdo do documento. Exemplos:

palavras-chave associadas a páginas Web;

relacionadas ao assunto por elas tratado;

códigos de assunto associados a livros em uma biblioteca.

Metadados em Páginas Web<html lang="pt-br"><head><title>Portal PUC Minas</title><meta name="description" content="Portal

PUC Minas - Site institucional"><meta name="Author" content="Rodrigo

Dias"><meta name="keywords" content="PUC

Minas, Universidade, Escola Superior de Ensino, Graduacao, Pos-Graduacao">

<meta name="language" content="pt-br">

Metadados Metadados também são úteis

para descrever textualmente objetos não textuais; como imagens; música; vídeo; etc.

Assim, as palavras-chave associadas ao objeto não textual; podem ser utilizadas para que

esses objetos sejam recuperados; utilizando-se técnicas clássicas de

recuperação de informação textual.

Formato dos Documentos Não existe um único formato para

documentos textuais; e um sistema de recuperação de

informação deve ser capaz de recuperar documentos de diversos formatos.

Sistemas de recuperação de informação utilizam filtros (parsers); para extrair o conteúdo, na forma

textual, de documentos de diversos formatos.

Formato dos Documentos É necessário construir um parser;

para cada formato de documento tratado pelo sistema de recuperação de informação.

A sintaxe de muitas linguagens é proprietária e específica; enquanto a de outras é aberta e pública.

É possível construir parsers eficientes para formatos públicos como o HTML.

Exemplo de Documento HTML

<div class="boxnoticia"><font class='chamada'><b>Pós-graduação PUC Minas

Virtual</b></font><br><a href='/noticias/noticia.php?

codigo=2567&lateral=&cabecalho=&menu=&pagina=' class='link_capa' > Ensino a distância com a qualidade PUC Minas. Inscrições abertas. </a> </div>

<div class="boxnoticia"><font class='chamada'><b>Mestrado e Doutorado</b></font><br><a href='/concursos' class='link_capa' > Saiba tudo sobre os processos

seletivos </a> </div><div class="boxnoticia"><font class='chamada'><b>Canto Coral</b></font><br><a href='/noticias/noticia.php?

codigo=2579&lateral=&cabecalho=&menu=&pagina=' class='link_capa' > Diretoria de Arte e Cultura oferece oficina de Canto Coral </a> </div>

Formato dos Documentos

Pode não ser possível construir bons parsers; se o formato for proprietário e

seus detalhes não forem públicos; como documentos Word que são

armazenados em um formato binário.

Exemplo de Documento Word

æ â ðUa{#áÇH z  & ª æ $ [ 0 ‹ ¶ 0 ‡ < ‡ æ R H H 4 4 4 4 Ù EMBED UnknownPONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS

Exercício Curso : Sistemas de Informação

Disciplina : Recuperação de Informação Professora: Eveline Alonso Veloso

Selecione três sistemas de recuperação de informação que você costuma utilizar e indique as seguintes propriedades de suas bases de documentos textuais:

C L N O c y ” ® Á × ó òéÙòÒÉ¿ÒéÒ·Ò·Ò¿«Ò

Freqüência de Ocorrência das Palavras Texto escrito possui certa semântica;

e é uma forma de disseminar informação. Embora seja difícil capturar

formalmente quanta informação existe em um dado texto; a freqüência de ocorrência das palavras

que aparecem no texto está relacionada a isso.

Por exemplo, um texto onde a mesma palavra aparece repetidas vezes;

não apresenta muita informação.

Palavras muito freqüentes: stopwords;

palavras que não apresentam muito significado; artigos; preposições; etc.

Geralmente são descartadas durante o processo de recuperação de informação;

diminui o espaço de armazenamento necessário; acelera o processamento de consultas.

Palavras muito pouco freqüentes: podem ser palavras escritas incorretamente;

depende das características do meio de onde os documentos da coleção foram selecionados.

Freqüência de Ocorrência das Palavras

Características da Língua A língua em que o documento

foi escrito pode apresentar particularidades; que podem ser exploradas; ou não devem ser

desconsideradas durante o processo de recuperação de informação.

Exemplo: acentuação de palavras da língua

portuguesa.

Tamanho da Coleção de Documentos Vocabulário:

conjunto de palavras distintas de uma coleção.

É possível estimar, com bastante precisão, o tamanho do vocabulário de uma coleção; a partir do tamanho da própria coleção; o que pode ser utilizado para estimar o

tamanho do índice.

Estrutura dos Documentos Documentos podem apresentar

alguma estrutura; ainda que básica; que pode ser explorada durante o

processo de recuperação de informação.

Título

Corpo da página

TítuloLista de autores

Resumo

Corpo do documento

Estrutura dos Documentos

Qualidade dos Documentos

As características do meio de onde os documentos da coleção foram selecionados;

podem influenciar algumas outras características desses documentos, como:

qualidade; documentos podem apresentar, com maior

freqüência, erros de digitação e/ou ortografia; autenticidade; veracidade.

O processo de recuperação de informação deve utilizar mecanismos para priorizar documentos de maior qualidade.

top related