propriedades de documentos eveline alonso veloso puc-minas
TRANSCRIPT
Propriedades de Documentos
Eveline Alonso VelosoPUC-MINAS
Referências
BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 6.
Introdução Documento:
unidade de informação. Pode ser uma unidade lógica
completa; um artigo científico; um livro; um
manual; um e-mail; uma página Web. Pode ser uma das partes de um
texto maior; um capítulo de um livro; um
parágrafo; uma passagem no texto; uma entrada em um dicionário.
Introdução Um documento possui:
sintaxe e estrutura; ditadas pela aplicação ou pela pessoa que o
criou; semântica;
especificada por seu autor; estilo de apresentação;
que especifica como ele deve ser exibido. O estilo de apresentação usualmente é dado
pela sintaxe e estrutura do documento; e está relacionado com uma aplicação específica.
Introdução
Um documento também pode ter metadados; que não são apresentados a
quem está visualizando-o.
sintaxe
documento
texto + estrutura +
outras mídias
estilo de apresentação
semântica
Metadados Muitos documentos e coleções
possuem; associados a eles; o que é conhecido como metadados.
Metadados: “dados sobre os dados”. Tipos:
descritivos; semânticos.
Podem ser utilizados como uma das evidências para a recuperação do documento.
Metadados Descritivos Metadados que são externos ao
significado do documento; estão mais relacionados a seu processo
de criação. Exemplos:
nome do autor do documento; data de publicação do documento; tamanho;
(em número de páginas; palavras ou bytes); tipo do documento;
(livro; página Web; etc).
Metadados Semânticos Metadados que caracterizam o
assunto; que pode ser encontrado no
conteúdo do documento. Exemplos:
palavras-chave associadas a páginas Web;
relacionadas ao assunto por elas tratado;
códigos de assunto associados a livros em uma biblioteca.
Metadados em Páginas Web<html lang="pt-br"><head><title>Portal PUC Minas</title><meta name="description" content="Portal
PUC Minas - Site institucional"><meta name="Author" content="Rodrigo
Dias"><meta name="keywords" content="PUC
Minas, Universidade, Escola Superior de Ensino, Graduacao, Pos-Graduacao">
<meta name="language" content="pt-br">
Metadados Metadados também são úteis
para descrever textualmente objetos não textuais; como imagens; música; vídeo; etc.
Assim, as palavras-chave associadas ao objeto não textual; podem ser utilizadas para que
esses objetos sejam recuperados; utilizando-se técnicas clássicas de
recuperação de informação textual.
Formato dos Documentos Não existe um único formato para
documentos textuais; e um sistema de recuperação de
informação deve ser capaz de recuperar documentos de diversos formatos.
Sistemas de recuperação de informação utilizam filtros (parsers); para extrair o conteúdo, na forma
textual, de documentos de diversos formatos.
Formato dos Documentos É necessário construir um parser;
para cada formato de documento tratado pelo sistema de recuperação de informação.
A sintaxe de muitas linguagens é proprietária e específica; enquanto a de outras é aberta e pública.
É possível construir parsers eficientes para formatos públicos como o HTML.
Exemplo de Documento HTML
<div class="boxnoticia"><font class='chamada'><b>Pós-graduação PUC Minas
Virtual</b></font><br><a href='/noticias/noticia.php?
codigo=2567&lateral=&cabecalho=&menu=&pagina=' class='link_capa' > Ensino a distância com a qualidade PUC Minas. Inscrições abertas. </a> </div>
<div class="boxnoticia"><font class='chamada'><b>Mestrado e Doutorado</b></font><br><a href='/concursos' class='link_capa' > Saiba tudo sobre os processos
seletivos </a> </div><div class="boxnoticia"><font class='chamada'><b>Canto Coral</b></font><br><a href='/noticias/noticia.php?
codigo=2579&lateral=&cabecalho=&menu=&pagina=' class='link_capa' > Diretoria de Arte e Cultura oferece oficina de Canto Coral </a> </div>
Formato dos Documentos
Pode não ser possível construir bons parsers; se o formato for proprietário e
seus detalhes não forem públicos; como documentos Word que são
armazenados em um formato binário.
Exemplo de Documento Word
æ â ðUa{#áÇH z  & ª æ $ [ 0 ‹ ¶ 0 ‡ < ‡ æ R H H 4 4 4 4 Ù EMBED UnknownPONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS
Exercício Curso : Sistemas de Informação
Disciplina : Recuperação de Informação Professora: Eveline Alonso Veloso
Selecione três sistemas de recuperação de informação que você costuma utilizar e indique as seguintes propriedades de suas bases de documentos textuais:
C L N O c y ” ® Á × ó òéÙòÒÉ¿ÒéÒ·Ò·Ò¿«Ò
Freqüência de Ocorrência das Palavras Texto escrito possui certa semântica;
e é uma forma de disseminar informação. Embora seja difícil capturar
formalmente quanta informação existe em um dado texto; a freqüência de ocorrência das palavras
que aparecem no texto está relacionada a isso.
Por exemplo, um texto onde a mesma palavra aparece repetidas vezes;
não apresenta muita informação.
Palavras muito freqüentes: stopwords;
palavras que não apresentam muito significado; artigos; preposições; etc.
Geralmente são descartadas durante o processo de recuperação de informação;
diminui o espaço de armazenamento necessário; acelera o processamento de consultas.
Palavras muito pouco freqüentes: podem ser palavras escritas incorretamente;
depende das características do meio de onde os documentos da coleção foram selecionados.
Freqüência de Ocorrência das Palavras
Características da Língua A língua em que o documento
foi escrito pode apresentar particularidades; que podem ser exploradas; ou não devem ser
desconsideradas durante o processo de recuperação de informação.
Exemplo: acentuação de palavras da língua
portuguesa.
Tamanho da Coleção de Documentos Vocabulário:
conjunto de palavras distintas de uma coleção.
É possível estimar, com bastante precisão, o tamanho do vocabulário de uma coleção; a partir do tamanho da própria coleção; o que pode ser utilizado para estimar o
tamanho do índice.
Estrutura dos Documentos Documentos podem apresentar
alguma estrutura; ainda que básica; que pode ser explorada durante o
processo de recuperação de informação.
Título
Corpo da página
TítuloLista de autores
Resumo
Corpo do documento
Estrutura dos Documentos
Qualidade dos Documentos
As características do meio de onde os documentos da coleção foram selecionados;
podem influenciar algumas outras características desses documentos, como:
qualidade; documentos podem apresentar, com maior
freqüência, erros de digitação e/ou ortografia; autenticidade; veracidade.
O processo de recuperação de informação deve utilizar mecanismos para priorizar documentos de maior qualidade.