cin-ufpe1 mineração na web preparação dos documentos flávia barros

34
CIn-UFPE 1 Mineração na Web Preparação dos documentos Flávia Barros

Upload: internet

Post on 19-Apr-2015

114 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE 1

Mineração na Web

Preparação dos documentos

Flávia Barros

Page 2: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

2

Roteiro

Revisão Etapas dos Sistemas de Recuperação de

Informação

Preparação dos documentos Operações sobre o texto Criação da representação do documento

Page 3: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

3Sistemas de Recuperação de Informação

Etapas principais: Preparação dos documentos Indexação dos documentos Busca (casamento com a consulta do

usuário) Ordenação dos documentos recuperados

Page 4: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

4

Preparação dos documentos Duas Fases

Operações sobre o texto objetivo: criar a visão lógica do documento

Criação da representação do documento Utilizando algum modelo de RI

“Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.”

Sócrates

Doc original

desonesto / soubesse /vantagem / honesto /seria / honesto /menos/desonestidade/socrates

honesto 2desonesto 1soubesse 1vantagem 1seria 1menos 1desonestidade 1socrates 1

Visão LógicaRepresentação

Doc : www.filosofia.com Doc : www.filosofia.comDoc : www.filosofia.com

Page 5: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

5

Visão lógica do documento

Conjunto de termos usados para representar (indexar) o documento Vamos tratar aqui apenas documentos textuais

A seleção desses termos pode ser Manual

Realizada por um especialista Ex., um bibliotecário (em sistemas de bibliotecas)

Automática Termos são automaticamente extraídos do texto Ex., a maioria dos sistemas automáticos de RI

Page 6: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

6

Visão lógica do documento Seleção automática de termos

Duas opções: Usar o texto completo ou selecionar os

termos mais representativos

Texto completo Visão lógica mais completa do

documento Porém tem alto custo computacional Adotada por sistemas com bases de

documentos pequenas & por alguns engenhos de busca na Web

Page 7: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

7

Visão lógica do documento Seleção automática de termos

Conjunto reduzido de termos Obtido através de Operações sobre o

texto O objetivo é selecionar os termos que

melhor descrevem o documento Reduzindo assim a complexidade da

representação do documento Representação mais comum: Centróide

Lista de termos com pesos associados ou não

Problema: perda do “contexto”

Page 8: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

8Seleção automática de termos Operações sobre o texto

Fases Análise léxica

Elimina dígitos, pontuação, etc Eliminação de stopwords

Artigos, pronomes, etc Operação de stemming

Redução da palavra ao seu radical Identificação de grupos nominais

Ex., Recuperação de Informação

Page 9: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

9Seleção automática de termos Operações sobre o texto

Cada fase de operação de texto pode utilizar diferentes técnicas na sua implementação

Cada sistema de RI implementa uma ou mais dessas fases A escolha depende do tipo de sistema

desejado

Page 10: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

Operações sobre o texto: Fases

Documento

Acentos, espaços,...

stopwords

Grupos nominais

stemming

Indexação manual ou automática

Texto completo

Lista reduzida

de termos

• Operações sobre o texto reduzem progressivamente a visão lógica do documento

Page 11: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

11

Operações sobre o textoAnálise léxica

Entrada O texto original

uma cadeia de caracteres

Objetivo Converter o texto original em uma lista de palavras Identificando as palavras que ocorrem no texto

Procedimento padrão Utilizar espaços como sendo separadores de

palavras Tratar pontuação, hífens, dígitos, e letras

maiúsculas e minúsculas Cada caso pode requerer tratamentos diferenciados

Page 12: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

12Análise léxica Tratamento de pontuação e hífens

Geralmente, todos os caracteres de pontuação são removidos . , ! ? : ; -

Porém, há casos em que eles são mantidos por serem necessários Código de programa dentro do texto

Variável “x.id” xid URLs de Sites na Web

Caso do hífen Palavras compostas e prefixos

Guarda-chuva, pré-processamento Alguns termos compostos

state-of-the-art

Page 13: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

13Análise léxica Eliminação de dígitos

Geralmente, dígitos são removidos por serem vagos Por não terem uma semântica associada quando

aparecem isolados Ex. 1910 (ano, peso, tamanho???)

Contudo, dígitos associados a alguns termos/caracteres especiais podem ser importantes 510dC

dC não significa nada em isolamento Windows95, X3PO,...

Page 14: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

14

Análise léxica Substituição de letras maiúsculas

Objetivo principal Tornar a representação homogênea Facilitar a recuperação do documento a

partir de consultas

Exceções Carneiro

Animal ou nome próprio? Banco – instituição financeira banco - assento

Page 15: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

15

Operações sobre o textoAnálise léxica

Como visto, existem diversas exceções a tratar Isso depende da aplicação, do domínio do

sistema, etc...

Sugestão Preparar lista de exceções e tratar caso a

caso

Engenhos de busca Geralmente, não eliminam nada

Funcionam em todos os domínios... Indexam o texto completo com sua

pontuação, dígitos, etc...

Page 16: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

16

Operações sobre o textoEliminação de stopwords

Algumas palavras não são bons discriminadores Palavras muito freqüentas na base de

documentos Palavras sem semântica associada

artigos, preposições, conjunções, alguns advérbios e adjetivos

Aqui também há exceções a considerar Em domínios específicos, podemos

precisar manter algumas dessas palavras Redes de computadores

Page 17: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

17

Operações sobre o textoEliminação de stopwords

Vantagens Diminui a representação do texto Melhora a ordenação na recuperação

TF-IDF

Desvantagens Diminui a precisão na recuperação

Ex., “ser ou não ser” Somente o termo “ser” será usado na

indexação documento Mais uma razão para os engenhos de

busca utilizarem representação do texto completo

Page 18: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

18Operações sobre o texto Stemming

Problema Freqüentemente, o usuário especifica uma palavra

na consulta, mas apenas uma variação dessa palavra aparece nos documentos relevantes Ex., plural, gerúndio, verbos flexionados,

aumentativo...

Objetivo dessa operação: Substituir a palavra por seu radical (stem)

Porção da palavra que resta após a remoção de prefixos e sufixos

Possibilitar casamento parcial entre variações de uma mesma palavra Ex.: engenheiro, engenharia,...

Page 19: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

19Operações sobre o texto Técnicas de stemming

Table look-up Mantém uma tabela de radicais de

palavras Procedimento simples, porém necessita

de dados sobre os todos os radicais da língua

Successor variety Considera os morfemas da língua

menin+o+s Procedimento complexo e muito

dependente da língua

Page 20: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

20Operações sobre o texto Técnicas de stemming

Remoção de afixos (prefixos e sufixos)

Algoritmo de Porter: Considera que a remoção de sufixos é mais

importante que a de prefixos A maioria das variações de palavras é gerada por

sufixos Usa uma regra de redução para cada sufixo

O livro texto traz o algoritmo completo para a língua inglesa

Procura pela maior seqüência de letras que casa com alguma regra Plural: “sses ss”, “ies i” , “ss ss”, “s

Page 21: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

21

Operações sobre o texto Técnicas de stemming

engineer engineer engineer

engineering engineered engineer

Termo Stem

Algoritmo de Porter: Outras regras de redução

ed -> 0 ing -> 0

Page 22: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

22

Operações sobre o texto Técnicas de stemming

Para o Português, o problema é mais complexo Plural

existe um número muito maior de formas de fazer plural em português

Para substantivos, artigos e alguns adjetivos Precisamos de regras para tratar

aumentativo, diminutivo, feminino, masculino,...

Número de regras para flexões verbais também aumenta consideravelmente

Page 23: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

23

Operações sobre o texto Stemming

Snowball Uma linguagem para processamento de

strings específica para criar algoritmos de stemming para RI

http://snowball.tartarus.org/

Veja algoritmo disponível para Português em http://snowball.tartarus.org/algorithms/po

rtuguese/stemmer.html O site também traz exemplo de stoplist

para Português

Page 24: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

24StemmingExemplo do Snowball para

Português

word      

stem

quiloquilométricasquilométricosquilômetroquilômetrosquilosquímicaquímicasquímicoquímicosquimioterapiaquimioterápicos

    =>    

quil quilométrquilométrquilômetrquilômetrquilquímicquímicquímicquímicquimioterapquimioteráp

Page 25: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

Operações sobre o texton-grams

Uma alternativa ao uso de stemmers...

Uma n-gram é uma subsequência de n itens de uma dada sequência

Os items podem ser fonemas, letras, palavras... Uma n-gram de tamanho 1 é chamada de

"unigram"; de tamanho 2 é "bigram“, etc, e de tamanho 5 ou mais é apenas chamada de "n-gram".

O objetivo é o mesmo da operação de stemming “Cortar” a palavra para possibilitar casamento

parcial entre variações de uma mesma palavraCIn-UFPE

25

Page 26: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

26

Operações sobre o textoThesaurus

Dicionário de sinônimos de uma língua Eg., WordNet

Thesaurus podem ser também definidos para domínios específicos

Entradas contêm palavras isoladas ou termos compostos

Para cada entrada, o thesaurus pode trazer Sinônimos, antônimos, kind-of, part-of,... Classe gramatical E, às vezes, uma definição do termo

Page 27: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

27

Operações sobre o textoThesaurus

Uso de thesaurus em sistemas de RI Auxilia na seleção de termos relevantes

para indexar o documento Auxilia no processamento da consulta

Expansão de termos

Objetivo principal de usar thesaurus de um domínio específico em sistemas de RI Restringir o sistema a um vocabulário

controlado para indexação e busca de documentos

Page 28: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

28

Operações sobre o textoThesaurus

Para sistemas na Web em inglês, usa-se o WordNet com freqüência

http://wordnet.princeton.edu/

Page 29: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

29

Operações sobre o texto Identificação de Grupos Nominais

Objetivo: identificar grupos nominais (termos compostos) para indexar o documento Ex., Recuperação de Informação, Inteligência Artificial

Procedimentos Selecionar substantivos do texto, eliminando

sistematicamente palavras de outras classes gramaticais Usando uma stoplist ou usando um etiquetador automático (parts-of- speech

tagger) para determinar a classe das palavras e/ou usando um thesaurus da língua ou do domínio

Agrupar substantivos para formar termos compostos

Page 30: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

30Identificação de Grupos Nominais

Como agrupar substantivos para formar termos compostos Considerando os grupos nominais

identificados pelo tagger Considerando a distância entre os termos no

texto Número de palavras entre os dois substantivos

Ex., Recuperação de Informação Apenas uma palavra (de)

Extraindo esses termos de um thesaurus do domínio Pode conter um vocabulário controlado de

termos em vez de palavras isoladas

Page 31: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

31Preparação dos documentos

Criação da Representação do Documento

Entrada Visão lógica do documento

Lista de termos representativos do documento

Saída Representação final do documento

Termos representativos da base + peso associados a cada termo

Dependente do modelo de RI escolhido Booleano, espaço vetorial, probabilista... Aulas passadas

Page 32: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

32

Operações sobre a Consulta

Em geral... Quando possível, devem ser usadas aqui

as mesmas operações utilizadas para criar a visão lógica do documento, e.g., limpeza das stopwords, uso de stemming,

thesaurus...

Porém, existem mais operações a serem realizadas na consulta Assunto da próxima aula...

Page 33: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

33

Criação da Representação da Consulta

Entrada Visão lógica da consulta

Saída Representação final da consulta

Dependente do modelo de RI escolhido Booleano, espaço vetorial, probabilista... Aulas passadas

Page 34: CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

CIn-UFPE

34Próxima aulaConsultas - queries

Como tratar as Consultas a um sistema de RI Linguagens e Operações