aluno: jorge machado ri - 2007 automatic thesaurus generation for an electronic community system...

49
Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Upload: danilo-martini-dias

Post on 07-Apr-2016

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Automatic Thesaurus Generation for an Electronic Community System

Jorge Machado

Recuperação de InformaçãoProf. Pável Calado

Page 2: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Automatic Thesaurus Generation for an Electronic Community System

• Problema• Trabalho relacionado de Chen e Lynch• Comunidades abordadas no estudo • Overview das Técnicas usadas • Equação de pesos de co-ocorrêcia• Resultados• Avaliação do Thesaurus Gerado

Page 3: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Problema e Motivação

• Comunidade da Genética– Biologia Molecular

• Constante entrada de novos termos– Information overload – Vocabulário muito extenso

• Grande discrepância entre investigadores novos e experientes– Dificuldades a fazer queires aos sistemas

• Termos iguais para descrever o mesmo

Page 4: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Problema e Motivação

• Estudo completo do genoma dos Vermes

• Ciência nova sem vocabulários controlados– Necessidade de criação de um

vocabulário

Page 5: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Exemplos de Vocabulários

• Listas de problemas de automóveis• Comportamentos de portadores de

cartões de crédito• Padrões de erros em linhas de

aviação• Padrões de Fraudes Fiscais• Problemas Clínicos

Page 6: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

O que é então um Thesaurus

• Thesaurus é um nome para definir uma linguagem controlada de indexação dividida por categorias de conhecimento

• É usada por cientistas para indexar e posteriormente pesquisar em bases de informação através de termos co-relacionados

Page 7: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Requisitos para criação de um Thesaurus

• Colecção de documentos completa• Uma boa função de co-ocurrência• Pesquisa com feedback

Page 8: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Trabalho relacionado de Chen e Lynch[Memória Humana]

• Como medir proximidade de ideias???

• Carro e Roda??? São Próximas??– De que ponto de vista??

• Caixa e DVD???– Ponto de vista do DVD– Ponto de vista da caixa

Page 9: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Trabalho relacionado de Chen e Lynch [Algoritmo do Coseno]

• Consegue medir este tipo de relação?

• …? Não

Page 10: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Trabalho relacionado de Chen e Lynch [ Algoritmo do Coseno]

• Dado um vector de documentos i• E dois termos j e k• Apenas consegue medir a

frequência com que aparecem juntos.

Page 11: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Trabalho relacionado de Chen e Lynch [Tabela de presenças para o Coseno]

Documentos com Tj

Documentos com Tk

Comuns Coseno

1 1 1 1

2 2 2 1

2 1 1 ~0, 7

1 2 1 ~0, 7

Page 12: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Trabalho relacionado de Chen e Lynch [Cluster Assimétrico]

• Tendo em conta o principio de relação de memória humana

Documentos com Tj

Documentos com Tk

Comuns Assimétrico

1 1 1 1

2 2 2 1

2 1 1 0,5

1 2 1 1

Page 13: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Trabalho relacionado de Chen e Lynch [Cluster Assimétrico de Chen e Lynch]

Page 14: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Trabalho relacionado de Chen e Lynch [Mais Algoritmos de Pesos]

Fórmula de Medelyan e Witten

Page 15: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Técnicas Utilizadas pelos autores

• Filtragem de Termos• Indexação• Cluster Analisys

Page 16: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Técnicas Utilizadas pelos autores [Filtragem de Termos]

• Colecção Researchers – 4714 docs > 2709 nomes

• Colecção Gene > 1520 Genes • Métodos experimentais > 37 métodos• Subject Descriptors 1048 termos

– Foram usadas todas as entradas do indice de assuntos do livro The Worm Book

– Lista criada por outro investigador da area M. Edgley

Total de 5314 termos

Page 17: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Técnicas Utilizadas pelos autores [Filtragem de Termos: exemplos]

Page 18: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Técnicas Utilizadas pelos autores [Indexação automática]

• Fazem uso dos procedimentos de Salton (1989)– Identificação de Palavras (ignorar

pontuação e Maiúsculas/Minúsculas)– StopWords (1000)– Stemming (30 regras para sufixos)– Formação de Frases

Page 19: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Técnicas Utilizadas pelos autores [Indexação automática: frases]

• Utilização de termos adjacentes para criação de novos termos

• Exemplo• “DAUER LARVA FORMATION”

– Criadas:• DAUER, LARVA e FORMATION• DAUER LARVA• LARVA FORMATION• DAUER LARVA FORMATION

Page 20: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Técnicas Utilizadas pelos autores [Cluster Analysis]

• Fase mais complexa• Atribuição de Pesos aos clusters de

co-ocorrência.– Baseada no Modelo de espaço

vectorial • Ideia é estender o conceito de Chen

e Lynch usando TF.IDF em vez da presença booleana

Page 21: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Técnicas Utilizadas pelos autores [Cluster Analysis]

• Função de peso do Cluster

(Antes)Cluster Assimétrico

Page 22: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Técnicas Utilizadas pelos autores [Cluster Analysis]

• Função de peso do Cluster

(Antes)Cluster Assimétrico

Page 23: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Técnicas Utilizadas pelos autores [Cluster Analysis]

• Função de peso para um termo J num documento I

• A diferença é o wj que é a norma do termo– Exemplo de “Information Retrieval”– Wj = 2

Page 24: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Técnicas Utilizadas pelos autores [Cluster Analysis]

• Função de peso do Cluster

(Antes)Cluster Assimétrico

Page 25: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Técnicas Utilizadas pelos autores [Cluster Analysis]

• Extensão do cálculo do tf.idf já por sua vez estendido para dois termos

Min {tfij e tfik} Numero de documentos em queAparecem juntos

Page 26: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Técnicas Utilizadas pelos autores [Cluster Analysis: Função de Peso Final]

Page 27: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Técnicas Utilizadas pelos autores [Cluster Analysis:Factor]

• Termos que apareciam em muitos sítios

Termos muito genéricos obtém um w. factor

mais baixo

Page 28: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Resultados

1,708,551 termos co-ocurrentes.

Page 29: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Resultados

1,708,551 termos co-ocurrentes.

Page 30: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Resultados [Melhoramentos]

• Aplicados cortes aos Pares.– Escolhidos apenas os 100 primeiros

links• Redução para 709,659

– Aplicados os Thresholds de co-ocurrência• Redução para 7829 conceitos

Page 31: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Resultados [Links]

Page 32: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Resultados [Multiplas Fontes vs Uma fonte]

• Foi criado novo thesaurus separando as fontes

– Redução do tempo de processamento uma vez que é O(n2)

Page 33: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Avaliação do Thesaurus[Perguntas chave]

• Vai ajudar a encontrar termos relevantes e melhorar a precision e o recall?

• Qual o melhor thesaurus kb1 ou kb2?

• Quais as novas características e quais as melhorias necessárias?

Page 34: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Avaliação do Thesaurus[Experiências]

• Testadores– Pessoa 1 - gestor de laboratório– Pessoa 2 - estudante de

doutoramento– Pessoa 3 e 4 – novatos, estudante de

mestrado e o outro um sénior mas não graduado.

Page 35: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Avaliação do Thesaurus[Experiências]

• 1º Passo dar à pessoa um termo seleccionado.– Escolhidos 16 termos a partir de genes,

investigadores, assuntos, etc.• Por investigadores experientes

– Era pedido aos Sujeitos para escreverem uma lista de termos que se lembrassem e que fossem relevantes

• Incluindo , genes, métodos, investigadores, etc.– Fornecida a lista e pedido de marcação dos

relevantes, muito relevantes e irrelevantes• Misturados os termos relacionados quer do Kb1 e Kb2 e

colocados por ordem de importância.• Lista de 48

– Alteração aos escritos, apagando

Page 36: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Avaliação do Thesaurus[Experiências:resultados]

• Os sujeitos escreveram comentários que foram analisados posteriormente

• Experiência durou de 1,5 h a 2,5 h

Page 37: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Avaliação do Thesaurus[Experiências]

• Quadro exemplo de selecção de termos relacionados com Ward, Samuel, o director do laboratório no Arizona

Page 38: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Avaliação do Thesaurus[Experiências: Interface]

Page 39: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Avaliação do Thesaurus[Experiências: Estatística]

• Para assinalar termos mais relevantes– contados os termos gerados

marcados como relevantes e muito relevantes

– Contados os termos gerados pelos sujeitos

Page 40: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Avaliação do Thesaurus[Experiências: Estatística, resultados]

• Na generalidade– 8479 termos gerados pelo kb1– 8312 termos gerados pelo kb2– 6177 termos gerados pelos sujeitos

• Experts geraram mais que os novatos– Após uso de ferramenta estatística

para medir variâncias chegou-se à conclusão que não houve grandes diferenças entre KB1 e KB2

Page 41: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Avaliação do Thesaurus[Experiências: Estatística, resultados]

Page 42: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Avaliação do Thesaurus[Experiências: Estatística, cálculo]

• Calculo de Precisão e Recall

Page 43: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Avaliação do Thesaurus[Experiências: Precisão e Recall, cálculo]

• Total de conceitos relevantes– Inicialmente gerados – Marcados como relevantes durante

toda a navegação– Escritos pelos sujeitos

Page 44: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Avaliação do Thesaurus[Experiências: Recall, resultados]

Page 45: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Avaliação do Thesaurus[Experiências: Precisão: resultados]

• Fraca do lado dos thesaurusPrincipal motivo o ruído dos termos muito genéricos

Page 46: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Avaliação do Thesaurus[Experiências: Conclusões]

• os thesaurus tem um melhor recall e uma pior precisão.

• Devem ser usados para consulta e nunca para substituição automática de termos.

• A junção dos dois mundos (Humanos + Thesaurus) trás benefícios à investigação.– Curiosidade - Humanos conseguem ter um

recall histórico muito mais apurado devido ao uso de memória.

Page 47: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Avaliação do Thesaurus[Experiências: Avaliação Subjectiva]

Problemas relacionados com:

• Stemming, StopWording e Criação de frases • A maioria resultante de erros de OCR• Variantes de nome• Autores altamente importantes relativamente

a certos temas foram excluídos pelo threshold• Termos genéricos demais como FACT• Sugeridos sinónimos• Em certos pontos parece que os termos mais

relevantes foram apontados primeiro

Page 48: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

Conclusões e trabalho futuro

• Resultados bons• Retirar o stemming e as frases• Criar nova lista de stopwords aplicada à

area• Padronização dos nomes dos autores• Actualização incremental do thesaurus• Fazer o mesmo noutras comunidades• Incluir a coordenada Tempo• Consultas múltiplas de thesaurus para

novatos e para especialistas

Page 49: Aluno: Jorge Machado RI - 2007 Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI - 2007

QUESTÕES

• ???????????