avaliação de sistemas de recuperação de informação (ri): panorâmica e reflexões rachel...

63
Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

Upload: internet

Post on 17-Apr-2015

104 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

Avaliação De Sistemas De Recuperação De Informação (RI):

Panorâmica E Reflexões

Rachel Virgínia Xavier Aires 27 de junho de 2002

Page 2: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

2—55

Avaliação De Sistemas De RI: Panorâmica

O que avaliar Como avaliar Avaliação de máquinas de busca Planejamento de uma avaliação de

máquinas de busca

Page 3: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

3—55

O Que Avaliar Qual o objetivo da avaliação?

Fazer uma avaliação do sistema

Fazer uma avaliação dos usuários

Fazer uma avaliação do sistema pensando nos usuários

Page 4: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

4—55

Avaliando O Sistema (1-5)

Que forma de indexação funciona melhor?

Qual algoritmo de RI é melhor?

O Q

ue A

vali a

r

Page 5: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

5—55

Avaliando O Sistema (2-5)

As avaliações são feitas com: um conjunto de documentos, um conjunto de consultas e um conjunto de respostas

A comparação em geral é feita através de duas medidas: recall e precision (ambas serão explicadas em “como avaliar”)O

Qu

e A

vali a

r

Page 6: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

6—55

Avaliando O Sistema (3-5) Exemplos de avaliação deste tipo

são as avaliações do TREC Estas iniciativas são importantes

para melhorar a qualidade sob o ponto de vista técnico de RI

Exemplos de iniciativas semelhantes são as do japão e chinaO

Qu

e A

vali a

r

Page 7: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

7—55

Avaliando O Sistema (4-5) Críticas:

Credibilidade• Ambiente de laboratórios X ambiente real• Relevância dos julgamentos (em “como

avaliar”) Generalidade

• As consultas são representativas?• Coleções de texto pequenas e mais

voltadas para ciência e tecnologia

O Q

ue A

vali a

r

Page 8: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

8—55

Avaliando O Sistema (5-5) Críticas:

Utilidade• Alguns sistemas tem de ser avaliados segundo

outros critérios• A precisão está relacionada a visão do usuário de

um bom sistema? Comprovação teórica

• Recall e precision têm algum significado para o usuário?

• Diferenças estatísticas entre estas medidas são significante em contextos e situações reais?

O Q

ue A

vali a

r

Page 9: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

9—55

Avaliando Os Usuários (1-3)

Comportamento (processo de explorar a informação) e satisfação dos usuários na busca

Eficiência do sistema Se as necessidades do usuário foram

atendidas Se a informação recuperada é útil ou não Se a interface é amigável

O Q

ue A

vali a

r

Page 10: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

10—55

Avaliando Os Usuários (2-3) Estas avaliações promoveram avanços:

Para conhecer as necessidades dos usuários Novos sistemas de RI, como os que passaram

a incluir interfaces de interação gráfica Novas informações sobre que recursos podem

ajudar o usuário a encontrar recursos relevantes

E principalmente serviram para mostrar que relevância é um conceito dinâmico e situacional

O Q

ue A

vali a

r

Page 11: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

11—55

Avaliando Os Usuários (3-3) Problemas:

Os pesquisadores deste tipo de avaliação são experientes em teorias e métodos e raramente em tecnologia – não sabem como fazer sistemas de acordo com seus resultados ou traduzi-los de forma que outros possam fazer

É difícil comparar ou resumir os resultados porque são utilizados dados, métodos e níveis de análise diferentes

São estudos em geral focados em públicos específicos Não estão relacionados a públicos grandes e

diferenciados As análises levam de meses a anos

O Q

ue A

vali a

r

Page 12: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

12—55

Avaliando O Sistema Considerando Os Usuários (1-2)

Questões entre estes dois paradigmas (Saracevic, 1995): Quanto sucesso teve e tem a RI em resolver o

problema da explosão de informação? Quão bem a RI dá suporte às pessoas em

situações difíceis quando têm de escolher entre diversas opções?

Como toda esta informação, associada a tecnologia de RI existente, afeta nosso trabalho, lazer, sociedade, cultura?

O Q

ue A

vali a

r

Page 13: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

13—55

Estas questões devem ser respondidas já que o propósito geral de uma avaliação é aumentar as chances de um determinado sistema de RI ser adotado e utilizado.

Só é possível respondê-las com análises de sistemas associadas a análises de usuários e unindo as pesquisas de laboratório as situações reais, contextos, indivíduos e organizações.

O Q

ue A

vali a

r

Avaliando O Sistema Considerando Os Usuários (2-2)

Page 14: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

14—55

Avaliação De Sistemas De RI: Reflexões

O que avaliarO que avaliar Como avaliar Avaliação de máquinas de busca Planejamento de uma avaliação de

máquinas de busca

Page 15: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

15—55

Como Avaliar Nem uma técnica proporciona por si só

uma avaliação completa.

Nem todos os critérios e medidas são necessários para todos os contextos.

Como a performance é medida através de benchmarks, a performance é válida apenas para o ambiente em que foi medida.

Page 16: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

16—55

Como Avaliar É difícil construir corpora.

Benchmarks pra web ainda estão sendo construídos.

Não existem banchmarks para várias línguas. Como é o caso do português.

Page 17: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

17—55

relevantes documentos de total Número

srecuperado relevantes documentos de Numero recall

srecuperado documentos de total Número

srecuperado relevantes documentos de Número precision

Documentos relevantes

Documentos recuperados

Todos os documentos

Precision e Recall(precisão e revocação)

Com

o A

valia

r

Page 18: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

18—55

Precision E Recall No TREC Sumário estatístico: número de tópicos,

número de documentos recuperados, número de documentos relevantes.

Recall-precision: precisão média em 11 níveis de recall (de 0 a 1, de 0.1 em 0.1).

Precisão média quando 5, 10, .., 100, … 1000 documents são recuperados.

Recall-precision para cada tópico e a média de recall-precision para cada um dos sistemas para aquele tópico.

Com

o A

valia

r

Page 19: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

19—55

Dificuldades em medir

Eficiência está relacionada à relevância dos documentos recuperados Não é fácil de calcular este número O que é relevante? Vai usar uma medida binária (sim/não)

ou não?• A forma não binária é mais natural

Com

o A

valia

r

Page 20: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

20—55

Dificuldades em medir

A relevância é: Subjetiva: depende do julgamento Situacional: relacionada as

necessidades atuais do usuário Cognitiva Dinâmica

Com

o A

valia

r

Page 21: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

21—55

Fallout

Problemas com precision e recall: Número de documentos irrelevantes

não é considerado. Como medir o recall se não existir

documento relevante no conjunto de documentos?

Como medir precision se nenhum documento for recuperado?

esirrelevant documentos de total número

srecuperado esirrelevant documentos de número Fallout

Com

o A

valia

r

Page 22: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

22—55

Outras Medidas

Diferença simétrica normalizada.

Fornece a diferença proporcional entre o conjunto de documentos relevantes e irrelevantes recuperados por um sistema. Quanto menor a diferença, melhor o sistema em recuperar todos os documentos relevantes para uma dada consulta.

Com

o A

valia

r

RP

E1

211

21

11

Page 23: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

23—55

Medidas subjetivas De relevância Novelty: Proporção de items relevantes

recuperados que o usuário não conhecia. Habilidade de encontrar nova informação

sobre um tópico.

Coverage: Proporção de items relevantes recuperados que usuário já conhecia. Quando o usuário quer encontrar documentos

que ele já conhecia.

Com

o A

valia

r

Page 24: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

24—55

Precision = A / A+C

Recall = A / A+B

Na Web não temos BDifícil obter A e C

não selecionado

rele

vant

e

selecionado

A

B

C

D

não

rele

vant

e

Particularidades da avaliação de sistemas RI na web

Com

o A

valia

r

Page 25: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

25—55

Avaliação De Sistemas De RI: Reflexões

O que avaliarO que avaliar Como avaliarComo avaliar Avaliação de máquinas de busca Planejamento de uma avaliação de

máquinas de busca

Page 26: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

26—55

Particularidades Da Avaliação De Máquinas De Busca

O que é mais importante: recall ou precision?

Devido a generalidade desta aplicação o recall e precision realmente não servem como medidas únicas

Page 27: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

27—55

Particularidades Da Avaliação De Máquinas De Busca

Apesar das dificuldades em definir os número de documentos relevantes recuperados e não recuperados a maioria dos estudos compara máquinas de busca utilizando recall e/ou precision Por exemplo, olhando as 2 primeiras

páginas de resultados (Gwizdka & Chignell,1999)

Page 28: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

28—55

Medidas Utilizadas

Composição dos índices: freqüência de atualização e tamanho

Capacidade de busca: o que a máquina de busca permite usar

Performance: além de precision e recall usam tempo de resposta

Apresentação da saída Esforço do usuário: quão difícil é para um

usuário comum utilizar a máquina de busca

Part

icu

l ar i

dad

es

da a

val ia

ção

de m

áq

uin

as

de b

us c

a

Page 29: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

29—55

Medidas Sugeridas Por Gwizdka & Chignell (1-5)

Sugerem que não se considere tempo de resposta. Pois apesar de ser uma medida importante é uma medida muito instável.

Falam de documentos relevantes, documentos indiretamente relevantes e não relevantes.

Propõe uma medida de precisão que considere a posição do item relevante (se entre os 10 primeiros tem um peso maior).

Part

icu

l ar i

dad

es

da a

val ia

ção

de m

áq

uin

as

de b

us c

a

Page 30: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

30—55

Medidas Sugeridas Por Gwizdka & Chignell (2-5)

Definem 4 tipos de precisão que variam de acordo com a forma que a relevância é utilizada: full precision, best precision, useful precision e objective precision.

Part

icu

l ar i

dad

es

da a

val ia

ção

de m

áq

uin

as

de b

us c

a

Page 31: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

31—55

Medidas Sugeridas Por Gwizdka & Chignell (3-5)

Full precision - considera a pontuação associada a cada hit

Best precision - considera apenas os hits mais relevantes

Useful precision - considera apenas os hits mais relevantes e os que contém links para os mais relevantes

Objective precision - não requer julgamentos de relevância. É baseada na presença ou ausência de termos requisitados e na distinção entre links bons e ruins

Part

icu

l ar i

dad

es

da a

val ia

ção

de m

áq

uin

as

de b

us c

a

Page 32: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

32—55

Medidas Sugeridas Por Gwizdka & Chignell (4-5)

A precisão é medida para os 20 primeiros itens recuperados

Part

icu

l ar i

dad

es

da a

val ia

ção

de m

áq

uin

as

de b

us c

a

Pontuação Descrição3 relevante

2 Parcialmente relevante ou contém um linkpara uma página de pontuação 3

1 Pouco relevante. Menciona rapidamenteotópico ou contém um link para uma págicacom pontuação 2

0 Não relevante ou link inválido

Page 33: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

33—55

Medidas Sugeridas Por Gwizdka & Chignell (5-5)

Propõe uma medida de esforço baseada na medida de tamanho da busca (número de documentos irrelevantes antes de um documento relevante) – diferencia as paginas indiretamente relevantes.

Número de links ruins e de links duplicados.

Part

icu

l ar i

dad

es

da a

val ia

ção

de m

áq

uin

as

de b

us c

a

Page 34: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

34—55

Clickthrough Data Avaliação baseada totalmente nos cliques de

usuários. Não requer julgamentos ou feedback por parte do usuário.

Se o usuário clica em mais documentos de uma máquina de busca do que nos de outra tal máquina retornou resultados mais relevantes (Joachims, 2002).

Part

icu

l ar i

dad

es

da a

val ia

ção

de m

áq

uin

as

de b

us c

a

Page 35: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

35—55

Avaliação De Sistemas De RI: Reflexões

O que avaliarO que avaliar Como avaliarComo avaliar Avaliação de máquinas de buscaAvaliação de máquinas de busca Planejamento de uma avaliação

de máquinas de busca

Page 36: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

36—55

Planejamento De Uma Avaliação De Máquinas De Busca

O que interessa verificar sobre uma máquina de busca? Exemplos: Qual é a melhor máquina de busca

sobre medicina? Qual a melhor máquina de busca para

encontrar artigos científicos? Para diferentes necessidades,

diferentes medidas e formas de proceder a avaliação

Page 37: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

37—55

Questões Tradicionais Ainda Não Respondidas Para Máquinas De Busca Para Português

Qual a melhor para as perguntas mais freqüentes?

Qual o tamanho estimado do índice de cada uma das máquinas de busca?

Como o índice vem sendo alterado ao longo do tempo (volume, que tipo de conteúdo, etc)?

Page 38: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

38—55

Questões Tradicionais Ainda Não Respondidas Para Máquinas De Busca Para Português

Qual a freqüência com que seus índices são atualizados (freshness)?

Como é a intersecção (overlap) entre as máquinas de busca?

Qual a freqüência de links que não existem mais?

Page 39: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

39—55

Questões Interessantes Sobre As Máquinas De Busca Para Português

É fácil encontrar artigos? Como é seu desempenho na busca

por serviços on-line? Dão suporte a estudantes em suas

pesquisas para o colégio? Qual a melhor para perguntas que

estão freqüentes em um determinado período? Islã, tiazinha, etc

Page 40: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

O Que Definir Que mecanismos de busca avaliar

Que consultas utilizar Como selecionar as consultas Filtrar ou não as consultas Quantas consultas

Como julgar a relevância dos resultados

Page 41: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

41—55

Que Mecanismos De Busca Avaliar (1-2)

Somente máquinas de busca ou máquinas de busca e diretórios?

Só serviços de busca gratuitos? Somente máquinas de busca genéricas ou

também máquinas especializadas em um determinado assunto?

Os meta searchers devem ser avaliados ou não, somente quando possuem também algum mecanismo de busca próprio?

Page 42: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

42—55

Que Mecanismos De Busca Avaliar (2-2)

Avaliar apenas as máquinas de busca que só indexam páginas em português ou também as que indexam várias línguas incluindo o português?

Quantas máquinas de busca avaliar? Quais máquinas avaliar?

www.cade.com.br, www.todobr.com.br, www.sapo.pt, www.tumba.pt, www.google.com

Page 43: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

43—55

Que Consultas Utilizar (1-2) Selecionando dentre as consultas mais

freqüentes do log de uma máquina de busca ou dentre todas: Retirando uma amostra aleatória Removendo os assuntos que não se quer avaliar

e então retirar uma amostra Escolher entre as consultas sobre um dado

assunto Escolher uma amostra seguindo proporções

• Uma determinada porcentagem de questões com apenas 2 palavras, com apenas 3, com frases

• Questões em linguagem natural

Page 44: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

44—55

Que Consultas Utilizar (2-2) Elaborar uma lista de consultas

manualmente. Para por exemplo, avaliar o desempenho das

máquinas de busca para pesquisa científica. Solicitar que bibliotecários elaborem uma

lista de consultas para representar diferentes necessidades de usuários.

Traduzir listas de consultas utilizadas em outros estudos, por exemplo CLEF.

Page 45: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

45—55

Filtrar Ou Não As Consultas Nem sempre é possível interpretar os

objetivos por trás de uma consulta. Utilizar juízes humanos para escolher

dentre as consultas quais possuem pelo menos um objetivo possível.

ou Coletar consultas com um grupo pequeno

de usuários e solicitar que explicitem o objetivo.

SPC

CEE

CET

SdPM

Page 46: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

46—55

Filtrar Ou Não As Consultas Nem sempre é possível interpretar os

objetivos por trás de uma consulta. Utilizar juízes humanos para escolher

dentre as consultas quais possuem pelo menos um objetivo possível.

ou Coletar consultas com um grupo pequeno

de usuários e solicitar que explicitem o objetivo.

Page 47: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

47—55

Quantas Consultas Quantas consultas para avaliar a

precisão? 03 (Pratt & Fragan, 2000; Notess, 2000), 04 (Notess, 2002)

07 (Consumidor S.A; Moreira)

15 (Gwizdka & Chignell 1999; Notess, 1999)

18 (Bruza et al, 2000), 20 (CNET.com), 50 (Hawking et al, 1999)

Acima de 50 (Hawking et al, 2001; Li et al, 2001)

Quantas consultas para avaliar critérios que devem ser avaliados com uma freqüência maior? Por exemplo, freshness.

Page 48: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

48—55

A Relevância Ou Não Dos Documentos (1-3)

Dentre os documentos retornados como resposta, quantos julgar? Os primeiros 10 (CNET.com; Chu & Rosenthal, 1996; Hawking et al,

2001), 20 (Gwizdka & Chignell, 1999; Hawking et al, 1999; Li et al, 2001; Su

et al, 1998) de cada máquina (1ª e 2ª páginas de resultados)?

Quem irá julgar a relevância? O grupo que está realizando a avaliação (Chu & Rosenthal,

1996) – pesquisadores da área. Pessoas que não são de RI nem de computação. Por

exemplo, usuários interessados em um determinado assunto. (Pratt & Fagan, 2000).

Bibliotecários. (Chu & Rosenthal, 1996)

Page 49: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

49—55

A Relevância Ou Não Dos Documentos (2-3)

O julgamento será binário? Relevante e não relevante Relevante, pouco relevante e

irrelevante Níveis de relevância (Su et al, 1998; Gwidka &

Chignell, 1999)

Haverá apenas um objetivo para cada consulta?

Page 50: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

50—55

A Relevância Ou Não Dos Documentos (2-3)

O julgamento será binário? Relevante e não relevante Relevante, pouco relevante e

irrelevante Níveis de relevância (Su et al, 1998; Gwidka &

Chignell, 1999)

Considerar apenas um objetivo para cada consulta?

SPC - Sociedade de Proteção ao Crédito

SPC - Só para contrariar

Page 51: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

51—55

A Relevância Ou Não Dos Documentos (3-3)

Que instruções dar aos juizes? (Hawking et al, 2000)

Não considerem a avaliação do documento anterior na avaliação atual

Não considerem a qualidade do documento, vejam apenas se trata do assunto questionado

Não importa a veracidade das informações

Page 52: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

52—55

Avaliação De Sistemas De RI: Reflexões É possível realizar uma avaliação

conjunta de RI tomando por base os critérios das já existentes e/ou atualizando-os para as necessidades atuais É necessário criar uma base de

consultas e documentos relevantes para português

Page 53: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

53—55

Avaliação De Sistemas De RI: Reflexões Para quaisquer das tarefas de RI é

possível fazer avaliações mais detalhadas individuais e participar de avaliações conjuntas como o TREC e CLEF É necessário criar uma base de

consultas e documentos relevantes para português

Page 54: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

Como Criar Esta Base Cooperativamente? Definir como criar os tópicos

Que assuntos Por exemplo: 20 consultas, avaliando

os primeiros 30 resultados de 5 mb Definir o processo de medir relevância Definir um processo de adicionar novos

tópicos nas avaliações seguintes Compatível com o TREC?

Page 55: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

O Que Vamos Avaliar Cooperativamente Sugestões sob o ponto de vista de

uma base da web: Recuperação de informação na web Recuperação de informação multilíngüe Filtering Question answering Information extraction Sumarização de documentos da web

Page 56: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

56—55

Referências (Bruza et al, 2000) Peter Bruza; Robert McArthur; Simon Dennis.

Interactive Internet Search: keyword, directory and query reformulation mechanisms compared. www.guidebeam.com/sigir00.pdf

(CNET.com) CNET.com. Search Engines Shoot-out. http://www.cnet.com/software/0-352106-7-276936.html?tag=txt

(Chu & Rosenthal, 1996). Heting Chu; Marilyn Rosenthal. Search Engines the World Wide Web: A comparative study and evaluation methodology. ASIS 1996. http://www.asis.org/annual-96/ElectronicProceedings/chu.html

(Consumidor S.A) http://server.digipronto.com.br/idec.org.br/consumidorsa/arquivo/jun99/aval.htm

Page 57: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

57—55

Referências

(Cooper, 1968) W. S. Cooper. Expected search length: A single measure of retrieval effectiveness based on weak ordering action of retrieval systems. Journal of the American Society for Information Science, 19, 30-41. 1968.

(Greisdorf & Spink, 2001) Howard Greisdorf; Amanda Spink. Median Measure: an approach to IR systems evaluation. Information Processing and Management 37, 843-857. 2001.

(Gwizdka & Chignell,1999) Jacek Gwizdka; Mark Chignell. Towards Information Retrieval Measures for Evaluation of Web Search Engines. http://www.imedia.mie.utoronto.ca/~jacekg/pubs/webIR_eval1_99.pdf

Page 58: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

58—55

Referências (Hawking et al, 1999) David Hawking; Nick Craswell; Donna

Harman. Results and Challenges in Web Search Evaluation. http://www8.org/w8-papers/2c-search-discover/results/results.html

(Hawking et al, 2000) David Hawking; Nick Craswell; Peter Bailey; Kathy Griffiths. Measuring Search Engine Quality. Journal of Information Retrieval. http://www.wkap.nl/journalhome.htm/1386-4564.

(Hawking et al, 2001)David Hawking; Nick Craswell; Kathleen Griffiths. Which search engine is best at finding online services? http://citeseer.nj.nec.com/455030.html

(Joachims, 2002) Thorsten Joachims. Evaluating Search Engines using Clickthrough Data. 2002. http://www.cs.cornell.edu/People/tj/publications/joachims_02b.pdf

Page 59: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

59—55

Referências (Li et al, 2001) Longzhuang Li; Yi Shang; Wei Zhang. Relevance

evaluation of search engines´query results. http://www10.org/cdrom/posters/1017.pdf

(Moreira) Wálter Moreira. Eficácia dos mecanismos de busca brasileiros na internet. http://intermega.globo.com/biblio_fespsp/artigos.htm

(Notess, 1999) Greg R. Notess. Comparing Internet Search Engines. http://www.csu.edu.au/special/online99/proceedings99/103a.htm

(Notess, 2000) Greg R. Notess. Seacrh Engine Statistics: Dead links report. http://www.notess.com/search/stats/deads.shtml.

Page 60: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

60—55

Referências(Notess, 2002) Greg R. Notess. Seacrh Engine Statistics: Unique Hits Report. http://www.notess.com/search/stats/unique.html.

(Pratt & Fagan, 2000) Wanda Pratt; Lawrence Fagan. The usefulness of dynamically categorizing search results. Journal of the American Medical Informatics Association, Vol 7, 6, 2000.

(Rijsbergen, 1979) C. J. van RIJSBERGEN. Information Retrieval. 1979. Disponível em http://www.dcs.gla.ac.uk/Keith/Preface.html.

(Robertson & Teather, 1974) S.E. Robertson; D. Teather. A statistical analysis of retrieval tests: a Bayesian approach. Journal of Documentation, 30, 273-282. 1974.

Page 61: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

61—55

Referências (Saracevic, 1995) T. Saracevic. (1995). Evaluation of evaluation

in information retrieval. Proceedings og SIGIR 95, 138-146. http://www.scils.rutgers.edu/~muresan/Docs/sigirSaracevic1995.pdf

(Su et al, 1998) L. T. Su; H. Chen; X. Dong. Evaluation of Web-based search engines from the end-user´s perspective: a pilot study. Proceedings of the Annual Conference for the American Society for Information Science, 348-361.

(Swets, 1963) J. A. Swets. Information Retrieval Systems. Science, 141, 245-250. 1963.

(Wishard, 1998) Lisa Wishard. Precision Among Internet Search Engines: An Earth Sciences Case Study. http://www.library.ucsb.edu/istl/98-spring/article5.html

Page 62: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

62—55

Referências (Wu & Sonnenwald, 1999) Mei-Mei Wu; Diane H.

Sonnenwald. Reflections in Information Retrieval Evaluation. Proceedings of the 1999 EBTI, ECAI, SEER & PNC Joint Meeting, 63-81. http://pnclink.org/events-report/1999/Proceedings/wu-mm.pdf

Page 63: Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

63—55

Lista de mecanismos de busca Brasil

www.todobr.com.br www.cade.com.br

Portugal www.paginasamarelas.pt www.gertrudes.pt www.sapo.pt www.aeiou.pt

Genéricas www.google.com www.altavista.com.br www.fast.no