medidas de avaliação - unesp · 2019. 6. 4. · 2 medidas de avaliação o que se almeja ao se...

1

Período 12:

Medidas de Avaliação

Medidas de Avaliação� Para a maioria dos sistemas computacionais é necessário criar

medidas para aferir sua eficácia e eficiência;

� A medida 0mais comum é o tempo e o espaço. Quanto menor o tempo de resposta e menor o espaço de memória (em disco ou RAM) necessário, melhor será o sistema;

� Em sistemas de recuperação de informação as buscas dos usuários são inerentemente vagas e imprecisas. A relevância dos documentos recuperados não é exata.

� Para avaliar um sistema de recuperação de informação é necessário medir a sua capacidade em atender as necessidades de informação do usuário.

� Isso é naturalmente problemático, dada a variabilidade de interpretação de um mesmo conjunto de resultadas de uma busca;

2

Medidas de Avaliação� O que se almeja ao se fazer uma busca em uma base documental é

encontrar documentos que sejam úteis (relevantes) para satisfazer a uma necessidade de informação, evitando recuperar itens inúteis;

� “Relevante”, “pertinente” são termos frequentemente utilizados para se referir a itens “úteis”;

Avaliação da recuperação é um processo sistemático no qual se associa uma métrica quantitativa aos resultados produzidos por um sistema de RI em resposta a um conjunto de buscas. Essa métrica deve ser diretamente associada à relevância dos resultados para os usuários. Uma abordagem comum para calcular tal métrica é comparar o resultado produzido pelo sistema com os resultados sugeridos por humanos para o mesmo conjunto de buscas.

BAEZA-YATES; RIBEIRO-NETO, 2013

Paradigma de Cranfield

3


� Avaliação sistemática de sistema de RI é resultado de experimentos iniciados no anos de 1950 por Cyril Cleverdon, que culminaram com os chamados experimentos de Cranfield;

� Fornecem a base para a avaliação de sistemas de RI.


� Cranfield-1◦ Indexação manual de 18 mil documentos

sobre engenharia aeronáutica (em 4 diferentes sistemas de indexação) e avaliação de 1.200 consultas;

◦ Os 4 sistemas de indexação eram praticamente equivalentes;

4


� Cranfield-2◦ Indexação manual de 1.400 documentos e

279 consultas;

◦ Seis estudantes passaram três meses examinando cada documento em relação a cada consulta e decidindo quais documentos eram relevantes;


� Cranfield-2

◦ Resultados:� Coleção de documentos, consultas e julgamentos de

relevância para cada par documento-consulta;

� Relação (inversa) entre precisão e revocação;

� Em situações práticas, a maioria das buscas não requer revocação alta, pois os usuários requerem apenas algumas respostas relevantes. [Conclusão válida para o contexto da Web];

� Estabeleceu a base para a experimentação moderna em RI;

� Precisão e Revocação são métricas estabelecidas e amplamente utilizadas;

5


� Cranfield-2◦ Desvantagens:� Simplista;

� Necessidade de informação o usuário é considerada estática e a relevância de um documento é considerada independente da relevância de outros documentos;

� Supõe que o julgamento de relevância é uniforme para uma população de usuários;

� Considerando o ambiente Web, todas essas premissas são violadas;

� Porém, o processo de avaliação dos experimentos Cranfield-2 continua a ser amplamente adotado.


6


� Após a execução de uma busca, pode-se dividir os documentos do corpus nos seguintes conjuntos:

Relevantes não-Relevantes

Recuperados

não recuperados


Documentos úteis para atender a

necessidade de informação do

usuário

Documentos que não são úteis para o

usuário

Para qualquer necessidade sempre

haverá mais documentos não úteis (-)

do que úteis (+);

O problema está em recuperar o

maior número possível de itens úteis

e o menor número possível de itens

inúteis;

O quadrado menor representa o

resultado de uma busca.

7

Medidas de Avaliaçãoprecisão (precision)

Foram recuperados 20 itens, sendo

6 úteis e 14 inúteis

srecuperado docs nº

srecuperado relevantes docs nº Precisão =

3,020

6 Precisão ==

Precisão = 30%

Expressa o quanto o sistema é

capaz de recuperar apenas itens

úteis.

Medidas de Avaliaçãorevocação (recall)

Expressa o quanto o sistema é

capaz de recuperar todos os itens

úteis.

relevantes docs nº

srecuperado relevantes docs nº Revocação =

5,012

6 Revocação ==

Revocação = 50%

Dos 12 documentos úteis existente no

corpus, apenas 6 foram recuperados

8

Medidas de Avaliaçãorevocação x precisão

Para melhorar a revocação deve-se

fazer uma busca mais genérica,

representado pelo quadrado maior.

%1818,049

9 Precisão =≈=

%7575,012

9 Revocação ===

Revocação

Precisão


Revocação x Precisão

9


� Apesar de muito utilizadas, as medidas de Precisão e Revocação apresentam alguns problemas:◦ A revocação máxima para uma determinada

busca requer um conhecimento de todos documentos do corpus. Para bases documentais muito grandes isso é impossível;

◦ Precisão e Revocação avaliam diferentes aspectos do corpus. Seria apropriado uma única medida que combinasse as duas;

Medidas de Avaliaçãooutras medidas

� Média harmônica

)(

1

)(

1

2 )(

jPjr

jF

+

=

� Medida E

Calcula a média harmônica entre as

medidas Precisão ( P ) e Revocação ( r )

)(

1

)(

1 )(

2

2

jPjr

b

bjE

+

+=

Esta medida permite ao usuário escolher se ele está mais

interessado em Revocação ou em Precisão.

b > 1 o usuário está mais interessado em precisão.

b < 1 o usuário está mais interessado em revocação.

10

Medidas de Avaliaçãomedidas orientadas ao usuário

� As medidas Revocação e Precisão são baseadas na suposição de que o conjunto de documentos relevantes para uma busca é o mesmo, independente do usuário;

� Porém, diferentes usuários podem ter uma interpretação diferente de qual documento é relevante ou não;

� Para enfrentar esse problema, algumas medidas “orientadas ao usuário” foram criadas.


11


� Cobertura ( coverage )◦ Expressa a quantidade de documentos relevantes conhecidos

pelo usuário que foram recuperados;

◦ Um alto valor de coverage indica que o sistema está encontrando a maioria dos documentos relevantes que o usuário esperava.

� Novidade ( novelty )◦ Expressa a quantidade de documentos relevantes recuperados

que não eram conhecidos (previamente) pelo usuário;

◦ Um alto valor de novelty indica que o sistema está revelando para o usuário muitos novos documentos relevantes que eram desconhecidos para ele.

Coleções para Teste

12


� Críticas à Information Retrieval◦ Falta fundamentação básica� A natureza subjetiva da tarefa de decidir a

relevância de um documento dificulta uma fundamentação teórica

◦ Carece de “campo de provas” e medidas consistentes� Nos anos de 1990. Conferência anual chamada

TREC (Text REtrieval Conference) dedicada a experimentação com uma grande coleção de teste composta de milhões de documentos;


� Também chamado “coleções de referência”

� É composta por um conjunto de documentos pré-selecionados, um conjunto de descrições de necessidades de informação usados para teste e um conjunto de julgamentos de relevância binários associados a cada par documento-consulta;

� O julgamento de relevância é binário: um documento é ou não relevante para uma dada consulta

13

Coleções para Teste� TREC

◦ Coleção de documentos de diversas fontes� Wall Street Journal

� Associated Press

� US Patents

� Financial Times

� etc...

� CACM

◦ Coleção de artigos publicados no periódico Communications of theACM, cujo primeiro número foi publicado em 1958;

◦ Primeiro periódico em Ciência da Computação;

� ISI

◦ Institute of Scientific Information (ISI)

◦ 1460 documentos

medidas de avaliação - unesp · 2019. 6. 4. · 2 medidas de avaliação o que se almeja ao se...

Documents