medidas de avaliação. para a maioria dos sistemas computacionais é necessário criar medidas para...

16
Medidas de Avaliação

Upload: joana-meneses-madeira

Post on 07-Apr-2016

216 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum

Medidas de Avaliação

Page 2: Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum

Medidas de AvaliaçãoMedidas de Avaliação

Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência;

A medida mais comum é o tempo e o espaço. Quanto menor o tempo de resposta e menor o espaço de memória (em disco ou RAM) necessário, melhor será o sistema;

Em sistemas de recuperação de informação as buscas dos usuários são inerentemente vagas e os documentos recuperados não são exatos e precisam ser ordenados (“rankiados”) de acordo com sua relevância em relação à expressão de busca.

Page 3: Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum

Medidas de AvaliaçãoMedidas de Avaliação

O que se almeja ao fazer uma busca em uma base documental é encontrar documentos que sejam úteis para satisfazer a uma necessidade de informação, evitando recuperar itens inúteis;

“Relevante”, “pertinente” são termos frequentemente utilizados para se referir a itens “úteis”;

Page 4: Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum

Medidas de AvaliaçãoMedidas de Avaliação Após a execução de uma busca, pode-se dividir os

documentos do corpus nos seguintes conjuntos:

Relevantes não-Relevantes

Recuperados

não recuperados

Page 5: Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum

Medidas de AvaliaçãoMedidas de Avaliação

Documentos úteis para atender a necessidade de informação do usuário

Documentos que não são úteis para o usuário

Para qualquer necessidade sempre haverá mais documentos não úteis (-) do que úteis (+);O problema está em recuperar o maior número possível de itens úteis e o menor número possível de itens inúteis;O quadrado menor representa o resultado de uma busca.

Page 6: Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum

Medidas de AvaliaçãoMedidas de Avaliaçãoprecisão (precisão (precisionprecision))

Foram recuperados 20 itens, sendo 6 úteis e 14 inúteis

srecuperado docs nºsrecuperado relevantes docs nº Precisão

3,0206 Precisão

Precisão = 30%

Expressa o quanto o sistema é capaz de recuperar apenas itens úteis.

Page 7: Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum

Medidas de AvaliaçãoMedidas de Avaliaçãorevocação (revocação (recallrecall))

Expressa o quanto o sistema é capaz de recuperar todos os itens úteis.

relevantes docs nº srecuperado relevantes docs nº Revocação

5,0126 Revocação

Revocação = 50%

Dos 12 documentos existente no corpus, apenas 6 foram recuperados

Page 8: Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum

Medidas de AvaliaçãoMedidas de Avaliaçãorevocação x precisãorevocação x precisão

Para melhorar a revocação deve-se fazer uma busca mais genérica, representado pelo quadrado maior.

%1818,0499 Precisão

%7575,0129 Revocação

Revocação

Precisão

Page 9: Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum

Medidas de AvaliaçãoMedidas de AvaliaçãoRevocação x Precisão

Page 10: Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum

Medidas de AvaliaçãoMedidas de Avaliação

Apesar de muito utilizadas, as medidas de Precisão e Revocação apresentam alguns problemas:◦ A revocação máxima para uma

determinada busca requer um conhecimento de todos documentos do corpus. Para bases documentais muito grandes isso é impossível;

◦ Precisão e Revocação avaliam diferentes aspectos do corpus. Seria apropriado uma única medida que combinasse as duas;

Page 11: Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum

Medidas de AvaliaçãoMedidas de Avaliaçãooutras medidasoutras medidas

Média harmônica

)(1

)(1

2 )(

jPjr

jF

Medida E

Calcula a média harmônica entre as medidas Precisão ( P ) e Revocação ( r )

)(1

)(

1 )( 2

2

jPjrb

bjE

Esta medida permite ao usuário escolher se ele está mais interessado em Revocação ou em Precisão.b > 1 o usuário está mais interessado em precisão.b < 1 o usuário está mais interessado em revocação

Page 12: Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum

Medidas de AvaliaçãoMedidas de Avaliaçãomedidas orientadas ao usuáriomedidas orientadas ao usuário

As medidas Revocação e Precisão são baseadas na suposição que o conjunto de documentos relevantes para uma busca é o mesmo, independente do usuário.

Porém, diferentes usuários podem ter uma interpretação diferente de qual documento é relevante ou qual não é.

Para enfrentar esse problema, algumas medidas “orientadas ao usuário” foram criadas.

Page 13: Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum

Medidas de AvaliaçãoMedidas de Avaliaçãomedidas orientadas ao usuáriomedidas orientadas ao usuário

Cobertura ( coverage )◦ Expressa a quantidade de documentos relevantes

(conhecidos) pelo usuário que foram recuperados;◦ Um alto valor de coverage indica que o sistema está

encontrando a maioria dos documentos relevantes que o usuário esperava.

Novidade, descoberta ( novelty )◦ Expressa a quantidade de documentos relevantes

recuperados que não eram conhecidos (previamente) pelo usuário;

◦ Um alto valor de novelty indica que o sistema está revelando para o usuário muitos novos documentos relevantes que eram desconhecidos para ele.

Page 14: Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum

Coleções para Teste

Page 15: Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum

Coleções para TesteColeções para Teste

Críticas à Information Retrieval◦Falta fundamentação básica

A natureza subjetiva à tarefa de decidir a relevância de um documento dificulta uma fundamentação teórica

◦Carece de “campo de provas” e medidas consistentes Anos de 1990.

Conferência anual chamada TREC (Text REtrieval Conference) dedicada a experimentação com uma grande coleção de teste composta de milhões de documentos;

Page 16: Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum

Coleções para TesteColeções para Teste TREC

◦ Coleção de documentos de diversas fontes Wall Street Journal Associated Press US Patents Financial Times etc...

CACM◦ Coleção de artigos publicados no periódico

Communications of the ACM, cujo primeiro número foi publicado em 1958;

◦ Primeiro periódico em Ciência da Computação; ISI

◦ Institute of Scientific Information (ISI)◦ 1460 documentos