medidas de avaliação - unesp · 2019. 6. 4. · 2 medidas de avaliação o que se almeja ao se...
TRANSCRIPT
-
1
Período 12:
Medidas de Avaliação
Medidas de Avaliação� Para a maioria dos sistemas computacionais é necessário criar
medidas para aferir sua eficácia e eficiência;
� A medida 0mais comum é o tempo e o espaço. Quanto menor o tempo de resposta e menor o espaço de memória (em disco ou RAM) necessário, melhor será o sistema;
� Em sistemas de recuperação de informação as buscas dos usuários são inerentemente vagas e imprecisas. A relevância dos documentos recuperados não é exata.
� Para avaliar um sistema de recuperação de informação é necessário medir a sua capacidade em atender as necessidades de informação do usuário.
� Isso é naturalmente problemático, dada a variabilidade de interpretação de um mesmo conjunto de resultadas de uma busca;
-
2
Medidas de Avaliação� O que se almeja ao se fazer uma busca em uma base documental é
encontrar documentos que sejam úteis (relevantes) para satisfazer a uma necessidade de informação, evitando recuperar itens inúteis;
� “Relevante”, “pertinente” são termos frequentemente utilizados para se referir a itens “úteis”;
Avaliação da recuperação é um processo sistemático no qual se associa uma métrica quantitativa aos resultados produzidos por um sistema de RI em resposta a um conjunto de buscas. Essa métrica deve ser diretamente associada à relevância dos resultados para os usuários. Uma abordagem comum para calcular tal métrica é comparar o resultado produzido pelo sistema com os resultados sugeridos por humanos para o mesmo conjunto de buscas.
BAEZA-YATES; RIBEIRO-NETO, 2013
Paradigma de Cranfield
-
3
Paradigma de Cranfield
� Avaliação sistemática de sistema de RI é resultado de experimentos iniciados no anos de 1950 por Cyril Cleverdon, que culminaram com os chamados experimentos de Cranfield;
� Fornecem a base para a avaliação de sistemas de RI.
Paradigma de Cranfield
� Cranfield-1◦ Indexação manual de 18 mil documentos
sobre engenharia aeronáutica (em 4 diferentes sistemas de indexação) e avaliação de 1.200 consultas;
◦ Os 4 sistemas de indexação eram praticamente equivalentes;
-
4
Paradigma de Cranfield
� Cranfield-2◦ Indexação manual de 1.400 documentos e
279 consultas;
◦ Seis estudantes passaram três meses examinando cada documento em relação a cada consulta e decidindo quais documentos eram relevantes;
Paradigma de Cranfield
� Cranfield-2
◦ Resultados:� Coleção de documentos, consultas e julgamentos de
relevância para cada par documento-consulta;
� Relação (inversa) entre precisão e revocação;
� Em situações práticas, a maioria das buscas não requer revocação alta, pois os usuários requerem apenas algumas respostas relevantes. [Conclusão válida para o contexto da Web];
� Estabeleceu a base para a experimentação moderna em RI;
� Precisão e Revocação são métricas estabelecidas e amplamente utilizadas;
-
5
Paradigma de Cranfield
� Cranfield-2◦ Desvantagens:� Simplista;
� Necessidade de informação o usuário é considerada estática e a relevância de um documento é considerada independente da relevância de outros documentos;
� Supõe que o julgamento de relevância é uniforme para uma população de usuários;
� Considerando o ambiente Web, todas essas premissas são violadas;
� Porém, o processo de avaliação dos experimentos Cranfield-2 continua a ser amplamente adotado.
Medidas de Avaliação
-
6
Medidas de Avaliação
� Após a execução de uma busca, pode-se dividir os documentos do corpus nos seguintes conjuntos:
Relevantes não-Relevantes
Recuperados
não recuperados
Medidas de Avaliação
Documentos úteis para atender a
necessidade de informação do
usuário
Documentos que não são úteis para o
usuário
Para qualquer necessidade sempre
haverá mais documentos não úteis (-)
do que úteis (+);
O problema está em recuperar o
maior número possível de itens úteis
e o menor número possível de itens
inúteis;
O quadrado menor representa o
resultado de uma busca.
-
7
Medidas de Avaliaçãoprecisão (precision)
Foram recuperados 20 itens, sendo
6 úteis e 14 inúteis
srecuperado docs nº
srecuperado relevantes docs nº Precisão =
3,020
6 Precisão ==
Precisão = 30%
Expressa o quanto o sistema é
capaz de recuperar apenas itens
úteis.
Medidas de Avaliaçãorevocação (recall)
Expressa o quanto o sistema é
capaz de recuperar todos os itens
úteis.
relevantes docs nº
srecuperado relevantes docs nº Revocação =
5,012
6 Revocação ==
Revocação = 50%
Dos 12 documentos úteis existente no
corpus, apenas 6 foram recuperados
-
8
Medidas de Avaliaçãorevocação x precisão
Para melhorar a revocação deve-se
fazer uma busca mais genérica,
representado pelo quadrado maior.
%1818,049
9 Precisão =≈=
%7575,012
9 Revocação ===
Revocação
Precisão
Medidas de Avaliação
Revocação x Precisão
-
9
Medidas de Avaliação
� Apesar de muito utilizadas, as medidas de Precisão e Revocação apresentam alguns problemas:◦ A revocação máxima para uma determinada
busca requer um conhecimento de todos documentos do corpus. Para bases documentais muito grandes isso é impossível;
◦ Precisão e Revocação avaliam diferentes aspectos do corpus. Seria apropriado uma única medida que combinasse as duas;
Medidas de Avaliaçãooutras medidas
� Média harmônica
)(
1
)(
1
2 )(
jPjr
jF
+
=
� Medida E
Calcula a média harmônica entre as
medidas Precisão ( P ) e Revocação ( r )
)(
1
)(
1 )(
2
2
jPjr
b
bjE
+
+=
Esta medida permite ao usuário escolher se ele está mais
interessado em Revocação ou em Precisão.
b > 1 o usuário está mais interessado em precisão.
b < 1 o usuário está mais interessado em revocação.
-
10
Medidas de Avaliaçãomedidas orientadas ao usuário
� As medidas Revocação e Precisão são baseadas na suposição de que o conjunto de documentos relevantes para uma busca é o mesmo, independente do usuário;
� Porém, diferentes usuários podem ter uma interpretação diferente de qual documento é relevante ou não;
� Para enfrentar esse problema, algumas medidas “orientadas ao usuário” foram criadas.
Medidas de Avaliaçãomedidas orientadas ao usuário
-
11
Medidas de Avaliaçãomedidas orientadas ao usuário
� Cobertura ( coverage )◦ Expressa a quantidade de documentos relevantes conhecidos
pelo usuário que foram recuperados;
◦ Um alto valor de coverage indica que o sistema está encontrando a maioria dos documentos relevantes que o usuário esperava.
� Novidade ( novelty )◦ Expressa a quantidade de documentos relevantes recuperados
que não eram conhecidos (previamente) pelo usuário;
◦ Um alto valor de novelty indica que o sistema está revelando para o usuário muitos novos documentos relevantes que eram desconhecidos para ele.
Coleções para Teste
-
12
Coleções para Teste
� Críticas à Information Retrieval◦ Falta fundamentação básica� A natureza subjetiva da tarefa de decidir a
relevância de um documento dificulta uma fundamentação teórica
◦ Carece de “campo de provas” e medidas consistentes� Nos anos de 1990. Conferência anual chamada
TREC (Text REtrieval Conference) dedicada a experimentação com uma grande coleção de teste composta de milhões de documentos;
Coleções para Teste
� Também chamado “coleções de referência”
� É composta por um conjunto de documentos pré-selecionados, um conjunto de descrições de necessidades de informação usados para teste e um conjunto de julgamentos de relevância binários associados a cada par documento-consulta;
� O julgamento de relevância é binário: um documento é ou não relevante para uma dada consulta
-
13
Coleções para Teste� TREC
◦ Coleção de documentos de diversas fontes� Wall Street Journal
� Associated Press
� US Patents
� Financial Times
� etc...
� CACM
◦ Coleção de artigos publicados no periódico Communications of theACM, cujo primeiro número foi publicado em 1958;
◦ Primeiro periódico em Ciência da Computação;
� ISI
◦ Institute of Scientific Information (ISI)
◦ 1460 documentos