medidas de avaliação - unesp · 2019. 6. 4. · 2 medidas de avaliação o que se almeja ao se...

13
1 Período 12: Medidas de Avaliação Medidas de Avaliação Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida 0mais comum é o tempo e o espaço. Quanto menor o tempo de resposta e menor o espaço de memória (em disco ou RAM) necessário, melhor será o sistema; Em sistemas de recuperação de informação as buscas dos usuários são inerentemente vagas e imprecisas. A relevância dos documentos recuperados não é exata. Para avaliar um sistema de recuperação de informação é necessário medir a sua capacidade em atender as necessidades de informação do usuário. Isso é naturalmente problemático, dada a variabilidade de interpretação de um mesmo conjunto de resultadas de uma busca;

Upload: others

Post on 05-Feb-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

  • 1

    Período 12:

    Medidas de Avaliação

    Medidas de Avaliação� Para a maioria dos sistemas computacionais é necessário criar

    medidas para aferir sua eficácia e eficiência;

    � A medida 0mais comum é o tempo e o espaço. Quanto menor o tempo de resposta e menor o espaço de memória (em disco ou RAM) necessário, melhor será o sistema;

    � Em sistemas de recuperação de informação as buscas dos usuários são inerentemente vagas e imprecisas. A relevância dos documentos recuperados não é exata.

    � Para avaliar um sistema de recuperação de informação é necessário medir a sua capacidade em atender as necessidades de informação do usuário.

    � Isso é naturalmente problemático, dada a variabilidade de interpretação de um mesmo conjunto de resultadas de uma busca;

  • 2

    Medidas de Avaliação� O que se almeja ao se fazer uma busca em uma base documental é

    encontrar documentos que sejam úteis (relevantes) para satisfazer a uma necessidade de informação, evitando recuperar itens inúteis;

    � “Relevante”, “pertinente” são termos frequentemente utilizados para se referir a itens “úteis”;

    Avaliação da recuperação é um processo sistemático no qual se associa uma métrica quantitativa aos resultados produzidos por um sistema de RI em resposta a um conjunto de buscas. Essa métrica deve ser diretamente associada à relevância dos resultados para os usuários. Uma abordagem comum para calcular tal métrica é comparar o resultado produzido pelo sistema com os resultados sugeridos por humanos para o mesmo conjunto de buscas.

    BAEZA-YATES; RIBEIRO-NETO, 2013

    Paradigma de Cranfield

  • 3

    Paradigma de Cranfield

    � Avaliação sistemática de sistema de RI é resultado de experimentos iniciados no anos de 1950 por Cyril Cleverdon, que culminaram com os chamados experimentos de Cranfield;

    � Fornecem a base para a avaliação de sistemas de RI.

    Paradigma de Cranfield

    � Cranfield-1◦ Indexação manual de 18 mil documentos

    sobre engenharia aeronáutica (em 4 diferentes sistemas de indexação) e avaliação de 1.200 consultas;

    ◦ Os 4 sistemas de indexação eram praticamente equivalentes;

  • 4

    Paradigma de Cranfield

    � Cranfield-2◦ Indexação manual de 1.400 documentos e

    279 consultas;

    ◦ Seis estudantes passaram três meses examinando cada documento em relação a cada consulta e decidindo quais documentos eram relevantes;

    Paradigma de Cranfield

    � Cranfield-2

    ◦ Resultados:� Coleção de documentos, consultas e julgamentos de

    relevância para cada par documento-consulta;

    � Relação (inversa) entre precisão e revocação;

    � Em situações práticas, a maioria das buscas não requer revocação alta, pois os usuários requerem apenas algumas respostas relevantes. [Conclusão válida para o contexto da Web];

    � Estabeleceu a base para a experimentação moderna em RI;

    � Precisão e Revocação são métricas estabelecidas e amplamente utilizadas;

  • 5

    Paradigma de Cranfield

    � Cranfield-2◦ Desvantagens:� Simplista;

    � Necessidade de informação o usuário é considerada estática e a relevância de um documento é considerada independente da relevância de outros documentos;

    � Supõe que o julgamento de relevância é uniforme para uma população de usuários;

    � Considerando o ambiente Web, todas essas premissas são violadas;

    � Porém, o processo de avaliação dos experimentos Cranfield-2 continua a ser amplamente adotado.

    Medidas de Avaliação

  • 6

    Medidas de Avaliação

    � Após a execução de uma busca, pode-se dividir os documentos do corpus nos seguintes conjuntos:

    Relevantes não-Relevantes

    Recuperados

    não recuperados

    Medidas de Avaliação

    Documentos úteis para atender a

    necessidade de informação do

    usuário

    Documentos que não são úteis para o

    usuário

    Para qualquer necessidade sempre

    haverá mais documentos não úteis (-)

    do que úteis (+);

    O problema está em recuperar o

    maior número possível de itens úteis

    e o menor número possível de itens

    inúteis;

    O quadrado menor representa o

    resultado de uma busca.

  • 7

    Medidas de Avaliaçãoprecisão (precision)

    Foram recuperados 20 itens, sendo

    6 úteis e 14 inúteis

    srecuperado docs nº

    srecuperado relevantes docs nº Precisão =

    3,020

    6 Precisão ==

    Precisão = 30%

    Expressa o quanto o sistema é

    capaz de recuperar apenas itens

    úteis.

    Medidas de Avaliaçãorevocação (recall)

    Expressa o quanto o sistema é

    capaz de recuperar todos os itens

    úteis.

    relevantes docs nº

    srecuperado relevantes docs nº Revocação =

    5,012

    6 Revocação ==

    Revocação = 50%

    Dos 12 documentos úteis existente no

    corpus, apenas 6 foram recuperados

  • 8

    Medidas de Avaliaçãorevocação x precisão

    Para melhorar a revocação deve-se

    fazer uma busca mais genérica,

    representado pelo quadrado maior.

    %1818,049

    9 Precisão =≈=

    %7575,012

    9 Revocação ===

    Revocação

    Precisão

    Medidas de Avaliação

    Revocação x Precisão

  • 9

    Medidas de Avaliação

    � Apesar de muito utilizadas, as medidas de Precisão e Revocação apresentam alguns problemas:◦ A revocação máxima para uma determinada

    busca requer um conhecimento de todos documentos do corpus. Para bases documentais muito grandes isso é impossível;

    ◦ Precisão e Revocação avaliam diferentes aspectos do corpus. Seria apropriado uma única medida que combinasse as duas;

    Medidas de Avaliaçãooutras medidas

    � Média harmônica

    )(

    1

    )(

    1

    2 )(

    jPjr

    jF

    +

    =

    � Medida E

    Calcula a média harmônica entre as

    medidas Precisão ( P ) e Revocação ( r )

    )(

    1

    )(

    1 )(

    2

    2

    jPjr

    b

    bjE

    +

    +=

    Esta medida permite ao usuário escolher se ele está mais

    interessado em Revocação ou em Precisão.

    b > 1 o usuário está mais interessado em precisão.

    b < 1 o usuário está mais interessado em revocação.

  • 10

    Medidas de Avaliaçãomedidas orientadas ao usuário

    � As medidas Revocação e Precisão são baseadas na suposição de que o conjunto de documentos relevantes para uma busca é o mesmo, independente do usuário;

    � Porém, diferentes usuários podem ter uma interpretação diferente de qual documento é relevante ou não;

    � Para enfrentar esse problema, algumas medidas “orientadas ao usuário” foram criadas.

    Medidas de Avaliaçãomedidas orientadas ao usuário

  • 11

    Medidas de Avaliaçãomedidas orientadas ao usuário

    � Cobertura ( coverage )◦ Expressa a quantidade de documentos relevantes conhecidos

    pelo usuário que foram recuperados;

    ◦ Um alto valor de coverage indica que o sistema está encontrando a maioria dos documentos relevantes que o usuário esperava.

    � Novidade ( novelty )◦ Expressa a quantidade de documentos relevantes recuperados

    que não eram conhecidos (previamente) pelo usuário;

    ◦ Um alto valor de novelty indica que o sistema está revelando para o usuário muitos novos documentos relevantes que eram desconhecidos para ele.

    Coleções para Teste

  • 12

    Coleções para Teste

    � Críticas à Information Retrieval◦ Falta fundamentação básica� A natureza subjetiva da tarefa de decidir a

    relevância de um documento dificulta uma fundamentação teórica

    ◦ Carece de “campo de provas” e medidas consistentes� Nos anos de 1990. Conferência anual chamada

    TREC (Text REtrieval Conference) dedicada a experimentação com uma grande coleção de teste composta de milhões de documentos;

    Coleções para Teste

    � Também chamado “coleções de referência”

    � É composta por um conjunto de documentos pré-selecionados, um conjunto de descrições de necessidades de informação usados para teste e um conjunto de julgamentos de relevância binários associados a cada par documento-consulta;

    � O julgamento de relevância é binário: um documento é ou não relevante para uma dada consulta

  • 13

    Coleções para Teste� TREC

    ◦ Coleção de documentos de diversas fontes� Wall Street Journal

    � Associated Press

    � US Patents

    � Financial Times

    � etc...

    � CACM

    ◦ Coleção de artigos publicados no periódico Communications of theACM, cujo primeiro número foi publicado em 1958;

    ◦ Primeiro periódico em Ciência da Computação;

    � ISI

    ◦ Institute of Scientific Information (ISI)

    ◦ 1460 documentos