técnicas de recuperação de informação: filtragem, agrupamento · do usuário, o que difere dos...
Post on 27-Jan-2019
217 Views
Preview:
TRANSCRIPT
09/05/2017
1
Técnicas de recuperação de informação:filtragem, agrupamento
Filtragem
09/05/2017
2
Filtragem
� Nome usado para descrever uma variedade de
processos envolvendo a entrega de informação
para pessoas que precisam dela;
� Compreende um método para gerir grandes fluxos de informações, cujo objetivo é expor aos usuários apenas a informação relevante que atenda suas necessidades
� Consiste em analisar um fluxo de informações que
chega, comparar os documentos neste fluxo com
tópicos de interesse (perfil) do usuário e selecionar
os documentos pertinentes (BELKIN; CROFT,
1992)
Filtragem
� Sistema de filtragem
◦ Grande volume de informação não estruturada ou semiestruturada, geralmente textos;
◦ Baseado na preferências individuais ou de grupos (perfis).
◦ Tais perfis podem expressar o que tais indivíduos ou grupos querem, mas também o que não querem;
◦ Remove informação redundante ou não desejada de um fluxo (stream) de informações retornadas através de métodos computacionais automatizados ou semi-automatizados antes de sua apresentação ao usuário humano.
09/05/2017
3
Filtragem
� Os sistemas de filtragem de informação geralmente
dão uma maior ênfase na representação das
necessidades do usuário, isto é, na definição do perfil
do usuário, o que difere dos sistemas de recuperação
de informação.
� Além disso, um problema que parece alcançar maior
destaque em filtragem do que em recuperação de
informação é a representação de dados não textuais.
� Para Belkin e Croft (1992) “Filtragem de informação e
recuperação de informação são dois lados da mesma
moeda, trabalham para ajudar pessoas a obter
informações necessárias para executar suas tarefas”.
Filtragem
� Belkin e Croft (1992) veem a filtragem como um tipo especial de recuperação de informação, que herda alguns de seus problemas e resultados de pesquisa.
� Em comum está o objetivo de selecionar informações relevantes. Como diferenças citam:
◦ Frequência de uso
� Os sistemas de recuperação de informação são projetados para o uso ad-hoc, para satisfazer a necessidade de informação imediata e momentânea de um usuário;
� Os sistema de filtragem de informação são projetados para usuários de longo prazo com necessidades de informações de longo prazo e para uso repetitivo
◦ Representação das necessidade de informação
� Nos sistemas de recuperação de informação as necessidades dos usuários são expressadas por meio de expressões de busca (conclultas)
� Nos sistemas de filtragem as necessidades de informação de longo prazo são descritas por meio de perfis.
◦ Objetivo
� Os sistemas de recuperação de informação selecionam documentos relevantes a partir da especificação de uma expressão de busca;
� Os sistemas de filtragem eliminam dados irrelevantes de fluxos (stream) dados de entrada de acordo com o perfil do usuário
09/05/2017
4
Filtragem
◦ Base de dados
� Sistemas de recuperação de informação tratam com bases de dados
relativamente estáveis (ex.: artigos de periódicos)
� Sistemas de filtragem lidam com dados dinâmicos (ex.: mensagens de
e-mail.
◦ Tipo de usuários
� Sistemas de recuperação de informação atendem a usuários que não
são conhecidos pelo sistema; Qualquer pessoa que tenha acesso ao
sistema pode apresentar uma consulta.
� Usuário de sistemas de filtragem precisam ser conhecidos pelo
sistema; O sistema possui um modelo do usuário (perfil)
◦ Escopo do sistema
� Sistemas de filtragem se preocupam com questões sociais como a
modelagem de usuário e privacidade que são na maior parte do tempo
de nenhuma preocupação para os sistemas de IR
Filtragem
� Tipos
◦ Filtragem baseada em conteúdo;
◦ Filtragem colaborativa;
◦ Filtragem Híbrida.
09/05/2017
5
Filtragem
� Filtragem baseada em conteúdo
◦ Baseia-se na análise do conteúdo do item (documento) e no perfil do usuário.
◦ Envolve técnicas para:
� Representar os itens;
� Produzir o perfil de usuário;
� Comparar o perfil do usuário com a
representação do item.
Filtragem
� Baseada em conteúdo
◦ A filtragem é realizada por meio da comparação das representações dos documentos e o perfil do usuário;
◦ Cada documento é representado por um conjunto de descritores ou condições, tipicamente as palavras que ocorrem num documento ou metadados.
◦ Obtém-se o perfil do usuário através de Informações explícitas obtidas pelo próprio usuário, consultas,Aprendizagem dos itens que o usuário consome.
◦ Relevance feedback, algoritmos genéticos, redes neurais e classificadores bayesianos estão entre as técnicas de aprendizagem para detectar e aprender sobre o perfil do usuário.
09/05/2017
6
Filtragem
� Desvantagens da Filtragem Baseada em Conteúdo
◦ Limite na análise de conteúdo
� Só é eficaz se os itens tiveram a quantidade
considerável de informação armazenada de forma
textual.
◦ Superespecialização
� O usuário fica limitado a um grau especifico de
novidade, afetando a diversidade.
◦ Novos usuários
� Pois a avaliação do usuário é necessária para que o
sistema possa compreender e atender suas
preferências.
Filtragem
� Filtragem Colaborativa
◦ Complementa a filtragem baseada em conteúdo;
◦ Sistema específico no qual a filtragem da informação é auxiliada por um humano;
◦ Procuram predizer a pontuação de um item para um consumidor em particular, baseado em como outros usuários com gostos semelhantes ao usuário alvo que previamente pontuaram o mesmo item.
09/05/2017
7
Filtragem
� Filtragem Colaborativa
◦ Calcular o peso de cada usuário do sistema em relação à similaridade com o usuário alvo (métrica da similaridade)
◦ Selecionar um subconjunto de usuários com maiores similaridades para considerar predição.
◦ Normalizar as avaliações e computar as predições ponderando as avaliações dos vizinhos.
Filtragem
� Desvantagens da filtragem colaborativa
◦ Novos itens
� Novo item não será indicado até que tenha sido avaliado por um número considerável de usuários
◦ Novos usuários
� O insuficiente conhecimento do novo usuário afeta o estabelecimento de vizinhança.
◦ Dispersão
� Se um item for avaliado por poucas pessoas, este item raramente será recomendado.
◦ Escalabilidade
� Muitas avaliações pode ocasionar lentidão no calculo de similaridade..
(ADOMAVICIUS; TUZHILIN, 2005)
09/05/2017
8
Filtragem
� Filtragem Híbrida
◦ Combina os pontos fortes da filtragem baseada em
conteúdo e da filtragem colaborativa.
◦ Filtragem baseada em conteúdo
� Independência do usuário
� Indicação de itens ainda não avaliados por qualquer usuário
� Histórico de consumo
◦ Filtragem colaborativa
� Recomendação de itens diversos e inesperados
� Descoberta de novos relacionamentos entre usuários
� Histórico de avaliações em comum
Filtragem
� Método de hibridização
◦ Ponderada (Weighted)
� As pontuações das técnicas de filtragem são combinadas para produzir uma única
recomendação.
◦ Comutação (Switching)
� O sistema alterna entre as técnicas dependendo da situação atual.
◦ Misturada (Mixed)
� Recomendações de vários técnicas diferentes são apresentado ao mesmo tempo.
◦ Combinação de recurso (Feature combination)
� Características de diferentes técnicas são jogadas juntas em um único algoritmo de
recomendação.
◦ Cascata (Cascade)
� Uma técnica refina as recomendações dadas por outra.
◦ Aumento do recurso (Feature augmentation)
� A saída de uma técnica é utilizada como uma característica de entrada para outra.
(BURKE, 2002, p.7)
09/05/2017
9
Agrupamento(clustering)
Agrupamento
� Particionar objetos em grupos
(clusters)
◦ Agrupar por similaridades
◦ Separar por diferenças
� Descobrir categorias/classes maneira
não-supervisionada
◦ Classes não são fornecidas a priori
09/05/2017
10
Agrupamento
� Objetivo:
◦ Encontrar clusters em bases de documentos de texto
� Usos:
◦ Interfaces de resultados de busca
◦ Criar diretórios de documentos
◦ Reordenar resultados de busca
Algoritmo k-Means
� Algoritmo K-means
◦ Clusters definidos com base nos centróides: “centro de gravidade”, ou o ponto médio dos cluster
◦ Alocação dos objetos nos clusters feita com base na similaridade com o centróide
09/05/2017
11
x – documento
● - centróide
Agrupamento
� Algoritmo k-Means
1. Defina k centróides iniciais, escolhendo k documentos aleatórios da base;
2. Aloque cada documento para o cluster correspondente ao centróide mais similar;
3. Recalcule os centróides dos clusters.
4. Repita passo 2 e 3 até atingir um critério de parada
09/05/2017
12
Referências
Referências
� BELKIN, N.J.; CROFT, W.B. Information filtering and information
retrieval: Two sides of the same coin?. Communications of the ACM, v.35, n.12, p.29-38, dez., 1992.
top related