Download - Apresentação da Dissertação
![Page 1: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/1.jpg)
Explorando o Feedback do Usuário para Classificação de Fontes de Dados em Sistemas de Integração Pay-as-you-go
Aluno: Hélio Rodrigues de Oliveira
Orientadora: Bernadette Farias Lóscio
Centro de Informática (CIn)
Pós-Graduação em Ciência da Computação
Universidade Federal de Pernambuco (UFPE)
![Page 2: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/2.jpg)
• Motivação
• Objetivos e Contribuições do Trabalho
• Fundamentação Teórica
• Abordagem para Classificação de Fontes de Dados
utilizando o Feedback do Usuário
• Implementação e Experimentos
• Considerações Finais
• Trabalhos Futuros
Roteiro
![Page 3: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/3.jpg)
• Integração de Dados é uma importante área de pesquisa!– Os sistemas de integração de dados buscam oferecer uma visão
unificada de dados distribuídos em fontes autônomas e heterogêneas
• Com o crescimento da Web, intensificou-se a necessidade de soluções de integração de dados!
– Grandes volumes de dados e facilidade de acesso
• A facilidade de acesso a grandes volumes de dados traz vantagens e desvantagens
– Maior quantidade de informação– Porém, nem sempre confiável
• Os sistemas de integração de dados Pay-as-you-go podem ser considerados
Motivação
![Page 4: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/4.jpg)
Pergunta: Que fontes são mais relevantes para um Sistema de Integração de Dados
Pay-as-you-go?
• Possível Solução:– Definição de uma técnica para medir a relevância da fonte de
dados, e a partir desta medida, classificá-las– Utilizar o feedback do usuário como parte do cálculo da
relevância
Motivação
![Page 5: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/5.jpg)
• Objetivo Geral:
Especificação de uma abordagem para auxiliar a seleção de fontes de dados a serem incluídas em um sistema de integração de dados pay-as-you-go
Objetivos
![Page 6: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/6.jpg)
• Objetivos Específicos:– Estudos dirigidos na área de integração de dados pay-as-you-
go, feedback do usuário e seleção de fontes– Definição de métricas para o cálculo de relevância das fontes de
dados– Formalização do feedback do usuário– Especificação de uma abordagem para classificação e seleção
de fontes de dados utilizando o feedback do usuário– Implementação dos algoritmos de análise de relevância e
inferência de feedback– Implementação do protótipo para auxílio nos testes– Realização de experimentos com a aplicação da abordagem
sobre fontes de dados bibliográficos
Objetivos
![Page 7: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/7.jpg)
• Integração de Dados• Feedback do usuário• Seleção de Fontes
Fundamentação Teórica
![Page 8: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/8.jpg)
• Busca oferecer uma visão unificada dos dados das fontes
• Diversas soluções propostas– Abordagens Convencionais (mediadores / datawarehouse)– PDMS– Sistemas de integração de dados pay-as-you-go
Integração de Dados
![Page 9: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/9.jpg)
Abordagem Convencional
![Page 10: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/10.jpg)
PDMS
![Page 11: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/11.jpg)
• Baixo custo de inicialização• Geração incremental e automática de mapeamentos• Resultados podem ser imprecisos• Flexível e escalável• Uso do feedback do usuário para refinamento dos
mapeamentos• Facilidade de inclusão de novas fontes• Uma nova fonte pode não ser relevante
Abordagem Pay-as-you-go
![Page 12: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/12.jpg)
• Integração de Dados• Feedback do usuário• Seleção de Fontes
Fundamentação Teórica
![Page 13: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/13.jpg)
• O feedback do usuário é um tema bastante discutido• Necessidade de obter informações essenciais através
do usuário, de forma explícita ou não• Feedback em Recuperação da Informação
– Explícito– Implícito– Pseudo Feedback
• Feedback em Sistemas de Int. Pay-as-you-go– Conjunto de anotações providas pelo usuário sobre um artefato– Artefato: consultas, mapeamentos, esq. mediação, dentre outros
Feedback do Usuário
![Page 14: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/14.jpg)
• Em nossa abordagem:– Feedback explícito– Anotação sobre os resultados das consultas– Formalização do feedback para obtenção da medida
de relevância
Feedback do Usuário
![Page 15: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/15.jpg)
• Integração de Dados• Feedback do usuário• Seleção de Fontes de Dados
Fundamentação Teórica
![Page 16: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/16.jpg)
• A grande quantidade de fontes de dados disponíveis exige a seleção de fontes relevantes
• A seleção é necessário devido a:– Dinamicidade das fontes– Heterogeneidade dos esquemas– Qualidade dos dados
Selecionar fontes relevantes tornou-se essencial
Seleção de Fontes de Dados
![Page 17: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/17.jpg)
• As abordagens possuem dois direcionamentos• Soluções baseadas em palavra-chave
– Técnicas utilizadas em recuperação da informação– Bag of words– estrutural
• Soluções baseadas em consultas federadas– Consultas estruturadas– Estrutural e/ou semântica– Reescrita de consultas
Seleção de Fontes
![Page 18: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/18.jpg)
Trabalhos Relacionados
![Page 19: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/19.jpg)
• Auxiliar a seleção de fontes de dados a serem incluídas em um sistema de integração de dados pay-as-you-go
• Classificação de fontes candidatas de acordo com a relevância
• Análise de relevância baseada no feedback do usuário
Abordagem Proposta
![Page 20: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/20.jpg)
• Sistema de Integração de Dados Pay-as-you-go I=(Si,Qi)• Conjunto de fontes de dados inicial (Si)
• Consultas de integração (Qi)
• Termo do resultado da consulta (ti)
Abordagem - Definições
![Page 21: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/21.jpg)
• Anotação de feedback
– T: tupla– V: valor (True positive, False Positive, False negative)
• Feedback de uma consulta q
• Feedback do usuário u
Abordagem - Definições
![Page 22: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/22.jpg)
• Precision do feedback da consulta q
• Recall do feedback da consulta q
• F-measure do feedback da consulta q
Abordagem - Definições
![Page 23: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/23.jpg)
Problema. Seja I = (QI ,SI) um SID pay-as-you-go, o feedback do usuário UF(u) com relação à QI e o
conjunto de fontes candidatas DSI a serem adicionadas. Devemos classificar as fontes contidas em DSI, para auxiliar o usuário na escolha de fontes relevantes, que poderão ser adicionadas no conjunto SI. Consideramos que uma fonte ds é relevante, com respeito a QI , se os resultados obtidos em QI melhoram, de acordo com os
requisitos do usuário, após a adição de ds a SI.
Formalização do Problema
![Page 24: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/24.jpg)
• Muitos trabalhos consideram apenas a estrutura• Dados incompletos e incorretos podem ser retornados• Necessário capturar os requisitos que um SID espera
atender (consultas)• Utilizamos dois conceitos:• Peso de uma consulta (w)
– frequência
• Benefício de uma fonte em relação à consulta (B)
Análise de relevância
![Page 25: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/25.jpg)
• Relevância de uma fonte de dados candidata (R)
Análise de relevância
![Page 26: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/26.jpg)
Algoritmo
![Page 27: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/27.jpg)
Algoritmo
![Page 28: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/28.jpg)
• Sist. Int. Pay-as-you-go sobre dados bibliográficos em Ciência da Computação
• Bases candidatas: ds1, ds2 e ds3
• Consultas de integração: q1, q2 e q3– Consulta 1. Retorne os títulos dos artigos publicados em
journals no ano de 2011.– Consulta 2. Retorne os artigos que citam referências ao
SIGMOD 2011.– Consulta 3. Retorne o nome dos autores que publicaram no I-
SEMANTICS 2011.Objetivo: classificar as fontes segundo os valores de relevância
obtidos
Exemplo
![Page 29: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/29.jpg)
Caso da fonte candidata ds1:Exemplos de anotações obtidas sobre os resultados das
consultas sobre ds1 – UF(u)ufq1 = { <“Creative Learning with Serious Games”,True Positive>,
<“The Challenges in Developing E-Content”,False Positive>,<“Automated Assessment, Face to Face”,False Negative>}
ufq2 = { <“Processing theta-joins using MapReduce”,True Positive>,<“Automated Assessment, Face to Face”,False Positive>}
ufq3 = { <"Nikola Tomasevic",True Positive>,<"Philipp Heim",False Negative>,<"Hélio Rodrigues",False Positive>}
Exemplo
![Page 30: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/30.jpg)
1) Inicialmente, obtém-se os valores de F-measure. Neste caso temos:
• Fq1 = 0.95• Fq2 = 0.67• Fq3 = 0.78
2) Próximo passo executar a inferência do feedback. O resultado gera um conj. de anotações UF'(u).
Exemplo
![Page 31: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/31.jpg)
Exemplos de anotações obtidas sobre os resultados das consultas – UF’(u)
uf′q1 = { <“Creative Learning with Serious Games”,True Positive>,<“The Challenges in Developing E-Content”,False Positive>,<“Automated Assessment, Face to Face”,True Positive>}
uf′q2 = { <“Interaction record matching”, False Negative>,<“Automated Assessment, Face to Face”, False Positive>}
uf′q3 = { <"Nikola Tomasevic",True Positive>,<"Philipp Heim",False Negative>}
Exemplo
![Page 32: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/32.jpg)
3) Obtém-se os valores de F'-measure. Neste caso temos:• F'q1 = 0.85• F'q2 = 0.9• F'q3 = 0.8
4) A partir de F e F', calculamos os valores de benefícios para cada consulta– B(ds1,q1) = 0.89– B(ds1,q2) = 1.34– B(ds1,q3) = 1.02
Exemplo
![Page 33: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/33.jpg)
5) Consideramos os pesos das consultas iguais a 1.
6) Por fim, calculamos o valor de R(ds1) = 4.32
Repetindo os passos para ds2 e ds3, obtemos:– R(ds2) = 4.26– R(ds3) = 3.69
A classificação final em ordem decrescente no valor de relevância seria: (ds1, ds2, ds3).
Exemplo
![Page 34: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/34.jpg)
• Protótipo DSFilter para validação dos experimentos• Arquitetura 3 camadas• Componentes principais:
– GUI– Gerenciador de Consultas– Gerenciador de Feedback– Analisador de Relevância– Gerenciador do Repositório de Dados
Implementação
![Page 35: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/35.jpg)
Arquitetura
![Page 36: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/36.jpg)
Casos de Uso
![Page 37: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/37.jpg)
• Cenário: domínio de dados bibliográficos em Ciência da Computação
• Modelo de dados: RDF• Entradas:
– Qi : 13 consultas SPARQL– Si : DBLP– DS : 30 datasets candidatos
Experimento
![Page 38: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/38.jpg)
• Máquina utilizada:– DELL Inspiron– Core i7 2 x 2.10 GHz– 8GB RAM– SO Linux– Java JDK 1.7
• Outras tecnologias: Jena API, Jena TDB, PostgreSQL
• O experimento executa 12 testes de cálculo de relevância para cada fonte candidata em DS
Experimento
![Page 39: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/39.jpg)
Cada teste considera três critérios/variáveis– Número de consultas– Número de anotações– Tipos de anotações
Experimento
![Page 40: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/40.jpg)
• A partir destes testes, foram realizadas três análises:– Quantidade de consultas– Quantidade de anotações– Tipos de anotações de feedback
Experimento
![Page 41: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/41.jpg)
• Análise 1: Quantidade de consultas
Experimento
![Page 42: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/42.jpg)
• Análise 2: Quantidade de anotações
Experimento
![Page 43: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/43.jpg)
• Análise 3: Tipos de anotações de feedback
Experimento
![Page 44: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/44.jpg)
• Quanto maior o número de anotações corretas, mais confiáveis serão os valores de Relevância
• Ao aumentarmos o número de anotações, aumentando o valor de R. Ou seja, se a base´já era considerada boa, o valor vai tender a ser melhor ainda
• O feedback é o ponto-chave desse comportamento de R• O processo não garante que fontes boas terão altos
valores de R• Mas o processo garante que fontes ruins não terão altos
valores de relevância
Experimento - Considerações
![Page 45: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/45.jpg)
• Abordagem para classificação de fontes de dados– Necessidade dos sistemas e aplicações em selecionar fontes
relevantes– Foco em sistemas de integração pay-as-you-go, porém
extensível a qualquer abordagem– Feedback do usuário como foco central do processo de análise
de relevância– Independência do modelo de dados
• Experimentos– Avaliação do comportamento do valor de relevância– Influência da qualidade do feedback no resultado final
Considerações Finais
![Page 46: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/46.jpg)
• Contribuições– Especificação da Abordagem
• Formalização do Feedback do Usuário• Definição da medida de relevância• Especificação do processo de inferência de feedback
– Desenvolvimento de um protótipo
• Publicação– Feedback-based data set recommendation for building linked data
applications. In Proceedings of the 8th International Conference on Semantic Systems, I-SEMANTICS, pages 49–55, Graz, Austria.
– Link
Considerações Finais
![Page 47: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/47.jpg)
• Tratamento do Feedback para vários usuários• Melhoria das técnicas de inferência das anotações de
feedback• Realização de um checkup das fontes de dados na Web• Avaliação da qualidade da abordagem
Trabalhos Futuros
![Page 48: Apresentação da Dissertação](https://reader034.vdocuments.com.br/reader034/viewer/2022052622/5590de8f1a28ab32578b46a5/html5/thumbnails/48.jpg)
Obrigado!