integracao dados ontem hoje e sempre

48
Ontem, hoje e sempre Bernadette Farias Lóscio [email protected] Integração de Dados:

Upload: berna-loscio

Post on 19-Jun-2015

522 views

Category:

Technology


0 download

TRANSCRIPT

2. motivao ... ... ...Distribuio Heterogeneidade Autonomia Transparncia 2 3. agenda Sistemas de integrao de dados Evoluo das solues Arquiteturas/Abordagens Integrao semntica Dataspaces/pay as you go Concluses 3 4. sistemas de integrao de dados Data integration systems offer uniform access to a set ofautonomous and heterogeneous data sources. Alon Halevy4 5. sistemas de integrao de dados O nmero de fontes de dados pode crescer As fontes de dados podem ser estruturadas ou no Heterogeneidade em diferentes nveis 5 6. sistemas de integrao de dadosintegrao de dados um processo ! entenderDados, propriedades,valores, significadosMetadados sofundamentais! padronizarDefinir terminologia, comolidar com objetos evalores inconsistentes,definir esquema integradoespecificar Configurar o mecanismode integraoexecutar Integrar!!!(materializao x mediao)Beauty and Beast: The Theory and Practice of Information Integration , [Hass, 2007 ] 6 7. sistemas de integrao de dadosThe integration process is iterative,and never-ending.Change is constant...Laura Haas7 8. sistemas de integrao de dadosThe goal of data integration is to build tools that make it easier to build dataintegration applications, rather than completely automating the process.Alon Halevy 8 9. evoluo das solues...Dataspaces Integrao de dados usando web servicesSistemas baseados em ontologiasSistemas baseados em agentes Sistemas de mediao Sistemas de bancos de dados mltiplos Aplicaes de banco de dados 9 10. evoluo das solues/aplicaesaplicao ... aplicaomediao, datawarehouse, P2P,dataspace, agentes, Camada de integraoontologias, servios web, informaes de dadoscontextuaisdados governamentais, biolgicos, mdicos, ... dados na web...fontes de dados10 11. arquiteturas/abordagensarquitetura de mediadores[Lscio, 1998] 11 12. arquiteturas/abordagens reformulao de consultas - mediao[Lscio, 1998]12 13. arquiteturas/abordagens reformulao de consultas - mediao[Lscio, 1998]13 14. arquiteturas/abordagens reformulao de consultas - mediao[Lscio, 1998]14 15. arquiteturas/abordagens formalizando...Um sistema de integrao de dados(mediao) uma tripla (G, S, M), onde: G o esquema global S o esquema fonte M o mapeamento entre G e SData Integration: A theoretical perspective , [Lenzerini, 2002]15 16. arquiteturas/abordagens (mapeamentos semnticos)esquema G global... M ...... ... esquemaesquema esquema locallocal local S 16 17. arquiteturas/abordagens (mapeamentos semnticos) esquemaGglobal ... Como conceitosnas fontes correspondem a conceitos no ... esquema global? ... ...esquema esquema esquemalocal local local S 17 18. arquiteturas/abordagens (mapeamentos semnticos)R Name Surname Age Salary S1 N SN A S2N SN S D Gerao dos mapeamentos semnticos 1 identificao de correspondncias (matchings) 2 gerao das expresses de mapeamento (mappings) Abordagens para definio de mapeamentos semnticos: GAV e LAV18 19. arquiteturas/abordagens (mapeamentos semnticos)[Souza, 2009] R Name Surname Age Salary global schemaS1 N SN A S2N SNS D local schemas In this example, the GAV mapping would be: R(Name, Surname, Age, Salary) :- S1(N,SN,A), S2(N, SN, S) Q(S):- R(Name, Surname, Age, Salary), A = 40 view Q(S):- S1(N, SN,A), S2(N, SN, S, D), A = 40 unfolding 19 20. arquiteturas/abordagens (mapeamentos semnticos)[Souza, 2009] R1 NameSurname Age SalaryR2 Name DeptS1 N SN AS2 N SNSDIn this example, the LAV mapping would be:S1(N,SN,A) :- R1(Name, Surname, Age)S2(N,SN,S,D) :- R1(Name, Surname, Salary), R2(Name, Dept)Q(Name, Surname, Age, Dept):- R1(Name, Surname, Age, Salary),R2(Name, Dept), A < 50, D = Education. view Q (N, SN, A) :- S1(N,SN,A), S2(N,SN,S,D) rewriting 20 21. integrao semntica Agrupar e combinar dados de diferentes fontes considerando uma semntica explcita21 22. integrao semntica ontologiasZelia GattaiSalvadormarried isInlivedInJorge AmadoBahiawrotewrotepartOf Mar MortoBrazilTieta do Agreste partOf Cear22 23. integrao semntica (abordagens)1 uma nica ontologiaontologia global2 mltiplas ontologias ontologiaontologiaontologia locallocallocalOntology-Based Integration of Information A Survey of Existing Approaches ,[ Wache et. al, 2001 ]23 24. integrao semntica - (abordagens)3 abordagem hbrida vocabulrio compartilhado ontologiaontologia ontologia locallocal localOntology-Based Integration of Information A Survey of Existing Approaches ,[ Wache et. Al, 2001 ]24 25. dataspaces/pay as you go Problem: Querying Several Sources What is the impact of global warmingQueryin Zurich???? ?Systems DataSourcesEmail WebDB LaptopServer Server ServeriTrails: Pay-as-you-go Information Integration in Dataspaces, [Salles, 2007] 25 26. dataspaces/pay as you go Job!Solution 1: Use a Search Engine Queryglobal warming zurichGraph IRSearch Engine SystemDrawback: Query semantics are not precise!TopX [VLDB05], FleXPath [SIGMOD04], XSearch [VLDB03], XRank [SIGMOD03]text, text,text, text,links linkslinks links DataSources[Salles, 2007]EmailWebDBLaptopServerServer Server 26 27. dataspaces/pay as you goSolution 2: Use an InformationIntegration System//Temperatures/*[city =zurich ] Query . ...Information...Temps CitiesIntegration Drawback: Too much effort to provide... System CO2System Sunspots schema mappings![VLDB96]), GAV (e.g. [ICDE95]), LAV (e.g. GLAV [AAAI99], P2P (e.g. [SIGMOD04])missingmissing schemaschemaschema schemamapping mappingmappingmapping[Salles, 2007] DataSources Email WebDBLaptop Server Server Server 27 28. dataspaces/pay as you go Research Challenge:Is There an Integration Solution in-between These TwoExtremes?global warming zurich//Temperatures/*[city = global warming zurichzurich ]? . . ....Graph IRDataspace ... InformationSearch EngineTemps Cities Integration System... CO2 Sunspots System Pay-as-you-go full-blown text,Information schema linkstext, text,text, text, mappings Integrationlinks linkslinks links[Salles, 2007]Data Data SourcesSourcesEmailWebDBDataspace Vision byLaptop Franklin, Halevy, and MaierServerServer Server [SIGMOD Record 05]28 29. dataspaces/pay as you go[Halevy, 2006] 29 30. dataspaces/pay as you go algumas diferenas... Mapeamentos semnticos e esquema demediao sero criados automaticamente(porm, podem ser aproximados) Diferentes mecanismos de consulta(respostas aproximadas ou parciais)A semntica poder ser aperfeioada com o tempo 30 31. dataspaces/pay as you goThe vision of dataspaces has been articulatedas providing various of the benefits of classicaldata integration, but with reduced up-frontcosts, combined with opportunities forincremental refinement, enabling a pay asyou go approach. [Hedeler 2009] Dimensions of Dataspaces31 32. dataspaces/pay as you goThis paper defines a collection of dimensions that capture both the components that a dataspace management system may containand the lifecycle it may support. [Hedeler 2009] Dimensions of Dataspaces 32 33. dataspaces/pay as you go MotivaoDataspaces Custo baixo Integrao por demanda Baixa qualidade (incerteza) Podem visar colees de dados diversoscomo: arquivos pessoais, dados de empresasou a prpria web 33 34. dataspaces/pay as you goQuadro de ClassificaoTempo de vida de um dataspace Curto prazo Mdio prazo Longo prazo Diferentes contextos, diferentes tempos devida 34 35. dataspaces/pay as you goQuadro de ClassificaoCiclo de vida do dataspace Diferentes contextos necessitam apenas deum subconjunto do ciclo de vida conceitualFases do ciclo de vida Inicializao Teste/avaliao Implantao Manuteno Uso e melhoria 35 36. dataspaces/pay as you goQuadro de Classificao36 37. dataspaces/pay as you go Fase de Inicializao As dimenses que caracterizam a fase de inicializao de um dataspace esto relacionadas com o processo e suas entradas ou com a sada do processo importante entender que... Matching = conjunto de correspondncias Mapping = regras utilizadas para executar as tradues entre esquemas37 38. dataspaces/pay as you goFase de InicializaoIdentificao de fontes Geral ou especfico No-estruturado, semi-estruturado ouestruturado Local ou distribudo 38 39. dataspaces/pay as you go Fase de InicializaoEsquema de integrao (projeto e derivao) Manual, semi-automtico ou automtico Unio ou merge de esquemas Escopo geral ou especfico Um score de incerteza pode ser relacionado aoesquema de integrao39 40. dataspaces/pay as you go Fase de InicializaoMatchings e sua identificao Entre fontes locais, entre fontes locais e oesquema de integrao Manual, semi-automtico ou automtico Incerteza (score) Esquema, instncia ou dados de treinamento 40 41. dataspaces/pay as you goFase de InicializaoMappings e sua identificao Sempre expressos entre esquemas locais e oesquema de integrao O processo de derivao pode ser automtico, semi-automtico ou manual Um grau de incerteza pode ser acrescentado aosmapeamentos (score) Informaes sobre instncias, esquemas e matchingspodem ser usadas na identificao de mapeamentos 41 42. dataspaces/pay as you go Fase de InicializaoRecursos de dados resultantes Virtual, parcialmente materializada oumaterializada Grau de incerteza (score) Duplicatas ou conflitos: pode coexistir ou no 42 43. dataspaces/pay as you go Fase de Uso: busca/consultaAvaliao (resultados de concultas) Completa (comp) Parcial (part)Se mltiplas fontes so consultadas? Combinao de Resultados (Merge ou Union)Verificao de Incerteza Scores ou Ranking43 44. dataspaces/pay as you go Fase de Manuteno e Melhoria Manuteno: lida com o fato das fontes dedados serem autnomas Melhoria: visa aperfeioar os resultados deintegrao ao longo do tempo Mesmos passos da fase de inicializao comalgumas adies: Feedback para o usurio Novos alinhamentos e mapeamentos, no caso deatualizae, ou seja, quando as fontes somodificadas) 44 45. dataspaces/pay as you go Fase: Manuteno e MelhoriaManuteno DSMS precisam ser capazes de lidar com a evoluodas fontes de dados (adio e/ou remoo de fontes) DSMS deve exigir pouco ou nenhum esforo manualpara responder a essas mudanas Benefcios: Reuso de tarefas de integraes j feitas Matchings, mapeamentos, esquemas de integrao e feedback do usurio45 46. dataspaces/pay as you go Fase: Manuteno e MelhoriaMelhoria Aquisio de feedback sobre diferentes recursos de dados Alinhamentos Mapeamentos Esquema de integrao Consultas Uso de Feedback Implcito Explicito46 47. dataspaces/pay as you go Propostas de Dataspaces ALADIN SEMEX iMeMeX PayGo UDI 47 48. algumas referncias... Arajo, F.F.; Pinheiro, A. M.; Farias, K.M.; Lscio, F. B; Oliveira, D.M. (2008) FlagelLink: ADecision Support System for Distributed Flagellar Data using Data Warehouse . In: To the 23rdAnnual ACM Symposium on Applied Computing. Lscio, B.F. 1998, Atualizao de Mltiplas Bases de Dados atravs de Mediadores, M.S. thesis,Computer Science Department, University Federal of Cear. Lscio, B. F. Managing the Evolution of XML-based Mediation Queries, PhD thesis, InformaticsCenter- Federal University of Pernambuco, 2003. Breitman, K. K.; Casanova, M. A.; Truszkowski, W. (2007) Semantic Web: Concepts, Technologiesand Applications. Londres: Springer, 2007, v.1. p.337. Guarino, N. (1998) Formal Ontology and Information Systems. In N. Guarino, (Ed.) FormalOntology in Information Systems, pp. 3-15, IOS Press, Amsterdam, Netherlands. Uschold, M., Gruninger, M. (2004) Ontologies and Semantics for Seamless Connectivity. ACMSIGMOD Record Vol. 33, Issue 4. Noy, N. F. (2004) Semantic Integration: A Survey of Ontology-Based Approaches. In ACMSIGMOD Record Vol. 33, Issue 4: pp. 65-70. Wache, H., Vgele, T., Visser, U., Stuckenschmidt, H., Schuster, G., Neumann, H. and Hbner, S.(2001) Ontology-based Integration of Information - A Survey of Existing Approaches. InProceedings of IJCAI-01 Workshop: Ontologies and Information Sharing. Lenzerini, M. (2002) Data Integration: A Theoretical Perspective. In Proceedings of ACMSymposium on Principles of Database Systems. Halevy, A. Y., Franklin, M. J., Maier, D.: Principles of dataspace systems. PODS (2006). Pires, C. E. S. Ontology-based clustering in a peer data management system, PhD thesis,Informatics Center- Federal University of Pernambuco, 2009. Souza, D. Using Semantics to enhance query reformulation in dynamic distributed enviornments,PhD thesis, Informatics Center- Federal University of Pernambuco, 2009. 48