bruno tomazela - ufscargbd.dc.ufscar.br/download/files/courses/spatialand... · 2010. 8. 11. · 7...

119
Bruno Tomazela Orientadora: Profª Drª Cristina Dutra de Aguiar Ciferri 04 de Abril de 2008

Upload: others

Post on 04-Dec-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Bruno TomazelaOrientadora: Profª Drª Cristina Dutra de Aguiar Ciferri

04 de Abril de 2008

Page 2: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Objetivo e Motivações

Procedência dos Dados

Trabalhos Correlatos

Proposta

Validação

Cronograma

2

Page 3: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Desenvolver um modelo de procedência dos dados dentro do contexto de um sistema de integração dos dados

3

Page 4: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Verificar histórico dos dados

Assegurar a qualidade dos dados

Realizar processos de auditoria e autoria dos dados

Reenviar dados para as fontes

Reproduzir decisões de integração dos dados

4

Page 5: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

5

BD integrado

Fonte A Fonte B

Artigo A - 2007 Artigo A - 2006

Page 6: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

6

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2006Relatório 2006

Título Ano...Artigo A 2006...

BD integrado

Page 7: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

7

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2006Relatório 2006

Título Ano...Artigo A 2006...

Verificar histórico dos dadosEx: Identificar as fontes e as versões de um dado

BD integrado

Page 8: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

8

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2006Relatório 2006

Título Ano...Artigo A 2006...

De onde veio esse artigo?

Verificar histórico dos dadosEx: Identificar as fontes e as versões de um dado

BD integrado

Page 9: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Assegurar a qualidade dos dadosEx: Fontes confiáveis x Fontes não-confiáveis

9

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2006Relatório 2006

Título Ano...Artigo A 2006...

BD integrado

Page 10: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

10

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2006Relatório 2006

Título Ano...Artigo A 2006...

Esse relatório é confiável?

BD integrado

Assegurar a qualidade dos dadosEx: Fontes confiáveis x Fontes não-confiáveis

Page 11: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Processos de auditoriaEx: Verificar o processo de derivação de um dado

11

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2006Relatório 2006

Título Ano...Artigo A 2006...

BD integrado

Page 12: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Processos de auditoriaEx: Verificar o processo de derivação de um dado

12

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2006Relatório 2006

Título Ano...Artigo A 2006...

Por que a Fonte B foi escolhida?Quem tomou essa decisão?

BD integrado

Page 13: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Processos de autoriaEx: Verificar o responsável por um dado

13

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2006Relatório 2006

Título Ano...Artigo A 2006...

BD integrado

Page 14: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Processos de autoriaEx: Verificar o responsável por um dado

14

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2006Relatório 2006

Título Ano...Artigo A 2006...

Quem é o responsável pelos dados desse artigo?

BD integrado

Page 15: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Reenviar dados para as fontesEx: As fontes podem ser retificadas com os dados integrados

15

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2006Relatório 2006

Título Ano...Artigo A 2006...

BD integrado

Page 16: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Reenviar dados para as fontesEx: As fontes podem ser retificadas com os dados integrados

16

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2006Relatório 2006

Título Ano...Artigo A 2006...

Ok. Os dados do artigo A estão corretos!

BD integrado

Page 17: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

17

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2006Relatório 2006

Título Ano...Artigo A 2006...

Ok. Os dados do artigo A estão corretos!

Existem casos em que as fontes não podem ser atualizadas!

BD integrado

Reenviar dados para as fontesEx: As fontes podem ser retificadas com os dados integrados

Page 18: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

18

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2006

SomenteLeitura

SomenteLeitura

Não é possível reenviar dados para as fontes

BD integrado

Page 19: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

19

Fonte A Fonte BArtigo A – 2006 Artigo A – 04/06/2006Processo de Integração

Artigo A - 04/06/2006

Data: dia/mês/ano

Data:ano

Não é possível reenviar dados para as fontes

BD integrado

Page 20: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

20

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2006

Data: dia/mês/ano

Data:ano

Nesses casos, as fontes fornecem sempre os mesmos dados inconsistentes!

Não é possível reenviar dados para as fontes

BD integrado

Page 21: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Repetição das integrações

Processo de integração envolve o usuário

Diferentes decisões para um mesmo problema de inconsistência

21

Page 22: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Problemas com as repetições de integração◦ Inconsistência entre as decisões

22

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2007Relatório 2006

Título Ano...Artigo A 2007...

BD integrado

Page 23: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Problemas com as repetições de integração◦ Inconsistência entre as decisões

23

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2007Relatório 2006

Título Ano.........

Onde está o Artigo A?

BD integrado

Page 24: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Problemas com as repetições de integração

24

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Artigo A - 2007Relatório 2006

Título Ano.........

2006 ou 2007?

Relatórios inconsistentes!

BD integrado

Page 25: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Utilizar a procedência para identificar as decisões de integração e aplicá-las automaticamente

25

Fonte A Fonte BArtigo A - 2007 Artigo A - 2006Processo de Integração

Page 26: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

26

Fonte A Fonte BArtigo A - 2006Processo de Integração

Artigo A - 2006

BD integrado

Artigo A - 2007

Utilizar a procedência para identificar as decisões de integração e aplicá-las automaticamente

Page 27: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Objetivo e Motivações

Procedência dos Dados

Trabalhos Correlatos

Proposta

Validação

Cronograma

27

Page 28: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Conjunto de metadados para identificar◦ As fontes

◦ Os processos de transformação

28

P

Page 29: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Conjunto de metadados para identificar◦ As fontes

◦ Os processos de transformação

29

P

Desde a criação até o estado atual dos dados

Page 30: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Quais dados armazenar? Como coletar? Como armazenar? Como consultar?

Quatro aspectos

30

P

Page 31: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Definição dos dados de procedência que são necessários para uma determinada aplicação

31

Page 32: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Os dados de procedência recebem diferentes classificações na literatura◦ Source e Transformation Provenance

◦ Why e Where Provenance

◦ Provenance e Process Meta-Information

◦ Perspective e Retrospective Provenance

32

Page 33: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Procedência “BD Integrado”

◦ Fonte e transformação

33

Temperatura30252732

BD Integrado

Sensor A

Média(Temperatura)

Page 34: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

34

Temperatura30252732

BD Integrado

Sensor A

Fonte

Procedência “BD Integrado”

◦ Fonte e transformação

Média(Temperatura)

Page 35: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

35

Temperatura30252732

BD Integrado

Sensor A

Fonte

Transformação

Procedência “BD Integrado”

◦ Fonte e transformação

Média(Temperatura)

Page 36: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

36

Temperatura30252732

BD Integrado

Sensor A

Source e transformation provenance

Fonte

Transformação

Procedência “BD Integrado”

◦ Fonte e transformação

Média(Temperatura)

Page 37: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Temperatura30252732

37

BD Integrado

Sensor A

Procedência “BD Integrado”

◦ Detalhamento da fonte

Média(Temperatura)

Page 38: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Temperatura30252732

38

BD Integrado

Sensor A

Procedência “BD Integrado”

◦ Detalhamento da fonte

Fonte

Média(Temperatura)

Page 39: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Temperatura30252732

39

BD Integrado

Sensor A

Procedência “BD Integrado”

◦ Detalhamento da fonte

Fonte

Dados utilizados nocálculo da média

Média(Temperatura)

Page 40: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Temperatura30252732

40

BD Integrado

Média(Temperatura)

Sensor A

Procedência “BD Integrado”

◦ Detalhamento da fonte

Fonte

Dados utilizados nocálculo da média

Why e Where Provenance

Page 41: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Procedência “BD Integrado”

◦ Fonte + Transformação + Informações do ambiente

41

Temperatura30252732

BD Integrado

Média(Temperatura)

Sensor A

Page 42: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Fonte

Procedência “BD Integrado”

◦ Fonte + Transformação + Informações do ambiente

42

Temperatura30252732

BD Integrado

Média(Temperatura)

Sensor A

Transformação

Page 43: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Procedência “BD Integrado”

◦ Fonte + Transformação + Informações do ambiente

43

Temperatura30252732

BD Integrado

Média(Temperatura)

Sensor A Usuário: José

Fonte

Transformação

Page 44: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Fonte

Transformação

Procedência “BD Integrado”

◦ Fonte + Transformação + Informações do ambiente

44

Temperatura30252732

BD Integrado

Média(Temperatura)

Sensor A Usuário: JoséData: 10/05/2007

Page 45: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Fonte

Transformação

Procedência “BD Integrado”

◦ Fonte + Transformação + Informações do ambiente

45

Temperatura30252732

BD Integrado

Média(Temperatura)

Sensor A Usuário: JoséData: 10/05/2007

Ferramentas: SSH + Calculadora

Page 46: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Fonte

Transformação

Procedência “BD Integrado”

◦ Fonte + Transformação + Informações do ambiente

46

Temperatura30252732

BD Integrado

Média(Temperatura)

Sensor A Usuário: JoséData: 10/05/2007

Ferramentas: SSH + Calculadora

Process e Provenance Meta-InformationProspective e Retrospective Provenance

Page 47: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Identifica o nível de detalhe dos dados

Quanto menor a granularidade◦ Maior o custo de coleta e armazenamento◦ Grande variedade de consultas podem ser

respondidas

Quanto maior a granularidade◦ Menor o custo de coleta e armazenamento◦ Pouca variedade de consultas podem ser

respondidas

47

Page 48: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Ponderar o custo-benefício de armazenar um dado

◦ Identificar os dados que devem ter a procedência armazenada

◦ Identificar os dados de procedência que devem ser armazenados

48

Page 49: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Ponderar o custo-benefício de armazenar um dado

◦ Identificar os dados que devem ter a procedência armazenada

◦ Identificar os dados de procedência que devem ser armazenados

49

A granularidade depende dos objetivos para o qual a procedência está sendo armazenada

Page 50: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Como◦ Manual x Automática

Quando◦ Lazy x Eager

50

Page 51: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Requer mais de tempo do usuário◦ Ferramentas sem suporte à procedência

◦ Bancos de dados acurados manualmente

51

BD

Arquivo

Internet

BD Integrado

Page 52: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Coleta é transparente para usuário◦ Sistema de arquivos

Procedência para criar, mover, remover, alterar arquivos

◦ SGBD

Procedência das tuplas de um tabela

◦ Aplicação

Procedência das transformações

◦ Serviço

Fornece serviço de coleta de procedência às aplicações

52

Page 53: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Procedência é “calculada” apenas quando requisitada

53

Consulta QBD

ResultadoR

SGBD

Page 54: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Procedência é “calculada” apenas quando requisitada

54

Consulta QBD

ResultadoR

De onde veio esse resultado?

SGBD

Page 55: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Procedência é coletada apenas quando requisitada

55

Consulta QBD

ResultadoR

Consulta Q’

ProcedênciaResultado

RSGBD

Page 56: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Procedência é coletada conforme os dados são gerados

56

Consulta QBD

ResultadoR

ProcedênciaResultado

RSGBD

Page 57: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Ligação entre dado e procedência

Como manter a história de um dado

57

Page 58: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Procedência pode estar armazenada◦ Junto com o dado

Facilita a ligação entre o dado e sua procedência

58

Tabela ArtigosTabela de Procedência

dos Artigos

BD Integrado de Publicações

Page 59: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Procedência pode estar armazenada◦ Separada do dado

Dificulta a ligação entre o dado e sua procedência

59

Tabela ArtigosTabela de Procedência

dos Artigos

BD Integrado de Publicações BD de Procedência

Page 60: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Quatro técnicas descritas na literatura◦ Naive provenance

◦ Transactional provenance

◦ Hierarchical provenance

◦ Transactional-hierarchical provenance

60

Page 61: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Naive provenance◦ Armazena todos os dados possíveis

◦ Maior nível de detalhes dentre as quatro técnicas

◦ Não considera otimizações quanto à forma de armazenamento

61

Page 62: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Transactional provenance◦ Agrupa as operações em transações

62

Título Ano

...

Artigo A

...

...

2007

...

Título Ano

...

Artigo A

...

...

2006

...

T1 = início transação T2 T3 = fim da transação

Edição: Ano = 2007 Edição: Ano = 2006

Page 63: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Transactional provenance◦ Agrupa as operações em transações

63

Título Ano

...

Artigo A

...

...

2007

...

Título Ano

...

Artigo A

...

...

2006

...

T1 = início transação T2 T3 = fim da transação

Edição: Ano = 2007 Edição: Ano = 2006

Para cada dado, apenas a procedência da última operação em uma transação é armazenada

Page 64: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Transactional provenance◦ Agrupa as operações em transações

64

Título Ano

...

Artigo A

...

...

2007

...

Título Ano

...

Artigo A

...

...

2006

...

T1 = início transação T2 T3 = fim da transação

Edição: Ano = 2007 Edição: Ano = 2006

Não armazena toda a história de um dado.

Page 65: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

...

VLDB

...

Congresso

Hierarchical provenance◦ Conceito pai-filho

65

Título Ano

...

Artigo A

...

...

2006

...

Congresso Ano

...

VLDB

...

...

2006

...

Título Ano

...

Artigo A

...

...

2006

...

Congresso

ProcedênciaFonte A

ProcedênciaFonte B

ProcedênciaArtigos + Congressos

Artigos Congressos

Detalhamento Artigos

Page 66: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

...

VLDB

...

Congresso

Hierarchical provenance◦ Conceito pai-filho

66

Título Ano

...

Artigo A

...

...

2006

...

Congresso Ano

...

VLDB

...

...

2006

...

Título Ano

...

Artigo A

...

...

2006

...

Congresso

ProcedênciaFonte A

ProcedênciaFonte B

ProcedênciaArtigos + Congressos

Artigos Congressos

Detalhamento Artigos

Não repete a procedência do

dado pai no dado filho

Page 67: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Transactional-hierarchical provenance

◦ Combina as técnicas transactional e hierarchical

◦ Agrupa as operações em transações

◦ Conceito pai-filho

67

Page 68: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Dois principais tipos de consulta:◦ Tipo rastreamento (Tipo um)

◦ Tipo filtro (Tipo dois)

68

Page 69: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Tipo rastreamento

◦ Consultar os dados e verificar a procedência dos mesmos

◦ “Como esse relatório foi gerado?”

Tipo filtro

◦ Consultar os dados filtrando por um determinado critério de procedência

◦ “Gerar um relatório apenas com dados advindos do Lattes”

69

Page 70: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Objetivo e Motivações

Procedência dos Dados

Trabalhos Correlatos

Proposta

Validação

Cronograma

70

Page 71: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Uncertainty Lineage Database (ULDB)◦ Modelo relacional

Sistema ELIT◦ Sistema de integração

71

Page 72: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Objetivo ◦ Tratar incerteza dos dados no modelo relacional,

utilizando como base a procedência dos dados

Combinação das teorias Lineage Database

Banco de dados incertos

72

Page 73: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

73

ID Pessoa Carro

Testemunha

21

22

23

Ana

Ana

Bete

Gol

Fox

Parati

ID Pessoa Carro

Motorista

313233

GolFoxGol

34

JoãoJoão

PedroParati

ID Testemunha Motorista

Acusação

41

42

43

João

João

Pedro

44

Ana

Ana

Ana

Bete Pedro

Pedro

Page 74: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

74

ID Pessoa Carro

Testemunha

21

22

23

Ana

Ana

Bete

Gol

Fox

Parati

ID Pessoa Carro

Motorista

313233

GolFoxGol

34

JoãoJoão

PedroParati

ID Testemunha Motorista

Acusação

41

42

43

João

João

Pedro

44

Ana

Ana

Ana

Bete Pedro

f (41) = {21, 31}

f (42) = {22, 32}

f (43) = {21, 33}

f (44) = {23, 34}

Procedência

Pedro

Page 75: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

75

ID Pessoa Carro

Testemunha

21

22

23

Ana

Ana

Bete

Gol

Fox

Parati

ID Pessoa Carro

Motorista

313233

GolFoxGol

34

JoãoJoão

PedroParati

ID Testemunha Motorista

Acusação

41

42

43

João

João

Pedro

44

Ana

Ana

Ana

Bete Pedro

f (41) = {21, 31}

f (42) = {22, 32}

f (43) = {21, 33}

f (44) = {23, 34}

Procedência

Pedro

Page 76: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

76

x-tuple maybe

ID (Pessoa, Carro)

Testemunha

21

23

(Ana, Gol) || (Ana, Fox)

(Bete, Parati)

?

x-relation

ID Pessoa Carro

Testemunha

21

22

23

Ana

Ana

Bete

Gol

Fox

Parati

Page 77: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

77

Testemunhaaid

211

212

221

xid Pessoa Carro num

21

21

22

Ana

Ana

Bete

Gol

Fox

Parati

3

3

1

alternativa

x-tuple maybe

Page 78: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

79

Acusaçãoaid

411

421

431

xid Pessoa Motorista num

41

42

Ana

Ana

Ana

João

João

Pedro

1

1

1441 44 Bete Pedro 1

43

Lin_Acusação

aid

411

411

421

aid_origem tabela_origem

211

311

212

431 211

431 331

441 221

Testemunha

Testemunha

Testemunha

Testemunha

Motorista

Motorista

Motorista

Motorista

421

441

321

341

Procedência

Page 79: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

80

Acusaçãoaid

411

421

431

xid Pessoa Motorista num

41

42

Ana

Ana

Ana

João

João

Pedro

1

1

1441 44 Bete Pedro 1

43

Lin_Acusação

aid

411

411

421

aid_origem tabela_origem

211

311

212

431 211

431 331

441 221

Testemunha

Testemunha

Testemunha

Testemunha

Motorista

Motorista

Motorista

Motorista

421

441

321

341

Procedência

Page 80: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

81

Testemunhaaid

211

212

221

xid Pessoa Carro num

21

21

22

Ana

Ana

Bete

Gol

Fox

Parati

3

3

1

Motoristaaid

311

321

331

xid Pessoa Carro num

31

32

33

João

João

Pedro

Gol

Fox

Gol

1

1

1341 34 Pedro Parati 1

Page 81: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

82

Aspecto ULDB e Sistema Trio

Quais dados armazenar Where-provenance

ColetaAutomática

Eager

ArmazenamentoJunto

Hierarchical

Consulta Tipos rastreamento e filtro

Page 82: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Suporte a poucas informações sobre a procedência

◦ Apenas where-provenance

◦ Não armazena informações sobre eventuais transformações

Escopo limitado ao modelo relacional

Não armazena informações sobre o ambiente

◦ Usuário

◦ Data

83

Page 83: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Suporte a poucas informações sobre a procedência

◦ Apenas where-provenance

◦ Não armazena informações sobre eventuais transformações

Escopo limitado ao modelo relacional

Não armazena informações sobre o ambiente

◦ Usuário

◦ Data

84

Não é possível:Garantir a qualidade dos dadosRealizar processos de auditoria

Aplicar alterações automaticamente

Page 84: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Objetivo◦ Armazenar a procedência dos dados em processos

de integração com base em mediadores

Acesso às fontes de dados◦ Função desempenhada pelo mediador

Não há armazenamento no mediador◦ Apenas o resultado da consulta é retornado para a

aplicação

85

Page 85: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Obter a procedência pode ser◦ Difícil

Se o esquema da fonte mudar

◦ Impossível

Se a fonte não estiver mais disponível

86

Page 86: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Solução proposta◦ Armazenar os dados utilizados para gerar o

resultado da consulta

◦ Armazenamento feito no mediador

87

Page 87: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

88

<ITEM id_item = “1” nome_item = “cola” categoria = “papelaria”/><ITEM id_item = “2” nome_item = “caneta” categoria = “papelaria”/><ITEM id_item = “3” nome_item = “camiseta” categoria = “vestimenta”/>...

Itens

id_filial id_item qtd_total preço

Vendas

2

2

3

4

3

2

3

3

500

2000

1500

2000

150

2

280

350

4 1 2100 60

Page 88: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Consulta◦ Quantas camisetas foram vendidas, somando todas as filiais?◦ Resultado: 4000 camisetas

Procedência

89

nome_tabela num_registro nome_atributo valor

Data Reference Table

ITEM

ITEM

ITEM

...

3

3

3

...

id_item

nome_item

categoria

...

3

camiseta

vestimenta

...

Vendas 1 id_filial 2

Vendas 1 id_item 3

Vendas 1 qtd_total 500

Vendas 1 preço 150

... ... ... ...

Page 89: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

90

<ITEM id_item = “1” nome_item = “cola” categoria = “papelaria”/><ITEM id_item = “2” nome_item = “caneta” categoria = “papelaria”/><ITEM id_item = “3” nome_item = “camiseta” categoria = “vestimenta”/>...

Itens

id_filial id_item qtd_total preço

Vendas

2

2

3

4

3

2

3

3

500

2000

1500

2000

150

2

280

350

4 1 2100 60

Page 90: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

91

<ITEM id_item = “1” nome_item = “cola” categoria = “papelaria”/><ITEM id_item = “2” nome_item = “caneta” categoria = “papelaria”/><ITEM id_item = “3” nome_item = “camiseta” categoria = “vestimenta”/>...

Itens

id_filial id_item qtd_total preço

Vendas

2

2

3

4

3

2

3

3

500

2000

1500

2000

150

2

280

350

4 1 2100 60

Page 91: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

92

Aspecto Sistema Trio

Quais dados armazenar Where-provenance

ColetaAutomática

Eager

ArmazenamentoSeparado

Naive

Consulta Tipo rastreamento

Page 92: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Suporte apenas a procedência do tipo where-provenance

Não são armazenados dados sobre transformações no dados

Não trata inconsistência dos dados

Não armazena informações sobre ambiente◦ Usuário◦ Data

93

Page 93: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Suporte apenas a procedência do tipo where-provenance

Não são armazenados dados sobre transformações no dados

Não trata inconsistência dos dados

Não armazena informações sobre ambiente◦ Usuário◦ Data

94

Não é possível:Garantir a qualidade dos dadosRealizar processos de auditoria

Aplicar alterações automaticamente

Page 94: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Objetivo e Motivações

Procedência dos Dados

Trabalhos Correlatos

Proposta

Validação

Cronograma

95

Page 95: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Desenvolver um modelo de procedência dos dados dentro do contexto de um sistema de integração dos dados

Considerar as motivações enunciadas como requisitos do modelo

96

Page 96: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Oferecer suporte aos 4 aspectos

97

Quais dados armazenar? Como coletar? Como armazenar? Como consultar?

Page 97: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Em relação à fonte do dado

◦ Metadados para acesso e recuperação do dado

◦ Exemplo para relacional (esquema, tabela, atributo)

98

Quais dadosarmazenar?

Como coletar? Como armazenar? Como consultar?

Page 98: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Em relação às transformações

◦ Inserção

◦ Edição

◦ Sobreposição

◦ Integração

◦ Remoção

99

Quais dadosarmazenar?

Como coletar? Como armazenar? Como consultar?

Page 99: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Em relação ao ambiente

◦ Usuário

◦ Data

◦ Ferramenta utilizada

100

Quais dadosarmazenar?

Como coletar? Como armazenar? Como consultar?

Page 100: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Automática

Eager

Protótipo: Serviço externo à aplicação

101

Quais dadosarmazenar?

Como coletar? Como armazenar? Como consultar?

Page 101: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Ligação entre dado e procedência

◦ Testar os dois tipos de armazenamento no contexto de integração

◦ Junto x Separado

Protótipo: SGBD e XML

102

Quais dadosarmazenar?

Como coletar? Como armazenar? Como consultar?

Page 102: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Armazenamento da história

◦ Testar os métodos já existentes

◦ Desenvolver um novo método específico para o contexto de integração

103

Quais dadosarmazenar?

Como coletar? Como armazenar? Como consultar?

Page 103: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Oferecer suporte às consultas

◦ Rastreamento

◦ Filtro

Protótipo: SQL, XQuery/XPath

104

Quais dadosarmazenar?

Como coletar? Como armazenar? Como consultar?

Page 104: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

105

Aspecto Modelo Proposto

Quais dados armazenar Process e provenance meta-information

Coleta AutomáticaEager

Armazenamento Não definido

Consulta Tipo rastreamento e filtro

Page 105: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

106

Aspecto Modelo Proposto

Quais dados armazenar Process e provenance meta-information

Coleta AutomáticaEager

Armazenamento Não definido

Consulta Tipo rastreamento e filtro

Decidir a técnica de armazenamento.

Decidir se a procedência será armazenada “junto” ou “separada” do dado.

Page 106: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Objetivo e Motivações

Procedência dos Dados

Trabalhos Correlatos

Proposta

Validação

Cronograma

107

Page 107: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Aplicar o modelo proposto no Projeto Urano

Projeto Urano◦ Reunir dados de cunho acadêmico dos docentes do

ICMC

◦ Banco de dados integrado

Processos de integração

108

Page 108: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

109

CurrículoUrano-XMLFênix

Júpiter

TradutorLattes-Urano

TradutorFênix-Urano

TradutorJúpiter-Urano

Lattes

SubsistemaUranoSQL

UranoBD

UranoAdmin

UranoWeb

Aplicações Base

SubsistemaAdministrador

Subsistema deGeração deRelatórios

Reconciliadorde Dados

Page 109: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Objetivo e Motivações

Procedência dos Dados

Trabalhos Correlatos

Proposta

Validação

Cronograma

110

Page 110: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

1. Definição de quais dados armazenar

111

AtividadeTrimestre

1 2 3 4

1

2

3

4

5

6

7

8

Page 111: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

2. Definição de como coletar os dados

112

AtividadeTrimestre

1 2 3 4

1

2

3

4

5

6

7

8

Page 112: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

3. Definição de como armazenar os dados

113

AtividadeTrimestre

1 2 3 4

1

2

3

4

5

6

7

8

Page 113: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

4. Definição de como consultar os dados

114

AtividadeTrimestre

1 2 3 4

1

2

3

4

5

6

7

8

Page 114: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

5. Implementação

115

AtividadeTrimestre

1 2 3 4

1

2

3

4

5

6

7

8

Page 115: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

6. Testes

116

AtividadeTrimestre

1 2 3 4

1

2

3

4

5

6

7

8

Page 116: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

7. Publicação

117

AtividadeTrimestre

1 2 3 4

1

2

3

4

5

6

7

8

Page 117: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

8. Defesa da dissertação

118

AtividadeTrimestre

1 2 3 4

1

2

3

4

5

6

7

8

Page 118: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

119

AtividadeTrimestre

1 2 3 4

Quais dados

Coletar

Armazenar

Consultar

Implementar

Teste

Publicação

Defesa

Page 119: Bruno Tomazela - UFSCargbd.dc.ufscar.br/download/files/courses/SpatialAnd... · 2010. 8. 11. · 7 Fonte A Artigo A - 2007 Processo de Artigo A - 2006 Fonte B Integração Artigo

Objetivo e Motivações

Procedência dos Dados

Trabalhos Correlatos

Proposta

Validação

Cronograma

120