gestão de dados de investigação da recolha até ao depósito: uma abordagem baseada em ontologias...

49
Gestão de dados de investigação da recolha até ao depósito Uma abordagem baseada em ontologias e dados ligados Cristina Ribeiro [email protected] DEI—Faculdade de Engenharia da Universidade do Porto / INESC TEC João Correia Lopes [email protected] João Rocha da Silva [email protected] Faculdade de Engenharia da Universidade do Porto / INESC TEC João Aguiar Castro [email protected] Ricardo Amorim [email protected] CONFOA 2014, 6-7 outubro 2014, Coimbra 1

Upload: conferencia-luso-brasileira-sobre-acesso-livre

Post on 05-Dec-2014

91 views

Category:

Technology


0 download

DESCRIPTION

Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados - Cristina Ribeiro, João Lopes, João Silva, João Castro, Ricardo Amorim

TRANSCRIPT

Page 1: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Gestão de dados de investigação da recolha até ao depósito

!Uma abordagem baseada em ontologias e dados ligados

Cristina Ribeiro [email protected] DEI—Faculdade de

Engenharia da Universidade do

Porto / INESC TECJoão Correia Lopes [email protected]ão Rocha da Silva [email protected]

Faculdade de Engenharia da

Universidade do Porto / INESC TEC

João Aguiar Castro [email protected]

Ricardo Amorim [email protected]

CONFOA 2014, 6-7 outubro 2014, Coimbra

1

Page 2: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Conteúdo• Gestão de dados de investigação no “long tail”

• “Linked Open Data”: porque é importante?

• Colaboração para facilitar a criação de metadados

• A plataforma Dendro

• Recolha de metadados no laboratório: LabTablet

• Conclusões

2

Page 3: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Gestão de dados de investigação no “long tail”

Porque é preciso começar cedo

3

Page 4: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

2011: a revista “Science” inquiriu os revisores do ano anterior sobre as suas práticas de uso e disponibilização de dados

A “cauda longa” da investigação

4

Page 5: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

2011: a revista “Science” inquiriu os revisores do ano anterior sobre as suas práticas de uso e disponibilização de dados

~1700 respostas

A “cauda longa” da investigação

4

Page 6: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Dealing with data. Challenges and opportunities. Introduction. (2011). Science (New York, N.Y.), 331(6018), 692–3. doi:10.1126/science.331.6018.692

Source

5

Page 7: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Dealing with data. Challenges and opportunities. Introduction. (2011). Science (New York, N.Y.), 331(6018), 692–3. doi:10.1126/science.331.6018.692

Source

6

Page 8: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Recolha

Processamento

Escrita de artigo

Preservação, Partilha

7

Page 9: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Recolha

Processamento

Escrita de artigo

8

Page 10: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Recolha

Processamento

Escrita de artigo

8Investigador sai

Page 11: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Recolha

Processamento

Escrita de artigo

8Investigador sai

Metadata

Page 12: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Recolha

Processamento

Escrita de artigo

9

Page 13: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Recolha

Processamento

Escrita de artigo

9Projeto termina

Page 14: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Recolha

Processamento

Escrita de artigo

10

“Onde estão os dados?”“Como / quando / por quem foram

produzidos?”

Page 15: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Os investigadores têm de participar na gestão dos dados desde o início

São eles os especialistas do domínio

Os curadores não conseguem lidar com a descrição a posteriori

11

Page 16: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Dados Abertos Ligados (“Linked Open Data”)

O que são? Porque precisamos deles ?

12

Page 17: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Linked Open Data• Simplicidade!

- O LOD é um modelo muito simples para representar dados

• Significado!

- Recursos são ligados por propriedades com significados bem estabelecidos

• Interoperabilidade!

- Métodos normalizados para interrogar dados - SPARQL

- Representações em formatos normalizados - RDF, OWL

13

Page 18: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

14

Page 19: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

!!!!!!

http://dendro.fe.up.pt/project/datanotes/data/base

%20data.xls

14

Page 20: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

!!!!

http://dendro.fe.up.pt/project/datanotes/data

nie:isLogicalPartOf

!!!!!!

http://dendro.fe.up.pt/project/datanotes/data/base

%20data.xls

14

Page 21: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

!!!!

http://dendro.fe.up.pt/project/datanotes/data

nie:isLogicalPartOf

rdf:type

nie:File

!!!!!!

http://dendro.fe.up.pt/project/datanotes/data/base

%20data.xls

14

Page 22: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

!!!!

http://dendro.fe.up.pt/project/datanotes/data

nie:isLogicalPartOf

“Base data of the DCB experiments”

dc:titlerdf:type

nie:File

!!!!!!

http://dendro.fe.up.pt/project/datanotes/data/base

%20data.xls

14

Page 23: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

!!!!

http://dendro.fe.up.pt/project/datanotes/data

nie:isLogicalPartOf

“Base data of the DCB experiments”

dc:title

base data.xls

nie:title

rdf:type

nie:File

!!!!!!

http://dendro.fe.up.pt/project/datanotes/data/base

%20data.xls

14

Page 24: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

!!!!

http://dendro.fe.up.pt/project/datanotes/data

nie:isLogicalPartOf

“Base data of the DCB experiments”

dc:title

base data.xls

nie:title

rdf:type

nie:File

180mm

dcb:initialCrackLength

!!!!!!

http://dendro.fe.up.pt/project/datanotes/data/base

%20data.xls

14

Page 25: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Dataset de Química Analítica

Dataset de Mecânica de Fratura …

GenéricosAuthor

Description Creation date

Author Description

Creation date …

Específicos do Domínio

Sample Count Analysed Substance

Initial Crack Length Specimen Type

15

Page 26: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

ColaboraçãoNa criação de metadados úteis agora e no futuro

16

Page 27: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Recolha

Processamento

Escrita de artigo

Preservação, Partilha

17

Page 28: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Recolha

Depósito

Depósito a longo prazo

Colaboração Descrição

Partilha

18

Page 29: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Gathering

…19

Page 30: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

DendroUma plataforma de código aberto para “Linked

Open Data” em ambientes de investigação

20

Page 31: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

21

Page 32: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Metadados

Ontologias

• Armazenamwento de dados suportado em “Linked Data”

• Sem base de dados relacional

• Modelo cresce com carregamento de ontologias

• Sistemas externos recuperam recursos via SPARQL

Descrição

22

Page 33: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Metadata

Ontologies

File Storage !

!

• Cluster HFS para ficheiros grandes ou numerosos

• Construído para a nuvem

Depósito

23

Page 34: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Metadata

Ontologies

File Storage !

!

Business Logic

• Controlo de acessos flexível

• Histórico de versões

• Pré-visualização de dados

• Salvaguarda / Restauro

• Integração • DSpace (SWORD)

• ePrints (SWORD)

• CKAN

• Figshare

Colaboração

24

Page 35: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Metadata

Ontologies

File Storage !

!

Business Logic

API

Partilha

• Todas as operações disponíveis via API RESTful usando JSON

• Todos os recursos des-referenciáveis (HTTP content negotiation)

• Arquitetura de “plugins” permite integração com sistemas externos

Web UI

25

Page 36: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Para os curadores• Os curadores podem trabalhar com os investigadores

para construir ontologias usando ferramentas (ex: Protégé)

• Ontologias estabelecidas podem ser carregadas (DC, FOAF…)

• As ontologias amadurecem (com reutilização em instâncias Dendro)

• Dados, metadados e o seu significado mantêm-se juntos

Creating lightweight ontologies for dataset description: Practical applications in a cross-domain research data management workflow Castro, J., Rocha da Silva, J., Ribeiro, C. Digital Libraries 2014 (DL2014) (pre-print available at http://dendro.fe.up.pt/)

Beyond INSPIRE: An ontology for biodiversity metadata records !Rocha da Silva, J., Castro, J., Ribeiro, C., Honrado, J., Lomba, A., Gonçalves, J. 10th International Workshop on Ontology Content (OntoContent 2014) (pre-print available at http://dendro.fe.up.pt/) 26

Page 37: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Para os programadores

• 100% software de código aberto

• Uma API rica permite ligar o Dendro a qualquer sistema (ex: aplicações móveis)

LabTablet: semantic metadata collection on a multi-domain laboratory notebook Amorim,R., Castro, J., Rocha da Silva, J., Ribeiro, C. 8th Metadata and Semantics Research Conference (MTSR 2014) (pre-print available at http://dendro.fe.up.pt/)

Ontology-based multi-domain metadata for research data management using triple stores Rocha da Silva, J., Ribeiro, C., Correia Lopes, J. 18th International Database Engineering & Applications Symposium (IDEAS 2014) (pre-print available at http://dendro.fe.up.pt/) 27

Page 38: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Usando a API: LabTablet

• Cadernos de laboratório: fonte de metadados do domínio

• Caderno de laboratório eletrónico: metadados importados para Dendro

LabTablet: semantic metadata collection on a multi-domain laboratory notebook Amorim,R., Castro, J., Rocha da Silva, J., Ribeiro, C. 8th Metadata and Semantics Research Conference (MTSR 2014) (pre-print available at http://dendro.fe.up.pt/) 28

Page 39: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

29

Page 40: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

30

Page 41: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

LabTablet: uso dos sensores do dispositivo

31

Page 42: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

32

Page 43: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Triple Store Ontologias

Independência da aplicação

“Base de Dados” “Documentação”

33

Page 44: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Conclusões• Gestão de dados de investigação deve começar cedo

• “Linked Open Data”: simples, flexível, interoperável

• O suporte à colaboração ajuda os investigadores a recolher metadados tendo em vista o depósito

• Dendro: uma plataforma completamente “open-source” para RDM, construída sobre “Linked Open Data”

• O Dendro integra com as principais plataformas de repositórios

34

Page 45: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Conclusões (cont.)• Outras aplicações: comunicação via API

• Ontologias: fonte de descritores para metadados

• O modelo de dados cresce à medida que se acrescentam ontologias

• Os curadores podem modelar e partilhar as ontologias

• As ontologias dos domínios evoluem com a reutilização

35

Page 46: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Visit us at

http://dendro.fe.up.pt36

Page 47: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Extras

37

Page 48: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

Graph Database(LOD)

Distributed document index

File Storage Cluster

Business Logic

Web Interface

Openlink Virtuoso 7 ElasticSearch MongoDB

(GridFS)

NodeJS (JavaScript)

AngularJS (JavaScript)

DB Adapter ES Endpoint GridFS Client

Human UsersWeb

JSON JSON JSON

RDF/XML, SPARQL Endpoint

JSON API

HTML

Data

Logic

Presentation

38

Page 49: Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

CuratedDataset

Curator

WorkingFiles

Dendro

FOAF

DC

dc:titlenie:isPartOfdcb:specimenLength

Ontology concept reuse

SPARQLEndpoint

Sharing & evolution

“Mature”ontologies on the web

Metadatavalidation

Deposit

Data producers

Free-TextSearch

API

CKANDryad

Web Portal

Domain-Specific Lightweight Ontologies

dcbdcb

Data reuser

dcb

Specification of new metadata ontologies

1

2

3

4

39