cvd - apresentação

19
Universidade Estadual Paulista – UNESP A Ciência da Informação e o Ciclo de Vida dos Dados: Fronteiras de Pesquisa Fernando de Assis Rodrigues [email protected] Programa de Pós-Graduação em Ciência da Informação Faculdade de Filosofia e Ciências Marília, SP

Upload: fernando-de-assis-rodrigues

Post on 07-Jul-2015

109 views

Category:

Education


3 download

TRANSCRIPT

Page 1: CVD - Apresentação

Universidade Estadual Paulista – UNESP

A Ciência da Informação e o Ciclo de Vida dos Dados: Fronteiras de Pesquisa

Fernando de Assis [email protected]

Programa de Pós-Graduação em Ciência da InformaçãoFaculdade de Filosofia e Ciências

Marília, SP

Page 2: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 2

Objetivos

● Apresentação do Texto● Contextualização na CI● Reflexões

Page 3: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 3

Texto

● Título: Interlinking scientific data on a global scale

● Autor: Christian Bizer– Research Group Data and Web Science, School of

Business Informatics and Mathematics, University of Mannheim, Germany

● Data Science Journal, Volume 12, 23 July 2013

Page 4: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 4

Apresentação do Texto

● Recurrent problem with scientific data:– Storing, processing, access are made by isolated

scenarios and solutions.

– Even when have scientific repositories, they are isolated solutions too, like:

● USA● Europe

Page 5: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 5

Apresentação do Texto

● High-Level Expert Group on Scientific Data (HLEG, 2010)– Vision 2030

– “To overcome these limitations and to allow scientists to discover all data that is relevant for their task”

Page 6: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 6

Apresentação do Texto

● Linked Data– Use URIs as names for things;

– Use HTTP URIs so that people can look up those names;

– When someone looks up a URI, provide useful information using recommended standards (RDF, SPARQL);

– Include links to other URIs so that they can discover more things.

Page 7: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 7

Apresentação do Texto

● Linked Data– Open Archives Initiative (OAI)

● Harvest

Page 8: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 8

Apresentação do Texto

● Topology of the Web of Linked Data– LOD community (W3C)

● Catalogue: datahub.io– LOD Cloud: http://datahub.io/group/lodcloud

Page 9: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 9

Apresentação do Texto

● Linked Data in Life Science– Bio2RDF

● 30 Datasets– UniProt (Proteins)– KEGG (Genes and Genomes)– CAS (Chemical Abstracts)– PubMed– Gene Onthology

– Linked Open Drug Data● http://www.w3.org/wiki/HCLSIG/LODD

Page 10: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 10

Apresentação do Texto

● Libraries and Scholarly Communication– Linked data principles on

● American Library of Congress● German National Library● OpenLibrary● Europeana

– “Linked Data principles together with the OAI-ORE, Dublin Core, SKOS, and FOAF”

Page 11: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 11

Apresentação do Texto

● 10 years vision:– Linked Data will develop into the standard

technology of sharing scientific data on a global scale and for interconnecting data between different scientific data sources.

– The emerging Web of Linked Data will contain scientific data as well as data from other domains and might become as omnipresent in our daily lives as the classic document Web is today.

Page 12: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 12

Apresentação do Texto

● 10 years vision:– Most open-license scientific data sets will be

directly available as Linked Data on the Web. For extremely large data sets from astronomy or physics for which it is inefficient to generate an RDF representation, the Web of Linked Data will contain detailed metadata that will enable the discovery of these data sets.

Page 13: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 13

Apresentação do Texto

● 10 years vision:– Scientific work environments will have Linked Data

import and export features and will provide for publishing scientific data directly to the Web of Linked Data. Disciplinary repositories of scientific data as well as data archives will provide Linked Data views on the archived data and will thus make their content available on the Web.

Page 14: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 14

Apresentação do Texto

● 10 years vision:– Scientists will navigate along RDF links between

different scientific data sets as well as between publications and supporting experimental data. They will use Linked Data search engines to discover all data on the global scale that is relevant to their question at hand.

Page 15: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 15

Apresentação do Texto

● Challenges– Data Interoperability

– Data Quality

– Scientific Work Environments

– Research on Pay-as-You-Go-Data Integration● Desenvolvimento de ontologias e outros artefatos de

acordo com as necessidades

– Research on Data Quality Assessment in the Web Context

Page 16: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 16

Contexto

Dados daPesquisa

Dataset

Page 17: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 17

Contexualização com CI

● Dados coletados:

– A obtenção dos dados pelo pesquisador deverá ser a priori norteada por um guideline

● 24 meses para um mestrado● 48 meses para um doutorado

● A composição dos dados científicos é originária de diversas áreas da ciência

– CI → estudos de coleta, processamento, armazenamento, (…), acesso a dados...

● Biólogo não deve ter preocupações com Endpoints, SPARQL...

– Ontologias: estudos interdisciplinares com a CI

Page 18: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 18

Contexualização com CI

● Alternativas:– Web Services

– Redução do Cenário:● Área● Nacionalidade

● Recuperação– Ausência e/ou rudimentares sistemas de

informação e recuperação● SPARQL: lentidão

– Cruzamento de 1Tb de dados científicos? (Big Data)

Page 19: CVD - Apresentação

Fernando de Assis Rodrigues - 2013 19

Reflexões

● Enorme gap entre dados científicos e endpoints● Grande número de Datasets inativos, fora do ar

e não atualizados● Linha Tecnologia e Informação (PPGCI)

– Preocupações na coleta de dados com a estrutura de Linked Data

– Entendimento de Endpoint