repositórios tecnologias & interoperabilidade alícia lopes medina (uned), josé carvalho...
TRANSCRIPT
RepositóriosTecnologias & Interoperabilidade
RepositóriosTecnologias & Interoperabilidade
Alícia Lopes Medina (UNED), José Carvalho (Uminho)
Curso NECOBELAC – Braga, 16 de Junho 2011
Programa de formación
Ilaria Capua, Berlin 5 Open Accesshttp://hdl.handle.net/10760/10882
Os principais desafios enfrentados pela humanidade são
globais
Pesquisa e comunicação científica no mundo digital:
DistribuidaGlobal
NetworkedColaborativa
Orientada a la webPartilhar recursos
caminho errado
¿Como pode repositórios permitem que os investigadores usam publicações abertas e os dados para fazer um trabalho útil e interessante?
Programa de formación
"Pela primeira vez nunca, a Internet nos oferece a oportunidade de construir uma representação global e interactiva do conhecimento humano"
Declaración de Berlín 2003
Conteúdo de livre acesso, sem restrições e de forma permanente através da Internet
repositórios “abertos”
representação global interativa doconhecimento (operável por máquinas)
Para ser usado: ler, processar, exibir, reuso, compartilhamento, análise, mineração de dados, através das disciplinas em ambientes colaborativos, redes de acesso aberto
Um mundo que é mais rápido, mais fácil e barato para encontrar medicamentos e curar doenças.
infra-estrutura: de sistemas homogêneos, localmente controlados a redes heterogêneas, distribuídas e coordenadas
repositórios são componentes desta infra-estrutura
Programa de formación
Elemento essencial na criação de infra-estrutura: a interoperabilidade
a capacidade de uma máquina ou sistema (repositórios são) para intercâmbiar informações e serviços para outras máquinas
Programa de formación
Repositório do acesso aberto
‘seu conteúdo é acessível, sem restrição e de forma permanente através da Internet a ser usado”
Repositório aberto (interoperáveis)
" pode trocar processos, serviços ou dados com outros sistemas para que eles possam trabalhar em conjunto de forma eficaz"
Programa de formación
Repositórios abertos:
A arquitetura aberta (orientada a serviços) Normas e protocolos abertos Directrizes abrangentes sobre como
implementar estas normas e protocolos
Programa de formación
• Caracteristicas dos serviços: Modulares, atómicos Interfaces bem definidas Standards para invocar operações (ex: SOAP/REST, XML)
• Benefícios Flexibilidade Permite criar serviços de mais alto nivel Permite personalizar aplicações do utilizador final Reutilizar serviços en contextos diferentes Evolução: criar novos serviços com base nas necessidades Orquestrar serviços para complementar un processo
Arquitecturas Orientadas a Serviços (SOA)
Programa de formación
Cenários de interoperabilidade para os repositórios e os seus normas e
protocolos
um problema
R3
R4
R2
R1
?
Pesquisa e Descoberta
Programa de formación
Open Archive Initiative (OAI) y el protocolo OAI-PMHFacilitar a pesquisa eficiente e visibilidade das publicações científicas distribuídas em diferentes repositórios, institucionais e temáticos.
O provedor de dados
Programa de formación
outro problema
R3
R4
R2
R1
?
Depósito múltiple
Programa de formación
Você não pode depositar mais de um repositório com um único 'click ‘: atualmente várias artigos científicos Ou são depositados isoladamente em um répositorio financiador, institucional, ou temático
Cómo iniciar um processo de depósito de fora de um sistema de repositório: escritorio, laboratório, jornal...
Sword(Simple Web-services Offering Repository
Deposit)http://www.swordapp.org
Programa de formación
Foco os repositórios para os processos do pesquisadores
Programa de formación
CRIS (sistemas de gestão da investigação)
• Gestión del contexto de la investigación
RI (Repositório Institucional)
• Gestión del contenido de la investigación
Programa de formación
http://www.eurocris.org/Index.php?page=workshops&t=1
Programa de formación
O novo objeto científico
Programa de formación
DADOS
Como a pesquisa médica se torna mais complexo e que o público espera mais e mais da medicina e da ciência, o artigo deixa de ser o fim da história. Cada vez mais e com razão, considerou que o artigo científico é um instantâneo da investigação, sobreposta pela interpretação da sua análise os autores e que os resultados fundamentais da investigação são os próprios dados em bruto.
Programa de formación
Programa de formación
Programa de formación
Programa de formación
É necessário que tornar explícitas para as máquinas as relações (agregações) entre objetos na web, principalmente a relação entre o artigo e os dados
Im ag e O b jectW e b r e so ur c e
G ra ph ite O v e rla y Fra g m e n t
L A N LR e p o s i t o r y
S erv ice-B
U R I-1 0
T ypeU R I-1
T y p eU R I-3
T y p eU R I-4
T yp eU R I-7T ypeU R I-8
a rX iv F ed o ra
T y p eU R I-6
T ypeU R I-2
U R I-1
U R I-4
U R I-7
U R I-9
Gr id da t a se t
U R I-2
D o cu m en t
T y p eU R I-5
U R I-8
U R I-6
U R I-5
U R I-3
Cornell/LANL Pathways Project
Programa de formación
• Potenciais abordagens alternativas:
– OAI-ORE (Object Reuse and Exchange)– Topic Maps– Linked Data (RDF)
Programa de formación
OAI-ORE: Open Archive Initiative-Open Reuse and Exchange: http://www.openarchives.org/ore/
Programa de formación
OAI-OREExemplos de que poderia ser alcançado (em maneiras interoperável):
Agrupamento de resultados de motor de pesquisa de acordo com os limites do objeto composto em vez de ou além de listar os resultados não agrupada.
Agrupamento de todas as citações de um documento, em vez de ter contagens de citações diferentes, por exemplo a contar para a versão PDF, a contar para a versão PS, a contar para a página inicial.Print all components of a Compound Object in one go.
Fornecer mapa de navegação de todos os componentes de um objeto composto. Grupo recurso e anotações referentes ao recurso. Envie objeto composto de um repositório (cf. sword).
Programa de formación
A web semântica, a oportunidade real para a ciência
URI’sOntologíasRDF
Programa de formación
Linking Open Drug Data (LODD)
http://www.w3.org/wiki/HCLSIG/LODD
http://neurocommons.org/page/Main_Page
RepositóriosTecnologias & Interoperabilidade
RepositóriosTecnologias & Interoperabilidade
Alícia Lopes Medina (UNED), José Carvalho (Uminho)
Curso NECOBELAC – Braga, 16 de Junho 2011
Pilares da Interoperabilidade
Metadados Directrizes Protocolos Validação
Interoperabilidade
OAI-PMH no Projecto RCAAP
• Agrega os conteúdos dos 32 repositórios integrados no Portal RCAAP
• Simplifica os metadados (Simplified DC)• Podem ser usados os sets para apenas expor uma
parte do repositório (ex: set driver, ec_fundedresources, theses, etc…)
SWORD no Projecto RCAAP
• Protocolo para depósito automático em repositórios• Usado para enviar documentos (metadados e
ficheiros) do Sistema de Currículos Degóis para os repositórios Dspace.
• Nova versão para breve (v2). • Permite o envio remoto de documentos para o
repositório institucional
Interoperabilidade dos Dados
Dublin Core
• Esquema de metadados genérico que pode ser simples ou qualificado.
• É usado em todos os repositórios agregados no Portal RCAAP
• É quase sempre usado para interoperabilidade entre diversos esquemas (DDI, ETD-MS, …)
Directrizes Driver
• Usadas na definição das condições de agregação do Portal RCAAP
• Possibilitam a interoperabilidade entre os dados do repositório e os serviços
• Todos os repositórios agregados no Portal RCAAP cumprem com os aspectos obrigatórios das directrizes
Directrizes DRIVER/DRIVER Guidelines
Desenvolvidas no âmbito do projecto DRIVER – Digital Repository Infrastructure Vision for European Research
Versão actual 2.0 (Novembro de 2008)
Traduzidas em espanhol, japonês e português
Porque são necessárias directrizes?
Para guiar os administradores de repositórios de forma a garantir a interoperabilidade e compatibilidade com os serviços DRIVER;
Para que os programadores de plataformas de repositórios incorporem novas funcionalidades em futuras versões
Directrizes DRIVER
Passo 1 – Directrizes Gerais(Parte A)
Passo 2 – Directrizes para Metadados (Parte B)
Passo 3 – Directrizes para OAI-PMH
Passo 1 – Directrizes Gerais (A)
• Comparar Parte A com conteúdo do Repositório
• Se o conteúdo estiver de acordo com as directrizes, vá para o passo 2
• Senão, Implementar um Set DRIVER
Passo 1 – Directrizes Gerais (A)
• Comparar Parte A com conteúdo do Repositório
• Se o conteúdo estiver de acordo com as directrizes, vá para o passo 2
• Senão, Implementar um Set DRIVER
Directrizes Gerais (Parte A)
Recomendado
Obrigatório
Dois níveis possíveis de compatibilidade com as directrizes DRIVER:
Nível Obrigatório
Nível Recomendado
Directrizes Gerais (A) - Obrigatório
• O repositório contém recursos digitais textuais– recurso textual = artigos científicos, teses de doutoramento, documentos de
trabalho, livros electrónicos e resultados similares de actividades de investigação científica
• Os recursos textuais estão em formatos amplamente utilizados e difundidos (PDF, TXT, RTF, DOC, TeX etc.).
• Os recursos textuais estão em acesso livre, disponíveis directamente do repositório para qualquer utilizador sem restrições como autorizações ou pagamento. – acesso livre = acesso sem qualquer forma de pagamento, licenciamento,
controlo de acesso com password, controlo de acesso mediante IP, etc
Directrizes Gerais (A) - Obrigatório
• Os recursos textuais são descritos por registos de metadados.
• Os recursos textuais e de metadados estão ligados entre si de tal modo, que um utilizador final possa aceder ao recurso textual através do identificador (normalmente um URL) no registo de metadados.
• O URL de um recurso inscrito no registo de metadados está permanentemente acessível e nunca se altera ou se atribui a outro recurso.
• Um identificador único identifica o registo de metadados e o recurso textual (não há apontadores para sistemas externos, como um sistema nacional de bibliotecas ou uma editora).
Directrizes Gerais (A) - Recomendado
• Verificação transparente da integridade de um recurso textual.
• Medidas de controlo de qualidade (do conteúdo cientifico) dos recursos textuais expostos para limitá-los a, por exemplo, os recursos textuais incluídos no relatório cientifico anual (ou equivalente).
• O URL de um recurso inscrito no registo de metadados baseia-se num esquema de identificadores persistentes como: DOIs, URNs...
Passo 1 – Directrizes Gerais (A)
• Comparar Parte A com conteúdo do Repositório
• Se o conteúdo estiver de acordo com as directrizes, vá para o passo 2
Senão
• Senão, Implementar um Set DRIVER
Passo 1 – Directrizes Gerais (A)
• Comparar Parte A com conteúdo do Repositório
• Se o conteúdo estiver de acordo com as directrizes, vá para o passo 2
• Senão, Implementar um Set DRIVER
Implementar um Set Driver
Uma forma de seleccionar e filtrar os registos que são relevantes para o set.
• Quando se implementa um set DRIVER? – Quando o repositório contém documentos que não correspondem
à definição de "recurso textual":• conteúdos que não são literatura científica• conteúdos com acesso restrito, embargado ou controlado• conteúdos em formatos pouco comuns
Passo 2 – Directrizes para metadados
As directrizes foram produzidas para facilitar a troca de metadados entre os fornecedores de conteúdo e os serviços do DRIVER, de acordo com as definições do protocolo OAI-PMH tal como distribuído pela Dublin Core Metadata Iniatitive (DCMI).
Descrevem a conversão de um formato interno para a norma Unqualified Dublin Core para facilitar a recolha (harvesting).
As directrizes não devem ser utilizadas como instruções de catalogação.
Passo 2 – Directrizes para metadados
Os metadados estruturam-se segundo a norma Unqualified Dublin Core (ISO 15836:2003).
É obrigatória a utilização de codificação Unicode.
Deve utilizar-se apenas um registo de metadados para as diferentes manifestações de um objecto digital (ex. uma versão postscript e uma versão pdf), a não ser que o conteúdo intelectual das versões seja diferente.
Passo 2 – Directrizes para metadados
• No DRIVER o uso de elementos pode ser:
Obrigatório = o elemento deve estar sempre presente no registo de metadados;
obrigatório quando aplicável = quando o elemento pode ser obtido, deve ser adicionado ao registo de metadados (aplica-se mais à introdução de metadados e não tanto à recolha);
recomendado = o uso do elemento é recomendado;
Opcional = não é muito relevante se elemento é usado ou não ….
Directrizes DRIVER – Uso dos elementos
Elemento básico Estatuto
Title (Título) obrigatório
Creator (Autor) obrigatório
Subject (Assunto) obrigatório quando aplicável
Description (Descrição) obrigatório quando aplicável
Publisher (Editora) obrigatório quando aplicável
Contributor (Colaborador) opcional
Date (Data) obrigatório
Type (Tipo) obrigatório
Format (Formato) recomendado
Identifier (Identificador) obrigatório
Source (Fonte) opcional
Language (Idioma) recomendado
Relation (Relação) opcional
Coverage (Cobertura) opcional
Rights (Direitos) recomendado
Audience (Público) opcional
Dc.Types (obrigatórios)
• · info:eu-repo/semantics/article• · info:eu-repo/semantics/bachelorThesis• · info:eu-repo/semantics/masterThesis• · info:eu-repo/semantics/doctoralThesis• · info:eu-repo/semantics/book• · info:eu-repo/semantics/bookPart• · info:eu-repo/semantics/review• · info:eu-repo/semantics/conferenceObject• · info:eu-repo/semantics/lecture• · info:eu-repo/semantics/workingPaper• · info:eu-repo/semantics/preprint• · info:eu-repo/semantics/report• · info:eu-repo/semantics/annotation• · info:eu-repo/semantics/contributionToPeriodical• · info:eu-repo/semantics/patent• · info:eu-repo/semantics/other
Elemento DC.Type
• Podem ser usadas 3 instâncias:
1 – Obrigatório: Tipo de Publicação (controlado)2 – Opcional: Tipo de publicação (livre)3 – Recomendado: Versão (Controlado)
Directrices DRIVER – Directrices para OAI-PMH
Seguir a versão 2.0 del protocolo. Registos eliminados: devem ser declarados. Utilizar a opção “transient” ou
“persistent” (conservar temporalmente ou indefinidamente a informação sobre o registo eliminado).
RessumptionToken conservado durante pelo menso 24 h. Lotes de agregação entre 100 a 500 registos. Correio electrónico do administrador. Comunicar alterações do URL base, sets, formatos de metadatos Set Driver
Só se houver necessidade. Agrupa os registos textuais em acesso aberto. setName: Open Access DRIVERset; setSpec: driver
Directrizes OpenAIRE
• Orientações para o cumprimento da cláusula 39 dos projectos FP7 nas áreas abrangidas
• Permite identificar / monitorizar produção científica financiada
• Todos os repositórios do Serviço de Alojamento permitem implementar estas directrizes
• Mais info em: http://www.openaire.eu
Perfil de Repositório no Portal RCAAP
Pesquisa Avançada no Portal RCAAP
ETD-MS
• Aplicação do esquema de metadados próprio para teses e dissertações (Electronic Theses and Dissertation – Metadata Schema)
• Em fase de implementação nos repositórios SARI
• Permite desenvolver serviços baseados nas teses
REST (web service)
• Novo interface no Dspace (1.7) que permite recuperar informação do repositório de forma remota (pesquisas, listas, etc.)
• Ainda não é actualmente usado no projecto RCAAP• Permite crirar “widgets” em websites e criar
interfaces alternativos.
Processo de Validação
Processo indispensável para garantir a interoperabilidade dos dados
• Validação integrada– Aquando da inclusão de registos numa base de dados (ex:
http://www.rcaap.pt)
• Validação diferida– A pedido dos intervenientes (ex: http://validador.rcaap.pt)
Pilares da Interoperabilidade
Metadados Directrizes Protocolos Validação
Interoperabilidade
Recursos
Open Archives Initiative - http://www.openarchives.org/ Dublin Core Metadata Inititiative - http://dublincore.org/ DRIVER Guidelines - http://www.driver-support.eu/managers.html#guidelines SWORD - http://www.swordapp.org/ Software de reposítórios - http://repinf.pbworks.com/Repository-software Directórios de repositórios:• OpenDOAR - Directory of Open Access Repositories - http://www.opendoar.org/• ROAR - Registry of Open Access Repositories - http://roar.eprints.org/• Openaire – http://www.openaire.eu