universidade de sÃo paulo - teses.usp.br · tabela 1 – comparação dos recursos entre as...

161
UNIVERSIDADE DE SÃO PAULO Instituto de Ciências Matemáticas e de Computação Uma infraestrutura semântica para integração de dados científicos sobre biodiversidade Kleberson Junio do Amaral Serique Tese de Doutorado do Programa de Pós-Graduação em Ciências de Computação e Matemática Computacional (PPG-CCMC)

Upload: vananh

Post on 06-May-2019

219 views

Category:

Documents


0 download

TRANSCRIPT

UN

IVER

SID

AD

E D

E S

O P

AULO

Inst

ituto

de

Cin

cias

Mat

emt

icas

e d

e Co

mpu

ta

o

Uma infraestrutura semntica para integrao de dadoscientficos sobre biodiversidade

Kleberson Junio do Amaral SeriqueTese de Doutorado do Programa de Ps-Graduao em Cincias deComputao e Matemtica Computacional (PPG-CCMC)

SERVIO DE PS-GRADUAO DO ICMC-USP

Data de Depsito:

Assinatura: ______________________

Kleberson Junio do Amaral Serique

Uma infraestrutura semntica para integrao de dadoscientficos sobre biodiversidade

Tese apresentada ao Instituto de CinciasMatemticas e de Computao ICMC-USP,como parte dos requisitos para obteno do ttulode Doutor em Cincias Cincias de Computao eMatemtica Computacional. VERSO REVISADA

rea de Concentrao: Cincias de Computao eMatemtica Computacional

Orientador: Prof. Dr. Dilvan de Abreu Moreira

USP So CarlosFevereiro de 2018

Ficha catalogrfica elaborada pela Biblioteca Prof. Achille Bassi e Seo Tcnica de Informtica, ICMC/USP,

com os dados inseridos pelo(a) autor(a)

Bibliotecrios responsveis pela estrutura de catalogao da publicao de acordo com a AACR2: Glucia Maria Saia Cristianini - CRB - 8/4938 Juliana de Souza Moraes - CRB - 8/6176

S485iSerique, Kleberson Junio do Amaral Uma infraestrutura semntica para integrao dedados cientficos sobre biodiversidade / KlebersonJunio do Amaral Serique; orientador Dilvan AbreuMoreira. -- So Carlos, 2017. 158 p.

Tese (Doutorado - Programa de Ps-Graduao emCincias de Computao e Matemtica Computacional) -- Instituto de Cincias Matemticas e de Computao,Universidade de So Paulo, 2017.

1. Web Semntica. 2. Informatica paraBiodiversidade. 3. Web de Dados. 4. Linked Data. I.Abreu Moreira, Dilvan, orient. II. Ttulo.

Kleberson Junio do Amaral Serique

A semantic infrastructure for integrating biodiversity scientificdata

Doctoral dissertation submitted to the Institute ofMathematics and Computer Sciences ICMC-USP, inpartial fulfillment of the requirements for the degree ofthe Doctorate Program in Computer Science andComputational Mathematics. FINAL VERSION

Concentration Area: Computer Science andComputational Mathematics

Advisor: Prof. Dr. Dilvan de Abreu Moreira

USP So CarlosFebruary 2018

Dedico esse trabalho a minha famlia, a minha noiva Yasmin

aos meus amigos, ao meu orientador, Dilvan,

aos mestres que me ajudaram a concluir

este trabalho, Laurindo e Andrea, e aos

amigos, Cntia e Lucas.

AGRADECIMENTOS

Os agradecimentos principais so direcionados a todos mestres que me conduziram aproduzir e crescer na vida acadmica, em especial Dilvan, meu orientador, Laurindo e Andrea,meus parceiros de pesquisas, aos colegas do grupo de pesquisa Silvio, Flor, Joo Paulo eGuilherme.

Agradecimentos especiais so direcionados aos meus pais, Dirce e Carlos, minha irm,Karla, minha noiva, Yasmin, e a todos meus familiares que me deram apoio e compreenderamminhas ausncias.

Um computador pode ser chamado de inteligente

se ele pode enganar uma pessoa

a pensar que um ser humano.

(Alan Turing)

RESUMO

ABREVIAO. Uma infraestrutura semntica para integrao de dados cientficos sobrebiodiversidade. 2018. 158 p. Tese (Doutorado em Cincias Cincias de Computao eMatemtica Computacional) Instituto de Cincias Matemticas e de Computao, Universidadede So Paulo, So Carlos SP, 2018.

Pesquisas na rea de biodiversidade so, em geral, transdisciplinares por natureza. Essas pesqui-sas tentam responder problemas complexos que necessitam de conhecimento transdisciplinar erequerem a cooperao entre pesquisadores de diversas disciplinas. No entanto, raro que duasou mais disciplinas distintas tenham observaes, dados e mtodos em formatos que permitama colaborao imediata sobre hipteses complexas e transdisciplinares. Hoje, a velocidadecom que qualquer disciplina obtm avanos cientficos depende de quo bem seus pesquisa-dores colaboram entre si e com tecnologistas das reas de bancos de dados, gerenciamento deworkflow, visualizao e tecnologias, como computao em nuvem. Dentro desse cenrio, aWeb Semntica surge, no s como uma nova gerao de ferramentas para a representao deinformaes, mais tambm para a automao, integrao, interoperabilidade e reutilizao derecursos. Neste trabalho, uma infraestrutura semntica proposta para a integrao de dadoscientficos sobre biodiversidade. Sua arquitetura baseada na aplicao das tecnologias daWeb Semntica para se desenvolver uma infraestrutura eficiente, robusta e escalvel aplicadaao domnio da Biodiversidade. O componente central desse ambiente a linguagem BioDSL,uma Linguagem de Domnio Especifico (DSL) para mapear dados tabulares para o modeloRDF, seguindo os princpios de Linked Open Data. Esse ambiente integrado tambm contacom uma interface Web, editores e outras facilidades para converso/integrao de conjuntosde dados sobre biodiversidade. Para o desenvolvimento desse ambiente, houve a participaode instituies de pesquisa parceiras que atuam na rea de biodiversidade da Amaznia. Aajuda do Laboratrio de Interoperabilidade Semntica do Instituto Nacional de Pesquisas daAmaznia (INPA) foi fundamental para a especificao e testes do ambiente. Foram pesquisadosvrios casos de uso com pesquisadores do INPA e realizados testes com o prottipo do sistema.Nesses testes, ele foi capaz de converter arquivos de dados reais sobre biodiversidade para RDFe interligar automaticamente entidades presentes nesses dados a entidades presentes na web(nuvem LOD). Num experimento envolvendo 1173 registros de espcies ameaadas, o ambienteconseguiu recuperar automaticamente 967 (82,4%) entidades (URIs) da LOD referentes a essasespcies, com matching completo para o nome das espcies, 149 (12,7%) com matching parcial(apenas um dos nomes da espcie), 36 (3,1%) no tiveram correspondncias (sem resultados nasbuscas) e 21 (1,7%) sem registro das especies na LOD.

Palavras-chave: Web Semntica, Informtica para Biodiversidade, Web de Dados, Linked Data.

ABSTRACT

ABREVIAO. A semantic infrastructure for integrating biodiversity scientific data. 2018.158 p. Tese (Doutorado em Cincias Cincias de Computao e Matemtica Computacional) Instituto de Cincias Matemticas e de Computao, Universidade de So Paulo, So Carlos SP, 2018.

Research in the area of biodiversity is, in general, transdisciplinary in nature. This type ofresearch attempts to answer complex problems that require transdisciplinary knowledge andrequire the cooperation between researchers of diverse disciplines. However, it is rare for two ormore distinct disciplines to have observations, data, and methods in formats that allow immediatecollaboration on complex and transdisciplinary hypotheses. Today, the speed which any disciplinegets scientific advances depends on how well its researchers collaborate with each other and withtechnologists from the areas of databases, workflow management, visualization, and internettechnologies. Within this scenario, the Semantic Web arises not only as a new generationof tools for information representation, but also for automation, integration, interoperabilityand resource reuse. In this work, a semantic infrastructure is proposed for the integration ofscientific data on biodiversity. This architecture is based on the application of Semantic Webtechnologies to develop an efficient, robust and scalable infrastructure for use in the field ofBiodiversity. The core component of this infrastructure is the BioDSL language, a SpecificDomain Language (DSL) to map tabular data to the RDF model, following the principlesof Linked Open Data. This integrated environment also has a Web interface, editors andother facilities for converting/integrating biodiversity datasets. For the development of thisenvironment, we had the participation of partner research institutions that work with Amazonbiodiversity. The help of the Laboratory of Semantic Interoperability of the National Institute ofAmazonian Research (INPA) was fundamental for the specification and tests of this infrastructure.Several use cases were investigated with INPA researchers and tests were carried out with thesystem prototype. In these tests, the prototype was able to convert actual biodiversity data files toRDF and automatically interconnect entities present in these data to entities present on the web(LOD cloud). In an experiment involving 1173 records of endangered species, the environmentwas able to automatically retrieve 967 (82.4%) LOD entities (URIs) for these species, withcomplete matching for the species name, 149 (12.7%) with partial matching (only one of thespecies names), 36 (3,1%) with no matching and 21 (1,7%) no have records at LOD.

Keywords: Semantic Web, Informatics for Biodiversity, Data Web, Linked Data.

LISTA DE ILUSTRAES

Figura 1 Roteiro para leitura dos Captulos da Tese . . . . . . . . . . . . . . . . . . 37

Figura 2 Os trs nveis de estudo da diversidade biolgica na rea de Biologia . . . . 39

Figura 3 O funcionamento do Metacat com seus componentes . . . . . . . . . . . . 48

Figura 4 Funcionamento da rede do KNB com o Morpho e Metacat integrados . . . . 49

Figura 5 Arquitetura de funcionamento do DiGIR . . . . . . . . . . . . . . . . . . . 51

Figura 6 Arquitetura de funcionamento do protocolo BioCASE . . . . . . . . . . . . 53

Figura 7 Diagrama da Arquitetura de funcionamento do SinBiota . . . . . . . . . . 56

Figura 8 Arquitetura da rede do speciesLink . . . . . . . . . . . . . . . . . . . . . . 57

Figura 9 Componentes do Programa LBA e suas interligaes . . . . . . . . . . . . 62

Figura 10 O fluxo de dados no LBA-DIS . . . . . . . . . . . . . . . . . . . . . . . . 63

Figura 11 Focos de pesquisa do Programa LBA . . . . . . . . . . . . . . . . . . . . . 64

Figura 12 Como o TEAM trabalha . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

Figura 13 Estaes do TEAM do stio de Manaus . . . . . . . . . . . . . . . . . . . 72

Figura 14 Fontes de dados sobre biodiversidade na Web . . . . . . . . . . . . . . . . 73

Figura 15 Infraestrutura atual para disseminao de dados sobre biodiversidade dosprogramas e projetos cientficos do INPA e MPEG . . . . . . . . . . . . . . 74

Figura 16 Arquitetura em camadas da Web Semntica . . . . . . . . . . . . . . . . . 79

Figura 17 Exemplo de URI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

Figura 18 Representao de uma tripla em RDF . . . . . . . . . . . . . . . . . . . . . 81

Figura 19 Um grafo RDF aps a adio de recursos usando FOAF . . . . . . . . . . . 81

Figura 20 Perfis atuais da Linguagem OWL . . . . . . . . . . . . . . . . . . . . . . . 84

Figura 21 O diagrama da nuvem de dados presentes na LOD . . . . . . . . . . . . . . 90

Figura 22 Viso geral da OntoBio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

Figura 23 Configurando o arquivo CSV e mapeando-o para RDF em BioDSL . . . . . 117

Figura 24 Executando a BioDSL pelo Terminal . . . . . . . . . . . . . . . . . . . . . 118

Figura 25 Estrutura de funcionamento da infraestrutura semntica para dados sobreBiodiversidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

Figura 26 Repositrio de Arquivos da Infraestrutura . . . . . . . . . . . . . . . . . . 129

Figura 27 Viso geral do BioDSL Web Editor . . . . . . . . . . . . . . . . . . . . . 130

Figura 28 Web editor de cdigos da infraestrutura . . . . . . . . . . . . . . . . . . . . 131

Figura 29 Upload de arquivos de Ontologias . . . . . . . . . . . . . . . . . . . . . . 131

Figura 30 Gerenciador de Prefixos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

Figura 31 Abas de URIs com e sem variveis de ontologia e prefixos . . . . . . . . . 132

Figura 32 Aba de opes do editor de cdigo BioDSL e de opes da Tabela . . . . . 133Figura 33 Visualizador de arquivos CSV do BioDSL Web Editor . . . . . . . . . . . . 133Figura 34 Interface de consulta SPARQL da Infraestrutura . . . . . . . . . . . . . . . 134

LISTA DE CDIGOS-FONTE

Cdigo-fonte 1 BioDSL: Configurando o arquivo CSV . . . . . . . . . . . . . . . . 107Cdigo-fonte 2 BioDSL: carregando Ontologias e definindo prefixos . . . . . . . . . 108Cdigo-fonte 3 BioDSL: Definindo uma URI base . . . . . . . . . . . . . . . . . . . 109Cdigo-fonte 4 BioDSL: Configurando o triplestore . . . . . . . . . . . . . . . . . . 110Cdigo-fonte 5 BioDSL: Funo URI . . . . . . . . . . . . . . . . . . . . . . . . . 110Cdigo-fonte 6 BioDSL: Funo Matching . . . . . . . . . . . . . . . . . . . . . . . 111Cdigo-fonte 7 BioDSL: Funo Map . . . . . . . . . . . . . . . . . . . . . . . . . 113Cdigo-fonte 8 Mapeamento de espcies brasileiras ameaadas . . . . . . . . . . . . 136Cdigo-fonte 9 Mapeamento de espcies brasileiras ameaadas . . . . . . . . . . . . 137Cdigo-fonte 10 Mapeamento de dados sobre as eleies paulistas de 2014 . . . . . . 139

LISTA DE TABELAS

Tabela 1 Comparao dos recursos entre as ferramentas de mapeamento CSV paraRDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

Tabela 2 Comparao dos recursos da BioDSL com outras ferramentas de mapeamentoCSV para RDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

Tabela 3 Palavras Reservadas da BioDSL . . . . . . . . . . . . . . . . . . . . . . . 115Tabela 4 Objetos Reservados da BioDSL . . . . . . . . . . . . . . . . . . . . . . . . 115

LISTA DE ABREVIATURAS E SIGLAS

3G Grfico Global Gigante

ABCD Access Biological Colections Data

BioCASE The Biological Collection Access Service for Europe

BPS BioCASE Provider Software

BRAHMS Botanical Research And Herbarium Management System

CABS Center for Applied Biodiversity Science

CDB Conveno sobre Diversidade Biolgica

CI Conservation International

CNPq Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico

CNUMAD Conferncia das Naes Unidas sobre Meio Ambiente e Desenvolvimento

CRIA Centro de Referncia em Informao Ambiental

CSS Cascading Style Sheets

CSV Comma Separated Values

DiGIR Distributed Generic Information Retrieval

DSL Domain-Specific Language

DSL Domain-Specific Language

DwC Darwin Core

DwC-A Darwin Core Archive

EML Ecological Metadata Language

ER Entidade de Relacionamento

Fapesp Fundao de Amparo Pesquisa do Estado de So Paulo

GBIF Global Biodiversity Information Facility

GBRDS Global Biodiversity Resources Discovery System

GEF Global Environment Facility

GML Geography Markup Language

GPL GNU General Public License

GPL General-Purpose Languages

GWT Google Web Toolkit

HTML Hypertext Markup Language

IB Informtica da Biodiversidade ou Informtica para Biodiversidade

ICMBIO Instituto Chico Mendes de Conservao da Biodiversidade

ILTER International Long Term Ecological Research

INPA Instituto Nacional de Pesquisas da Amaznia

INPE Instituto Nacional de Pesquisas Espaciais

IPT Integrated Publishing Toolkit

JSON JavaScript Object Notation

JVM Java Virtual Machine

KNB Knowledge Network for Biocomplexity

LBA Programa de Grande Escala da Biosfera-Atmosfera na Amaznia

LBA-DIS Sistema de Dados e Informaes do Programa LBA

LD Linked Data

LIS Laboratrio de Interoperabilidade Semntica

LME LBA Metadata Editor

LOD Linked Open Data

LTER Long Term Ecological Research Network

MCTIC Ministrio da Cincia, Tecnologia, Inovaes e Comunicaes

MMA Ministrio do Meio Ambiente

MPEG Museu Paraense Emlio Goeldi

NASA National Aeronautics and Space Administration

NBGI Ncleo de BioGeoInformtica

NCEAS National Center for Ecological Analysis and Synthesis

NEx Ncleos Executores

NRs Ncleos Regionais

NSF National Science Foundation

NSF National Science Foundation

OGC Open Geospatial Consortium

OIL Ontology Inference Layer

ONG Organizao no-governamental

OntoBio Ontologia de Biodiversidade

ONU Organizao das Naes Unidas

P21C Plants for the 21st Century

PDBFF Projeto Dinmica Biolgica de Fragmentos Florestais

PELD Programa de Pesquisas Ecolgica de Longa Durao

PNB Politica Nacional de Biodiversidade

PPBio Programa de Pesquisas em Biodiversidade

RAP Rapid Assessment Program

RDF Resource Description Framework

REST Representational state transfer

RFDS Resource Description Framework Schema

RIA Rich Internet Application

SGBD Sistemas de Gerenciamento de Banco de Dados

SHOE Simple HTML Ontological Extensions

SI Smithsonian Institution

SiBBr Sistema de Informao sobre a Biodiversidade Brasileira

SINBIO Banco de dados de Inventrios Biolgicos da Amaznia

SLOSS Single Large Or Several Small reserves of equal area

SML Sparqlification Mapping Language

SPARQL Simple Protocol and RDF Query Language

SQL Structured Query Language

SUFRAMA Superintendncia da Zona Franca de Manaus

SweoIG Semantic Web Education and Outreach Interest Group

TAPIR TDWG Access Protocol for Information Retrieval

TDWG Biodiversity Information Standards

TEAM Tropical Ecology, Assessement and Monitoring

TI Tecnologias e Informao

TSE Tribunal Superior Eleitoral

UDDI Universal Description Discovery and Integration

UEFS Universidade Estadual de Feira de Santana

UEMA Universidade Estadual do Maranho

UESC Universidade Estadual de Santa Cruz

UFAC Universidade Federal do Acre

UFAM Universidade Federam do Amazonas

UFMT Universidade Federal de Mato Grosso

UFOPA Universidade Federal do Oeste do Par

UFPA Universidade Federal do Par

UFRN Universidade Federal do Rio Grande do Norte

UFRR Universidade Federal de Roraima

UFS Universidade Federal de Sergipe

UFT Universidade Federal do Tocantins

UML Unified Modeling Language

UNEMAT Universidade do Estado de Mato Grosso

UNEP UN Environment Programe

Unicamp Universidade Estadual de Campinas

UNIR Universidade Federal de Rondnia

URI Uniform Resource Identifier

UUID Universally Unique Identifie

W3C World Wide Web Consortium

W3C World Wide Web Consortium

WD Web de Dados

WKT Well-Known Text

WWF World Wide Fund for Nature

WWW World Wide Web

WWW World Wide Web

XML eXtensivel Markup Language

SUMRIO

1 INTRODUO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291.1 Contextualizao e Motivao . . . . . . . . . . . . . . . . . . . . . . 291.2 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331.3 Hiptese e objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341.4 Contribuies ao Estado da Arte . . . . . . . . . . . . . . . . . . . . . 351.5 Publicaes geradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361.6 Organizao da Tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2 INFORMTICA PARA BIODIVERSIDADE . . . . . . . . . . . . . . 392.1 Consideraes Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.2 Padres de dados e metadados . . . . . . . . . . . . . . . . . . . . . 412.2.1 Darwin Core DwC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422.2.2 Access Biological Collections Data ABCD . . . . . . . . . . . . . . 432.2.3 Ecological Metadata Language EML . . . . . . . . . . . . . . . . . 442.3 Ferramentas de Gesto de Dados sobre Biodiversidade . . . . . . . 452.3.1 Botanical Research and Herbarium Management System BRAHMS 452.3.2 Specify . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462.3.3 Metacat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472.3.4 Morpho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472.4 Protocolos de Disseminao de Dados sobre Biodiversidade . . . . . 492.4.1 Distributed Generic Information Retrieval DiGIR . . . . . . . . . . . 492.4.2 Biological Collection Access Service BioCASE . . . . . . . . . . . . 512.4.3 TDWG Access Protocol for Information Retrieval TAPIR . . . . . 522.4.4 Integrated Publishing Toolkit IPT . . . . . . . . . . . . . . . . . . . 532.5 Repositrios de dados sobre Biodiversidade . . . . . . . . . . . . . . 552.5.1 Sistema de Informao Ambiental do Programa Biota/Fapesp

SinBiota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552.5.2 speciesLink . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552.5.3 Global Biodiversity Information Facility GBIF . . . . . . . . . . . . 582.5.4 Sistema de Informao sobre a Biodiversidade Brasileira SiBBr . 582.6 Programas e Projetos de Pesquisa sobre Biodiversidade na Amaz-

nia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

2.6.1 Programa de Grande Escala da Biosfera-Atmosfera na Amaznia LBA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

2.6.2 Programa de Pesquisas em Biodiversidade PPBio . . . . . . . . . 652.6.3 Programa de Pesquisas Ecolgicas de Longa Durao PELD . . . 682.6.4 Projeto Dinmica Biolgica de Fragmentos Florestais PDBFF . . 692.6.5 Projeto de Ecologia, Avaliao e Monitoramento de Florestas Tro-

picais TEAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 702.7 Anlise do Fluxo de Dados sobre Biodiversidade das Pesquisas Amaz-

nicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 712.8 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

3 WEB SEMNTICA: TECNOLOGIAS DE INTEGRAO DE DA-DOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3.1 Consideraes Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 773.2 Arquitetura da Web Semntica . . . . . . . . . . . . . . . . . . . . . 783.2.1 Uniform Resource Identifier URI . . . . . . . . . . . . . . . . . . . . 793.2.2 Resource Description Framework RDF . . . . . . . . . . . . . . . . 803.2.3 Ontologias e a Web Ontology Language OWL . . . . . . . . . . . 823.2.4 SPARQL Protocol and RDF Query Language SPARQL . . . . . . 853.2.5 GeoSPARQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 863.2.6 Triplestores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 883.3 Linked Data LD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 893.4 Mapeando arquivos tabulados para o modelo RDF . . . . . . . . . . 913.5 A Ontologia sobre Biodiversidade . . . . . . . . . . . . . . . . . . . . 953.6 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

4 BIODSL: UMA DSL PARA MAPEAMENTO DE DADOS SOBREBIODIVERSIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

4.1 Consideraes Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 994.2 Linguagem de Domnio Especfico . . . . . . . . . . . . . . . . . . . . 1014.2.1 Linguagem Groovy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1024.3 BioDSL: uma DSL para mapear dados sobre biodiversidade para o

modelo RDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1034.4 Comparao com outras ferramentas de mapeamento . . . . . . . . 1044.5 Funcionamento da BioDSL . . . . . . . . . . . . . . . . . . . . . . . . 1064.5.1 Configurando o arquivo CSV na BioDSL . . . . . . . . . . . . . . . . 1074.5.2 Carregando Ontologias e definindo Prefixos . . . . . . . . . . . . . . 1084.5.3 Definindo uma URI base . . . . . . . . . . . . . . . . . . . . . . . . . . 1094.5.4 Configurando o Triplestore . . . . . . . . . . . . . . . . . . . . . . . . . 1104.5.5 A Funo URI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

4.5.6 A Funo Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1114.5.7 A Funo Map . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1134.6 Palavras e objetos reservados . . . . . . . . . . . . . . . . . . . . . . . 1144.7 Um exemplo de uso da BioDSL . . . . . . . . . . . . . . . . . . . . . . 1154.8 Executando a BioDSL no Terminal . . . . . . . . . . . . . . . . . . . . 1174.9 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

5 INFRAESTRUTURA SEMNTICA PARA DADOS SOBRE BIODI-VERSIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

5.1 Consideraes Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1215.2 Trabalhos do Grupo de Pesquisa . . . . . . . . . . . . . . . . . . . . . 1235.3 A extenso da OntoBio . . . . . . . . . . . . . . . . . . . . . . . . . . . 1235.4 Busca Semntica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1245.5 O SWI Gazetteer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1255.6 O funcionamento da Infraestrutura proposta . . . . . . . . . . . . . 1255.7 Experimentos com a Infraestrutura . . . . . . . . . . . . . . . . . . . . 1345.7.1 Integrando a lista de espcies ameaadas brasileiras . . . . . . . . . 1345.7.1.1 Converso dos dados do ICMBIO e integrao com a DBpedia . . . . . . . 1355.7.1.2 Converso dos dados do GBIF Backbone Taxonomy . . . . . . . . . . . . . 1375.7.1.3 Interligao dos conjuntos de dados . . . . . . . . . . . . . . . . . . . . . 1375.7.2 Integrando dados das eleies de 2014 . . . . . . . . . . . . . . . . . 1385.8 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

6 CONCLUSO E TRABALHOS FUTUROS . . . . . . . . . . . . . . 1416.1 Resumo do trabalho realizado . . . . . . . . . . . . . . . . . . . . . . . 1416.2 Parcerias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1436.3 Contribuies ao Estado da Arte . . . . . . . . . . . . . . . . . . . . . 1446.4 Publicaes geradas at o momento da defesa . . . . . . . . . . . . 1456.5 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

REFERNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

29

CAPTULO

1INTRODUO

1.1 Contextualizao e Motivao

Atualmente, grande parte dos avanos em pesquisas cientficas deve-se ao fato de seremresultados de trabalhos transdisciplinares, ou seja, da interao de diversas reas do conhecimentohumano (PENNINGTON, 2007).

Pesquisas transdisciplinares aplicam-se a esforos centrados em problemas do mundoreal, elas so orientadas a problemas e integradas ao conhecimento prtico (MEHRING et al.,2011). Pesquisas transdisciplinares geram um dilema desorientador, identificado como umaassimetria nos entendimentos de um determinado tpico de pesquisa de uma disciplina emrelao a outra (PENNINGTON et al., 2013). Quando esse dilema for mitigado, ou at mesmoequacionado, levar a uma aprendizagem transformadora, conduzindo a uma reestruturaoe integrao de conceitos, dados e mtodos que so fundamentais para a gerao da cinciatransformadora. Em geral, as pesquisas transformadoras so impulsionadas por idias que tmo potencial de mudar radicalmente a nossa compreenso de um importante conceito cientficoou da engenharia, alm de poder resultar na criao de um novo paradigma ou at de um novocampo da cincia ou da engenharia (RANDALL et al., 2007).

Exemplo disso a rea de biodiversidade, considerada como uma rea transdisciplinarde pesquisa (MEHRING et al., 2011). As atividades realizadas pelos bilogos compreendema coleta de dados em campo, a anlise de espcimes coletados, a anlise dos habitats dosespcimes e a anlise das relaes entre os espcimes, entre outras. Os dados sobre biodiversidaderefletem fatos biolgicos relacionados aos demais fatos do conhecimento humano, demostrandoa heterogeneidade explcita e implcita desses dados.

Pesquisas recentes, na rea de biodiversidade, vm sendo conduzidas buscando resol-ver questes complexas que necessitam de conhecimento transdisciplinar. Alm do mais, odesenvolvimento de pesquisas transdisciplinares sobre biodiversidade ser fundamental, nas

30 Captulo 1. Introduo

prximas dcadas, garantindo o conhecimento necessrio para subsidiar as decises polticaspara conservao (CANHOS, 2003). Normalmente, as pesquisas na rea de biodiversidadeprocuram estudar a variao das espcies e entre espcies ao longo do tempo, alm das suasrelaes com fatores geogrficos, ecolgicos, temporais e antropognicos. Ou seja, os estudossobre biodiversidade so transdisciplinares por natureza e requerem a cooperao entre pesquisa-dores de diversas disciplinas distintas com o uso intensivo de conhecimentos tcitos e explcitos(ALBUQUERQUE, 2011).

No entanto, raro que duas ou mais disciplinas distintas tenham observaes, dados e m-todos que permitam a colaborao imediata sobre hipteses complexas de carter transdisciplinar(BENDA et al., 2002).

Atualmente, a velocidade com que qualquer disciplina obtm avanos cientficos de-pender de quo bem seus pesquisadores colaborem entre si e com os especialistas da rea deTecnologias da Informao (TI), que lidam com tecnologias como: bancos de dados; gerencia-mento de workflow cientfico; visualizao da informao; tecnologias de computao em nuvementre outras.

Nesse contexto, com os recentes avanos tecnolgicos, surge uma nova rea de estudosdenominada de Informtica para Biodiversidade ou Informtica da Biodiversidade (IB), a qualse refere ao uso de TI para apoiar os estudos sobre biodiversidade, por meio da organizao doconhecimento sobre os organismos biolgicos e os sistemas ecolgicos que os cercam (HOBERNet al., 2013). O objetivo central da IB desenvolver sistemas que permitam a interoperabilidade ea sntese de conhecimento em grandes matrizes de sistemas locais e incorpor-los em arquiteturasde conhecimento globais, como o Global Biodiversity Information Facility (GBIF) (BISBY,2000). Dessa maneira, o desafio central para a comunidade de IB fornecer os meios paracompartilhar e sintetizar rapidamente os dados e o conhecimento que eles fornecem para construirum mapa global da biodiversidade facilmente acessvel e alinhado (GURALNICK; HILL, 2009;BISBY, 2000; CANHOS et al., 2004).

Na rea de IB, alm do foco no desenvolvimento e evoluo de software para a anlise esntese de dados sobre biodiversidade, nota-se, tambm, avanos significativos na definio depadres, como o Darwin Core (WIECZOREK et al., 2012), o Access Biological Collections Data(Access to Biological Collections Data task group, 2005) e a Ecological Metadata Language(FEGRAUS et al., 2005)) e protocolos, como o Distributed Generic Information Retrieval(DIGIR) (DIGIR, 2013), TDWG Access Protocol for Information Retrieval (TAPIR) (TDWG,2010) e Integrated Publishing Toolkit (IPT) (ROBERTSON, 2011; GBIF, 2013). Eles so usadospara integrao dos dados sobre biodiversidade distribudos mundialmente e so fundamentaispara a construo da infraestrutura global de informao sobre biodiversidade (CANHOS, 2003).

Uma revoluo ocorreu na internet com o surgimento da World Wide Web (WWW)(BERNERS-LEE, 1992; BERNERS-LEE et al., 1993), ou simplesmente Web, onde os documen-tos Web passam a ser o centro desse novo cenrio. Documentos Web tambm fazem ligaes

1.1. Contextualizao e Motivao 31

uns aos outros, no importando em que computador eles estejam localizados. Os usurios daWeb so capazes de navegar por estes documentos, procurando por informaes relevantes. AWeb Semntica surge, neste contexto, como uma rea proeminente em tecnologias ligadas aintegrao de dados, ao raciocnio lgico e por permitir a interpretao semntica, por mquinase seres humanos, de grandes volumes de dados distribudos pela Web, oriundos de diversasdisciplinas. Ela forma uma rede de informaes processveis e derivadas de dados por meiode uma teoria semntica. Essa teoria semntica fornece uma descrio de significado, naqual a conexo lgica de termos estabelece a interoperabilidade entre sistemas (SHADBOLT;BERNERS-LEE; HALL, 2006). Neste cenrio, computadores so necessrios para processare compreender os volumosos contedos dos documentos Web, juntar e interligar informaesrelevantes, melhorar a preciso das pesquisas na Web, etc.

Segundo Tim Berners-Lee, a Web Semntica apresenta-se como uma nova Web, umaevoluo natural da WWW, que visa dar significado aos recursos da Web, permitindo que estessejam compreendidos por pessoas e por sistemas computacionais (BERNERS-LEE; HENDLER;LASSILA, 2001). Ela tambm permite a interconexo de conjuntos de dados distintos, por meiodo compartilhamento de conceitos ontolgicos1 representados como identificadores universais,como o Uniform Resource Identifier (URI). Essa interconexo entre datasets chamada deLinked Data (LD) ou dados vinculados. A interligao dos contedos de recursos na Web aosseus conceitos ontolgicos torna possvel a estruturao do conhecimento por meio de ontologias,formando, assim, grandes grafos de conhecimento acessveis livremente pela Web, tanto porhumanos quanto por mquinas. O benefcio que essas interligaes explcitas permitem aanlise dos dados vinculados resultantes em uma abordagem transdisciplinar (KAUPPINEN;ESPINDOLA; JONES, 2012).

As ontologias, neste contexto, representam um conjunto de conceitos dentro de umdomnio e o relacionamentos destes. Uma ontologia uma especificao explcita de umaconceitualizao2. O termo emprestado da filosofia, onde uma ontologia um relato sistemticoda existncia (GRUBER, 1993). Para entender essa definio sobre ontologia, deve ser claro oque uma Conceitualizao. Conceitualizao uma interpretao estruturada de uma parte doMundo que as pessoas usam para se comunicar e pensar sobre o Mundo (BORST, 1997). Para umbilogo, tal conceitualizao pode definir, por exemplo, que os animais classificam-se em gruposchamados de espcies e que os animais pertencentes a uma espcie tm hbitos alimentaressemelhantes. Com base nesses hbitos alimentares, as espcies podem ser sub-categorizadas emherbvoros, carnvoros e onvoros.

As ontologias tambm podem ser definidas como uma especificao formal e explcita deuma conceitualizao compartilhada (BORST, 1997). Nessa definio, uma especificao formalsignifica ser legvel por computadores; uma especificao explcita diz respeito a conceitos,

1 so aqueles que dizem respeito ao ser, a identidade, a consistncia e a existncia das diferentesentidades

2 uma viso abstrata e simplificada do mundo que se deseja representar

32 Captulo 1. Introduo

atributos, relaes, restries e axiomas que so explicitamente definidos; compartilhado querdizer conhecimento consensual; e conceitualizao diz respeito a um modelo abstrato de algumfenmeno do mundo real (ALBUQUERQUE, 2016).

A Web Semntica, as ontologias e o LD, juntos, configuram uma plataforma promissorapara publicao de dados de estudos cientficos, podendo incluir dados sobre biodiversidade.Essas tecnologias dispem de uma estrutura simples para representar e integrar dados, o ResourceDescription Framework (RDF) (W3C, 2004b).

O RDF um modelo simples de dados composto por afirmaes na forma de triplasque representam um recurso, uma propriedade e um objeto, que tornam o RDF uma linguagemaltamente escalvel. O uso do URI para identificar entidades como autores, instituies e artigoscientficos um instrumento valioso para a identificao de descries repetidas dessas entidades(tanto redundantes como complementares), principalmente quando elas so provenientes defontes distintas de dados.

A evoluo das tecnologias da Web Semntica, das Ontologias e de LD permitem quedados na Web sejam representados e interligados em um modelo compreensvel por mquinas,surgindo, assim, a Web de Dados (WD), conhecida tambm como Giant Global Graph (3G).Dessa forma, um novo paradigma criado, onde os dados na Web tendem a tornar-se umaWeb de Dados (teia de dados), ou seja, um ambiente de acesso livre com diversas informaesinterligadas entre si, baseadas, principalmente, em contedos de dados abertos de diversasdisciplinas, como a bioinformtica, qumica, medicina, etc.

Entretanto, dados sobre biodiversidade, disponveis na Web, esto em formatos que nopermitem uma rpida colaborao com outras reas de conhecimento, tanto para descobertasde novos conhecimentos, a partir da anlise dos relacionamentos entre as entidades (e compre-enso transdisciplinar dos fatos que as descrevem), como, tambm, para serem reutilizados erelacionados com outras reas do conhecimento.

Alm do mais, grande parte dos dados sobre biodiversidade na Web esto disponveisem formatos tabulados de dados, como Comma Separated Value (CSV), associados padres demetadados. No entanto, embora parea apenas uma simples converso de formato de dados (CSVpara o RDF), este processo no trivial, pois deve envolver o uso compartilhado de conceitosontolgicos, alm do compartilhamento de URIs sobre entidades biolgicas usadas por todos osconjuntos de dados, ou seja, as entidades biolgicas devero ser vistas como um recurso URI, naWeb, por todos os registros de dados que as referenciam, criando, dessa forma, interoperabilidadeentres os sistemas que utilizam estes dados.

Uma Infraestrutura Semntica de Dados sobre Biodiversidade poder explorar ao mximoas tecnologias da Web Semntica, melhorando assim no s a disseminao, mais, tambm, aqualidade dos dados sobre biodiversidade, por meio da anlise semntica dos fatos em relaoao conhecimento formalizado nas ontologias, alm de poder apontar possveis erros semnticos

1.2. Justificativa 33

presentes nos dados, como locais de ocorrncia sobre biodiversidade fora do habitat de umdeterminada espcie e at garantir a desambiguao de registros de nomes de espcies, que noso mais utilizados atualmente (nomenclaturas desatualizadas de registros de dados antigos, ouem discusso na rea de biodiversidade).

Alm do mais, embora os dados de outras disciplinas estejam participando efetivamenteda WD, ainda h poucos dados sobre biodiversidade. A criao de um ambiente computacionalque integre dados sobre biodiversidade com dados da WD permitir que estes dados possam serutilizados em pesquisas transdisciplinares futuras, facilitando uma rpida compreenso dos fatospresentes nos dados, que transcendem suas disciplinas, por meio da anlise e consultas em umgrfico de conhecimento global, como o 3G ou WD.

Essa problemtica caracteriza a motivao para o desenvolvimento desta pesquisa. Estatese apresenta uma Infraestrutura Semntica para Dados sobre Biodiversidade, tendo as tecnolo-gias da Web Semntica, como plataforma para interoperabilidade, e os princpios de LD, comomecanismo de interligao dos dados sobre biodiversidade com a WD.

1.2 Justificativa

Diversas discusses apontam para uma integrao em larga escala de dados cientficos(PENNINGTON, 2007; COUNCIL et al., 2010; OVASKA et al., 2010). Nas ltimas dcadas,tanto os financiadores de pesquisas cientfica quanto os prprios pesquisadores reconheceramque dados so uma parte muito importante da produo da pesquisa e que, portanto, merecemuma melhor ateno com sua disponibilidade e governana .

O uso de recursos computacionais imprescindvel para se fazer cincia no atual cenriomundial dos dados, das informaes e dos conhecimentos cientficos. Dessa maneira, surgea IB com o objetivo de desenvolver sistemas que permitam a interoperabilidade, a sntese deconhecimento e a difuso de dados em arquiteturas de conhecimento globais. Por outro lado, astecnologias da Web Semntica vm proporcionando o surgimento da WD, que um 3G baseadoem um modelo simples de representao de conhecimento altamente escalvel, o RDF.

No entanto, apesar de grandes esforos da rea de IB no desenvolvimento e manutenode padres de dados e metadados sobre biodiversidade e na publicao e disseminao, a nvelglobal, desses dados, ainda no satisfatrio o grau de interoperabilidade entre os mesmos comas demais reas do conhecimento humano, demandando esforos individuais a cada adio dedados de outras disciplinas, alm de uma notria discreta participao desse tipo de dado na WD(WIECZOREK et al., 2012).

Esse problema gera limitaes no desenvolvimento de estudos transdisciplinares sobredados de biodiversidade. Ele torna a procura por respostas a questes de pesquisas complexas umaatividade nada trivial que necessita de diferentes conjuntos de dados multidisciplinares. Alm

34 Captulo 1. Introduo

disso, grande parte dos dados sobre biodiversidade possui um elevado grau de conhecimentotransdisciplinar, que muitas vezes no so entendidos de forma explcita.

Logo, permitir a integrao dos dados sobre biodiversidade com dados de outras discipli-nas correlacionadas, por meio da semntica dos dados e metadados contido nos mesmos, podeproporcionar uma colaborao quase que imediata, explicitando o conhecimento transdisciplinare facilitando: o reuso dos dados; a adoo de padres e a diminuio dos esforos repetitivos ecustosos na realizao de novas coletas de dados; etc.

Para se chegar em uma integrao colaborativa de dados cientficos de diversas reas doconhecimento humano, a Web Semntica se apresenta como uma soluo proeminente. Muitasdisciplinas, como as cincias da vida e sade, vm utilizando essas tecnologias para proporcionarintegrao semntica entre os seus dados (ANTEZANA; KUIPER; MIRONOV, 2009). Noentanto, ainda discreta a participao dos dados sobre Biodiversidade.

Prover dados sobre Biodiversidade na WD, seguindo os princpios de LD e de formacolaborativa, constitui a principal motivao e justificativa para a presente pesquisa.

1.3 Hiptese e objetivos

Esta pesquisa tem como foco a integrao semntica de dados sobre biodiversidadeutilizando as tecnologias e padres da Web Semntica definidos pelo World Wide Web Consortium(W3C), que a principal organizao de padronizao da WWW. A hiptese desta pesquisa :

A interoperabilidade semntica ir propiciar que dados cientficos se-jam consultados e consumidos de forma trandiciplinar, no campo dabiodiversidade ou em qualquer outro campo do conhecimento humano.

O objetivo geral deste trabalho o desenvolvimento de uma infraestrutura computacionalpara integrao semntica de dados cientficos sobre biodiversidade. Para tanto, foram utilizadosos padres e tecnologias da Web Semntica para criar um ambiente colaborativo e transdisciplinaronde usurios podem interligar seus conjuntos de dados a conjuntos de dados de outros usuriose com a WD, para explorarem questes cientficas que extrapolem o domnio dos seus dados.

O desenvolvimento deste trabalho foi focado nos dados sobre biodiversidade da Amaz-nia, fornecidos por grupos parceiros do Laboratrio de Interoperabilidade Semntica (LIS) doInstituto Nacional de Pesquisas da Amaznia (INPA ), como tambm os dados disponveisem infraestruturas globais de disseminao de dados sobre biodiversidade, como o GBIF especiesLink.

Esta infraestrutura proposta baseada nos conceitos de LD, no uso de ontologias sobrebiodiversidade e uso de padres e tecnologias da Web Semntica. Foram alcanados os seguintesobjetivos especficos:

1.4. Contribuies ao Estado da Arte 35

Identificar as estruturas de dados, padres de dados, modelos de dados e metadados eontologias que so utilizados pelos projetos cientficos amaznicos sobre biodiversidade(parceiros do LIS) para, ento, associar a eles padres e tecnologias da Web Semntica;

Desenvolver ou re-usar tecnologias que permitam criar novos grafos de conhecimento comos conjuntos de dados sobre biodiversidade (mapear esses dados para o modelo RDF);

Permitir a reutilizao de identificadores para entidades ligadas biodiversidade (URI), nosnovos grafos de conhecimentos (URIs j associadas a essas entidades em outros conjuntosde dados na WD).

Identificar/estender caractersticas formais de ontologias para a integrao semntica dosdados cientficos, quando necessrio;

Desenvolver um prottipo da infraestrutura semntica para integrao de dados cientficosde biodiversidade que diminua o grau de complexidade da integrao semntica para osusurios finais (bilogos);

Desenvolver e integrar ferramentas e APIs necessrias para a integrao de dados combase na infraestrutura proposta;

Realizar a avaliao do prottipo da infraestrutura semntica com usurios finais: ospesquisadores de biodiversidade do LIS/INPA.

1.4 Contribuies ao Estado da Arte

Algumas contribuies cientficas desta pesquisa so elencadas a seguir:

Desenvolvimento de mecanismos automatizados para a reutilizao de URIs de entidadesconhecidas nos conjuntos de dados e na WD, por meio de buscas semnticas em endpointsSPARQL (entity matching on linked open data);

Desambiguao de nomes de localidades presentes nos dados de biodiversidade utilizando-se um Gazetteer semntico;

Uma nova abordagem baseada no uso de Linguagens de Domnio Especifico, a LinguagemBioDSL, para mapear dados tabulados para o modelo RDF, seguindo os princpios de LD,uso de Ontologias, reasoning e publicao dos dados em triplestores;

Desenvolvimento de prottipo funcional para edio colaborativa via Web de scripts Bi-oDSL para produo de bases de conhecimentos e disseminao dos dados via tecnologiasda Web Semntica;

36 Captulo 1. Introduo

Desenvolvimento e integrao dos componentes citados acima em uma infraestruturasemntica proposta, como: servidor de aplicaes, triplestores, editores Web para arquivostabulados e scripts BioDSL.

1.5 Publicaes geradas

Foram geradas as seguintes publicaes durante o desenvolvimento desse doutorado:

O artigo BioDSL: a domain-specific language for mapping and dissemination of biodi-versity data in the LOD foi apresentado no X Brazilian e-Science Workshop do XXXVICongresso da Sociedade Brasileira de Computao (SERIQUE et al., 2016).

O artigo SWI: A Semantic Web Interactive Gazetteer to support Linked Open Data. FutureGeneration Computer Systems foi publicado no peridico Future Generation ComputerSystems, fator de impacto 3,997 (CARDOSO et al., 2015).

O artigo Improving Biodiversity Data Retrieval through Semantic Search and Ontolo-gies foi apresentado no 2014 IEEE/WIC/ACM International Joint Conferences on WebIntelligence (WI) and Intelligent Agent Technologies (IAT) (AMANQUI et al., 2014).

O artigo A Gazetteer for Biodiversity Data as a Linked Open Data Solution foi apresen-tado no 2014 IEEE 23rd International WETICE Conference (CARDOSO et al., 2014).

O capitulo de livro Mo Por: Uma ferramenta para o gerenciamento distribudo derepositrios de dados cientficos na web foi publicado no livro Cenrios (SERIQUE;SANTOS; ALBUQUERQUE, 2014).

O artigo Semantic Search Architecture for Retrieving Information in Biodiversity Reposi-tories foi apresentado no 6th Seminar on Ontology Research in Brazil (AMANQUI et al.,2013).

1.6 Organizao da Tese

A hierarquia dos captulos desta tese apresentada na Figura 1. Nessa figura, setasindicam o fluxo dos assuntos para orientao da leitura. Este documento est organizado em seisCaptulos.

O Captulo 2 apresenta um referencial terico sobre a rea de IB, destacando os padresde dados e metadados, as ferramentas de gesto de dados, os repositrios de dados. Suplementar-mente, so apresentados os programas e projetos cientficos apoiados pelos nossos parceiros,o LIS/INPA. A anlise do funcionamento destes projetos mostrou o fluxo dos dados sobrebiodiversidade que vo da gerao, gesto, armazenamento at sua disseminao.

1.6. Organizao da Tese 37

Fonte: Elaborada pelo autor.

Figura 1 Roteiro para leitura dos Captulos da Tese

No Captulo 3 apresentado o referencial terico sobre a Web Semntica, destacando astecnologias e padres de dados, como: URI, RDF, OWL, SPARQL, etc. Essas tecnologias so abase para o desenvolvimento do objetivo geral deste trabalho.

O Captulo 4 apresenta a linguagem BioDSL, uma Domain-Specific Language (DSL)para o mapeamento de dados sobre biodiversidade para o modelo RDF com integrao com aWD.

O Captulo 5 apresenta a infraestrutura semntica proposta por meio da implementaode um prottipo. Ele tambm apresenta as ligaes entre os referenciais tericos dos Captulos2 e 3, demostrando como os conceitos foram integrados no desenvolvimento do prottipo daInfraestrutura Semntica Computacional.

O Captulo 6 apresenta o resumo do trabalho realizado, as parcerias firmadas durante atese, as contribuies da tese ao estado da arte, as publicaes geradas pela tese e os trabalhosfuturos.

Por fim, so apresentadas as referncias bibliogrficas utilizadas nesta tese.

39

CAPTULO

2INFORMTICA PARA BIODIVERSIDADE

2.1 Consideraes Iniciais

O termo biodiversidade se refere ao estudo global da vida na Terra, levando em conside-rao a sua variao intrnseca. Nesse contexto, a diversidade biolgica pode ser consideradaem trs nveis: (1) molecular; (2) organismo e (3) ecolgico (SARKAR, 2007). A Figura 2mostra que os estudos em bioinformtica se concentram principalmente no desenvolvimento dehipteses ao nvel molecular, j os estudos em IB enfatizam principalmente a organizao doconhecimento nos nveis mais altos (organismos e ambientes).

A situao da biodiversidade, neste incio de sculo, pode ser caracterizada pela combi-nao de processos acelerados de destruio de ecossistemas primrios, associados a esforosmobilizadores para a conservao e uso sustentvel da biodiversidade, alm de grandes avanosem TI (SANTOS et al., 2011). Essa combinao de fatores est propiciando o surgimento de umanova rea de desenvolvimento cientfico e tecnolgico, denominada IB (ou no ingls BiodiversityInformatics) (CANHOS, 2003).

A IB uma disciplina relativamente nova que se estende da cincia da computao, no

Fonte: Adaptada de Sarkar (2007).

Figura 2 Os trs nveis de estudo da diversidade biolgica na rea de Biologia

40 Captulo 2. Informtica para Biodiversidade

contexto dos dados sobre biodiversidade (ARIO; CHAVAN; KING, 2011).

O desafio central, enfrentado pela comunidade de IB, est em fornecer meios para com-partilhar e sintetizar rapidamente dados e conhecimentos para a construo de uma viso globalda biodiversidade. Para tanto, imprescindvel o desenvolvimento de sistemas de informaoque proporcionem interoperabilidade de dados e sntese do conhecimento, com base em grandesmatrizes de sistemas locais para incorporar estes dados arquiteturas de conhecimento globais,como o GBIF (BISBY, 2000; CANHOS et al., 2004; GURALNICK; HILL, 2009).

Nesse sentindo, a IB representa a conjuno do gerenciamento e uso eficiente de infor-maes sobre biodiversidade com o desenvolvimento de novas ferramentas computacionais paraanlise e compreenso dessas informaes. Para Hobern, a IB refere-se ao uso da TI para apoiaressas necessidades, por meio da organizao de conhecimento sobre organismos biolgicos e ossistemas ecolgicos que os formam (HOBERN et al., 2013).

Em agosto de 2017, redes de informao sobre biodiversidade, como o GBIF, BioCase especiesLink, juntas forneciam cerca de 791 milhes de registros de ocorrncia de biodiversidade,dos quais cerca de 130 milhes desses registros pertencem a espcimes fsicos mantidos emcolees de museus e universidades (GNTSCH et al., 2017).

A comunidade de IB tem mantido tambm a ateno em relao a descrio e acessoa informaes complementares, que podem estar associadas a uma amostra especfica de umespcime ou registro da ocorrncia do mesmo. A importncia destas informaes complementaresest na ampliao do escopo dos dados potencialmente relevantes, que incluem uma ampla gamade medidas observadas sobre os aspectos biticos e abiticos do ambiente. Por exemplo, aoanalisar padres na abundncia global de certos txons, outras informaes, fora do escopo dabiodiversidade, podem ser parmetros importantes serem analisados, como informaes sobreas geadas, os tipos de solos, o uso da terra, etc.

Atualmente, dados sobre a biodiversidade relacionados diferentes campos do conhe-cimento esto disponveis na Web para todos os interessados (cidados, polticos, governos,iniciativa privada, etc.) e com uma forte demanda para integrar, sintetizar e visualizar esta infor-mao para diferentes fins e por diferentes tipos de usurios finais. Dessa maneira, a necessidadede integrao da comunidade de IB converge com a de outros domnios do conhecimento, comodas cincias ambientais, que dependem de dados multidisciplinares para a compreenso integradaou holstica dos dados (ALBUQUERQUE, 2011).

Os repositrios de dados sobre biodiversidade, em geral, contm dados e informaes,tais como medies de instrumentos, registros de espcimes biolgicos e observaes, que podemconter julgamentos de especialistas sobre os conceitos e classificaes de espcies (COSTELLOet al., 2013). Alm do mais, os dados de biodiversidade, assim como os dados de muitas outrasdisciplinas, muitas vezes no so gerados automaticamente por mquinas ou sensores. Dadossobre espcies, por exemplo, so baseados em observaes e interpretaes humanas e requerem

2.2. Padres de dados e metadados 41

curadoria constante para se manterem atualizados (COSTELLO et al., 2013).

A integrao de diversas fontes de informaes digitais , de fato, um dos grande desafiospara a IB. Essa rea constantemente confrontada por inmeros provedores de dados, cada umcom suas prprias comunidades de usurios especficos, assim como o tipo de informao quelhes interessa bastante diversificada, incluindo nomes, conceitos taxonmicos, espcimes emcolees biolgicas, registros de ocorrncia de biodiversidade, publicaes cientficas, genmicae dados de imagens fenotpicas (PAGE, 2008).

A Seo 2.2 apresenta os principais tecnologias da IB no que se referem aos padres dedados e metadados, ferramentas de gesto, protocolos de disseminao e repositrios de dados naWeb. A seo 2.6 apresenta projetos e programas de pesquisas suportados pelos parceiros destapesquisa, LIS/INPA, que permitiram identificar os padres de dados e metadados, ferramentas erepositrios utilizados nas pesquisas amaznicas sobre a biodiversidade, bem como uma anlisedo fluxo dos dados (produzidos e disseminados) por meio das tecnologias da IB adotada porestes projetos.

2.2 Padres de dados e metadados

O principal desafio dos repositrios de dados sobre biodiversidade lidar com o carteraltamente interdisciplinar e heterogneo, tanto dos dados como dos metadados, padronizados ouno padronizados, que podem conter informaes que abrangem desde genes at ecossistemas(BACH et al., 2012).

Embora muitos cientistas reconheam a necessidade de trocar informaes eletronica-mente, apenas recentemente houve um crescimento na conscientizao sobre a necessidade doemprego de padres de dados e metadados para intercambio de informaes sobre biodiversidade(MORRIS, 2013).

Alm do mais, os dados sobre biodiversidade podem se distinguir entre si por diversosfatores, como: uso de diferentes protocolos experimentais; modelagem dos dados; protocolode coleta (que deve ser adequado s particularidades de cada investigao); etc. Esta variaoresulta no aumento da heterogeneidade dos dados, que torna-os difceis de compartilhar e deidentificar as co-relaes existentes entre eles.

Por sua vez, os metadados, ou dados sobre os dados, podem descrever os atributos docontedo de documentos, atividades e at um conjunto de dado inteiro. Em ecologia, por exemplo,os metadados so as informaes que descrevem: quem; o que; onde; quando; o porqu; e comoum conjunto de dados foi coletado (FEGRAUS et al., 2005). Os metadados podem, tambm,levar os usurios a ter uma compreenso completa dos conjunto de dados e das caractersticasdos seus atributos (SANTOS; Campos dos Santos, 2003).

Atualmente, existem diversas solues para amenizar os problemas relacionados a inte-

42 Captulo 2. Informtica para Biodiversidade

grao de dados sobre biodiversidade, o mais importante o uso de vocabulrios controlados pararepresentarem dados e metadados. Nas sees 2.2.1, 2.2.2, 2.2.3 so abordados as tecnologiasrelacionada aos padres de dados e metadados sobre a biodiversidade, como: Darwin Core,Access Biological Collections Data e Ecological Metadata Language.

2.2.1 Darwin Core DwC

O Darwin Core (DwC) um vocabulrio, ou um conjunto de termos, para descreverdados sobre biodiversidade (ROBERTSON et al., 2014). O Darwin Core foi baseado em umoutro padro, o Dublin Core, proposto inicialmente para metadados sobre obras escritas eobjetos digitais em geral, como vdeos, sons, imagens, etc. (HEIDORN, 2011). O objetivoprincipal do DwC foi criar uma linguagem comum para partilhas de dados sobre ocorrncias debiodiversidade, de forma complementar, reutilizando padres de metadados de outros domnios,sempre quando for possvel (WIECZOREK et al., 2012). Dessa maneira, o DwC facilita ointercmbio de informaes, entre bancos de dados distribudos, sobre a ocorrncia geogrficade espcies e sobre a existncia de espcimes coletados e mantidos em colees biolgicas.

Em 1999 o DwC foi apresentado pela primeira vez, ainda como um conjunto de termosvagamente definidos. O DwC foi progredindo por vrias iteraes, influenciadas por gruposdiferentes, que resultaram em diversas variantes. No entanto, foi necessrio uma administrao econtrole de mudanas centralizados, garantido sua efetividade para integrao de dados. Nessecontexto, foi criado o Darwin Core Task Group, mantido pelo Biodiversity Information Standards(TDWG), que no ano de 2009 lanou o DwC como um padro oficial.

A filosofia adotada no desenvolvimento do DwC era de manter o padro o mais simplese aberto, quanto possvel, e criar novos termos s quando existir uma grande demanda com-partilhada pela comunidade. Alm disso, o DwC possui uma histria relativamente longa dedesenvolvimento baseado em comunidade e amplamente empregado como um padro paratroca de informaes adotado por diversas redes de disseminao de dados sobre biodiversidade,como o speciesLink e o GBIF (WIECZOREK et al., 2012).

A documentao do padro DwC mantida pelo Darwin Core Task Group, que contmvrios documentos que esto disponveis pelas pginas Web. O DwC possui um glossrio determos, que podem ser chamados de propriedades, elementos, campos, nome de colunas, atributosou conceitos, dependendo do contexto ao qual forem empregados. Estes termos fornecemdefinies para referncia, comentrios e exemplos de uso (Darwin Core Task Group, 2009).

O txon a figura central do DwC e est relacionado com as informaes da localizaoda sua ocorrncia na natureza, documentao das observaes humana da mesma, as amostrasde espcimes mantida em museus ou em universidades, e outras informaes relacionadas.

O DwC tm a capacidade de compartilhar registros com propriedades que no se repetem(de forma hierrquica), como arquivos de texto simples ou no formato eXtensivel Markup Lan-

2.2. Padres de dados e metadados 43

guage (XML). Existe, tambm, o Darwin Core Archive (DwC-A), uma combinao de arquivostabulados no formato CSV e um documento em XML, que descreve a semntica das colunas doarquivo CSV e as suas relaes. O DwC-A um meio fcil e popular para o compartilhamentode dados sobre biodiversidade. Sua popularizao impulsionada por sua adoo pelas novasferramentas de publicao de dados, apresentadas na seo 2.4 (WIECZOREK et al., 2012).

Existe, tambm, uma representao do DwC no formato RDF1, que inclui a descrio detodos os termos, seus histricos, as relaes em si e com termos de outros padres, em um nicoarquivo RDF. Embora o DwC seja definido em um documento RDF, a integrao dos dadossobre biodiversidade na Web Semntica est em seus estgios iniciais.

Um dos principais desafios para DwC no contexto da Web Semntica a falta de umaontologia bem definida, no que diz respeito a uma definio formal de relaes entre termosem um domnio definido (WIECZOREK et al., 2012). Uma ontologia definir as relaesentre conceitos como as entidades biolgicas, os eventos que documentam onde e quandoessas entidades ocorreram e os processos pelos quais essas entidades so identificados comoum conceito taxonmico. Sem as relaes rigorosas entre os conceitos e as propriedades queos definem, as conexes entre os dados sobre biodiversidade e a informao semanticamenterica relacionada, como a literatura e os genomas, ser difcil integrar os conceitos e os dadossobre biodiversidade (WIECZOREK et al., 2012). Isso cria obstculos pesquisa semnticainterdisciplinar, como na comunidade de LD2.

Os repositrios de dados sobre biodiversidade (seo 2.5) e os programas/projetos (seo2.6), que sero apresentados, adotam amplamente o padro DwC. Logo, compreender o funcio-namento do padro DwC ir auxiliar no processo de integrao dos dados sobre biodiversidade.alm de fornecer os subsdios necessrios para o mapeamento desses termos com termos dasontologias de biodiversidade, que sero utilizadas em nossa proposta de infraestrutura semnticapara os dados de biodiversidade.

2.2.2 Access Biological Collections Data ABCD

Em todas as colees biolgicas existentes no mundo, h um conjunto de atributos emcomuns, incluindo elementos especficos das amostras, como o txon, o nmero de espcimens eo sexo. Cada item da coleo documenta a existncia de uma espcie em um determinado localem um determinado momento (HOLETSCHEK et al., 2012). No entanto, o conjunto de atributosadotados para descrever estes itens variam de coleo para coleo.

O Access Biological Collections Data (ABCD) uma especificao de padro paraos atributos de dados sobre colees biolgicas, que incluem espcimes vivos e preservados,juntamente com as observaes de campo que no produziram amostras de comprovao.De forma geral, o ABCD destinado ao intercmbio e integrao de dados sobre as coletas1 http://rs.tdwg.org/dwc/rdf/dwctermshistory2 http://linkeddata.org

44 Captulo 2. Informtica para Biodiversidade

e observaes de biodiversidade (Access to Biological Collections Data task group, 2005;ALBUQUERQUE, 2011).

Para tanto, o ABCD fornece um conjunto de nomes (termos), bem como suas definies,para que pesquisadores e curadores de museus os adotem na definio e no gerenciamento dosdados de suas colees biolgicas. Os objetivos iniciais do desenvolvimento da especificaodo padro ABCD almejavam a abrangncia e a generalidade. Dessa maneira, os elementos econceitos foram criados de modo fornecer a maior compatibilidade possvel com os demaisesquemas de dados adotados pelas colees biolgicas (ABCD, 2012). A especificao de dadosdo ABCD disponibilizada como um XML schema (TDWG, 2009). Este schema uma maneirade expressar dados em uma estrutura portvel, facilitando o seu compartilhamento pela Web.

O DwC e o ABCD so amplamente utilizado nas pesquisas dos programas e projetosapresentados na seo 2.6. Logo, compreender o funcionamento destes padres ir auxiliar oprocesso de integrao semntica proposto neste trabalho.

2.2.3 Ecological Metadata Language EML

Ecological Metadata Language (EML) uma linguagem para formalizar e padronizaro conjunto de conceitos essenciais para a descrio de dados ecolgicos (FEGRAUS et al.,2005). A EML uma linguagem baseada em XML schema, desenvolvida para a comunidade deecologia para descrever dados ecolgicos (San Gil et al., 2009).

EML surgiu de um cdigo-fonte aberto, produto do esforo de uma comunidade queenvolve pesquisadores em ecologia, gestores de informao e desenvolvedores de software,liderados pelo National Center for Ecological Analysis and Synthesis (NCEAS) e pela LongTerm Ecological Research Network (LTER). A EML foi formalmente adotado pela LTER em2001(MAYERNIK; BATCHELLER; BORGMAN, 2011).

Est linguagem foi destinada ao uso por ecologistas ou por administradores de informa-es ecolgicas. Alm de abranger um conjunto de aspectos essenciais sobre dados ecolgicos,tais como: os nomes e definies das variveis; as unidades de medida; a data; a hora; o local decoleta de dados; a identidade da pessoa que coletou os dados; a amostragem; etc.

Atualmente, a EML desenvolvida como parte da Knowledge Network for Biocomplexity(KNB), que corresponde a uma rede internacional de compartilhamento de dados que integradados de diferentes stios, laboratrios e pesquisadores ao redor do mundo3.

A forma como a EML utilizada pelos seus usurios ir determinar o potencial de suasfuncionalidades. Por um lado, quando o usurio fornece apenas as informaes mnimas exigidase compatveis com as regras da EML (como o ttulo, proprietrio e ponto de contato), ento afuncionalidade desse conjunto de metadados permanece meramente num nvel bibliogrfico.Por outro lado, quando o usurio fornece informaes mais abrangentes e detalhadas, ento o3 https://knb.ecoinformatics.org

2.3. Ferramentas de Gesto de Dados sobre Biodiversidade 45

potencial de funcionalidades muito mais rico, s ento a anlise dos dados poder ser mediadapor mquinas. Dessa forma, a EML reduz ambiguidade e incerteza, formalizando os conceitosde metadados em um conjunto abrangente e padronizado de termos e definies destinadosespecificamente para dados ecolgicos.

Assim como o ABCD e o Darwin Core, a linguagem EML, tambm, amplamente utili-zada nos repositrios de dados de biodiversidade dos programas e projetos apresentados na seo2.6. Logo, compreender o funcionamento da EML ir nos auxiliar no processo de integraosemntica e no mapeamento dos seus termos com os termos provenientes de ontologias de biodi-versidade, que sero utilizadas para gerar triplas RDF, permitindo, dessa maneira, construir umasemntica necessria para processos automatizados e compreenso dos dados, tanto por humanoscomo por mquinas, melhorando a qualidade dos dados por localizar inconsistncias semnticas,antes no detectadas com as tecnologias atuais de disseminao de dados de biodiversidade.

2.3 Ferramentas de Gesto de Dados sobre Biodiversi-dade

2.3.1 Botanical Research and Herbarium Management System BRAHMS

O Botanical Research and Herbarium Management System (BRAHMS) um sistema deinformao flexvel, desenvolvido para integrar e administrar dados sobre pesquisas botnicas,tais como: imagens de espcimes; observaes de campo; colees vivas; bancos de semen-tes e literatura (BRAHMS, 2013). O BRAHMS desenvolvido associado ao componente deconservao da iniciativa Plants for the 21st Century (P21C) do Department of Plant Sciencesda Universidade de Oxford. A atividade chave do P21C desenvolver formas inovadoras paraarmazenar, analisar e divulgar os grandes volumes de dados de diversidade sobre plantas que sonecessrios para apoiar a conservao e promover maior ao ambiental.

Este sistema de informao fornece ferramentas computacionais para visualizar, editar,selecionar, consultar, produzir relatrios e mapas, exportar e publicar os dados sobre as pesquisasbotnicas, alm de contar com os seguintes recursos: gerenciamento de colees, um mdulode parcelas amostrais, um mdulo de banco de sementes, gerenciamento de colees vivas,gerenciamento de imagens e documentos, clculo e mapeamento de diversidade e um gerenciadorde publicaes. Ainda, conta com a possibilidade de trabalhar em rede, permitindo o acessosimultneo de mltiplos usurios.

Algumas colees de herbrios pertencentes ao Programa de Pesquisas em Biodiver-sidade (PPBio) utilizam o BRAHMS para gerenciar os dados de seus herbrios. Com a infra-estrutura semntica proposta neste trabalho, os usurios do BRAHMS podero interligar seusdados com outros dados sobre biodiversidade, ou no, para ter uma viso mais ampla dos fatoscontidos nos seus dados. Para tanto, precisamos estudar e entender como o BRAHMS gerencia

46 Captulo 2. Informtica para Biodiversidade

os seus dados e como eles podero ser extrados para serem mapeados para nossa infraestruturasemntica.

2.3.2 Specify

O Specify uma plataforma de banco de dados de espcies e espcimes para coleesde pesquisas biolgicas com recursos como: rastreamento de amostras de espcimes, vnculode fotografias aos registros dos espcimes e publicao dos dados das espcimes na internet(SPECIFY, 2013).

O projeto Specify mantido com fundos dos EUA, do National Science Foundation(NSF), e da University of Kansas. O projeto Specify conta com diversa ferramentas, tais como:

Specify 6 um software robusto para plataformas Linux, Mac e Windows;

Specify 7 uma verso de ambiente Web do Specify;

Specify Cloud um ambiente de nuvem do Specify;

Specify Web Portal publica os dados das colees, mapas e imagens para os usurios naWeb; e

Specify Insight um aplicativo mvel para o Apple iPad para acessar dados, mapas eimagens em qualquer lugar.

A publicao de dados pela internet feita por meio do Specify Web Portal. Esse portal contacom uma interface visual do Specify, denominada Schema Mapper, para organizar cpias de sadade registros de espcimes e exportar dados para outros formatos necessrios para disseminaopara outros projetos. Por exemplo, o Schema Mapper organiza registros de espcimes comoentradas para o Integrated Publishing Toolkit (IPT), que produz arquivos no padro DwC paradisseminao pela rede do GBIF.

Para manter uma identificao permanente dos registos de dados biolgicos, o Specifyimplementa identificadores exclusivos globais como o uso de Universally Unique Identifier(UUID).

O Specify desenvolvido na tecnologia Java4, que portvel para vrios sistemasoperacionais, como Linux, Mac e Windows (SPECIFY, 2013). O Specify suporta ligaes Webservices e extenses para criao de Java plug-ins. O Specify utiliza o MySQL como sistemagerenciador de banco de dados. Em novembro de 2016 o Specify lanou a verso 2.3 do schemado seu banco de dados. Tanto o Specify, como Java e MySQL possuem licenas abertas desoftware.

O Specify utilizado para gerenciar algumas colees do PPBio.4 http://www.java.com/

2.3. Ferramentas de Gesto de Dados sobre Biodiversidade 47

2.3.3 Metacat

O Metacat um repositrio de dados e metadados que ajuda os cientistas a encontrar,entender e usar efetivamente os conjuntos de dados, seus ou de outros cientistas . O Metacat foidesenvolvido pelo National Center for Ecological Analysis and Synthesis (NCEAS) da Universityof California.

Os usurios do Metacat podem armazenar, consultar e recuperar documentos no formatoXML como se fossem schemas arbitrrios de sistemas de banco de dados relacionais (JONES etal., 2001). O Metacat usa metadados estruturados, representados em XML, como o EML, parafornecer descries ricas de contedo de dados em estruturas hierrquicas.

Atualmente, milhares de conjuntos de dados so documentados de forma padronizada earmazenados nos sistemas Metacat, fornecendo comunidade cientfica uma ampla gama dedados cientficos que podem ser facilmente pesquisados, comparados, mesclados ou utilizadosde outras maneiras.

A Figura 3 apresenta o funcionamento do Metacat.

O Metacat possui interfaces de comunicao externa com sistemas de banco de dados(consultar, pesquisa e armazenar dados), sistema de arquivo (armazenamento de documentose figuras) e servios de autenticao (como LDAP). Sua interface com usurio por meio doprotocolo HTTP, como nos sistemas Web.

O Metacat utilizado pelo PPBio, Pesquisas Ecolgicas de Longa Durao e ProjetoDinmica Biolgica de Fragmentos Florestais para disseminao de dados ecolgicos. Boa partedos usurios da infraestrutura semntica proposta utilizam o Metacat para disseminar dadosem rede. Uma anlise do funcionamento de ferramentas e redes de disseminao de dados essencial para se capturar requisitos inerentes a estes ambientes.

2.3.4 Morpho

O Morpho um aplicativo para o gerenciamento de dados ecolgicos, projetado paraajudar pesquisadores na gesto de colees heterogneas de dados ecolgicos (HIGGINS;BERKLEY; JONES, 2002). O usurio deste sistema pode criar, editar e gerenciar metadadosem EML associados a tabelas de dados (planilhas eletrnicas). Ademais, o Morpho til paracientistas individuais que necessitam gerir seus prprios dados de pesquisa (FEGRAUS et al.,2005).

Alm de permitir que os pesquisadores em ecologia descrevam seus dados, o Morpho,tambm, permite o compartilhamento pblico dos dados ou por meio de colaboradores especfi-cos, usando a rede do KNB por exemplo (por meio do software Metacat).

Os principais recursos do Morpho incluem (HIGGINS; BERKLEY; JONES, 2002):

48 Captulo 2. Informtica para Biodiversidade

Fonte: Adaptada de Jones et al. (2001).

Figura 3 O funcionamento do Metacat com seus componentes

Criao e edio de metadados flexveis, usando a sintaxe do XML, para viabilizar astrocas de metadados;

Editor de XML que configurvel usando vrios XML e DTD;

Conformidade com a linguagem EML;

Interface do tipo wizard, para a entrada de metadados;

Realiza a extrao automtica de metadados, enquanto importa os dados;

Mquina de buscas em rede (Metacat) ou localmente;

Controle de verso de dados e metadados;

Compatvel com diversos sistemas operacionais, como Linux, Mac e Windows.

A KNB uma rede criada para facilitar a pesquisa ecolgica e ambiental em bio-complexidade,permitindo a descoberta, o acesso, a interpretao, a integrao e a anlise de dados ecolgicos

2.4. Protocolos de Disseminao de Dados sobre Biodiversidade 49

Fonte: Adaptada de Jones et al. (2001).

Figura 4 Funcionamento da rede do KNB com o Morpho e Metacat integrados

complexos a partir de um conjunto altamente distribudo de estaes de campo, laboratrios,centros de pesquisa e pesquisadores individuais (HIGGINS; BERKLEY; JONES, 2002).

A Figura 4 apresenta uma viso geral de funcionamento dos componentes que integrama rede do KNB. O Morpho aparece na parte esquerda da Figura 4 e se conecta ao Metacat via oprotocolo HTTP (Web). A rede KNB conta, tambm, com uma interface Web onde os usuriospodem realizar consultas sobre os dados e metadados compartilhados pela rede.

O Morpho, o Metacat e o EML, juntos, formam a base da rede KNB e so ferramentasmuito utilizadas no gerenciamento de informao em pesquisas ecolgicas, que incluem dadossobre biodiversidade.

2.4 Protocolos de Disseminao de Dados sobre Biodi-versidade

2.4.1 Distributed Generic Information Retrieval DiGIR

A primeira rede de colees biolgicas a desenvolver um sistema distribudo foi a redeSpecies Analyst, com o uso do protocolo Z39.50, no final dos anos 90 (HEIDORN, 2011;CANHOS et al., 2005). No entanto, para colees biolgicas, esse protocolo provou ser muitocomplexo, exigindo muitas adaptaes por parte dos provedores de dados (CANHOS et al.,2005).

50 Captulo 2. Informtica para Biodiversidade

Para suprir a necessidade de um protocolo mais relacionado aos dados de biodiversidade,iniciou-se uma discusso sobre o desenvolvimento de novo protocolo que fosse mais simplese atendesse a demanda de uma rede distribuda de dados de colees biolgicas. Membros doTDWG, University of Kansas e pesquisadores da University of California e California Academyof Sciences optaram por desenvolver esse protocolo de forma cooperativa e colaborativa, entopublicaram os primeiros cdigos fonte no SourceForge (um ambiente para desenvolvimento desoftwares de cdigo aberto). No Brasil, a equipe do Centro de Referncia em Informao Ambi-ental (CRIA), relacionada ao desenvolvimento do speciesLink, participou deste desenvolvimentocolaborativo. Assim, surgiu o protocolo Distributed Generic Information Retrieval (DiGIR). Aproposta original deste protocolo incluiu os seguintes requisitos e objetivos (CANHOS et al.,2004):

Utilizar padres e protocolos abertos, como o HTTP, XML e Universal DescriptionDiscovery and Integration (UDDI);

Possuir uma separao clara entre: protocolo, software e semntica;

Ser de fcil instalao e configurao por parte dos provedores de dados;

Ter o desenvolvimento de forma colaborativa, seguindo os conceitos de cdigo livre;

Distribuir livremente o produtos por meio da licena pblica GNU General Public License(GPL).

A arquitetura tpica de uma rede DiGIR, apresentada na Figura 5, envolve pelo menos trscomponentes distintos (CANHOS et al., 2005):

Camada de apresentao corresponde ao software que interage com o usurio, ofere-cendo uma interface amigvel para especificao de buscas e exibio dos resultados. Acamada de apresentao comunica-se com a camada seguinte;

Camada de distribuio de mensagens (portal) corresponde ao software que receberequisies da camada de apresentao e as distribui para cada um dos provedores de dadospertencentes rede. A comunicao com os provedores feita por meio do protocoloDiGIR.

Provedor corresponde ao software responsvel por receber requisies do portal etraduzi-las para a linguagem de consulta utilizada pelos sistemas de banco de dados doprovedor. O processo de traduo da busca no DiGIR inclui o mapeamento que o provedorfez em relao a um ou mais esquemas conceituais utilizados pelas redes em que atua.

Quando a consulta feita, o aplicativo cliente DiGIR envia a consulta para o provedorDiGIR de cada instituio. A consulta ento traduzida para um pedido equivalente e compatvel

2.4. Protocolos de Disseminao de Dados sobre Biodiversidade 51

Fonte: Adaptada de DiGIR (2013).

Figura 5 Arquitetura de funcionamento do DiGIR

com o banco de dados local. Dessa maneira, uma resposta para a pesquisa pode ser processada,mesmo que outros detalhes do banco de dados sejam suprimidos, isso permite ter uma visovirtual e uniforme dos contedos dos nodos da rede. A velocidade da conexo e a disponibilidade a maior preocupao do DiGIR (GODDARD et al., 2011).

O desenvolvimento do DiGIR foi financiado pela NSF dos Estados Unidos e pelaFundao de Amparo Pesquisa do Estado de So Paulo (Fapesp).

2.4.2 Biological Collection Access Service BioCASE

O Biological Collection Access Service (BioCASE) um protocolo de disseminao dedados sobre biodiversidade que surgiu da necessidade de viabilizar a troca de dados utilizandoesquemas conceituais mais complexos, neste caso o padro ABCD. O BioCASE surgiu damodificao do protocolo DiGIR, de cdigo aberto. No entanto, essas modificaes resultaramna incompatibilidade entre os protocolos BioCASE e DiGIR.

O protocolo BioCASE responsvel por definir as formas de consulta, o empacotamentodos dados e como as respostas das consultas sero entregues.

O BioCASE Provider Software (BPS) um middleware de ligao de dados baseado emXML, usado como uma camada de abstrao a frente de bancos de dados relacionais.

52 Captulo 2. Informtica para Biodiversidade

O BPS composto por uma coleo de ferramentas para ser instalada e configurada emum servidor Web e funciona como um provedor de dados.

O principal componente do BPS o PyWrapper, um software desenvolvido na linguagemde programao Python.

O BPS requer a verso 2.5, ou superior, da linguagem Python.

A conexo com os diferentes bancos de dados relacionais feita por mdulos, que usamtemplates SQL para facilitar o desenvolvimento dos mdulos a cada novo banco de dados. Coma reutilizao destes templates garante o acesso padronizado a uma variedade de Sistemas deGerenciamento de Banco de Dados (SGBD).

O PyWrapper foi projetado para lidar com qualquer tipo de esquema de banco de dados,desde que exista um arquivo de configurao para cada SGBD e para o seu respectivo esquemade banco de dados. Os arquivos de configurao so chamados de PSF e CMF, como apresentadona Figura 6. Esses arquivos de configurao so usados para mapear os atributos do esquema dobanco de dados aos conceitos definidos para um esquema conceitual em XML (como o ABCD).Depois de configurado, o BPS acessvel como um servio do protocolo BioCASE (via HTTP)e pode, tambm, ser utilizado para criar sistemas de informao heterogneos distribudos.

O Portal BioCASE 5 um aplicativo Web que realiza buscas e consultas em provedoresde dados BioCASE e em arquivos do padro Darwin Core. Este portal suporta dois tipos depesquisas, a pesquisa simples e a pesquisa avanada. A pesquisa simples permite ao usuriorealizar pesquisas com base em nomes cientficos das espcies. A pesquisa avanada permite aousurio realizar pesquisas com base em nomes cientficos, nomes comuns, nomes de coletores,ou nomes das famlias das espcies. Este portal permite, tambm, que os usurios filtrem as suaspesquisa pelas instituies, colees, pases, localidades e contedos multimdia.

2.4.3 TDWG Access Protocol for Information Retrieval TAPIR

O GBIF financiou um estudo, em 2004, com a inteno de desenvolver um novo protocolo,que atendesse s necessidades das redes DiGIR e das redes BioCASE (DORING; GIOVANNI,2004). Um novo protocolo, denominado de TDWG Access Protocol for Information Retrieval(TAPIR), foi desenvolvido pelo Taxonomic Databases Working Group do TDWG. O objetivo doTAPIR era integrar os protocolos DiGIR e BioCASE, buscando facilitar o processo de integraodestes diferentes sistemas (PEIXOTO et al., 2006).

O TAPIR estende recursos dos protocolos, DiGIR e BioCASE, para obter um mtodogenrico de realizar o intercmbio de informaes entre as redes DiGIR e BioCASE (GODDARDet al., 2011). O TAPIR utilizado como um mtodo de coleta de dados do GBIF, que continua amanter e adicionar funcionalidade ao projeto (GODDARD et al., 2011). O TAPIR, tambm, uma recomendao de protocolo de disseminao de dados de 2010 do TDWG (TDWG, 2010).5 http://search.biocase.org/europe/

2.4. Protocolos de Disseminao de Dados sobre Biodiversidade 53

Fonte: Adaptada de BioCASE (2013).

Figura 6 Arquitetura de funcionamento do protocolo BioCASE

Por ser um protocolo genrico, o TAPIR pode ser utilizado por diferentes portais deinformao. Isto permite a criao de mltiplos recursos de dados, tornando possvel recuperarinformaes em diferentes esquemas de dados. O protocolo TAPIR possui as vantagens de terseu cdigo fonte aberto, alm de no ter qualquer dependncia com os sistemas operacionais(multiplataforma), com os esquemas de dados ou com o modelo de sada de dados.

O TapirLink a implementao do protocolo TAPIR, desenvolvido na linguagem deprogramao PHP (CORRA et al., 2013). O TapirLink fornece um ponto de acesso em con-formidade com o protocolo TAPIR. Cada ponto de acesso um servio separado, podendo serutilizado para realizar consultas sobre os recursos subjacentes ou a uma fonte de dados local.

2.4.4 Integrated Publishing Toolkit IPT

Apesar da evoluo dos protocolos DiGIR, BioCASE e TAPIR, alguns problemas perma-neciam, como dificuldades tcnicas de manter os middlewares em funcionamento e demora noprocessamento de respostas por estes sistemas de mensagens distribudas. Ainda, estes problemasagravam-se em relao do aumento contnuo de novos nodos provedores de dados, elevandoos custos para manter em funcionamento uma infraestrutura desse porte (ROBERTSON et al.,2014). A soluo foi implementar uma ferramenta simples e independente de plataforma, quepoderia ser facilmente gerenciada pelo corpo tcnico das instituies e alavancar padres demetadados, como o DwC e EML (ROBERTSON et al., 2014).

O IPT foi desenvolvido a partir de um replanejamento de como a disseminao de dados,no domnio das colees biolgicas, deveriam ocorrer. O IPT uma ferramenta de software livredesenvolvida na tecnologia Java (multiplataforma), utilizada para publicar e compartilhar, pormeio da rede do GBIF, conjuntos de dados sobre biodiversidade provenientes de banco de dados,

54 Captulo 2. Informtica para Biodiversidade

planilhas eletrnicas e arquivos de texto usando padres abertos como o Darwin Core e EML(GBIF, 2013).

O IPT trouxe, tambm, para a comunidade de IB a criao do DwC-A, uma remodelagemde como o DwC deveria ser armazenado e compartilhado pelos publicadores de dados em umformato de arquivo em comum (ROBERTSON et al., 2014). O IPT suporta dois subconjuntosde DwC, o Occurrence Core e o Taxon Core, outras customizaes alm do padro DwC sochamados de extenses pelo IPT.

O IPT uma ferramenta Web desenvolvida para usurios proverem, por meio da internetou uma Intranet, dados sobre biodiversidade, tais como (ROBERTSON, 2011):

Registros de ocorrncia de biodiversidade: residem em bancos de dados ou em arquivosde texto, tais como arquivos Comma Separated Values (CSV) ou valores separados porvrgulas. Esses dados so normalmente registros de amostras individuais ou de observaesde indivduos de uma determinada espcie.

Dados de checklist taxonmicos: residem em bancos de dados ou em arquivos de texto,e correspondem a toda informao associada, tais como a cobertura geogrfica ou nomesvernculos. Esse tipo de contedo pode ser usado para expor um conjunto de dados, ondea unidade central uma espcie.

Conjuntos de dados descritivos de alto nvel (metadados): so os dados de autoriacapturados por meio da interface Web do IPT, que servem para descrever o conjunto dedados como um todo, incluindo: a taxonomia, a geografia, o escopo temporal, como odado foi produzido, os requisitos de citao dos dados, entre outros.

O IPT trabalha em conjunto com o Global Biodiversity Resources Discovery System (GBRDS),um registrador de dados implementado como um servio Web RESTful, para facilitar a desco-berta e recuperao de dados compartilhados pela rede do GBIF. O IPT comunica-se com oGBRDS para registrar os conjuntos de dados da instituies associadas, dessa maneira, permitea publicao e compartilhamento de dados por intermdio da rede do GBIF. O GBRDS fornece,tambm, novas extenses para o IPT, como vocabulrios controlados que podem ser utilizadosno mapeamento de dados arbitrrios.

A ferramenta IPT destina-se a implantao institucional, em vez da implantao indi-vidual por cientistas. O IPT complementa outras ferramentas que foram criadas pelo GBIFpara ajudar os usurios de dados a explorar, organizar e mobilizar conjuntos de dados sobrebiodiversidade (ROBERTSON, 2011). O IPT foi lanado em 2009 e atualmente o "wrapper"(software que empacota dados e transmite pela Web) recomendado pelo GBIF, porm vrioswrappers legados, como o DiGIR, o PyWrapper (BioCASE) e o TapirLink (TAPIR), ainda estoem uso pelos provedores de dados da rede do GBIF.

2.5. Repositrios de dados sobre Biodiversidade 55

2.5 Repositrios de dados sobre Biodiversidade

2.5.1 Sistema de Informao Ambiental do Programa Biota/Fapesp SinBiota

O Sistema de Informao Ambiental do Programa Biota/Fapesp, ou SinBiota, umsistema de informao brasileiro que congrega dados de coletas e listas de espcies associadas base cartogrfica do estado de So Paulo (CANHOS, 2003). O objetivo do SinBiota integrarinformaes geradas pelos pesquisadores vinculados ao Programa Biota/Fapesp (BIOTA, 2013)e relacion-las a uma base cartogrfica digital de qualidade, provendo assim, mecanismos dedifuso de informao sobre a biodiversidade paulista para a comunidade cientfica, os tomadoresde deciso, os formuladores de polticas ambientais e os educadores (SINBIOTA, 2013).

O SinBiota foi concebido em 1999 e desenvolvido atravs de uma parceria entre o CRIA,o Instituto Florestal, os Institutos de Computao e de Geocincias e a Faculdade de EngenhariaAgrcola da Universidade Estadual de Campinas (Unicamp), responsveis pela digitalizao dabase cartogrfica do estado de So Paulo.

O acesso ao sistema permitido somente pesquisadores cadastrados e associados aalgum projeto do programa. Os usurios do SinBiota podem inserir, corrigir ou at remover seusdados do sistema central. A entrada de dados realizada por meio de um formulrio padro decoleta com campos de dados obrigatrios e opcionais, usando vocabulrios controlados mantidospelos coordenadores de cada projeto. Para segurana e controle do sistema, o acesso protegidopor senhas mantidas pelos coordenadores de cada projeto. Foi, tambm, desenvolvido umaestrutura de banco de dados que pudesse integrar os dados de todos os grupos taxonmicos.

A Figura 7 apresenta o diagrama da arquitetura de funcionamento do SinBiota. O usuriopode interagir no SinBiota por meio da sua interface Web. O sistema conta com um banco dedados relacional e um servidor de mapas.

O SinBiota um exemplo de uma iniciativa nacional de sucesso, devido ao grandenmero de participantes e de informaes mantidas por ele. No entanto, ele abrange somentedados do estado de So Paulo e no est vinculado diretamente a nenhum programa e projetocientfico que selecionamos. Abordamos o SinBiota, nesta Seo, por ser uma referncia nacionalno que diz respeito a sistemas de informao voltados a disseminao e integrao de dadossobre biodiversidade.

2.5.2 speciesLink

O speciesLink um sistema distribudo que integra, em tempo real, dados primrios decolees cientficas (CANHOS et al., 2004; SPECIESLINK, 2013). O objetivo inicialmente dospeciesLink era integrar dados dos acervos de colees cientficas do estado de So Paulo.

56 Captulo 2. Informtica para Biodiversidade

Fonte: Adaptada de Canhos et al. (2005).

Figura 7 Diagrama da Arquitetura de funcionamento do SinBiota

A filosofia do projeto era integrar dados das colees biolgicas, interferindo o mnimopossvel na rotina, adaptando os sistemas de informao que j haviam sido previamente adota-dos. Para tanto, foram listados os sistemas de informao adotados para o gerenciamento dascolees biolgicas, como: SinBiota, BRAHMS, Specify, Microsoft Access, planilhas eletrnicase sistemas gerenciadores de banco de dados.

Para realizar as trocas de informaes, a equipe do speciesLink colaborou no desenvolvi-ment