rflow: uma arquitetura para proveniência de workflows...

13
RFlow: uma arquitetura para proveniência de workflows estatísticos José Antônio Pires do Nascimento 1,2 , Sérgio Manuel Serra da Cruz 1 1 Programa de Pós-Graduação em Modelagem Matemática e Computacional – UFRRJ, Seropédica, Rio de Janeiro, Brasil, [email protected], [email protected] 2 Embrapa Agrobiologia - Núcleo de Tecnologia da Informação (NTI), Seropédica, Rio de Janeiro, Brasil, [email protected] RESUMO Dados agropecuários relacionados à redução de custos de produção, previsão e controle de pragas e epidemias, agricultura de alta precisão, etc, são produzidos em alta escala e de maneira heterogênea através de sensores, VANTs, web, satélites, etc. Este crescente aumento no volume de dados científicos e a necessidade de compartilhá-los entre equipes geograficamente dispersas têm demandado novas técnicas e ferramentas computacionais. Este trabalho apresenta a arquitetura RFlow, um conjunto de ferramentas integradas, com o intuito de gerenciar, compartilhar e reproduzir os experimentos baseados em scripts R, bem como validar seus resultados estatísticos junto à comunidade científica. O aplicativo SisGExp, um dos componentes da arquitetura, permite acesso aos dados e os processos que os transformaram em tempo real. Além disso, proporciona a reprodutibilidade dos experimentos e maior confiabilidade dos resultados científicos. PALAVRAS-CHAVE: Workflow Científico, Sistema R, Agrobiologia. ABSTRACT Data is continuously produced in agriculture related to the reduction of production costs, prediction and control of plagues and epidemics, high precision agriculture, etc. The ever- increasing production of large volumes of scientific data and the requisite to share them among geographically dispersed research teams require new techniques, approaches and computational tools. This work presents the RFlow architecture. It is based on a set of integrated tools that manage, share, and enact the scientific experiments designed as workflows that encapsulate R scripts. Besides, the architecture also shares their results and products. RFlow that allows users to access scientific data and the processes and collect different kinds of provenance metadata (prospective and retrospective) in a non-intrusive way. KEYWORDS: Scientific workflow, R System, Agrobiology.

Upload: others

Post on 24-Sep-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: RFlow: uma arquitetura para proveniência de workflows ...eventos.uepg.br/sbiagro/2015/anais/SBIAgro2015/pdf...RFlow: uma arquitetura para proveniência de workflows estatísticos

RFlow: uma arquitetura para proveniência de workflows estatísticos

José Antônio Pires do Nascimento1,2 , Sérgio Manuel Serra da Cruz1

1 Programa de Pós-Graduação em Modelagem Matemática e Computacional – UFRRJ,

Seropédica, Rio de Janeiro, Brasil, [email protected], [email protected] Embrapa Agrobiologia - Núcleo de Tecnologia da Informação (NTI), Seropédica, Rio de

Janeiro, Brasil, [email protected]

RESUMO

Dados agropecuários relacionados à redução de custos de produção, previsão e controle de

pragas e epidemias, agricultura de alta precisão, etc, são produzidos em alta escala e de

maneira heterogênea através de sensores, VANTs, web, satélites, etc. Este crescente aumento

no volume de dados científicos e a necessidade de compartilhá-los entre equipes

geograficamente dispersas têm demandado novas técnicas e ferramentas computacionais. Este

trabalho apresenta a arquitetura RFlow, um conjunto de ferramentas integradas, com o intuito

de gerenciar, compartilhar e reproduzir os experimentos baseados em scripts R, bem como

validar seus resultados estatísticos junto à comunidade científica. O aplicativo SisGExp, um

dos componentes da arquitetura, permite acesso aos dados e os processos que os

transformaram em tempo real. Além disso, proporciona a reprodutibilidade dos experimentos

e maior confiabilidade dos resultados científicos.

PALAVRAS-CHAVE: Workflow Científico, Sistema R, Agrobiologia.

ABSTRACT

Data is continuously produced in agriculture related to the reduction of production costs,

prediction and control of plagues and epidemics, high precision agriculture, etc. The ever-

increasing production of large volumes of scientific data and the requisite to share them

among geographically dispersed research teams require new techniques, approaches and

computational tools. This work presents the RFlow architecture. It is based on a set of

integrated tools that manage, share, and enact the scientific experiments designed as

workflows that encapsulate R scripts. Besides, the architecture also shares their results and

products. RFlow that allows users to access scientific data and the processes and collect

different kinds of provenance metadata (prospective and retrospective) in a non-intrusive way.

KEYWORDS: Scientific workflow, R System, Agrobiology.

Page 2: RFlow: uma arquitetura para proveniência de workflows ...eventos.uepg.br/sbiagro/2015/anais/SBIAgro2015/pdf...RFlow: uma arquitetura para proveniência de workflows estatísticos

INTRODUÇÃO

Crescimento populacional, mudanças climáticas, bioenergia são problemas de escala global

que estão demandando a integração de diversas ciências para melhorar as práticas agrícolas.

Acrescente-se a isso a necessidade de aprofundar as pesquisas nas áreas de degradação do

solo, perda de biodiversidade e desaceleração do crescimento na produtividade das culturas

(TUOT et al., 2008). O entrelaçamento dessas áreas aliados aos avanços na área de

processamento de alto desempenho (PAD), da rápida produção de grandes volumes de dados

científicos na Agricultura através de sensores e modernos aparatos experimentais (Big Data)

(BRANCH et al., 2014) e da urgente necessidade da garantia de reprodutibilidade dos

experimentos exigem novas abordagens no que tange à gerência de dados e proveniência em

experimentos científicos distribuídos do tipo in silico. Tudo isto tem contribuído para o

aumento sistemático do uso de workflows científicos (DEELMAN et al., 2009; MATTOSO et

al., 2009).

A utilização de workflows científicos com foco no processamento estatístico também

vem crescendo. Estes se caracterizam pela manipulação de grandes volumes de dados e por

executarem sofisticadas análises estatísticas através da incorporação de recursos (funções,

algoritmos e métodos) disponíveis em sistemas estatísticos (SPSS, SAS, Statistica, Mapple,

MathLab, Weka, R, entre outros (MAIR; DE LEEUW, 2010)).

A reprodutibilidade é a pedra angular da Ciência. No entanto, a medida que as novas

ferramentas, tecnologias e aparatos experimentais, quantidades maciças de dados e novas

abordagens interdisciplinares e distribuídas se consolidam, paradoxalmente muitos

experimentos científicos tornam-se cada vez mais difíceis de serem reexecutados ou são

publicados desconectados dos seus dados (PENG, 2011) (SMITH-SPANGLER, 2012). Como

a replicação completa de estudos sobre os dados ambientais recolhidos independentemente

muitas vezes não é viável, tem havido um convite por parte das agências de fomento e

editorias de revista científicas para tornar as investigações computacionais mais transparentes

e reprodutíveis com um padrão mínimo atingível para que se possa avaliar o real valor das

suas afirmações científicas (TUOT et al., 2008) (MESIROV, 2010) (STODDEN, 2012)

(SANDVE et al., 2013).

A validade de um experimento científico passa pela reprodução de seus resultados por

terceiros. A comunidade científica pode considerar uma pesquisa inválida se somente o

Page 3: RFlow: uma arquitetura para proveniência de workflows ...eventos.uepg.br/sbiagro/2015/anais/SBIAgro2015/pdf...RFlow: uma arquitetura para proveniência de workflows estatísticos

cientista autor consegue reproduzi-la. Para alcançar a reprodução da pesquisa é necessário

possuir os dados descritores tanto do ambiente de execução quanto dos experimentos ou

workflows que manipulam os dados. Estes dados são obtidos da proveniência (FREIRE et al.,

2008).

Coletar proveniência de scripts é um desafio que ainda está em aberto (NASCIMENTO;

CRUZ, 2013), (MURTA et al., 2014). Este trabalho apresenta a abordagem denominada RFlow

que facilita o gerenciamento de experimentos apoiados por workflows estatísticos baseados em

scripts R, mitiga limitações dos sistemas estatísticos no que diz respeito à coleta transparente e

não intrusiva de proveniência prospectiva e retrospectiva. A arquitetura é multimodular e

representa uma proposta que permite os cientistas (re)utilizarem os scripts R encapsulados sob a

forma de meta-workflows científicos, facilitando o reúso de dados e dos próprios scripts R, além

de permitir o compartilhamento e controle de execução dos experimentos com apoio da coleta

de descritores de proveniência sobre as execuções individualizadas de cada execução do

workflow.

MATERIAIS E MÉTODOS

Esta seção apresenta materiais, métodos e tecnologias adotadas na condução da pesquisa e na

elaboração deste trabalho. Vale ressaltar que toda tecnologia utilizada é software livre.

Arquitetura RFlow

A reprodutibilidade e a troca aberta de conhecimentos, dados e materiais entre times de

pesquisa formam a espinha dorsal do progresso científico. Para disponibilizar os dados

experimentais e os processos científicos que os manipulam de maneira organizada e em tempo

real do script R, foi concebida e implementada a arquitetura RFlow. Essa arquitetura, é na

verdade, uma plataforma composta por um conjunto de componentes integrados, em que cada

um tem um propósito bem definido. Os quatro principais componentes que integram a

arquitetura são: Sistema de Gestão de Experimentos (SisGExp), Ambiente R, SGWfC Kepler

e o Sistema Gerenciador de Banco de Dados (SGBD) PostgreSQL.

A Figura 1 apresenta uma visão conceitual e geral da arquitetura, seus controles de

leitura(R) e escrita(W) e dos componentes responsáveis por viabilizar a reprodutibilidade dos

experimentos científicos apoiados por workflows estatísticos e coleta e armazenamento da

proveniência e resultados.

Page 4: RFlow: uma arquitetura para proveniência de workflows ...eventos.uepg.br/sbiagro/2015/anais/SBIAgro2015/pdf...RFlow: uma arquitetura para proveniência de workflows estatísticos

Conceitualmente, a arquitetura RFlow permite que o cientista configure os dados,

parâmetros e descritores do seu experimento através do SisGExp (1a e 1b). A seguir (2) ele

invoca de maneira transparente e remotamente o SGWfC Kepler que parametriza

automaticamente (3a e 3b) um meta-workflow genérico (ExecScript) que controla a execução

dos scripts R no ambiente R (selecionado em 1b). O SGWfC Kepler orquestra a execução do

meta-workflow (3a e 5) e coleta a proveniência da execução do experimento baseado em

meta-workflow que encapsula os scripts R de qualquer tipo através do serviço Provenance

Colector. O SisGExp permite que o cientista monitore (4) remotamente a execução do

experimento (5).

Fonte: (Autor, 2015)

Sistema de Gestão de Experimentos (SisGExp)

O componente SisGExp é um aplicativo Web, utiliza a tecnologia Java EE, e é o responsável

pelo registro de todo planejamento do experimento in silico e pelo acompanhamento dos

dados experimentais coletados pelo pesquisador. O estilo arquitetural utilizado pela aplicação

foi o MVC (Model-View-Controler), pois permite a melhor separação das camadas

apresentados por Nascimento e Cruz, 2013. As camadas são: lógica (camadas core), negócio

(serviços de configuração) e apresentação (camada de interface). Foi utilizado o framework

Figura 1. Representação conceitual da arquitetura RFlow.

2 - “invoca”

Aplicação Web

(SisGExp)

Script R Workflow Científico

(ExecScript)Dados Experimentais

(planilha de dados)

Proveniência de Dados

(Prospectiva e Retrospectiva)

SGBD PostgreSQL

JAVA Ambiente R SGWfC Kepler

1b W

1a W

3a R

3b R

4 - R/W 5 - R/W

E

R - Read

W- Write

E - Execute

Page 5: RFlow: uma arquitetura para proveniência de workflows ...eventos.uepg.br/sbiagro/2015/anais/SBIAgro2015/pdf...RFlow: uma arquitetura para proveniência de workflows estatísticos

JavaServer Faces (JSF) em conjunto com a suíte PrimeFaces para implementar a interface e o

controle da aplicação. O servidor de aplicação utilizado para suportar todas as especificações

da API Java EE é o GlassFish.

O sistema possui três perfis de acesso: 1 – gestor (tem acesso a todas as

funcionalidades e pode manipular os experimentos de todos os cientistas); 2 – pesquisador (o

cientista tem acesso parcial, manipula somente seus experimentos e pode consultar todos os

experimentos); 3 – consulta (acesso livre para somente consultar).

As principais funcionalidades da ferramenta são: (a) cadastro de metadados do

experimento; (b) inserção do script R vinculado ao experimento previamente cadastrado; (c)

geração de resultados estatísticos em tempo real a partir da execução do script R; (d) coleta

de descritores de proveniência retrospectiva sobre as execuções dos scripts R no meta-

workflow ExecScript; (e) cadastro de publicações (artigos, dissertações, teses, etc) vinculadas

ao experimento previamente cadastrado; (f) download de scripts R, planilha de dados,

publicações e do meta-workflow ExecScript (permite simular um ambiente local para executar

os scripts); (g) registro de proveniência prospectiva do experimento; (h) entre outras.

Ambiente R

É o software estatístico responsável pela interpretação e execução dos scripts R. É um

ambiente interativo de programação maduro e largamente utilizado, que permite a codificação

de scripts capazes de executar sofisticados processamentos estatísticos (CRAWLEY, 2002) e

(CHAMBERS, 2008). R possui código aberto e oferece uma ampla gama de recursos

estatísticos (funções e métodos para executar modelagem linear e não linear, análises

multivariadas, análises de séries temporais, entre outros), além de uma biblioteca de funções

gráficas. O sistema é facilmente conectado a diversos tipos de sistemas gerenciadores de

bancos de dados (SGBD), entretanto, apesar do potencial, o sistema ainda não possui

facilidades que apoiem a coleta de proveniência (RUNNALLS, 2013).

Sistema Gerenciador de Workflow Científico (SGWfC)

Com o propósito de automatizar e gerenciar a construção e execução dos workflows

científicos, foram desenvolvidas ferramentas computacionais denominadas sistemas de

gerência de workflows científicos (SGWfC) (HEY et al., 2009). Os SGWfC possibilitam os

Page 6: RFlow: uma arquitetura para proveniência de workflows ...eventos.uepg.br/sbiagro/2015/anais/SBIAgro2015/pdf...RFlow: uma arquitetura para proveniência de workflows estatísticos

pesquisadores realizarem uma espécie de programação em alto nível, através do

encadeamento de processos científicos (ou atividades) que seguem uma determinada lógica.

É o software responsável pelo gerenciamento e orquestração dos workflows

científicos. A automação de workflows pode fornecer as informações necessárias para a

reprodutibilidade científica e para a derivação e o compartilhamento de resultados em um

ambiente de pesquisa colaborativo (OINN et al., 2007).

Atualmente, existem dezenas de SGWfC, alguns específicos para domínios: Galaxy

(https://usegalaxy.org/) e Taverna (http://www.taverna.org.uk/); outros são de propósito geral,

dentre eles destacam-se o VisTrails (CALAHAN et al., 2006), e Kepler (LUDÄSCHER et al.,

2006).

SGWfC Kepler

Kepler é aplicado para análise e modelagem de dados científicos. Ele simplifica o esforço do

cientista para criar, alterar e executar workflows concretos. É um sistema consolidado no meio

científico, de código aberto, feito em Java e construído sobre o motor de execução PtolemyII.

Visa atender a diversos domínios do conhecimento. Ele tem como meta desenvolver soluções

genéricas tanto para o processamento de workflows científicos quanto para os desafios de

integração de aplicações científicas (LUDÄSCHER et al., 2006).

ExecScript

O ExecScript (Figuras 2 e 3) é o meta-workflow científico desenvolvido no SGWfC Kepler

com a finalidade de encapsular e interagir com os scripts R e oferecer ao script todos os

recursos disponibilizados pelo SGWfC (NASCIMENTO; CRUZ, 2013), como por exemplo,

acessar e disponibilizar funções matemáticas e estatísticas preexistentes, conexão com

componentes de banco de dados (comandos SQL, conexões com diversos bancos de dados

(Oracle, PostgreSQL, MySQL, etc), funções de bioinformática (Blast, alinhamento,

sequenciamento, etc), redes neurais, processamento de sinais, visualização de dados, etc.

O ExecScript é invocado remotamente pelo SisGExp e é composto pelo diretor SDF e

por diversos atores e por conectores de arquivos. Dentre os principais atores destacamos o

“Provenance Recorder” (PR) (ALTINTAS et al., 2006) que é utilizado para configurar e

registrar a proveniência do tipo retrospectiva diretamente no SGBD PostgreSQL. A

Page 7: RFlow: uma arquitetura para proveniência de workflows ...eventos.uepg.br/sbiagro/2015/anais/SBIAgro2015/pdf...RFlow: uma arquitetura para proveniência de workflows estatísticos

proveniência é coletada durante a execução do workflow estatístico, inclusive a captura dos

erros de execução se houverem. O segundo ator importante é o subworkflow “subExecScript”

representado pelo ator Composite. O subworkflow é responsável pela conexão com o SGBD

PostgreSQL e pela vinculação da proveniência prospectiva (dados do experimento coletados

pelo SisGExp) com a proveniência retrospectiva (execução do script R).

Figura 2. Meta-workflow ExecScript codificado no SGWfC Kepler

Fonte: (Autor, 2015)

Figura 3. SubWorkflow do ExecScript representado pelo ator subExecScript

Fonte: (Autor, 2015)

SGBD PostgreSQL

O PostgreSQL é o SGBD responsável por armazenar a proveniência prospectiva e

retrospectiva. A proveniência prospectiva é gerada através da interação do cientista com o

SisGExp durante as fases de planejamento e acompanhamento do experimento científico. A

proveniência retrospectiva é gerada na fase de execução e geração dos resultados estatísticos,

sua captura é automática e ocorre desde o momento que o cientista seleciona o script R,

Page 8: RFlow: uma arquitetura para proveniência de workflows ...eventos.uepg.br/sbiagro/2015/anais/SBIAgro2015/pdf...RFlow: uma arquitetura para proveniência de workflows estatísticos

previamente cadastrado na fase de acompanhamento, até o final da sua execução. Neste

artigo, por limitação de escopo, não será discutido o esquema do banco de dados nem o meta-

modelo PROV-DM (MOREAU et al., 2013) que dá apoio semântico aos diversos tipos de

descritores de proveniência.

Proveniência de dados

O problema da proveniência de dados foi inicialmente caracterizado por Buneman et al.

(2001). A proveniência de dados, também chamada de linhagem ou pedigree, consiste na

descrição das origens do dado e do processo pelo qual foi produzido. A proveniência auxilia a

formar uma visão da qualidade, da validade, da confiabilidade e sobretudo da

reprodutibilidade do experimento científico. No escopo de workflows, a proveniência fornece

informação histórica acerca dos dados manipulados a partir de suas fontes originais (CRUZ et

al., 2012).

De acordo com Cohen et al. (2006) e Freire et al. (2008), a proveniência têm

granularidades distintas e pode ser de diversos tipos, e classificada inicialmente como

prospectiva ou retrospectiva. O primeiro tipo captura o processo de especificação de tarefas

computacionais do workflow (programa, atividade, etc.), enquanto o segundo tipo captura as

tarefas executadas, os dados e parâmetros utilizados, além das informações sobre o ambiente

utilizado para derivar um resultado científico, consistindo em um tipo de histórico estruturado

e detalhado sobre a execução de tarefas computacionais.

RESULTADOS E DISCUSSÃO

Atualmente existem poucos trabalhos que relacionam coleta transparente de proveniência,

workflows científicos e sistemas estatísticos através do uso de meta-workflows reutilizáveis

que preservam os scripts legados sem a necessidade de alteração em seus códigos-fonte. Pelo

contrário, as alternativas atuais apontam soluções na direção oposta (HIGGINS, 2007). Por

exemplo, o SGWfC Kepler oferece um conjunto de atores R-específicos que precisam ser

explicitamente modelados sob a forma de atividades concretas no workflow para que

invoquem os recursos do sistema R. Essa abordagem não é tecnologicamente neutra, exigem

razoáveis esforços de programação por parte dos cientistas e abandono ou substituição dos

scripts R.

Page 9: RFlow: uma arquitetura para proveniência de workflows ...eventos.uepg.br/sbiagro/2015/anais/SBIAgro2015/pdf...RFlow: uma arquitetura para proveniência de workflows estatísticos

Uma alternativa que vem ganhando corpo nos últimos anos é a incorporação de

recursos de proveniência aos sistemas estatísticos. Silles e Runnalls (2010) e Runnalls (2013)

propõem a refatoração do código do sistema R para que incorpore recursos de proveniência

no seu motor de execução. Eles apresentaram uma variante do R denominada CXXR. O

sistema já oferece algum tipo de coleta de proveniência retrospectiva sob a forma de logs de

execução. No entanto, ainda está em desenvolvimento, e não possui todos os recursos de um

SGWfC.

A maioria das universidades públicas e institutos de pesquisa brasileiros

<http://www.periodicos.capes.gov.br/> <http://www.alice.cnptia.embrapa.br/> possuem

armazenados em seus repositórios institucionais sua produção científica (artigos, dissertações,

teses, notas técnicas, etc), onde é possível consultar e em alguns casos baixar os documentos

para o computador do pesquisador. Entretanto, ainda não há a possibilidade do cientista

validar os dados contidos nestes documentos ou mesmo (re)executar os experimentos

apoiados por workflows registrados nessas pesquisas, geralmente o que ocorre é a

(re)digitação ou recarga dos dados descritos no documento para um novo ambiente de

experimentação, o que nem sempre é possível ou viável de ser realizado. A arquitetura RFlow

pode reduzir essa distância, uma vez que é capaz de armazenar os dados, os scripts e as

publicações correlacionadas.

Na literatura já existem sistemas que oferecem repositórios de workflows que

permitem cientistas acessem remotamente e incluam novos workflows, como por exemplo o

myExperiment (GOBLE et al., 2010) e o CrowdLabs (MATES et al., 2011), porém essas

alternativas não são capazes de encapsular de modo transparente scripts R legados através de

um meta-workflow genérico, nem oferecem suporte aos workflows desenvolvidos no SGWfC

Kepler. Também há na literatura relatos de sistemas que coletam proveniência de scripts

Python mas não de scripts R. Por exemplo, Bochner et al. (2008) propuseram uma API e uma

biblioteca para capturar e consultar a proveniência retrospectiva de scripts Python. A

ferramenta (MURTA et al., 2014) também é capaz de coletar proveniência retrospectiva de

scripts Python, de modo transparente e não-intrusivo e oferece diferentes tipos de suporte para

a análise da proveniência coletada.

Portanto, além da arquitetura RFlow estar alinhada com conceitos já presentes na

literatura e operacionalizar o repositório de descritores, experimentos e dados, em moldes

assemelhados aos dos repositórios citados anteriormente, ela tem como diferencial permitir a

Page 10: RFlow: uma arquitetura para proveniência de workflows ...eventos.uepg.br/sbiagro/2015/anais/SBIAgro2015/pdf...RFlow: uma arquitetura para proveniência de workflows estatísticos

validação dos dados dos experimentos através da reprodução dos resultados estatísticos

(baseados em scripts R) em tempo real. Permite uma interação amigável do cientista com a

plataforma Web e oculta os detalhes operacionais e de configuração do SGWfC Kepler e da

coleta de proveniência.

RFlow é capaz de trabalhar com três categorias de scripts R: (i) o script que utiliza

dados internos dispostos no próprio script; (ii) o script que utiliza dados externos presentes em

uma planilha de dados armazenada localmente; (iii) o script utiliza dados externos remotamente

armazenados na Web ou em outros servidores. A Figura 4 representa uma tela do SisGExp com

os três experimentos científicos referente a cada uma das três categorias de script R. Na Figura

5 é apresentada uma nova tela com os resultados da execução dos scripts R.

Figura 4. Tela com lista de experimentos cadastrados

Fonte: (Autor, 2015)

Figura 5. Tela com resultados da execução dos scripts R

Fonte: (Autor, 2015)

Page 11: RFlow: uma arquitetura para proveniência de workflows ...eventos.uepg.br/sbiagro/2015/anais/SBIAgro2015/pdf...RFlow: uma arquitetura para proveniência de workflows estatísticos

Mesmo o SisGExp estando na versão Beta, ainda é capaz de atender às seguintes questões de proveniência:

Quadro 1. Questões de proveniência prospectiva e retrospectiva

Proveniência prospectiva Proveniência retrospectiva

Fase de planejamento e acompanhamento do experi-mento. Nesta fase o cientista interage com o SisGExp e responde as questões:

Depois de invocar o ExecScript através do SisGExp épossível responder:

1) Quem é o pesquisador responsável pelo experimen-to?

2) Quais são os fatores, variáveis resposta e delinea-mento envolvidos no experimento?

3) Data inicial e data final da instalação do experimen-to?

4) Objetivo do experimento?

5) Quais atividades do experimento e seu status?

6) Publicações desse experimento?

7) Entre outras

1) Quais são os resultados e análises estatísticas do ex-perimento?

2) Quem executou o workflow estatístico (script)?

3) Data da execução?

4) Em qual servidor foi executado o workflow?

5) Qual o banco de dados utilizado?

6) Qual status da execução (parcial, erro, completa)?

7) Entre outras

Fonte: (Autor, 2015)

CONCLUSÕES

Há urgente necessidade de ampliar a garantia de reprodutibilidade dos experimentos

científicos mediados por computador, e os descritores de proveniência podem auxiliar a

mitigar este problema. Este trabalho apresentou a arquitetura RFlow, um conjunto de

ferramentas integradas, que possibilita ao cientista cadastrar seus experimentos, compartilhá-

los com a comunidade científica e, ainda, permite que os dados sejam validados através do

meta-workflow ExecScript em tempo real.

A solução apresentada permite que a execução do Script R e a proveniência

retrospectiva sejam realizadas sem haver necessidade de modificações no workflow ou

conhecimento da linguagem R. Isto vai diminuir o tempo, custo e esforço do cientista para

simular um ambiente de experimentação.

Como perspectiva futura vale mencionar que haverá execução de um expressivo

número de diferentes tipos de scripts R do domínio da Agrobiologia para verificar a

usabilidade do SisGExp. Além disso, nos próximos trabalhos apresentaremos maiores

considerações sobre o modelo de dados e de descritores de proveniência além de explorar a

integração dos diferentes tipos de proveniência.

Page 12: RFlow: uma arquitetura para proveniência de workflows ...eventos.uepg.br/sbiagro/2015/anais/SBIAgro2015/pdf...RFlow: uma arquitetura para proveniência de workflows estatísticos

AGRADECIMENTOS

Os autores agradecem à EMBRAPA Agrobiologia, à FAPERJ pelo apoio financeiro (E-

26/110.840/2012 e E-26/112.588/2012) e ao FNDE/MEC pelas bolsas concedidas e pelo

apoio financeiro para a execução das atividades da tríade ensino-pesquisa-extensão.

REFERÊNCIAS

ALTINTAS, I. et al. “Provenance Collection Support in the Kepler Scientific Workflow Sys-tem, Proc. of IPAW2006, 118-132, 2006.

BOCHNER, C., GUDE, R., SCHREIBER, A. A Python Library for Provenance Recordingand Querying. In: IPAW. pp. 229–240. 2008.

BUNEMAN, P., KHANNA, S. E CHIEW, W. Why and Where: a Characterization of DataProvenance. In: ICDT’01: 8th International Conference on Database Theory, LNCS, v.1973,p.316–330, 2001.

CHAMBERS, J. R. Software Data Analysis Programming with R Software. Springer. 1st edi-tion, 2008.

COHEN, S., BOULAKIA, S. E DAVIDSON, S. Towards a Model of Provenance and UserViews in Scientific Workflows, Data Integration in the Life Sciences, LNCS 4075, Springer,p.264–279, 2006.

CRAWLEY, M.J. Statistical Computing to Data Analysis using S-plus. Wiley. 1st edition,2002.

CRUZ, S. M. S.; CAMPOS, M. L. M.; MATTOSO, M. A Foundational Ontology to SupportScientific Experiments. Disponível em: ceur-ws.org/Vol-728/paper6.pdf, 2012.

DEELMAN, E., GANNON, D., SHIELDS, M., TAYLOR, I., Workflows and e-Science: Anoverview of workflow system features and capabilities, Future Generation Computer Systems,v. 25, n. 5, p. 528-540, 2009.

FREIRE, J., KOOP, D., SANTOS, E., SILVA, C. T. "Provenance for Computational Tasks: ASurvey", Computing in Science and Engineering, v.10, n. 3, p. 11-21, 2008.

GOBLE, C. A., BHAGAt, J., ALEKSEJEVS, S., CRUICKSHANK, D., MICHAELIDES, D.,NEWMAN, D., BORKUM, M., BECHHOFER, S., ROOS, M. myExperiment: a repositoryand social network for the sharing of bioinformatics workflows, NucleicAcids Research, v.38, n. Web Server Issue (jul.), p. 677-682, 2010.

HEY, T.; TANSLEY, S.; TOLLE, K. (Ed.). The fourth paradigm: data-intensive scientific dis-covery. Redmon: Microsoft Research, Disponível em: <http://research.microsoft.com/ en-us/collaboration/fourthparadigm/>, 2009.

HIGGINS, D., Using R in Kepler, Berkeley University,ptolemy.eecs.berkeley.edu/conferences/05/presentations/higginsRSystem.pdf, 2007.

Page 13: RFlow: uma arquitetura para proveniência de workflows ...eventos.uepg.br/sbiagro/2015/anais/SBIAgro2015/pdf...RFlow: uma arquitetura para proveniência de workflows estatísticos

LUDÄSCHER, B. et al. "Scientific workflow management and the Kepler system: ResearchArticles". Concurrency and Computation: Practice & Experience, v. 18, n. 10, p. 1039-1065,2006.

MAIR, P., DE LEEUW, J. “A general framework for multivariate analysis with optimal sca-ling: The R package aspect”. Journal of Statistical Software, 32(9), pp. 1-12, 2010.

MATES, P., SANTOS, E., FREIRE, J., SILVA, C. T. CrowdLabs: Social Analysis and Visu-alization for the Sciences. In: 23rd Scientific and Statistical Database Management Conferen-ce23rd Scientific and Statistical Database ManagementConference, Portland, Oregon, USA,2011.

MATTOSO, M. et al. "Desafios no apoio à composição de experimentos científicos em largaescala". In: Seminário Integrado de Software e Hardware (XXXVI SEMISH), pp. 307-321,2009.

MESIROV, J.P. Computer Science. Accessible reproducible research. Science 327: 415–416.2010.

MOREAU, L. AND MISSIER, P. PROV-DM: The PROV Data Model”, W3C,www.w3.org/TR/prov-dm/, 2013.

MURTA, L. BRAGANHOLO, V., CHIRIGATI, F., KOOP, D., FREIRE, J. noWorkflow:Capturing and Analyzing Provenance of Scripts. 5th International Provenance and AnnotationWorkshop, IPAW 2014, LNCS. Vol. 8628, p 71-83, 2015.

NASCIMENTO, J. A. P.; CRUZ, S. M. S. RFlow: Uma Abordagem de Reutilização de Work-flows Estatísticos Legados. In: Maceió - Alagoas. XXXIII Congresso da Sociedade Brasileirade Computação, VII e-Science workshop, 2013.

OINN, T., LI, P., KELL, D. B., GOBLE, C., GODERIS, A., GREENWOOD, M., HULL, D.,STEVENS, R., TURI, D., ZHAO, J. Taverna/myGrid: Aligning a Workflow System with theLife Sciences Community, Workflows for e-Science, Springer, p. 300-319, 2007.

PENG, R. D.Reproductible Research in Computer Science,Science Vol. 334 no. 6060 p. 1226-1227, 2011.

RUNNALLS, A. “CXXR: an extensible R interpreter In: Wiley Interdisciplinary Reviews:Computational Statistics. DOI: 10.1002/wics.1251, 2013.

SANDVE G. K., NEKRUTENKO A., TAYLOR J,. HOVIG E. Ten Simple Rules for Repro-ducible Computational Research. PLoS Comput Biol 9(10), (2013).

SILLES, C. A., RUNNALLS, A. “Provenance-Awareness in R”. LNCS, vol. 6378, p. 64-72,2010.

SMITH-SPANGLER, C., Transparency and Reproducible Research in Modeling: Why WeNeed It and How to Get There. Med Decis Making 1 p. 663-666. 2012.

STODDEN, V. Reproducible research for scientific computing: Tools and strategies for chan-ging the culture, Computing in Science & Engineering, vol.14, no. 4, pp. 13-17, July/August2012, doi:10.1109/MCSE. 2012.

TUOT, C. J., SINTEK, M., DENGEL, A. R. IVIP – A Scientific Workflow System to SupportExperts in Spatial Planning of Crop Production. Scientific and Statistical Database Manage-ment. LNCS, vol. 5069, p 586-591. 2008.