1 my grid: bio-informática personalizada em uma grade de informação. francisco silva...
TRANSCRIPT
1
MyGRID: Bio-informática personalizada em uma grade
de informação.
Francisco Silva
2
Objetivo
• Explorar o uso da tecnologia de grades de computadores, com ênfase em grades de informação, para prover um middleware apropriado para as necessidades da bio-informática;
• Estão sendo construídos serviços para a integração de dados e aplicações como serviço de descoberta de recursos, workflow, processamento distribuído de consultas, notificação de mudanças e personalização.
3
Introdução
• Projeto de código aberto que fornece um middleware de suporte a experimentos de biologia in silico personalizados em uma grade de computadores.
4
Diferenciação
• Projetos em andamento focam em:– Compartilhamento de recursos
computacionais– Movimentação e replicação de grande
volumes de dados para simulações– Análise de sequências de alto throughput
5
Diferenciação
• O projeto myGrid busca:– Dar apoio a processos científicos que
possuem requisitos computacionais mais modestos mas com grande complexidade semântica.
6
Abordagem
• Projeto busca criar uma grade de serviços (e não apenas de dados ou computacional)
• O arcabouço foi prototipado com Web Services e migrou para Open Grid Services Architecture (OGSA)
7
Serviços Disponibilizados
• Para realizar experimentos in silico– Organizados em workflows e consultas
distribuídas– Dados e parâmetros são enviados como
entrada para ferramentas de análise ou serviços de banco de dados;
– A saída destes é utilizada como entrada para outras ferramentas ou consultas em bases de dados.
8
Serviços Disponibilizados
• Serviços de Bio-informática– Serviços como recuperação de bancos de
dados e ferramentas de análise são disponibilizados de forma a acomodar sua distribuíção e variedade de formatos de dados
– NCBI BLAST, WU BLAST, EMBOSS suite (mas de 80 ferramentas de análise), MEDLINE, SRS
9
Serviços Disponibilizados
• Workflow– Utiliza WSFL (Web Service Flow
Language) para definir o tipo e realizar chamadas a serviços.
10
Serviços Disponibilizados
• Consultas a bases de dados distribuídas– Consultas são descritas em linguagem de
alto nível (OQL)
11
Serviços para eScience
• Notificação: – um workflow pode ter de ser re-executado quando
novos dados ou softwares de análise tornarem-se disponíveis
• Personalização:– O repositório de informação (mIR) armazena
dados XML gerados pelos experimentos com seus metadadados e termos de suas ontologias
– São permitidas anotações deste conteúdo bem como visões diferentes do mesmo
12
Serviços para eScience
• Provenance:– Biólogos costumam guardar anotações de
experimentos em livros– Os serviços myGrid automaticamente
armazenam no mIR informações a respeito dos dados, serviços e resultados.
13
14
Serviço de Descoberta
• Responsável pela localização de serviços, dispositivos e recursos
• Tradicionalmente necessitam de um conhecimento prévio dos serviços disponíveis
• MyGrid utiliza um arcabouço baseado em ontologias para descoberta de serviços
15
Serviços Semânticos
• Uma descrição semântica oferece um mecanismo para lidar com a heterogeneidade de recursos, provendo um vocabulário comum para integrar e realizar consultas em dados dados e serviços aparentemente dispersos.
16
Serviços Semânticos
• Serviços internos ao myGrid são descritos em DAML-S, com extensões específicas para bio-informática
• Serviços de terceiros podem ser descritos através de padrões UDDI / WSFL (Web Services Flow Language) e WSDL
17
Requisitos do Serviço de Descoberta
• Descrições devem poder serem anexadas a diferentes recursos (serviços e workflows) e publicadas em diferentes componentes (registros de serviço, arquivos locais, banco de dados)
• A publicação de descrições deve poder ser realizada tanto pelos autores do serviço quanto por terceiros
• Classes diferentes de usuários desejam examinar diferentes aspectos dos metadados disponíveis.
18
Requisitos do Serviço de Descoberta
• É necessário haver um controle sobre quem pode adicionar ou alterar anotações
• Uma única, unificada interface deve ser disponibilizada aos usuários.
19
20
Service Registry
• Utilizado para publicar os serviços, descrevendo como podem ser acessados
• Permite a adição de informações adicionais (metadados) para facilitar a descoberta dos mesmos.
21
Personalised View
• Espaço para a adição de metadados de terceiros, permitindo a filtragem de serviços retornados por uma consulta
22
Semantic Find Service
• Composto por vários componentes, mantêm um banco de dados de descrições obtidos através dos recursos publicacados e registros constantes das visões
• Um servidor de ontologias provê acesso a ontologias e gerencia a interação com um reasoner
23
24
Bibliografia• myGrid: Personalised Bioinformatics on the
Information Grid, 11th International Conference on Intelligent Systems in Molecular Biology, July 2003, Brisbane, Australia
• Semantic and Personalised Service Discovery, Workshop on Knowledge Grid and Grid Intelligence (KGGI'03), in conjunction with 2003 IEEE/WIC International Conference on Web Intelligence/Intelligent Agent Technology, Halifax, Canada, October 2003