midb-op: um modelo de integração de dados biológicos...

28
MIDB-OP: um Modelo de Integração de Dados Biológicos apoiado em Ontologias e Procedência de dados Caroline Beatriz Perlin Orientador: Prof. Dr. Ricardo Rodrigues Ciferri

Upload: vuonganh

Post on 27-Nov-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

MIDB-OP: um Modelo de Integração

de Dados Biológicos apoiado em

Ontologias e Procedência de dados

Caroline Beatriz Perlin

Orientador: Prof. Dr. Ricardo Rodrigues Ciferri

Page 2: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/20102

Agenda

Introdução

Bancos de dados biológicos (BDBs)

Integração de dados

Procedência de dados

Ontologias

Abordagens de integração de BDBs

Proposta de dissertação

Page 3: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/20103

Introdução: Contextualização

Advento do Projeto Genoma

Crescimento do número de dados biológicos a serem armazenados

em Bancos de Dados Biológicos

BDBs heterogêneos e independentes

Page 4: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/20104

Introdução: Motivação

BDBs são heterogêneos e têm crescimento acelerado, bem como

os dados neles armazenados.

Problemas na integração de dados biológicos:

• Conflitos semânticos;

• Conflitos de valores nos atributos de entidades;

• Entidades similares que poderiam ser agrupadas;

• Uma entidade que poderia representar um agrupamento.

Page 5: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/20105

Introdução: Objetivos

Criação de um modelo de integração de dados armazenados nos

diferentes BDBs

Esse modelo terá o uso de ontologias e procedências.

Modelo de Integração de Dados Biológicos apoiado em Ontologias

e Procedências (MIDB-OP)

Page 6: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/20106

Bancos de Dados Biológicos: Dados biológicos

Armazenam grande heterogeneidade de dados biológicos. Muitos

deles provêm da área da bioinformática.

1. Sequências de nucleotídeos e aminoácidos

Representam nucleotídeos compostos pelas bases:

• Citosina (C)

• Timina (T)

• Guanina (G)

• Adenina (A) *

• Uracila (U) **

• ou por strings que representam os 20 aminoácidos que compõem as proteínas (i.e., {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}).

* Exclusiva do DNA

** Exclusiva do RNA

Page 7: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/20107

Dados biológicos

2. Ácido nucleico

• Ácido desoxirribonucleico (DNA)

• Pentose: desoxirribose

• Bases nitrogenadas: A, C, G, T.

• Ácido ribonucleico (RNA)

• Pentose: ribose

• Bases nitrogenadas: A, G, T e U.

3. Genoma

• Conjunto de genes de uma espécie

• Gene: sequência de nucleotídeos que contém informação genética

Page 8: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/20108

Dados biológicos

4. Proteoma

• Conjunto de proteínas que participam de processos químicos e biológicos numa

célula, tecido ou organismo de uma espécie.

5. Anotação de gene

• Inclusão informações importantes para a análise e interpretação de genes.

• De acordo com o ambiente onde a anotação é realizada, ela pode ser

classificada em:

• Manual

• Automática

• Importada

Page 9: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/20109

Dados biológicos

6. Estruturas de proteínas

• Estruturas tridimensionais (3D) que exibem a representação geométrica

das proteínas

Estrutura da proteína serum albumina humana, adaptado de wwPDB (2010).

Page 10: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201010

Dados biológicos

7. Dados bibliográficos

• Publicações, citações, resumos e artigos completos disponíveis para

consulta.

Trecho do resultado da busca por “soya cancer” no PubMed

Page 11: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201011

Formato de sequências nos BDBs

Foi realizada uma pesquisa em dados de sequência em três BDBs,

obtendo como resultado a tabela abaixo:

• GenBank

• DDBJ

• EMBL

Page 12: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201012

Integração de banco de dados

Visão integrada para facilitar o acesso aos dados e o seu reuso

através de um único ponto de acesso.

Dados de diferentes sistemas de informação complementares são

combinados para gerar um BD mais abrangente.

Em nível de:

• Esquema

• Instância

Esquema Mediado

Wrapper Wrapper Wrapper Wrapper

Page 13: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201013

Integração em nível de instância ou Resolução de

Entidades (RE)

Integração de registros similares que são fundidos (merge)

Suponha as três relações abaixo:

Podemos fundir r1e r2 baseado no campo RG:

O registro r12 pode ser fundido ao registro r3:

Existem algoritmos para realizar a resolução de entidades: o de força bruta

e o G-swoosh.

R1 Nome RG R2 RG Email R3 Nome Email

R12 Nome RG EmailR12 Nome RG Email

R123 Nome RG Email

Page 14: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201014

Integração de dados biológicos - desafios

Heterogeneidade de dados biológicos.

Formato de representação dos dados biológicos.

Diferentes interfaces de consulta.

Page 15: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201015

Procedência de Dados

Armazenamento de metadados que permitem a construção do

histórico de um determinado dado (TOMAZELA, 2008).

Sinônimos: proveniência (provenance), linhagem de dados (lineage

ou pedigree) e data tracking.

Page 16: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201016

Aspectos da coleta e consulta da procedência de dados

Decisão de quais dados armazenar

• Tipos de dados

• Granularidade

Decisão da estratégia de coleta de dados

• Abordagens manual ou automática

• Abordagens lazy ou eager

Decisão de como armazenar estes dados

• Arquivos

• BDs

Decisão de como consultar os dados.

• Abordagens de consulta tipo rastreamento e/ou tipo filtro.

Page 17: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201017

Ontologias: Motivação

Heterogeneidade de termos em BDs, havendo as seguintes

situações:

• dois termos diferentes referem-se ao mesmo objeto;

Ex.: cachorro, cão.

• dois termos iguais referem-se a objetos diferentes;

• termos sinônimos em um banco de dados não são assim considerados

por outro banco de dados.

Page 18: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201018

Ontologias: Definição e características

Definida como “uma especificação formal e explícita de uma

conceitualização compartilhada” (GRUBER, 1993).

Características

• Conceitos (ou classes)

• Propriedades: atributos + relacionamentos

• Instância

• Axioma

• Inferência

Uma forma de expressar: linguagem Web Ontology Language

(OWL), recomendação do W3C.

Page 19: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201019

Gene Ontology e Sequence Ontology

Gene Ontology

• Provê conjunto de vocabulários controlados para anotações de genes,

produtos de genes e sequências.

• Possui 3 ontologias independentes:

• Ontologia de função molecular

• Ontologia de processo biológico

• Ontologia de componente celular

Sequence Ontology

• Vocabulários controlados para anotações de sequências, focando em

suas características.

Page 20: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201020

Abordagens de integração de BDBs

Page 21: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201021

Abordagens de integração de BDBs

Tipos de dados tratados pelos trabalhos correlatos ao modelo proposto.

Page 22: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201022

Proposta de dissertação

Funcionalidades que devem estar presentes no MIDB-OP:

• Reconciliador de dados biológicos para identificar inconsistências entre

dados biológicos de diferentes fontes;

• Uso de ontologias do domínio de biologia molecular, como a Gene

Ontology e Sequence Ontology como vocabulário controlado;

• Uso de procedência de dados para permitir a reaplicação de decisões

de integração realizadas previamente;

• Desenvolvimento de uma interface gráfica para visualização dos dados

integrados e da fonte de origem.

Tipo de dado que será objeto dessa pesquisa: sequências

Page 23: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201023

Reconciliador de dados biológicos

Arquitetura da ferramenta Reconciliador de Dados Biológicos, adaptado de

Tomazela et al (2008)

Árvore-NM1

Documento 1

Conjunto de

Visões 1

Repositório de

Árvores-NM

Repositório de

Documentos

Conjunto de

Visões 2Visão 1 Visão 2

Árvore-NM2

Documento 2

Módulo

ExtratorMódulo

Reconciliador

Módulo

Extrator

Page 24: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201024

Uso de ontologias do domínio de biologia molecular

Objetivo do uso das ontologias:

• Resolver conflitos semânticos e de valores de atributos.

• Identificação de uma entidade que representa um agrupamento.

• Para agrupamento de entidades similares.

• Vocabulário controlado.

Exemplo do uso de ontologias para verificar similaridade, adaptado de Eilbeck et al (2005)

Exon:

CG14478:1

Exon:

CG14478:2

Exon:

CG14478:3

Transcript:

CG14478:RA

Transcript:

CG14478:RB

Gene:

CG14478

Page 25: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201025

Uso da procedência de dados

Após a fase de reconciliação, pode ser necessária decisão do

usuário de qual dado utilizar

Os BDB são proprietários, logo não podemos propagar a decisão do

usuário para o BDB

Solução:

•Armazenar as decisões como operações em um repositório

•Essas operações serão reaplicadas quando ocorrer situação similar

Page 26: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201026

Arquitetura do sistema proposto

Dados

integrados

Repositório de

operações

Componente de

consulta

BDBs

públicos

Componente de

integração

1Ontologias

(Gene e Sequence)

Projetos

genoma

Outros

BDBs

Procedência

Re

ap

lica

çã

o

Page 27: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

8/6/201027

Cronograma de atividades

Defesa da qualificação de mestrado

Revisão do estado da arte na literaturaEstudo e tratamento dos problemas de

identificação de agrupamentos de

entidades similares no domínio biológico

de sequências de nucleotídeos e de

aminoácidos, e identificação da entidade

representativa de um agrupamento

Desenvolvimento de um reconciliador de

dados biológicosProposta do modelo de integração de

dados biológicosImplementação do modelo de integração

Desenvolvimento da interface gráfica

Trabalho com estudos de caso

Análise comparativa com trabalhos

do estado da arteRedação e submissão de artigos a

eventos e periódicos nacionais e

internacionaisEscrita da monografia da

dissertação de mestradoPreparação para a defesa da

dissertação de mestradoDefesa da dissertação de

mestrado

Page 28: MIDB-OP: um Modelo de Integração de Dados Biológicos ...gbd.dc.ufscar.br/download/files/Caroline.MIDB.OP.um.Modelo.de... · Decisão de quais dados armazenar • Tipos de dados

Obrigada!

Contato:

[email protected]