gerenciamento de anotações de biosseqüências...

61
Gerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e Esquemas XML Mestrando: Marcus Vinícius Carneiro Teixeira Orientador: Prof. Dr. Mauro Biajiz Co-orientador: Prof. Dr. Ricardo Rodrigues Ciferri

Upload: others

Post on 13-Aug-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

Gerenciamento de Anotações de

Biosseqüências utilizando Associação entre

Ontologias e Esquemas XML

Mestrando: Marcus Vinícius Carneiro Teixeira

Orientador: Prof. Dr. Mauro Biajiz

Co-orientador: Prof. Dr. Ricardo Rodrigues Ciferri

Page 2: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

2

Apresentação

• Introdução

• Anotação de Projetos Genoma

• Bancos de Dados de Genoma

• Ontologias e XML

• Ambientes de Anotação

• Ambiente BioFOX

– Módulo Administrador de Conhecimento

– Módulo Repositório de Dados

– Módulo Interface de Anotação

• Resultados e Conclusão

Page 3: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

3

Introdução

• Motivação

– Projetos Genoma geram um grande

volume de dados.

– Representação e armazenamento de

dados biológicos.

– Integração semântica de dados.

– Ambiente de anotação Bio-TIM.

Page 4: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

4

• Objetivos

– Ambiente de anotação BioFOX:

• Modelo de dados semi-estruturado;

• Ontologias.

– Padronizar conceitos estabelecidos para o

domínio;

– Agregar semântica aos esquemas de dados e

aos dados;

– Criar bancos de dados flexíveis e apropriados

para evolução de esquemas.

Introdução

Page 5: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

5

• Propostas:

– Arquitetura para o Ambiente BioFOX;

– Modelo Conceito-Compartilhado;

– Interface para modelagem e geração de esquemas XML;

– Interface para anotação manual.

Introdução

Page 6: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

6

Apresentação

• Introdução

• Anotação de Projetos Genoma

• Bancos de Dados de Genoma

• Ontologias e XML

• Ambientes de Anotação

• Ambiente BioFOX

– Módulo Administrador de Conhecimento

– Módulo Repositório de Dados

– Módulo Interface de Anotação

• Resultados e Conclusão

Page 7: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

7

Anotação de Projetos Genoma

Page 8: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

8

• Níveis de anotação genômica:

• Fontes de dados em ambientes de anotação:

– Anotação importada;

– Anotação automática;

– Anotação manual.

Anotação de Projetos Genoma

Page 9: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

9

Apresentação

• Introdução

• Anotação de Projetos Genoma

• Bancos de Dados de Genoma

• Ontologias e XML

• Ambientes de Anotação

• Ambiente BioFOX

– Módulo Administrador de Conhecimento

– Módulo Repositório de Dados

– Módulo Interface de Anotação

• Resultados e Conclusão

Page 10: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

10

• Características:

– Aplicações de bioinformática armazenam

seus dados em formatos não padronizados;

– Dados com estrutura irregular;

– Necessidade de flexibilidade para evolução

de esquema.

Bancos de Dados de Genoma

Page 11: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

11

• É necessário tratar vários pontos importantes:

1. O controle semântico dos dados;

2. A definição do modelo de dados mais adequado;

3. As necessidades de processamento;

4. Os meios de acesso e o problema de

integração de bancos de dados biológicos.

Bancos de Dados de Genoma

Page 12: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

12

Apresentação

• Introdução

• Anotação de Projetos Genoma

• Bancos de Dados de Genoma

• Ontologias e XML

• Ambientes de Anotação

• Ambiente BioFOX

– Módulo Administrador de Conhecimento

– Módulo Repositório de Dados

– Módulo Interface de Anotação

• Resultados e Conclusão

Page 13: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

13

Ontologias

• O que são ontologias?

– Definição formal de conceitos pertinentes a um domínio,

compartilhada por um grupo (Uschold e Gruninger, 1996).

• Para a bioinformática:

– importante meio de padronização do vocabulário;

– facilita a troca de informações;

– agiliza a produção de conhecimentos.

Uschold, M. e M. Gruninger. Ontologies: Principles, Methods

and Applications. Knowledge Engineering Review, v.11, n.2. 1996.

1. Controle

semântico dos

dados.

Page 14: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

14

2. Modelo de

dados

adequado.

Dados Semi-Estruturados

e XML• Dados semi-estruturados apresentam:

– representação estrutural heterogênea/irregular.

– estrutura evolucionária.

• Bancos de Dados XML Nativos

– usada na descrição de dados semi-estruturados.

– a estrutura de um documento XML é determinante para o

desempenho de acesso aos dados.

Page 15: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

15

Apresentação

• Introdução

• Anotação de Projetos Genoma

• Bancos de Dados de Genoma

• Ontologias e XML

• Ambientes de Anotação

• Ambiente BioFOX

– Módulo Administrador de Conhecimento

– Módulo Repositório de Dados

– Módulo Interface de Anotação

• Resultados e Conclusão

Page 16: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

16

Ambientes de AnotaçãoAmbientes de

anotaçãoArmazenamento de dados

Tipos de

anotação

Integração

de dados

Vocabulário

controladoOntologia

Apollo SGBD Relacional 1, 2, 3 - X -

ÁrtemisFormatos EMBL, GenBank e

GFF1, 2, 3 - - -

ASAP SGBD Relacional 1, 2, 3 X X -

BASys SGBD Relacional 1, 2 - - GO

BioNotes SGBD Relacional Estendido 1, 2, 3 X X GO

ERGO SGBD Relacional 1, 2, 3 X - ERGO

GARSA SGBD Relacional 1, 2, 3 - X GO

GenDB SGBD Relacional 1, 2, 3 - - GO

GeneQuiz SGBD Relacional 1, 2 X X -

Genotator Flat files (ACE) 2 - - -

GopalacharyuluSGBDs Relacional e Semi-

estruturado1, 2, 3 X - GO

MiGenes SGBD Relacional 1, 2, 3 X - GO

PEDANT SGBD Relacional 1, 2, 3 X - -

Bio-TIM SGBD Relacional 1, 2, 3 X - -

Page 17: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

17

Ambientes de AnotaçãoAmbientes de

anotaçãoArmazenamento de dados

Tipos de

anotação

Integração

de dados

Vocabulário

controladoOntologia

Apollo SGBD Relacional 1, 2, 3 - X -

ÁrtemisFormatos EMBL, GenBank e

GFF1, 2, 3 - - -

ASAP SGBD Relacional 1, 2, 3 X X -

BASys SGBD Relacional 1, 2 - - GO

BioNotes SGBD Relacional Estendido 1, 2, 3 X X GO

ERGO SGBD Relacional 1, 2, 3 X - ERGO

GARSA SGBD Relacional 1, 2, 3 - X GO

GenDB SGBD Relacional 1, 2, 3 - - GO

GeneQuiz SGBD Relacional 1, 2 X X -

Genotator Flat files (ACE) 2 - - -

GopalacharyuluSGBDs Relacional e Semi-

estruturado1, 2, 3 X - GO

MiGenes SGBD Relacional 1, 2, 3 X - GO

PEDANT SGBD Relacional 1, 2, 3 X - -

Bio-TIM SGBD Relacional 1, 2, 3 X - -

Page 18: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

18

Ambientes de AnotaçãoAmbientes de

anotaçãoArmazenamento de dados

Tipos de

anotação

Integração

de dados

Vocabulário

controladoOntologia

Apollo SGBD Relacional 1, 2, 3 - X -

ÁrtemisFormatos EMBL, GenBank e

GFF1, 2, 3 - - -

ASAP SGBD Relacional 1, 2, 3 X X -

BASys SGBD Relacional 1, 2 - - GO

BioNotes SGBD Relacional Estendido 1, 2, 3 X X GO

ERGO SGBD Relacional 1, 2, 3 X - ERGO

GARSA SGBD Relacional 1, 2, 3 - X GO

GenDB SGBD Relacional 1, 2, 3 - - GO

GeneQuiz SGBD Relacional 1, 2 X X -

Genotator Flat files (ACE) 2 - - -

GopalacharyuluSGBDs Relacional e Semi-

estruturado1, 2, 3 X - GO

MiGenes SGBD Relacional 1, 2, 3 X - GO

PEDANT SGBD Relacional 1, 2, 3 X - -

Bio-TIM SGBD Relacional 1, 2, 3 X - -

Page 19: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

19

Ambientes de AnotaçãoAmbientes de

anotaçãoArmazenamento de dados

Tipos de

anotação

Integração

de dados

Vocabulário

controladoOntologia

Apollo SGBD Relacional 1, 2, 3 - X -

ÁrtemisFormatos EMBL, GenBank e

GFF1, 2, 3 - - -

ASAP SGBD Relacional 1, 2, 3 X X -

BASys SGBD Relacional 1, 2 - - GO

BioNotes SGBD Relacional Estendido 1, 2, 3 X X GO

ERGO SGBD Relacional 1, 2, 3 X - ERGO

GARSA SGBD Relacional 1, 2, 3 - X GO

GenDB SGBD Relacional 1, 2, 3 - - GO

GeneQuiz SGBD Relacional 1, 2 X X -

Genotator Flat files (ACE) 2 - - -

GopalacharyuluSGBDs Relacional e Semi-

estruturado1, 2, 3 X - GO

MiGenes SGBD Relacional 1, 2, 3 X - GO

PEDANT SGBD Relacional 1, 2, 3 X - -

Bio-TIM SGBD Relacional 1, 2, 3 X - -

Page 20: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

20

Ambientes de AnotaçãoAmbientes de

anotaçãoArmazenamento de dados

Tipos de

anotação

Integração

de dados

Vocabulário

controladoOntologia

Apollo SGBD Relacional 1, 2, 3 - X -

ÁrtemisFormatos EMBL, GenBank e

GFF1, 2, 3 - - -

ASAP SGBD Relacional 1, 2, 3 X X -

BASys SGBD Relacional 1, 2 - - GO

BioNotes SGBD Relacional Estendido 1, 2, 3 X X GO

ERGO SGBD Relacional 1, 2, 3 X - ERGO

GARSA SGBD Relacional 1, 2, 3 - X GO

GenDB SGBD Relacional 1, 2, 3 - - GO

GeneQuiz SGBD Relacional 1, 2 X X -

Genotator Flat files (ACE) 2 - - -

GopalacharyuluSGBDs Relacional e Semi-

estruturado1, 2, 3 X - GO

MiGenes SGBD Relacional 1, 2, 3 X - GO

PEDANT SGBD Relacional 1, 2, 3 X - -

Bio-TIM SGBD Relacional 1, 2, 3 X - -

Page 21: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

21

Ambientes de AnotaçãoAmbientes de

anotaçãoArmazenamento de dados

Tipos de

anotação

Integração

de dados

Vocabulário

controladoOntologia

Apollo SGBD Relacional 1, 2, 3 - X -

ÁrtemisFormatos EMBL, GenBank e

GFF1, 2, 3 - - -

ASAP SGBD Relacional 1, 2, 3 X X -

BASys SGBD Relacional 1, 2 - - GO

BioNotes SGBD Relacional Estendido 1, 2, 3 X X GO

ERGO SGBD Relacional 1, 2, 3 X - ERGO

GARSA SGBD Relacional 1, 2, 3 - X GO

GenDB SGBD Relacional 1, 2, 3 - - GO

GeneQuiz SGBD Relacional 1, 2 X X -

Genotator Flat files (ACE) 2 - - -

GopalacharyuluSGBDs Relacional e Semi-

estruturado1, 2, 3 X - GO

MiGenes SGBD Relacional 1, 2, 3 X - GO

PEDANT SGBD Relacional 1, 2, 3 X - -

BioFOXSGBD Semi-estruturado e DW

Relacional 1, 2, 3 X X GO e SO

Page 22: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

22

Apresentação

• Introdução

• Anotação de Projetos Genoma

• Bancos de Dados de Genoma

• Ontologias e XML

• Ambientes de Anotação

• Ambiente BioFOX

– Módulo Administrador de Conhecimento

– Módulo Repositório de Dados

– Módulo Interface de Anotação

• Resultados e Conclusão

Page 23: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

23

Ambiente BioFOX Arquitetura:

– Módulo Ferramentas de Bioinformática (MFB)

– Módulo Repositório de Dados (MRD)

– Módulo Interface de Anotação (MIA)

– Módulo Administrador de Conhecimento (MAC)

Page 24: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

24

Apresentação

• Introdução

• Anotação de Projetos Genoma

• Bancos de Dados de Genoma

• Ontologias e XML

• Ambientes de Anotação

• Ambiente BioFOX

– Módulo Administrador de Conhecimento

– Módulo Repositório de Dados

– Módulo Interface de Anotação

• Resultados e Conclusão

Page 25: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

25

Administrador de Conhecimento (MAC)

Onde as ontologias e o Namespace de Anotação são

definidos.

Ontologia de aplicação e Namespace representam o

mesmo conjunto de dados.

Deve conhecer e organizar todas os dados de anotação

provenientes dos demais módulos

Page 26: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

26

Apresentação

• Introdução

• Anotação de Projetos Genoma

• Bancos de Dados de Genoma

• Ontologias e XML

• Ambientes de Anotação

• Ambiente BioFOX

– Módulo Administrador de Conhecimento

– Módulo Repositório de Dados

– Módulo Interface de Anotação

• Resultados e Conclusão

Page 27: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

27

Repositório de Dados (MRD)

Estrutura para o armazenamento de anotações.

SGBD XML nativo (Tamino XML Server)

– Esquemas flexíveis.

– Bancos de dados inter-operáveis.

– Desenvolvimento de uma interface para o projeto de banco de

dados XML.

– Semântica associada aos esquemas de dados

(conceito-compartilhado).

Page 28: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

28

Conceito-Compartilhado

Projetos genoma de um mesmo domínio de pesquisa não

necessariamente trabalham com o mesmo conjunto de anotações.

3.

Necessidades

de

processamento

.

4. Integração

de dados.

Esquemas diferentes!

Mesma semântica!

Page 29: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

29

Ontologias

• Ontologia de aplicação:

– Associação;

– Agrupamento;

– Parte de.

Page 30: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

30

Ontologias

• Ontologia de aplicação:

– Associação;

– Agrupamento;

– Parte de.

<sequence>

<annotation/>

</sequence>

<annotation>

<sequence/>

</annotation>

Page 31: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

31

Ontologias

• Ontologia de aplicação:

– Associação;

– Agrupamento;

– Parte de.

hq_start

hq_end

Sequence

fasta

biofox:grouping

Page 32: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

32

Ontologias

• Ontologia de aplicação:

– Associação;

– Agrupamento;

– Parte de.

Page 33: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

33

Repositório de Dados (MRD)

Ontologia

de Aplicação

Projetista de BD

Interface

XML Database Design

Namespace de Anotação Genômica

Domínios

Específicos

Ontologias

de Biologia

Molecular

Aplicativos

Orientações para

o projeto de BD

Vocabulários

de anotações

genômicas

Page 34: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

34

Repositório de Dados (MRD)

Ontologia

de Aplicação

Projetista de BD

Namespace de Anotação Genômica

Domínios

Específicos

Ontologias

de Biologia

Molecular

Aplicativos

Interface

XML Database Design

Orientações para

o projeto de BD

Vocabulários

de anotações

genômicas

Tamino XML Server

BD

XML

XML

Schema

XML

Schema

XML

Schema

Modelagem e

propriedades

físicas propostas

Esquemas

propostos

Conjunto de

esquemas definidos

no BD XML

Page 35: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

35

Repositório de Dados (MRD)

Ontologia

de Aplicação

Projetista de BD

Namespace de Anotação Genômica

Domínios

Específicos

Ontologias

de Biologia

Molecular

Aplicativos

Interface

XML Database Design

Orientações para

o projeto de BD

Vocabulários

de anotações

genômicas

Tamino XML Server

XML

Schema

XML

Schema

XML

Schema

Modelagem e

propriedades

físicas propostas

Esquemas

propostos

Conjunto de

esquemas definidos

no BD XML

BD

XML

Page 36: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

36

Apresentação

• Introdução

• Anotação de Projetos Genoma

• Ontologias

• Bancos de Dados de Genoma e XML

• Ambientes de Anotação

• Ambiente BioFOX

– Módulo Administrador de Conhecimento

– Módulo Repositório de Dados

– Módulo Interface de Anotação

• Resultados e Conclusão

Page 37: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

37

Interface com Pesquisadores

Page 38: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

38

Interfaces de Anotação Manual

• Como uma ontologia pode ajudar o pesquisador em sua

anotação manual?

• Quais são as necessidades dos pesquisadores?

• Quais dificuldades com interfaces de programas

convencionais?

• Que funcionalidades podem ser adicionadas?

Page 39: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

39

Interfaces de Anotação Manual

• Funcionalidades implementadas:

– Auto-completar;

– Sinônimos;

– Exemplos;

– Definição de novos campos (em construção).

Page 40: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

40

Apresentação

• Introdução

• Anotação de Projetos Genoma

• Ontologias

• Bancos de Dados de Genoma e XML

• Ambientes de Anotação

• Ambiente BioFOX

– Módulo Administrador de Conhecimento

– Módulo Repositório de Dados

– Módulo Interface de Anotação

• Resultados e Conclusão

Page 41: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

41

Experiência dos Usuários

71,43%

92,86%

42,86%

92,86%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Bioinformática BD BD XML Ontologia

Exp

eri

ên

cia

do

s U

su

ári

os

Page 42: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

42

Avaliação dos Usuários

100,00%

66,67%

85,71%

42,86%42,86%

33,33%

50,00%50,00%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Muito Razoável Total Melhor Pouco

Melhor

Muito Útil Útil Total

Contribui Criação de Esquemas Qualidade Utilidade

Quesitos

Avaliação

do

s U

su

ári

os

Page 43: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

43

77,78%

100,00% 100,00%

0,00%

44,44%

33,33%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Muito Razoável Total Muito

Importante

Importante Total

Padronização e Compartilhamento Conceito-Compartilhado

Avaliação

de B

ioin

form

ata

sAvaliação dos Usuários

Page 44: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

44

Avaliação dos Usuários

• Aspectos positivos citados pelos usuários:

– Visualização gráfica dos elementos em uma interface intuitiva e

de fácil usabilidade;

– Recomendação de termos e propriedades;

– Vocabulário comum entre o projetista do banco de dados e

biólogos especialistas no domínio;

– Estabelecimento de regras do domínio, o que permite alertar

para eventuais erros conceituais do projetista;

Page 45: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

45

Avaliação dos Usuários

• Aspectos positivos citados pelos usuários:

– Diminuição da heterogeneidade semântica entre aplicações de

mesmo domínio;

– Diminuição no tempo gasto para desenvolvimento do projeto de

banco de dados e também para criação de esquemas XML;

– Diminuição da disparidade semântica do esquema, reduzindo-

se o custo de futuros esforços de integração.

Page 46: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

46

Contribuições

• Proposta de uma arquitetura para um ambiente de anotação;

• Desenvolvimento e implementação de uma interface para a modelagem conceitual de domínios complexos, como o de biologia molecular, e criação de esquemas de dados XML;

• Criação de esquemas de dados estruturalmente independentes, mas com semântica associada por meio de uma ontologia;

• Proposta do modelo de integração conceito-compartilhado, o qual explora as características de esquemas de dados XML associados a uma ontologia;

Page 47: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

47

Contribuições

• Desenvolvimento de uma ontologia de aplicação contendo

definições de conceitos e regras de domínio, com o objetivo de

guiar e auxiliar a modelagem conceitual de dados;

• Desenvolvimento de um namespace de vocabulários XML para a

anotação de projetos genoma.

Page 48: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

48

Trabalhos Futuros

• Exploração da integração de dados a partir do modelo de conceito-

compartilhado apresentado neste trabalho;

• Componentização da interface de anotação manual;

• Testes de desempenho de bancos de dados XML quando aplicados

em um projeto genoma;

• Expansão dos vocabulários de domínios já definidos e a inclusão de

novos domínios;

Page 49: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

49

Trabalhos Futuros

• Aplicação da interface XML Database Design a diferentes domínios de conhecimento, além do domínio de biologia molecular;

• Melhoria da interface XML Database Design.

Page 50: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

26 de Maio de 2008.

Page 51: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

51

Anexos

Page 52: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

Defesa de Mestrado

26 de Maio de 2008.

Page 53: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

53

• Anotação importada

• Anotação automática

• Anotação manual

Anotação de Projetos Genoma

Coluna

3

Coluna 2Coluna

1

Tupla1Tupla1Tupla1

Tupla2 Tupla2 Tupla2

Page 54: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

54

XML Database Design

Page 55: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

55

Apresentação

• Introdução

• Anotação de Projetos Genoma

• Ontologias

• Bancos de Dados de Genoma e XML

• Arquitetura Proposta

– Módulo Administrador de Conhecimento

– Módulo Repositório de Dados

• Interfaces para Anotação Manual

• Integração de Dados

Page 56: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

56

Integração Física

BD X

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

BD N

BD de

Integração

(Data Warehouse)

Coluna 1 Coluna 2 Coluna 3

Tupla1 Tupla1 Tupla1

Tupla2 Tupla2 Tupla2

Coluna 1 Coluna 2 Coluna 3

Tupla1 Tupla1 Tupla1

Tupla2 Tupla2 Tupla2

Coluna 1 Coluna 2 Coluna 3

Tupla1 Tupla1 Tupla1

Tupla2 Tupla2 Tupla2

Coluna 1 Coluna 2 Coluna 3

Tupla1 Tupla1 Tupla1

Tupla2 Tupla2 Tupla2

Coluna 1 Coluna 2 Coluna 3

Tupla1 Tupla1 Tupla1

Tupla2 Tupla2 Tupla2

Coluna 1 Coluna 2 Coluna 3

Tupla1 Tupla1 Tupla1

Tupla2 Tupla2 Tupla2

Conversores

Page 57: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

57

Integração por Mapeamento

BD X

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

Integração de dados.

BD N

Coluna 1 Coluna 2 Coluna 3

Tupla1 Tupla1 Tupla1

Tupla2 Tupla2 Tupla2

Coluna 1 Coluna 2 Coluna 3

Tupla1 Tupla1 Tupla1

Tupla2 Tupla2 Tupla2

Coluna 1 Coluna 2 Coluna 3

Tupla1 Tupla1 Tupla1

Tupla2 Tupla2 Tupla2

Coluna 1 Coluna 2 Coluna 3

Tupla1 Tupla1 Tupla1

Tupla2 Tupla2 Tupla2

Coluna 1 Coluna 2 Coluna 3

Tupla1 Tupla1 Tupla1

Tupla2 Tupla2 Tupla2

Coluna 1 Coluna 2 Coluna 3

Tupla1 Tupla1 Tupla1

Tupla2 Tupla2 Tupla2

Mapa de

Integração

Page 58: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

5858

Avaliação dos Usuários

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%M

uito

Ra

zo

áve

l

To

tal

Mu

ito

Ra

zo

áve

l

To

tal

Mu

ito

Me

lho

r

Me

lho

r

To

tal

Mu

ito

Me

lho

r

Me

lho

r

To

tal

Po

uco

Me

lho

r

Mu

ito

Útil

Útil

To

tal

Contribui

Criação de

Esquemas

Facilita Proj. de

BD

Agilidade Qualidade Utilidade

Questões

Av

alia

çã

o d

os

Us

rio

s

Page 59: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

5959

Avaliação dos Usuários

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%M

uito

Ra

zo

áve

l

To

tal

Mu

ito

Ra

zo

áve

l

To

tal

Mu

ito

Me

lho

r

Me

lho

r

To

tal

Mu

ito

Me

lho

r

Me

lho

r

To

tal

Po

uco

Me

lho

r

Mu

ito

Útil

Útil

To

tal

Contribui

Criação de

Esquemas

Facilita Proj. de

BD

Agilidade Qualidade Utilidade

Questões

Av

alia

çã

o -

BD

XM

L

Page 60: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

6060

Avaliação dos Usuários

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%M

uito

Ra

zoá

vel

To

tal

Mu

ito

Ra

zoá

vel

To

tal

Mu

ito

Me

lho

r

Me

lho

r

To

tal

Mu

ito

Me

lho

r

Me

lho

r

To

tal

Po

uco

Me

lho

r

Mu

ito Ú

til

Útil

To

tal

Mu

ito

Ra

zoá

vel

To

tal

Mu

ito

Imp

ort

an

te

Imp

ort

an

te

To

tal

Contribui

Criação de

Esquemas

Facilita Proj.

de BD

Agilidade Qualidade Utilidade Padronização e

Compartilham.

Conceito-

Compartilhado

Questões

Av

alia

çã

o d

e B

ioin

form

ata

s

Page 61: Gerenciamento de Anotações de Biosseqüências …gbd/download/files/Marcus.Defesa.pdfGerenciamento de Anotações de Biosseqüências utilizando Associação entre Ontologias e

6161

Avaliação dos Usuários

0%10%20%30%40%50%60%70%80%90%

100%M

uito

Ra

zoá

vel

To

tal

Mu

ito

Ra

zoá

vel

To

tal

Mu

ito

Me

lho

r

Me

lho

r

To

tal

Mu

ito

Me

lho

r

Me

lho

r

To

tal

Po

uco

Me

lho

r

Mu

ito Ú

til

Útil

To

tal

Contribui

Criação de

Esquemas

Facilita Proj. de

BD

Agilidade Qualidade Utilidade

Questões

Av

alia

çã

o C

om

pa

rati

va

Usuários Bioinformatas BD XML