bancos de dados biológicos daniel guariz pinheiro laboratório de genética molecular e...

21
Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática ( http://lgmb.fmrp.usp.br ) Departamento de Genética ( http://rge.fmrp.usp.br ) Faculdade de Medicina de Ribeirão Preto ( http://fmrp.usp.br ) Universidade de São Paulo ( http://www.usp.br )

Upload: internet

Post on 17-Apr-2015

112 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Bancos de Dados Biológicos

Daniel Guariz Pinheiro

Laboratório de Genética Molecular e Bioinformática ( http://lgmb.fmrp.usp.br )Departamento de Genética ( http://rge.fmrp.usp.br )Faculdade de Medicina de Ribeirão Preto ( http://fmrp.usp.br )Universidade de São Paulo ( http://www.usp.br )

Page 2: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Sumário

• Introdução– Banco de Dados– Dados Biológicos

• Banco de Dados Biológicos– Revisão Histórica– Principais Bases de Dados– Bases de Dados de Expressão Gênica

• NCBI GEO (Gene Expression Omnibus)

• Referências

Page 3: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Banco de Dados

• A database is a collection of related data. By data, we mean known facts that can be recorded and that have implicit meaning. (R. Elmasri and S. B. Navathe)

• A database is a repository for a collection of computerized data files. (C.J.Date)

Page 4: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Abordagem utilizando Sistema de Arquivos

• Cada usuário define e implementa os arquivos necessários para uma aplicação específica.– Gera redundância na definição e no

armazenamento dos dados;– Possui estrutura específica e dependente de

determinada aplicação;– Não permite compartilhamento e acesso

concorrente;– …

Page 5: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Abordagem utilizando Sistema de Banco de Dados

• Utiliza um sistema de gerenciamento de bancos de dados para manter um único repositório de dados;– Evita redundância;– Contém em si a definição de sua estrutura (metadados);– Possui restrições implementadas que evitam inconsistências nos

dados;– Solução genérica para qualquer aplicação;– Permite o acesso concorrente de múltiplos usuários;– Permite diferentes visões dos dados;– Independência da aplicação;– Permite representar relacionamentos complexos entre os dados;– ...

Page 6: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Modelo de dados• Uma coleção de conceitos que podem ser

usados para descrever a estrutura do banco de dados.

• Projeto de um Banco de Dados Relacional– Modelo de Dados Conceitual;

• Modelo de Entidades e Relacionamentos (MER);– Entidades, atributos e relacionamentos;

» Diagrama de Entidades e Relacionamentos (DER);

– Modelo de Dados de Implementação;• Modelo de Dados Relacional;

– Detalhamento do Modelo Conceitual (MER) e adequação ao SGBDR;

– Modelo de Dados Baseado em Registros» Representação através de estruturas de registros;

– Modelo de Dados Físico;• Detalhes internos de armazenamento;

Page 7: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Diagrama de Entidades e Relacionamentos

• Notação Original– Peter Chen,1976.

• Modelo diagramático que descreve o modelo de dados de um sistema com alto nível de abstração. Ele é a principal representação do Modelo de Entidades e Relacionamentos.

Chen, Peter P. English Sentece Structure and Entity-Relationship Diagrams, Elsevier Science Publishing Co,, Inc. 52 Vanderbilt Ave, New York, NY 10017 ERwin®

Notação IDEF1X

Page 8: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Sistema de Gerenciamento de Banco de Dados

• A database management system (DBMS) is a collection of programs that enables users to create and maintain a database. The DBMS is hence a general-purpose software system that facilitates the processes of defining, constructing, and manipulating databases for various applications. (R. Elmasri and S. B. Navathe)

• Modelo de Dados Relacional (SGBDR)– Inspirado na Álgebra Relacional– Organiza os dados em uma estrutura de tabelas– Linguagem SQL (Structured Query Language)

• Modelo de Dados Orientado a Objetos (SGBDOO)– Inspirado nos Paradigmas de Orientação a Objetos– Permite a persistência de objetos– Linguagem OQL (Object Query Language)

• Modelo de Dados Objeto-Relacional (SGBDOR)– Extensão do Modelo Relacional incorporando algumas das

funcionalidades do modelo Orientado a Objetos;

– Extensão da linguagem SQL (SQL3);

O2

Jasmine

Page 9: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Elmasri, R. A. and Navathe

Ambiente Simplificado de um Sistema de Banco de Dados

Page 10: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Em que situações a abordagem com arquivos é indicada?

• O banco de dados e as aplicações são simples e bem definidas e não espera-se alterações;

• Há o requisito de tempo-real para alguns programas, não encontrado com o uso de SGBDs dada sua sobrecarga;

• Não há necessidade de múltiplos acessos.

Page 11: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Banco de Dados Flat file

• Abordagem utilizando arquivos– Arquivos que contêm registros de dados que não

estão estruturalmente relacionados.• Exemplo: Banco de Dados flat file de seqüências

de nucleotídeos (nt)• Possui um padrão específico de formatação

– GenBank, Fasta, ASN.1 ...

• É necessário um programa chamado de parser, que reconhece esses formatos específicos e conseguem extrair informação de forma automática.

– Ex.: Módulos da BioPerl

Page 12: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Revisão Histórica

1977

1986

Gilbert & Sanger

Desenvolvem um método para o seqüenciamento de DNA

Desenvolve o primeiro seqüenciador automático

Leroy Hood

Page 13: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Sequenciamento de DNA

• Sequenciamento manual x automático

CCCAACT...

Page 14: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Revisão Histórica

Iniciativa pública Projeto Genoma Humano

Publicação do rascunhodo Genoma Humano

1990 2001

2000

GenomaXylella fastidiosa

1997

RedeOrganization for NucleotideSequencing and Analysis

19991996

Cancer GenomeAnatomy Project

1988

National Center forBiotechnology Information

Page 15: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

E agora ?

Page 16: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Repositórios de Dados Biológicos

• 1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - 1Mb

• 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information

• 1997 – EMBL – European Molecular Biology Laboratory

• 1986 – DDBJ – DNA Data Bank of Japan

Page 17: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

International Nucleotide Sequence Database Colaboration

• 100 Giga bases (Agosto de 2005)

Page 18: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Repositórios de Dados Biológicos

• PDB – Protein Data Bank

• UniProt – Universal Protein Resource (Swiss-Prot, TrEMBL, and PIR)

• KEGG – Kyoto Encyclopedia of Genes and Genome

Page 19: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Bancos de Dados Flat files do NCBI

• FASTA

• GenBank

• ASN.1

Page 20: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Referências• Date, C. J. 2003. An Introduction to

Database Systems. Addison-Wesley Longman Publishing Co., Inc.

• Elmasri, R. A. and Navathe, S. B. 2003. Fundamentals of Database Systems. Addison-Wesley Longman Publishing Co., Inc.

Page 21: Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática (  )

Daniel Guariz Pinheiro

[email protected]

http://scarecrow.fmrp.usp.br/~daniel/

MUITO OBRIGADO !!!

Perguntas...