bancos de dados biológicos daniel guariz pinheiro laboratório de genética molecular e...

Post on 17-Apr-2015

112 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Bancos de Dados Biológicos

Daniel Guariz Pinheiro

Laboratório de Genética Molecular e Bioinformática ( http://lgmb.fmrp.usp.br )Departamento de Genética ( http://rge.fmrp.usp.br )Faculdade de Medicina de Ribeirão Preto ( http://fmrp.usp.br )Universidade de São Paulo ( http://www.usp.br )

Sumário

• Introdução– Banco de Dados– Dados Biológicos

• Banco de Dados Biológicos– Revisão Histórica– Principais Bases de Dados– Bases de Dados de Expressão Gênica

• NCBI GEO (Gene Expression Omnibus)

• Referências

Banco de Dados

• A database is a collection of related data. By data, we mean known facts that can be recorded and that have implicit meaning. (R. Elmasri and S. B. Navathe)

• A database is a repository for a collection of computerized data files. (C.J.Date)

Abordagem utilizando Sistema de Arquivos

• Cada usuário define e implementa os arquivos necessários para uma aplicação específica.– Gera redundância na definição e no

armazenamento dos dados;– Possui estrutura específica e dependente de

determinada aplicação;– Não permite compartilhamento e acesso

concorrente;– …

Abordagem utilizando Sistema de Banco de Dados

• Utiliza um sistema de gerenciamento de bancos de dados para manter um único repositório de dados;– Evita redundância;– Contém em si a definição de sua estrutura (metadados);– Possui restrições implementadas que evitam inconsistências nos

dados;– Solução genérica para qualquer aplicação;– Permite o acesso concorrente de múltiplos usuários;– Permite diferentes visões dos dados;– Independência da aplicação;– Permite representar relacionamentos complexos entre os dados;– ...

Modelo de dados• Uma coleção de conceitos que podem ser

usados para descrever a estrutura do banco de dados.

• Projeto de um Banco de Dados Relacional– Modelo de Dados Conceitual;

• Modelo de Entidades e Relacionamentos (MER);– Entidades, atributos e relacionamentos;

» Diagrama de Entidades e Relacionamentos (DER);

– Modelo de Dados de Implementação;• Modelo de Dados Relacional;

– Detalhamento do Modelo Conceitual (MER) e adequação ao SGBDR;

– Modelo de Dados Baseado em Registros» Representação através de estruturas de registros;

– Modelo de Dados Físico;• Detalhes internos de armazenamento;

Diagrama de Entidades e Relacionamentos

• Notação Original– Peter Chen,1976.

• Modelo diagramático que descreve o modelo de dados de um sistema com alto nível de abstração. Ele é a principal representação do Modelo de Entidades e Relacionamentos.

Chen, Peter P. English Sentece Structure and Entity-Relationship Diagrams, Elsevier Science Publishing Co,, Inc. 52 Vanderbilt Ave, New York, NY 10017 ERwin®

Notação IDEF1X

Sistema de Gerenciamento de Banco de Dados

• A database management system (DBMS) is a collection of programs that enables users to create and maintain a database. The DBMS is hence a general-purpose software system that facilitates the processes of defining, constructing, and manipulating databases for various applications. (R. Elmasri and S. B. Navathe)

• Modelo de Dados Relacional (SGBDR)– Inspirado na Álgebra Relacional– Organiza os dados em uma estrutura de tabelas– Linguagem SQL (Structured Query Language)

• Modelo de Dados Orientado a Objetos (SGBDOO)– Inspirado nos Paradigmas de Orientação a Objetos– Permite a persistência de objetos– Linguagem OQL (Object Query Language)

• Modelo de Dados Objeto-Relacional (SGBDOR)– Extensão do Modelo Relacional incorporando algumas das

funcionalidades do modelo Orientado a Objetos;

– Extensão da linguagem SQL (SQL3);

O2

Jasmine

Elmasri, R. A. and Navathe

Ambiente Simplificado de um Sistema de Banco de Dados

Em que situações a abordagem com arquivos é indicada?

• O banco de dados e as aplicações são simples e bem definidas e não espera-se alterações;

• Há o requisito de tempo-real para alguns programas, não encontrado com o uso de SGBDs dada sua sobrecarga;

• Não há necessidade de múltiplos acessos.

Banco de Dados Flat file

• Abordagem utilizando arquivos– Arquivos que contêm registros de dados que não

estão estruturalmente relacionados.• Exemplo: Banco de Dados flat file de seqüências

de nucleotídeos (nt)• Possui um padrão específico de formatação

– GenBank, Fasta, ASN.1 ...

• É necessário um programa chamado de parser, que reconhece esses formatos específicos e conseguem extrair informação de forma automática.

– Ex.: Módulos da BioPerl

Revisão Histórica

1977

1986

Gilbert & Sanger

Desenvolvem um método para o seqüenciamento de DNA

Desenvolve o primeiro seqüenciador automático

Leroy Hood

Sequenciamento de DNA

• Sequenciamento manual x automático

CCCAACT...

Revisão Histórica

Iniciativa pública Projeto Genoma Humano

Publicação do rascunhodo Genoma Humano

1990 2001

2000

GenomaXylella fastidiosa

1997

RedeOrganization for NucleotideSequencing and Analysis

19991996

Cancer GenomeAnatomy Project

1988

National Center forBiotechnology Information

E agora ?

Repositórios de Dados Biológicos

• 1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - 1Mb

• 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information

• 1997 – EMBL – European Molecular Biology Laboratory

• 1986 – DDBJ – DNA Data Bank of Japan

International Nucleotide Sequence Database Colaboration

• 100 Giga bases (Agosto de 2005)

Repositórios de Dados Biológicos

• PDB – Protein Data Bank

• UniProt – Universal Protein Resource (Swiss-Prot, TrEMBL, and PIR)

• KEGG – Kyoto Encyclopedia of Genes and Genome

Bancos de Dados Flat files do NCBI

• FASTA

• GenBank

• ASN.1

Referências• Date, C. J. 2003. An Introduction to

Database Systems. Addison-Wesley Longman Publishing Co., Inc.

• Elmasri, R. A. and Navathe, S. B. 2003. Fundamentals of Database Systems. Addison-Wesley Longman Publishing Co., Inc.

Daniel Guariz Pinheiro

daniel@lgmb.fmrp.usp.br

http://scarecrow.fmrp.usp.br/~daniel/

MUITO OBRIGADO !!!

Perguntas...

top related