bancos de dados biológicos i daniel guariz pinheiro

49
Bancos de Dados Biológicos Bancos de Dados Biológicos I I Daniel Guariz Pinheiro

Upload: joana-gama-faria

Post on 07-Apr-2016

228 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Bancos de Dados Biológicos IBancos de Dados Biológicos I

Daniel Guariz Pinheiro

Page 2: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

SumárioSumário

IntroduçãoBanco de DadosSistemas de Banco de Dados

Processo de extração de conhecimento Banco de Dados Biológicos

Dados BiológicosRevisão HistóricaPrincipais Bases de Dados

Bases de Dados de Expressão GênicaNCBI GEO (Gene Expression Omnibus) e o CGAP SAGE Genie

Referências

Page 3: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Banco de DadosBanco de Dados

A database is a collection of related data. By data, we mean known facts that can be recorded and that have implicit meaning. (R. Elmasri and S. B. Navathe)

A database is a repository for a collection of computerized data files. (C.J.Date)

Propriedades:

-Representar um aspecto do mundo real;-Conter dados coerentes e com um significado inerente;-Deve ter um propósito;

Page 4: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Abordagem utilizando Abordagem utilizando Sistema de ArquivosSistema de Arquivos

O programador define e implementa os arquivos necessários para uma aplicação específica.

Gera redundância na definição e no armazenamento dos dados;Possui estrutura específica e dependente de determinada aplicação;Não permite compartilhamento e acesso concorrente;…

Page 5: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Abordagem com Sistemas Abordagem com Sistemas de Banco de Dadosde Banco de Dados

Utiliza um sistema de gerenciamento de bancos de dados para manter um único repositório de dados;

Evita redundância;Contém em si a definição de sua estrutura (metadados);Possui restrições implementadas que evitam inconsistências nos dados;Solução genérica para qualquer aplicação;Permite o acesso concorrente de múltiplos usuários;Permite diferentes visões dos dados;Independência da aplicação;Permite representar relacionamentos complexos entre os dados;...

Page 6: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Modelo de dadosModelo de dados

Uma coleção de conceitos que podem ser usados para descrever a estrutura do banco de dados.Projeto de um Banco de Dados Relacional

Modelo de Dados Conceitual;Modelo de Entidades e Relacionamentos (MER);

Entidades, atributos e relacionamentos; Diagrama de Entidades e Relacionamentos (DER);

Modelo de Dados de Implementação;Modelo de Dados Relacional;

Detalhamento do Modelo Conceitual (MER) e adequação ao SGBDR;Modelo de Dados Baseado em Registros

Representação através de estruturas de registros;Modelo de Dados Físico;

Detalhes internos de armazenamento;

Page 7: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Diagrama de Entidades e Diagrama de Entidades e RelacionamentosRelacionamentos

Notação OriginalPeter Chen,1976.

Modelo diagramático que descreve o modelo de dados de um sistema com alto nível de abstração. Ele é a principal representação do Modelo de Entidades e Relacionamentos.

Chen, Peter P. English Sentece Structure and Entity-Relationship Diagrams, Elsevier Science Publishing Co,, Inc. 52 Vanderbilt Ave, New York, NY 10017 ERwin®

Notação IDEF1X

Page 8: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Sistema de Gerenciamento Sistema de Gerenciamento de Banco de Dadosde Banco de Dados

A database management system (DBMS) is a collection of programs that enables users to create and maintain a database. The DBMS is hence a general-purpose software system that facilitates the processes of defining, constructing, and manipulating databases for various applications. (R. Elmasri and S. B. Navathe)

• Modelo de Dados Relacional (SGBDR)– Inspirado na Álgebra Relacional– Organiza os dados em uma estrutura de tabelas– Linguagem SQL (Structured Query Language)

• Modelo de Dados Orientado a Objetos (SGBDOO)– Inspirado nos Paradigmas de Orientação a Objetos– Permite a persistência de objetos– Linguagem OQL (Object Query Language)

• Modelo de Dados Objeto-Relacional (SGBDOR)– Extensão do Modelo Relacional incorporando algumas das

funcionalidades do modelo Orientado a Objetos;– Extensão da linguagem SQL (SQL3);

O2

Jasmine

Page 9: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Elmasri, R. A. and Navathe

Ambiente Simplificado de Ambiente Simplificado de um Banco de Dadosum Banco de Dados

Page 10: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

A abordagem com A abordagem com arquivos é indicada?arquivos é indicada?

O banco de dados e as aplicações são simples e bem definidas e não espera-se alterações;Há o requisito de tempo-real para alguns programas, não encontrado com o uso de SGBDs dada sua sobrecarga;Não há necessidade de múltiplos acessos.

Page 11: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Banco de DadosBanco de Dados Flat fileFlat file

Abordagem utilizando arquivosArquivos que contêm registros de dados que não estão estruturalmente relacionados.

Exemplo: Banco de Dados flat file de seqüências de nucleotídeos (nt)Possui um padrão específico de formatação

GenBank, Fasta, ASN.1 ...É necessário um programa chamado de parser, que reconhece esses formatos específicos e conseguem extrair informação de forma automática.

Ex.: Módulos da BioPerl (http://www.bioperl.org/)

Page 12: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Bancos de Dados para Bancos de Dados para Extração de ConhecimentoExtração de Conhecimento

Data warehouse

Databases

Integração dos Dados/Pré-Processamento

Seleção

Data mining

Dados

Padrões

ConhecimentoTransformação

Page 13: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Revisão HistóricaRevisão Histórica

1977

1986

Gilbert & Sanger

Desenvolvem métodos para o seqüenciamento de DNA

Desenvolve o primeiro seqüenciador automático

Leroy Hood

Page 14: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Sequenciamento de DNASequenciamento de DNA

Sequenciamento manual x automático

CCCAACT...

Page 15: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Revisão HistóricaRevisão Histórica

Iniciativa pública Projeto Genoma Humano Publicação

do rascunhodo Genoma Humano

1990 2001

2000

GenomaXylella fastidiosa

1997

Rede Organization for Nucleotide Sequencing and Analysis

19991996

Cancer GenomeAnatomy Project

1988

National Center forBiotechnology Information

1995ACTACGACAT 231ACGTACCTGC 200TCACGAGACA 189ACGATTACAA 150CGAGAGTACG 100GTACAGATAC 50CGAGATAGAT 45CCCAGAGTAA 40TTAGTTAGAC 37…

SAGE microarray

Page 16: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Repositórios de Dados Repositórios de Dados BiológicosBiológicos

1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - 1Mb

1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information

1997 – EMBL – European Molecular Biology Laboratory

1986 – DDBJ – DNA Data Bank of Japan

Page 17: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

International Nucleotide International Nucleotide Sequence Database ColaborationSequence Database Colaboration

Page 18: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

The Molecular Biology The Molecular Biology Database CollectionDatabase Collection

A cada ano a 1 edição da revista Nucleic Acids Research é dedicada aos Bancos de Dados Biológicos

Galperin MY. The Molecular Biology Database Collection: 2008 update. Nucleic Acids Res. 2008 Jan;36(Database issue):D2-4.

Atualizações (2008) 1078 bancos de dados

110 adicionais à versão anterior Links atualizados para 80 bancos de dados e 25

bancos de dados considerados obsoletos foram removidos da lista.

A lista completa dos bancos de dados e uma breve descrição estão disponíveis no site a revista Nucleic Acids Research

http://nar.oxfordjournals.org/.

Page 19: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

GenBankGenBankBanco de Dados de Seqüências Genéticas do NIH

( http://www.ncbi.nlm.nih.gov/Genbank)Repositório público de seqüências de nucleotídeos

Arquivamento de todos os dados de seqüências submetidos para qualquer organismo.

~20.000 submissões diretas por mês~200.000 submissões a granel por mês

Redundância de seqüências do mesmo locusAnálise de Polimorfismo

International Nucleotide Sequence Database CollaborationÚltimo Release 15/12/2007

80.388.382 seqüências (83.874.179.730 bp)~ 250.000 diferentes organismos

GenPeptBanco de dados de traduções automáticas das regiões codificadoras (CDS) das seqüências de nucleotídeos do GenBank®

Page 20: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Divisões do GenBankDivisões do GenBank

SIGLA DivisãoPRI primate sequences

ROD rodent sequences

MAM other mammalian sequences

VRT other vertebrate sequences

INV invertebrate sequences

PLN plant, fungal, and algal sequences

BCT bacterial sequences

VRL viral sequences

PHG bacteriophage sequences

SYN synthetic sequences

UNA unannotated sequences

EST EST sequences (expressed sequence tags)

PAT patent sequences

STS STS sequences (sequence tagged sites)

GSS GSS sequences (genome survey sequences)

HTG HTG sequences (high-throughput genomic sequences)

HTC unfinished high-throughput cDNA sequencing

ENV environmental sampling sequences

Organizada por TaxonomiaSubmissões DiretasAcurado (~1 error por 10.000 pb)Bem Caracterizada

Organizada por tipo de seqüênciaSubmissões a GranelNão acuradoNão é bem caracterizada

dbES

Tdb

GSS

Cor

eNuc

leot

ide

Page 21: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Coleção de seqüências curadas de DNA, RNA e proteínas.

(http://www.ncbi.nlm.nih.gov/RefSeq)

Somente um único exemplar de seqüência para cada molécula.Organismos: Plasmídeos, organelas, vírus, arqueobactérias, bactérias e eucariotos

06/01/20074.926 taxons distintosGenômicas: 1.387.692 (99.006.517.014) RNAs: 1.211.414 (2.053.035.099) Proteínas: 4.426.609 (1.556.356.987)

Status do RegistroGENOME ANNOTATION

INFERRED

MODEL

PREDICTED

PROVISIONAL

REVIEWED

VALIDATED

WGS

RefSeqRefSeq

Page 22: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Accession Moleule MethodAP_123456 Protein Mixed

NC_123456 Genomic MixedNG_123456 Genomic Mixed

NM_123456NM_123456789

mRNA Mixed

NP_123456NP_123456789

Protein Mixed

NR_123456 RNA MixedNT_123456 Genomic Automated

NW_123456NW_123456789

Genomic Automated

NZ_ABCD12345678 Genomic Automated

XM_123456XM_123456789

mRNA Automated

XP_123456XP_123456789

Protein Automated

XR_123456 RNA Automated

YP_123456YP_123456789

Protein Mixed

ZP_12345678 Protein Automated

Mixed – processo automático e também de revisão.

RefSeqRefSeq

Page 23: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

GenBank GenBank versusversus RefSeq RefSeq

GenBank RefSeqNão curado Curado

Submissão do autor Criado pelo NCBI a partir do GenBank

Somente o autor pode revisar

Múltiplos registros para o mesmo locus

Somente o autor faz a revisão NCBI revisa cada novo registro

Múltiplos registros para os mesmos loci Único registro para cada molécula de cada organismo

Registro podem entrar em contradições uns com os outros

Sem limites para espécies Limitado a organismos modelos

Dados compartilhados entre os membros do INSDC Exclusivo do NCBI

Assemelha-se à literatura primária Assemelha-se à artigos de revisão

Proteínas identificadas e relacionadas Proteínas e transcritos são identificados e relacionados

Acesso via NCBI Nucleotide database Acesso via Nucleotide & Protein databases

Page 24: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

GenBankLOCUS NM_000518 626 bp mRNA linear PRI 27-JAN-2008DEFINITION Homo sapiens hemoglobin, beta (HBB), mRNA.ACCESSION NM_000518VERSION NM_000518.4 GI:28302128KEYWORDS .SOURCE Homo sapiens (human) ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo.REFERENCE 1 (bases 1 to 626) AUTHORS Ma,Q., Abel,K., Sripichai,O., Whitacre,J., Angkachatchai,V., Makarasara,W., Winichagoon,P., Fucharoen,S., Braun,A. and Farrer,L.A. TITLE Beta-globin gene cluster polymorphisms are strongly associated with severity of HbE/beta(0)-thalassemia JOURNAL Clin. Genet. 72 (6), 497-505 (2007) PUBMED 17894837 REMARK GeneRIF: Forty-five SNPs within the interval including the LCR region and the delta gene showed strong association with disease severity.

Principais Formatos dos Bancos Principais Formatos dos Bancos de Dados de Dados Flat filesFlat files do NCBI do NCBI

COMMENT REVIEWED REFSEQ: This record has been curated by NCBI staff. The reference sequence was derived from L48217.1. On Feb 11, 2003 this sequence version replaced gi:13788565. Summary: The alpha (HBA) and beta (HBB) loci determine the structure of the 2 types of polypeptide chains in adult hemoglobin, Hb A. The normal adult hemoglobin tetramer consists of two alpha chains and two beta chains. Mutant beta globin causes sickle cell anemia. Absence of beta chain causes beta-zero-thalassemia. Reduced amounts of detectable beta globin causes beta-plus-thalassemia. The order of the genes in the beta-globin cluster is 5'-epsilon -- gamma-G -- gamma-A -- delta -- beta--3'. Publication Note: This RefSeq record includes a subset of the publications that are available for this gene. Please see the Entrez Gene record to access additional publications. COMPLETENESS: full length.FEATURES Location/Qualifiers source 1..626 /organism="Homo sapiens" /mol_type="mRNA" /db_xref="taxon:9606" /chromosome="11" /map="11p15.5"

gene 1..626 /gene="HBB" /note="hemoglobin, beta; synonyms: HBD, CD113t-C" /db_xref="GeneID:3043" /db_xref="HGNC:4827" /db_xref="HPRD:HPRD_00786" /db_xref="MIM:141900" exon 1..142 /gene="HBB" /inference="alignment:Splign" /number=1 CDS 51..494 /gene="HBB" /GO_component="hemoglobin complex [PMID 1540659] [PMID 10588683]" /GO_function="heme binding; hemoglobin binding [PMID 1512262]; iron ion binding; metal ion binding; oxygen binding [PMID 11747442]; oxygen transporter activity [PMID 1971109] [PMID 11747442]; selenium binding [PMID 15780970]"

/GO_process="nitric oxide transport [PMID 8292032]; oxygen transport [PMID 1540659] [PMID 11747442]; positive regulation of nitric oxide biosynthesis [PMID 7965120]; transport“ /note="beta globin chain" /codon_start=1 /product="beta globin" /protein_id="NP_000509.1" /db_xref="GI:4504349" /db_xref="CCDS:CCDS7753.1" /db_xref="GeneID:3043" /db_xref="HGNC:4827" /db_xref="HPRD:HPRD_00786" /db_xref="MIM:141900" /translation="MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFE SFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPE NFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH" exon 143..365 /gene="HBB" /inference="alignment:Splign" /number=2

exon 366..626 /gene="HBB" /inference="alignment:Splign" /number=3 polyA_signal 602..607 /gene="HBB" polyA_site 626 /gene="HBB"

ORIGIN 1 acatttgctt ctgacacaac tgtgttcact agcaacctca aacagacacc atggtgcatc 61 tgactcctga ggagaagtct gccgttactg ccctgtgggg caaggtgaac gtggatgaag 121 ttggtggtga ggccctgggc aggctgctgg tggtctaccc ttggacccag aggttctttg 181 agtcctttgg ggatctgtcc actcctgatg ctgttatggg caaccctaag gtgaaggctc 241 atggcaagaa agtgctcggt gcctttagtg atggcctggc tcacctggac aacctcaagg 301 gcacctttgc cacactgagt gagctgcact gtgacaagct gcacgtggat cctgagaact 361 tcaggctcct gggcaacgtg ctggtctgtg tgctggccca tcactttggc aaagaattca 421 ccccaccagt gcaggctgcc tatcagaaag tggtggctgg tgtggctaat gccctggccc 481 acaagtatca ctaagctcgc tttcttgctg tccaatttct attaaaggtt cctttgttcc 541 ctaagtccaa ctactaaact gggggatatt atgaagggcc ttgagcatct ggattctgcc 601 taataaaaaa catttatttt cattgc//

FASTA (Pearson)>gi|28302128|ref|NM_000518.4| Homo sapiens hemoglobin, beta (HBB), mRNAACATTTGCTTCTGACACAACTGTGTTCACTAGCAACCTCAAACAGACACCATGGTGCATCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCAAGGTGAACGTGGATGAAGTTGGTGGTGAGGCCCTGGGCAGGCTGCTGGTGGTCTACCCTTGGACCCAGAGGTTCTTTGAGTCCTTTGGGGATCTGTCCACTCCTGATGCTGTTATGGGCAACCCTAAGGTGAAGGCTCATGGCAAGAAAGTGCTCGGTGCCTTTAGTGATGGCCTGGCTCACCTGGACAACCTCAAGGGCACCTTTGCCACACTGAGTGAGCTGCACTGTGACAAGCTGCACGTGGATCCTGAGAACTTCAGGCTCCTGGGCAACGTGCTGGTCTGTGTGCTGGCCCATCACTTTGGCAAAGAATTCACCCCACCAGTGCAGGCTGCCTATCAGAAAGTGGTGGCTGGTGTGGCTAATGCCCTGGCCCACAAGTATCACTAAGCTCGCTTTCTTGCTGTCCAATTTCTATTAAAGGTTCCTTTGTTCCCTAAGTCCAACTACTAAACTGGGGGATATTATGAAGGGCCTTGAGCATCTGGATTCTGCCTAATAAAAAACATTTATTTTCATTGC

Page 25: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Formato PadrFormato Padrão ASN.1ão ASN.1

Abstract Syntax Notation OneInternational Standards Organization (ISO)Linguagem formal para a definição de tipos de dados abstratosNCBI define as especificação para o armazenamento de seqüências de nucleotídeos, proteínas, estruturas, genomas, etc.

Seq-entry ::= set { level 1 , class nuc-prot , descr { user { type str "RefSeqGene" , data { { label str "Status" , data str "Reference Standard" } } } ,

Page 26: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Formato XMLFormato XMLStandard Generalized Markup Language (SGML)

eXtensible Markup LanguageRecomendação da W3C para gerar linguagens de marcação para necessidades especiais

Intercâmbio de dados estruturados.Similar à HyperText Markup Language (HTML)Document Type Definition (DTD) – especificação da estrutura

Modular<?xml version="1.0"?><!DOCTYPE Seq-entry PUBLIC "-//NCBI//NCBI Seqset/EN" "http://www.ncbi.nlm.nih.gov/dtd/NCBI_Seqset.dtd"><Seq-entry> <Seq-entry_set> <Bioseq-set> <Bioseq-set_level>1</Bioseq-set_level> <Bioseq-set_class value="nuc-prot"/> <Bioseq-set_descr> <Seq-descr> <Seqdesc> <Seqdesc_user> <User-object> <User-object_type> <Object-id> <Object-id_str>RefSeqGene</Object-id_str>

Page 27: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Sistema analítico automatizado para produzir uma visão organizada do transcriptoma.

(http://www.ncbi.nlm.nih.gov/UniGene/)

Contribuição Expressed Sequence Tags (ESTs)

Pode auxiliar na identificação de uma seqüência não anotada por similiaridade

Análise de Expressão Gênica Diferencial

Digital Differential Display (DDD)

Agrupamento (Clusterização)

Eliminar resquícios de vetores, primer (iniciadores), linkers (adaptadores)

Excluir seqüências mitocondriais e de rRNA

Mascarar seqüências repetitivas (baixa complexidade) e elementos repetitivos transponíveis (transposons)

Somente seqüências com mais de 100 pb de alta qualidade não repetitiva

Alinhamento de seqüências (Megablast)

Sobreposição com um nível tolerável de mismatchCluster pode conter mais de uma forma alternativa do geneCluster ancorado final 3’ (cauda e/ou sinal poli-A ou, 2 ESTs [primer 3’])

UniGeneUniGene

Page 28: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

query

5’ EST hits

3’ EST hits

Tamanho Quantidade32769-65536 1

16385-32768 4

8193-16384 19

4097-8192 59

2049-4096 215

1025-2048 739

513-1024 1882

257-512 3990

129-256 4508

65-128 3935

33-64 3919

17-32 5090

9-16 8107

5-8 13349

3-4 18126

2 19078

1 40756

Hs build 209

UniGeneUniGene

Page 29: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Digital Differential DisplayDigital Differential Display(DDD) Gene LIPE

Page 30: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Nomes e Símbolos de Nomes e Símbolos de GenesGenes

HUGO Gene Nomenclature Committee (HGNC)

(http://www.genenames.org/)Genes humanos

Aprovação de um nome e símbolo (abreviação) único.Exemplo:

CSE1L CSE1 chromosome segregation 1-like (yeast) XPO1 exportin 1 (CRM1 homolog, yeast) XPO4 exportin 4 XPO5 exportin 5 XPO6 exportin 6 XPO7 exportin 7 XPOT exportin, tRNA (nuclear export receptor for tRNAs) XPOTP1 exportin, tRNA (nuclear export receptor for tRNAs) pseudogene 1

Homólogo XP01 Xpo1 - exportin 1, CRM1 homolog (yeast) [Mus musculus]

Mouse Genome Informatics (MGI)

Mouse Genomic Nomenclature Committee (MGNC)Zebrafish Nomenclature Committee(ZNC)

Page 31: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Repositórios para Repositórios para Seqüências de ProteínasSeqüências de Proteínas

• UniProt – Universal Protein Resource (Swiss-Prot, TrEMBL e PIR)

(http://beta.uniprot.org/)

UPI00000015C9

HBB – Hemoglobin Beta

P68871

UniRef100_P68871UniRef90_P68871UniRef50_P02042

Page 32: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Repositórios de Dados BiológicosRepositórios de Dados Biológicos(Estrutura de Proteínas)(Estrutura de Proteínas)

PDB – Protein Data Bank(http://www.rcsb.org/pdb/)

DEOXY HUMAN HEMOGLOBIN

PDB: 1A3N

Page 33: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Repositórios de Dados BiológicosRepositórios de Dados Biológicos((Gene OntologyGene Ontology))

Projeto colaborativo para tratar da necessidade de descrições consistentes de produtos gênicos em diferentes bancos de dados.

(http://www.geneontology.org)

Termos do GO (diferentes níveis de especificidade)Componente Celular

Ex.: Retículo Endoplasmático Rugoso, núcleo, ribossomo, etc.Processo Biológico

Processo celular fisiológico, transdução de sinal, metabolismo de pirimidinas, etc.Função Molecular

Atividade catalítica, atividade de adenilato ciclase, atividade de álcool desidrogenase, etc.Estrutura dos termos

Grafo direcionado acíclico (Similar a uma hierarquia, porém nesse caso um filho pode ter mais de um pai)

Is_a - A is a B ( A é subclasse de B ) nuclear chromosome is_a chromosome

Part_of – C part of D ( C é parte de D, mas não necessariamente D deve possuir C) nucleus part_of cell

Page 34: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

GO Identifier

ExemplosGO:0005623 (Cell)GO:0005104 (Fibroblast growth factor receptor binding) GO:0007165 (Signal transduction)

Banco de Dados

OBO (Open Biomedical Ontologies) Flat FileBanco de Dados Relacional MySQL

Repositórios de Dados BiológicosRepositórios de Dados Biológicos((Gene OntologyGene Ontology))

Page 35: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Grafo Direcionado Acíclico (DAG)Termo mais abrangente para um termo mais específico

Repositórios de Dados BiológicosRepositórios de Dados Biológicos((Gene OntologyGene Ontology))

Page 36: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Repositórios de Dados BiológicosRepositórios de Dados Biológicos(Vias metabólicas)(Vias metabólicas)

KEGG – Kyoto Encyclopedia of Genes and Genome (http://www.genome.ad.jp/kegg/)

• BioCarta (http://www.biocarta.com/genes/allpathways.asp)

Via de sinalização MAPKinase(h_mapkPathway)

Via de sinalização MAPKinase(hsa04010)

Page 37: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Bancos de Dados Bancos de Dados de Expressão Gênicade Expressão Gênica

GEO (Gene Expression Omnibus)(http://www.ncbi.nlm.nih.gov/geo/)

Início em 1999 Suporte a muitos tipos de dados

Page 38: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Gene Expression OmnibusGene Expression Omnibus(Arquitetura)(Arquitetura)

Plataforma (Platform) (GPL)Base para os experimentos com determinado configuração utilizando certa tecnologia.

Accession  Samples Organism(s) Title

GPL4 396Homo sapiens SAGE:10:NlaIII:Homo sapiens

GPL6 15Homo sapiens SAGE:10:Sau3A:Homo sapiens

GPL1485 34Homo sapiens SAGE:17:NlaIII:Homo sapiens

Accession Title

GSM14735 SAGE_Pancreas_carcinoma_CL_ASPC

GSM14736 SAGE_Pancreas_carcinoma_CL_PL45

GSM14737 SAGE_Brain_astrocytoma_grade_II_B_H359

Accession Title

GSE14 CGAP SAGE

• Amostra (Sample) (GSM)– Descrição do material biológico e condições experimentais. sobre o qual

a amostra foi manipulada e os valores de expressãõ gênica.

• Série (Series) (GSE)– Organiza as amostras em conjuntos considerados serem parte de

um experimento..

Fam

ília

(Fam

ily)

Page 39: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Gene Expression OmnibusGene Expression Omnibus(Implementação)(Implementação)

Banco de Dados RelacionalNão armazena imagens cruas de experimentos (raw image data)Armazenamento

BLOB (tipo de dados - texto compactado)Dados (Atributos)

GEO - obrigatórios Identificação do clone Número de Acesso

Submitter - opcionais

Page 40: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Gene Expression OmnibusGene Expression Omnibus(Recuperando Informação)(Recuperando Informação)

Web Queries GPLXXXXGSMXXXXGSEXXXX

Page 41: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Gene Expression OmnibusGene Expression Omnibus(Ferramenta de Busca)(Ferramenta de Busca)

Page 42: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Gene Expression OmnibusGene Expression Omnibus((Data-miningData-mining))

GEO DataSets (GDS)

(http://www.ncbi.nlm.nih.gov/sites/entrez?db=gds)

Visão do GEO centrada no experimento

Series – conjunto de amostras definido pelo autorDatasets – conjunto de amostras estatísticamente comparáveis processadas sob a mesma plataforma.

Page 43: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Formato dos DadosFormato dos DadosSOFT - Simple Omnibus FormaT

Arquivo texto (ASCII)

^SAMPLE = GSM14737!Sample_title = SAGE_Brain_astrocytoma_grade_II_B_H359!Sample_geo_accession = GSM14737!Sample_status = Public on Jan 02 2004!Sample_submission_date = Dec 31 2003!Sample_last_update_date = May 28 2005!Sample_type = SAGE!Sample_anchor = NlaIII!Sample_tag_length = 10!Sample_tag_count = 105764!Sample_channel_count = 1!Sample_source_name_ch1 = astrocytoma grade II!Sample_organism_ch1 = Homo sapiens!Sample_molecule_ch1 = total RNA!Sample_description = Producer: Jennifer B. Edwards!Sample_description = Tissue description: brain!Sample_description = Tissue supplier: Duke Tissue Bank!Sample_description = Sample type: bulk!Sample_description = Other information: Grade II!Sample_description = Laboratory: Gregory Riggins, Duke University Medical Center!Sample_description = This library represents a Cancer Genome Anatomy Project library , which was either produced through CGAP funding, or donated to CGAP.!Sample_description = The Cancer Genome Anatomy Project (CGAP: http://cgap.nci.nih.gov) is an interdisciplinary program established and administered by the National Cancer Institute (NCI: http://www.nci.nih.gov) to generate the information and technological tools needed to decipher the molecular anatomy of the cancer cell.

!Sample_description = Keywords = brain!Sample_description = Keywords = non-normalized!Sample_description = Keywords = bulk!Sample_description = Keywords = astrocytoma grade II!Sample_description = Keywords = short SAGE!Sample_platform_id = GPL4!Sample_contact_name = Cancer Genome Anatomy Project,,CGAP!Sample_contact_email = [email protected]!Sample_contact_phone = 301-496-1550!Sample_contact_department = Cancer Genome Anatomy Project!Sample_contact_institute = National Cancer Institute!Sample_contact_address = !Sample_contact_city = Bethesda!Sample_contact_state = MD!Sample_contact_zip/postal_code = 20852!Sample_contact_country = USA!Sample_contact_web_link = http://cgap.nci.nih.gov/!Sample_supplementary_file = NONE!Sample_series_id = GSE14!Sample_data_row_count = 35555#TAG = Ten base SAGE tag, LINK_PRE:"http://www.ncbi.nlm.nih.gov/SAGE/index.cgi?cmd=tagsearch&anchor=NLAIII&org=Hs&tag="#COUNT = Absolute tag count#TPM = Tags per million, or (1000000*COUNT)/(Total tags)

!sample_table_beginTAG COUNT TPMCTAAGACTTC 1237 11695.8511CCCATCGTCC 921 8708.0670CAAGCATCCC 660 6240.3086AGCCCTACAA 637 6022.8433TTCATACACC 576 5446.0875AAAACATTCT 547 5171.8921ATAATTCTTT 438 4141.2957CACCTAATTG 426 4027.8356TTGGGGTTTC 424 4008.9255GTTGTGGTTA 391 3696.9101TTGGTCCTCT 368 3479.4448TTTAACGGCC 364 3441.6247TGCACTTCAA 355 3356.5296TGATTTCACT 339 3205.2494GTGACCACGG 305 2883.7790TTCAATAAAA 295 2789.2288TACCATCAAT 288 2723.0438AGGTGGCAAG 287 2713.5887TTGGTGAAGG 273 2581.2186CCACTGCACT 262 2477.2134!sample_table_end

• MINiML – MIAME Notation in Markup Language– XML Schema (Validação XSD)

<?xml version="1.0" encoding="UTF-8" standalone="no" ?> <MINiML xmlns="http://www.ncbi.nlm.nih.gov/projects/geo/info/MINiML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.ncbi.nlm.nih.gov/projects/geo/info/MINiML MINiML.xsd" version="0.2"> <Contributor iid="contrib1">

<Person><First>Cancer Genome Anatomy Project</First> <Last>CGAP</Last>

</Person><Email>[email protected]</Email> <Phone>301-496-1550</Phone> <Department>Cancer Genome Anatomy Project</Department> <Organization>National Cancer Institute</Organization> <Address>

<City>Bethesda</City> <State>MD</State> <Zip-Code>20852</Zip-Code> <Country>USA</Country>

</Address> <Web-Link>http://cgap.nci.nih.gov/</Web-Link> \ </Contributor> <Database iid="GEO"> <Name>Gene Expression Omnibus (GEO)</Name>

<Public-ID>GEO</Public-ID> <Organization>NCBI NLM NIH</Organization> <Web-Link>http://www.ncbi.nlm.nih.gov/geo</Web-Link> <Email>[email protected]</Email> </Database>

<Platform iid="GPL4"> <Accession database="GEO">GPL4</Accession> </Platform> <Sample iid="GSM14737">

<Status database="GEO"><Submission-Date>2003-12-31</Submission-Date> <Release-Date>2004-01-02</Release-Date>

<Last-Update-Date>2005-05-28</Last-Update-Date> </Status> <Title>SAGE_Brain_astrocytoma_grade_II_B_H359</Title> <Accession database="GEO">GSM14737</Accession> <Type>SAGE</Type> <Anchor>NlaIII</Anchor> <Tag-Length>10</Tag-Length> <Tag-Count>105764</Tag-Count> <Channel-Count>1</Channel-Count>

<Channel position="1"> <Source>astrocytoma grade II</Source> <Organism>Homo sapiens</Organism> <Characteristics>none</Characteristics> <Molecule>total RNA</Molecule> </Channel> <Description>Producer: Jennifer B. Edwards Tissue description: brain Tissue supplier: Duke Tissue Bank Sample type: bulk Other information: Grade II Laboratory: Gregory Riggins, Duke University Medical Center This library represents a Cancer Genome Anatomy Project library , which was either produced through CGAP funding, or donated to CGAP. The Cancer Genome Anatomy Project (CGAP: http://cgap.nci.nih.gov) is an interdisciplinary program established and administered by the National Cancer Institute (NCI: http://www.nci.nih.gov) to generate the information and technological tools needed to decipher the molecular anatomy of the cancer cell. Keywords = brain Keywords = non-normalized Keywords = bulk Keywords = astrocytoma grade II Keywords = short SAGE</Description>

<Data-Processing /> <Platform-Ref ref="GPL4" /> <Contact-Ref ref="contrib1" /> <Supplementary-Data type="unknown">NONE</Supplementary-Data> <Data-Table>

<Column position="1"><Name>TAG</Name>

<Description>Ten base SAGE tag,</Description> <Link-Prefix>http://www.ncbi.nlm.nih.gov/SAGE/index.cgi?

cmd=tagsearch&anchor=NLAIII&org=Hs&tag=</Link-Prefix> </Column><Column position="2">

<Name>COUNT</Name> <Description>Absolute tag count</Description>

</Column><Column position="3">

<Name>TPM</Name> <Description>Tags per million, or (1000000*COUNT)/(Total tags)</Description>

</Column><Internal-Data rows="20">CTAAGACTTC 1237 11695.8511 CCCATCGTCC 921 8708.0670 CAAGCATCCC 660

6240.3086 AGCCCTACAA 637 6022.8433 TTCATACACC 576 5446.0875 AAAACATTCT 547 5171.8921 ATAATTCTTT 438 4141.2957 CACCTAATTG 426 4027.8356 TTGGGGTTTC 424 4008.9255 GTTGTGGTTA 391 3696.9101 TTGGTCCTCT 368 3479.4448 TTTAACGGCC 364 3441.6247 TGCACTTCAA 355 3356.5296 TGATTTCACT 339 3205.2494 GTGACCACGG 305 2883.7790 TTCAATAAAA 295 2789.2288 TACCATCAAT 288 2723.0438 AGGTGGCAAG 287 2713.5887 TTGGTGAAGG 273 2581.2186 CCACTGCACT 262 2477.2134</Internal-Data>

</Data-Table> </Sample></MINiML>

Page 44: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

SAGEmapSAGEmapRepositório para os dados de SAGE do NCBI

(http://www.ncbi.nlm.nih.gov/SAGE/)

Ferramentas de consulta e análise

Ferramentas: Virtual Northern / SAGE xProfiler

Mapeamento TAG-Gene (UniGene)

Lash AE, Tolstoshev CM, Wagner L, Schuler GD, Strausberg RL, Riggins GJ, Altschul SF. SAGEmap: a public gene expression resource. Genome Res. 2000 Jul;10(7):1051-60.

Page 45: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

SAGE GenieSAGE GenieRepositório para os dados de SAGE do CGAP (Somente Hs e Mm)

(http://cgap.nci.nih.gov/SAGE)

Ferramentas de consulta e análise

Ferramentas: SAGE Anatomic Viewer / Digital Northern / SAGE Digital Gene Expression Displayer/ …

Mapeamento TAG-Gene

Page 46: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Arquivos SAGE GenieArquivos SAGE Genie

- Hs_short.maptagdatabase rank orderaccessionUniGene cluster number

- Hs_short.best_genetag [unique key]UniGene cluster numbersymboltitlecytogenetic location

- Hs_short.best_tagUniGene cluster number [unique key]tagsymboltitlecytogenetic location

- Hs_short.frequenciestagnumeric library idfrequency

- Hs_short.confidenttag [unique key]frequency

- Hs_short.no_anchoraccession of transcript with no anchor site

- Hs_short.repetitivetag [unique key]number of transcripts in which tag is found

(ftp://ftp1.nci.nih.gov/pub/SAGE/HUMAN)- Hs.libraries

numeric library id [unique key]old library namenew library nametotal tags including linkertotal tags after elimination of linkerunique tagslibrary quality ('1' if good)organ/tissuetissue preparationcell typekeywordspatient agepatient sexmutationsother informationtagging enzymeanchoring enzymetissue or cell line supplierlibrary producerlaboratoryreferences

- Hs_short.datasetsdatabase rank order [unique key]database iddatabase nametotal cDNAshas polyA signal?has polyA tail?tag position [ordinal position, 1 = closest to

3' end]percent tags in confident tag list

Page 47: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

H2G:H2G: Hyper & Hypo Hyper & Hypo Expressed GenesExpressed Genes

Repositório de dados de Expressão Gênica

(http://gdm.fmrp.usp.br/h2g/)

Técnicas

SAGE, Microarrays, MPSSOrganismos:

Homo sapiens (humano)Mus musculus (camundongo)Rattus novergicus (rato)Apis mellifera (abelha)

Análises de Expressão Gênica Diferencial

SAGEci (Vêncio et al., 2003)

Correlation metric P (Slonim et al., 2000)

Fold Change (Razão)

Difference (Diferença)

Acesso aos serviços

HTTP (interno/externo)

CORBA (interno) (BiT::Inter)

SOAP (interno/externo) (SOAP::Lite e BiT::Inter)

Page 48: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

ReferênciasReferências

Date, C. J. 2003. An Introduction to Database Systems. Addison-Wesley Longman Publishing Co., Inc.

Elmasri, R. A. and Navathe, S. B. 2003. Fundamentals of Database Systems. Addison-Wesley Longman Publishing Co., Inc.

CMPUT 695 - Principals of Knowledge Discovery In Data (http://www.cs.ualberta.ca/~zaiane/courses/cmput690/notes/Chapter1/index.html)

Wheeler DL, Church DM, Federhen S, Lash AE, Madden TL, Pontius JU, Schuler GD, Schriml LM, Sequeira E, Tatusova TA, Wagner L. Database resources of the National Center for Biotechnology. Nucleic Acids Res. 2003 Jan 1;31(1):28-33.

NCBI Field Guide - (http://www.ncbi.nlm.nih.gov/Class/FieldGuide/)

Wikipedia (http://en.wikipedia.org/)

NCBI-HandBook (http://www.ncbi.nlm.nih.gov/books/bv.fcgi?call=bv.View..ShowTOC&rid=handbook.TOC&depth=2)

Page 49: Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Daniel Guariz Pinheiro

[email protected] http://scarecrow.fmrp.usp.br/~daniel/

MUITO OBRIGADO !!!

Perguntas...Perguntas...