análise computacional de seqüências nucleotídicas e protéicas bancos de dados biológicos...

Análise Computacional de Seqüências Nucleotídicas e Protéicas

Bancos de dados biológicosAntonio Basílio de Miranda

23/11/2004

Agenda: I – Introdução II – Bancos de dados de seqüências nucleotídicas III – Bancos de dados de seqüências protéicas IV – Bancos de dados de estruturas V – Bancos de dados de metabolismo VI – Bancos de dados de mutações e

polimorfismo VII – Bancos de dados de genomas VIII – Bancos de dados de microarranjos de DNA IX – Bancos de dados de proteomas X – Bancos de dados bibliográficos XI – Principais centros de pesquisa

I - Introdução: Bancos de Dados Biológicos

Primários: GenBank, EMBL, DDBJ, GSDB.

Especializados: PIR, Swiss-Prot, REBASE, PROSITE, PDB, Pfam, BLOCKS, etc.

International Nucleotide Sequence Database

União do GenBank, EMBL e DDBJ, que já trocam informações diariamente.

Busca e Recuperação

Por similaridade: BLAST BioSCAN GenQuest

Por palavras-chave, atributos, etc. SRS (http://srs.ebi.ac.uk) AcNuc

Problemas:

Redundância Contaminação Erros nas anotações Distintas formatações Distintos conceitos

Diferentes formatações dificultam a livre troca de dados entre os bancos

II - Bancos de dados de seqüências nucleotídicas

São fontes de dados heterogêneas, i.e., fontes distintas (DNA genômico X cDNA), diferentes qualidades (seqüências finalizadas ou single-pass), diferentes anotações, etc.

Bancos de dados de seqüências nucleotídicas

GenBank/EMBL/DDBJ (http://www.ncbi.nlm.nih.gov) (http://www.ebi.ac.uk/embl/index.html) (http://www.ddbj.nig.ac.jp/)

Ribosomal Database Project (http://rdp8.cme.msu.edu/)

Comparative RNA Web Site (http://www.rna.icmb.utexas.edu/)

GenBank

O crescimento do GenBank

Aproximadamente 28,507,990,166 bases em 22,318,883 de seqüências

(Janeiro 2003)

Subdivisões do GenBank Primatas Roedores Outros mamíferos Outros vertebrados Invertebrados Plantas Bactérias Vírus Fagos Sintéticas Não-anotadas Patentes EST STS GSS HTG HTC

EMBL Nucleotide Sequence Database

Subdivisões do EMBL Invertebrates Other Mammals Mus musculus Organelles Bacteriophage Plants Prokaryotes Rodents Unclassified Viruses Other Vertebrates patents htg htc gss wgs est

ID CTU83196 standard; genomic DNA; PRO; 1763 BP.XXAC U83196;XXDE Chlamydia trachomatis pyruvate kinase (pk) gene, complete cds.XXSQ Sequence 1763 BP; 504 A; 380 C; 360 G; 519 T; 0 other; cactcaacga atcctttctc attttaaatt ctccacaccc attcctatcg aacgcttttt 60 taaagcgtag cattgcggtt gctaaatatt ttgtatagtt gaaggcttct ttcatttcgg 120 atattctaga agatattcta ctcactaata ccggtatccc gatttatgat cgctagaacg 180 aaaattattt gtacgatagg ccctgcaacc aatacccctg agatgctgga aaagcttctc 240 gatgcaggga tgaatgtagc tcgccttaat tttagccacg ggacccatga aagccatggc 300 cggaccatcg ctattcttaa agaactacga gagaagcgcc aagttccttt agctattatg 360 ctagatacaa aaggtcccga aattcgttta ggccaagtag aatctcctat aaaagtacag 420 cctggggatc gtcttactct cgttagcaaa gaaattttag gatccaaaga aagcgcgtta 480 ctctttatcc aagttgtgta ttccccttat gttagagaac gagctcctgt tctcattgat 540 gatgggtata tccaagcagt ggtggtcaat gctcaagagc atatggtgga aatagagttt 600 caaaattcag gagaaataaa atccaacaaa tctcttagca tcaaagatat cgatgttgct 660 cttcctttca tgacagagaa ggatattgca gacttaaaat ttggggtaga acaagaactc 720 gatcttatcg ctgcttcgtt cgtcagatgt aatgaagata ttgacagcat gcgtaaagtt 780 ttggaaagct ttggtcgtcc taatatgccc atcattgcca aaatagaaaa tcatttagga 840 gtacaaaatt tccaagagat cgctagagct gctgatggta tcatgattgc acgcggggat 900 cttggtattg aattgtctat tgttgaagtt cctggactac aaaaatttat ggcccgagca 960 tcgagggaaa cgggtcggtt ttgtatcact gcaacgcaaa tgctcgagtc aatgattcgc 1020 aacccccttc ctacacgagc cgaagtctct gacgttgcca acgccattta cgatggaacc 1080 tctgcagtca tgttgtctgg agaaactgcc tcaggagccc atcctgtaca tgcagtaaaa 1140 acaatgcgtt ccattatcca agagactgag aagactttcg attaccacgc ttttttccag 1200 ctgaacgaca aaaacagcgc tctcaaagtt tctccttatc ttgaagccaa ttgggttttc 1260 tggatccaaa ttgcagaaaa agcatctgcc aaagccatta ttgtgtatac ccagacggga 1320 gggtctccga tgtttttatc caaatatcga ccttatctcc ctattattgc tgttacccct 1380 aaccgcaatg tgtactatcg tttagctgta gaatggggag tatatcctat gctaaccctg 1440 gaatcgaacc gtacagtctg gcgtcaccaa gcttgtgtat atggagtaga aaaaggaatt 1500 ctttctaact atgataaaat tcttgtcttc agccgcggag ctgggatgca agataccaac 1560 aatctcacct tgacaactgt gcatgatgcg ctatccccct ctcttgacga gatagttcca 1620 taatcattga aaccatatag caggtatgtc ttctatcgtt agactttctg gtattactgt 1680 aaggaattta aaaacattac agtagagttt tgtctcgaga gatcgttttg ttcaccgggg 1740 tttctggatc gaagtcttct ctt 1763//

III - Bancos de dados de seqüências protéicas Primários Secundários Especializados Estruturas

Bancos de dados de seqüências protéicas

Primários: Swiss-Prot (http://pir.georgetown.edu/) TrEMBL (http://www.ebi.ac.uk/trembl/) PIR (http://pir.georgetown.edu/)

Swiss-Prot

Mantido em conjunto pelo EBI e SIB

Mais de 6000 espécies representadas

Cada seqüência nova é examinada para assegurar uma boa qualidade nas anotações

TrEMBL

“Translation of EMBL Nucleotide Sequence Database”

Os registros são derivados da tradução conceitual das seqüências codificantes presentes no EMBL, com exceção daquelas já presentes no Swiss-Prot.

SP-TrEMBL, REM-TrEMBL.

PIR – Protein Information Resource Colaboração entre a National

Biomedical Research Foundation (NBRF), Munich Information Center for Protein Sequences (MIPS), e o Japan International Protein Information Database (JIPID).

Possui quatro subdivisões (PIR1, PIR2, PIR3 e PIR4), de acordo como nível de anotação da seqüência.

Bancos de dados de seqüências protéicas Especializados:

GO – Gene Ontology – disponibiliza um vocabulário dinâmico controlado de termos biológicos.

MEROPS – classificação baseada em estrutura das peptidases.

GPCRDb – G-protein coupled receptors YPD – Yeast Protein Database ENZYME – Enzyme Nomenclature Database 2D gel electrophoresis Mass spectrometry

GO – Gene Ontology

$Gene_Ontology ; GO:0003673

<cellular_component ; GO:0005575

%cell ; GO:0005623

<axon ; GO:0030424

<axolemma ; GO:0030673 % membrane ; GO:0016020

%giant axon ; GO:0042757

<bud ; GO:0005933

<bud neck ; GO:0005935 % site of polarized growth (sensu Saccharomyces) ; GO:0000134

<contractile ring (sensu Saccharomyces) ; GO:0000142 ; synonym:cytokinetic ring (sensu Saccharomyces) ; synonym:neck ring % contractile ring (sensu Fungi) ; GO:0030480

http://www.ebi.ac.uk/GOA/index.html

MEROPS

BD sobre peptidases (AKAS proteases, proteinases ou enzimas proteolíticas).

Classificação hierárquica, baseada na estrutura da proteína.

GPCRDb

BD de seqüências e outros dados relacionados aos G-protein coupled receptors, família de proteínas envolvida em sistemas de sinalização.

BD das proteínas de Saccharomyces cereviseae.

Mais de 6000 proteínas. Uma extensa revisão da literatura

levou a uma anotação detalhada das proteínas presentes no BD.

ENZYME

Extensão anotada da publicação da “Enzyme´s Comission”.

Existem diversos outros BD relacionados como o BRENDA (propriedades enzimáticas) e o LIGAND (ligantes).

Bancos de dados de seqüências protéicas Secundários:

PROSITE – sítios funcionais PRINTS – famílias Pfam – domínios divergentes BLOCKS – regiões conservadas

PROSITE

Extensa documentação sobre famílias protéicas, definidas por domínios ou motivos protéicos.

Proporciona identificação rápida e confiável (com ferramentas computacionais adequadas) de uma nova seqüência protéica.

PRINTS Identificação por “fingerprinting”. Utiliza regiões conservadas e/ou

motivos, determinados a partir de alinhamentos múltiplos, que definem e caracterizam aquele grupo de seqüências (família).

Possibilita a identificação de “parentes” distantes.

Pfam Utiliza HMM´s (Hidden Markov Models)

como metodologia para a criação de famílias protéicas e assinaturas de domínios.

As informações sobre uma determinada proteína são cuidadosamente checadas contra a literatura disponível a respeito da mesma, na busca de evidências bioquímicas que corroborem dados obtidos a partir de predições computacionais .

BLOCKS

Constituído pelas regiões mais conservadas, determinadas a partir de alinhamentos múltiplos das proteínas documentadas no InterPro.

Sequence Retrieval System – SRS

Perguntas:

Quais são as fontes de dados e onde posso encontrá-las?

Quais as diferenças entre elas? Posso usar apenas uma delas em

minhas análises? InterPro: uma integração do PROSITE,

PRINTS, Pfam e PRODOM.

IV - Bancos de dados de Estruturas

Protein Data Bank (PDB). http://www.rcsb.org/pdb/

Nucleic Acid Database (NDB) http://ndbserver.rutgers.edu/

Protein Data Bank Armazena estruturas tri-

dimensionais de diversas proteínas, e dados relacionados.

A visualização das estruturas pode ser feita de diversas formas.

Nucleic Acid Database Armazena informações sobre a

estrutura tri-dimensional de ácidos nucléicos.

V - Bancos de dados de metabolismo

KEGG: Kyoto Encyclopedia of Genes and Genomes - http://www.genome.ad.jp/kegg/

EcoCyc – Encyclopedia of Escherichia coli K12 genes and metabolism – http://ecocyc.org

VI - Bancos de dados de mutações e polimorfismos

Human SNP Database - http://www.broad.mit.edu/snp/human/index.html

Human Genome Variation Society - http://www.hgvs.org/

Oniline Mendelian Inheritance in Man (OMIM) - http://www.ncbi.nlm.nih.gov/omim/

VII - Bancos de dados de genomas

GOLD – Genomes On-Line Database (http://ergo.integratedgenomics.com/GOLD)

Aproximadamente 940 projetos genoma em andamento ao redor do mundo!

Bancos de dados de genomas

Ensembl – proporciona acesso a vários genomas (www.ebi.ac.uk/ensembl/index.html)

WormBase (www.wormbase.org) FlyBase (flybase.bio.indiana.edu) Saccharomyces Genome Database

(www.yeastgenome.org)

VIII - Bancos de dados de microarranjos de DNA (DNA microarrays)

ArrayExpress AMAD

Microarray

ArrayExpress

Repositório público para dados obtidos a partir de experimentos com microarranjos de DNA

http://www.ebi.ac.uk/arrayexpress/index.html

Another Microarray Database Flatfile Necessita de PERL Gratuito http://www.microarrays.org/software.html

IX - Bancos de dados de proteomas

SWISS-2DPAGE - http://us.expasy.org/ch2d/

Danish Centre for Human Genome research - http://proteomics.cancer.dk/

Parasite Proteome - http://www.ebi.ac.uk/parasites/proteomes.html

Proteoma

X - Bancos de dados bibliográficos

MEDLINE – acesso via SRS PUBMED – acesso via Entrez

XI - Principais Centros de Pesquisa

NCBI (http://www.ncbi.nlm.nih.gov) TIGR (http://www.tigr.org) EMBL (http://www.embl.de/) EBI (http://www.ebi.ac.uk) Sanger Institute

(http://www.sanger.ac.uk)

análise computacional de seqüências nucleotídicas e protéicas bancos de dados biológicos...

Documents

2.0 introdução 2.1 sinais discretos: seqüências 2.2...

chapter 2 seqüências de números reais

realce de vídeo para seqüências de qualidade e...

alinhamento global de seqüências

uma abordagem para detecção e remoção de artefatos em...

obtenção de seqüências de experimentos fatoriais 2k-p de

geraÇÃo e anÁlise de etiquetas de seqÜÊncias

tópicos em algoritmos sobre seqüências › ~alair ›...

seqüências de (sibilante + africada alveopalatal) no...

seqüências lingüísticas

seqüências...

alinhamento de seqüências biológicas

seqüências e séries - tecnologia e educação e...

alteraÇÕes clÍnicas, protÉicas do humor aquoso ... ·...

alinhamento global de seqüências katia guimarães

identificaÇÃo e caracterizaÇÃo de seqÜÊncias …

alinhamento múltiplo global de seqüências pela...

(frevo) autor: manoel ferreira lima - secult.ce.gov.br ·...

matrizes para análise de similaridade entre seqüências....

caracterizaÇÃo das interaÇÕes protÉicas envolvidas...