bases de dados de interesse biológico - técnico lisboa ... · o interesse das bases de dados em...

37
15 15 - - 9 9 - - 2005 2005 LEBM LEBM - - Bioinformática Bioinformática 1 1 Bases de dados de interesse biológico Pedro Fernandes Instituto Gulbenkian de Ciência Oeiras, Portugal

Upload: buimien

Post on 08-Nov-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

1515--99--20052005 LEBM LEBM -- BioinformáticaBioinformática 11

Bases de dados de interesse biológico

Pedro FernandesInstituto Gulbenkian de CiênciaOeiras, Portugal

Page 2: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 2

Bases de dados em Biologia

Antes do aparecimento da Biologia Molecular

–Bases de dados taxonómicas–Colecções biológicas–Observações de campo–Bases de dados de bibliografia científica

Os meios computacionais eram primitivos

Page 3: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 3

Com a Biologia Molecular

A comunidade científica apercebeu-se

– da real dimensão dos conjuntos de dados a que tinha acesso e da sua complexidade

– dos requisitos computacionais

– do que a Biologia iria representar em termos de organização de informação e de aquisição de conhecimentos

– dos impactos no mundo clínico, ambiente, indústria, etc.

Page 4: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 4

Tipologia de bases de dados de interesse biológico

Conteúdo:BibliografiaSequênciasGenomas e ProteomasClínicasHomologia

Page 5: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 5

Divisão temática de bases de dados de interesse biológico

Sequências: nucleotídicas , RNA, Proteínas

Estruturais

Genómicas (não-vertebrados)

Vias Metabólicas e de Sinalização (Signaling)

Genomas (Humano e de outros vertebrados)

Genes Humanos e Doenças

Dados de Microarrays e Expressão Génica

Proteomica

Biologia Molecular (outras)

Organelos

Plantas

Imunologia(adaptado de Nucleic Acids Research, DB Issue 2005)

Page 6: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 6

O interesse das bases de dados em Biologia aumenta

Se forem– acessíveis pela www– indexadas – instaláveis localmente (actualização)– interligadas– integradas

Page 7: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 7

Com Bioinformática, a utilização de bases de dados de proteínas permite

- Detectar num conjunto de proteínas uma possível relação evolutiva, se existir

- Detectar semlhanças locais que permitam atribuir função

- Explorar estruturas tridimensionais preditas ou encontradas experimentalmente e com elas predizer o papel de proteínas

- Explorar possíveis interacções de proteínas com proteínas ou de proteínas com outras moléculas

- Explorar a possibilidade de desenhar “inspiradamente” novas proteínas para fins específicos

- Explorar a possibilidade de modificar proteínas existentes, modificando as suas funções

Page 8: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 8

A Biologia, uma grande fonte de informação?

Há 1011

galáxias no Universo observável

Há 4 x 1022

estrelas no Universo observável

P: Quantos grãos de areia tem esta praia?

R: Assumindo que a praia tem 5km x 500m x 5m e que um grão de areia tem 1 micron de diâmetro, a praia terá 12.5x10

25partículas

Conhecemos cerca de 105

mas as regras que conhecemos fazem prever que poderão formar-se 10

66espécies moleculares

diferentes, a maioria delas com um papel biológico relevante

Page 9: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 9

Tipos de bases de dados com sequências biológicas

Primárias: contêm dados laboratoriais (sequências)

em registos revistos, validados e comentadosem registos gerados automaticamente

Secundárias: de padrões, resultantes de análises de material das primárias

Page 10: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 10

Bases de dados primárias– Entradas submetidas pelos investigadores,

revistas e validadas – Com “accession number” único por entrada

De Nucleótidos (N):–Genbank, EMBL, DDBJ–Sincronizadas (depósito em paralelo)

De Proteinas (P):–Swissprot, PIR, PDB

Page 11: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 11

Crescimento de bases de dados primárias N

0

5000

10000

15000

20000

25000

30000

35000

40000

45000

Thou

sand

s

1997 2004http://www3.ebi.ac.uk/Services/DBStats/

Nucleotide databases:

EMBL, Genebank, DDBJ

7 Set 2005

This morning the EMBL Database contained 107,573,768,148 nucleotides in 58,160,970 entries. Breakdown by entry type:

Entry Type Entries Nucleotides Change in 1 yearStandard 47,527,188 52,172,771,562 +20%Constructed (CON) 333,717 n/aThird Party Annotation (TPA) 4,649 331,476,604 + 1MWhole Genome Shotgun (WGS) 10,294,618 54,793,749,562 2x

Page 12: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 12

Crescimento de bases de dados primárias P

http://au.expasy.org/sprot/relnotes/relstat.html

Page 13: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 13

Crescimento de bases de dados primárias P

PDB: base de dados primária de proteínas com informação estrutural

(de origem experimental e obtida com modelos)

Page 14: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 14

O dilúvio de informação vem

Dos projectos de sequenciação de genomasDos projectos de ProteómicaDe experimentação de alto débito:–Microarrays –Arrays de Proteínas–Teste paralelizado de fármacos–Outros testes em larga escala

Page 15: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 15

O tamanho dos genomas

ORGANISMO CROMOSOMAS Tam. GENOMA # GENESHomo sapiens 23 3,200,000,000 ~ 30,000Mus musculus 20 2,600,000,000 ~30,000D. melanogaster 4 180,000,000 ~18,000Sa. cerevisiae 16 14,000,000 ~6,000Zea mays 10 2,400,000,000 ???

Tabela elaborada por Silke Sperling, 2005

Page 16: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 16

O déficit de conhecimentoPodemos, em certos casos, predizer propriedades de protínas e até a

sua função a partir do conhecimento da estrutura. Quase nunca se consegue fazer o mesmo com apenas a sequência.

Sabemos mais de sequências do que de estrutura (e função)

Conhecemos 50*106 sequências nucleotídicas (EMBL) , das quais 22*106

são ESTs. Conhecemos 35*103 estruturas de proteínas (PDB), das quais apenas 8*103

estão confirmadas experimentalmente (NMR, difracção dos raios X, etc.)O rácio é 28*106 / 8*103 (> 3*103)

Em proteínas conhecemos 194*103 sequências (Swissprot)O rácio é 194*103 / 8*103 (> 24)

Page 17: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 17

Melhoramentos

N não-redundante:

RefSeq–Publicada pelo NCBI como a Genbenk–Contém mRNA, “Contigs” genómicos,

traduções conhecidas, etc.–Contém registos que provêm da

anotação de genomas

Page 18: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 18

Melhoramentos

P não-redundante:

RefSeqP–Base de anotação funcional para o

projecto do Genoma Humano–Suporte básico para o

Dogma Central da Biologia Molecular

Page 19: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 19

Subconjuntos

TrEMBL – Translated EMBL Nº de registos 2,105,517

Complemento da Swissprot com sequências de proteínas que se sabe resultarem da tradução de sequências nucleotídicas entradas na EMBL

SpTrEMBL – Sequências de proteínas prontas a entrar na Swissprot. Por exemplo, a aguardar uma evidência experimental

RmTrEMBL – Sequências de proteínas que não vão entrar na Swissprot: fragmentos, sequências sintéticas, etc.

Page 20: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 20

Primárias unificadas

UNIPROT (EBI, Dec 2003)Base de dados de proteínas unificada e não-redundante, resultante da reunião supervisionada de:

SwissProt, TrEMBL e PIR

Nº de registos: ~2M

Page 21: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 21

Primárias unificadas

UNIParc (UNIPROT Archive, EBI, Jan 2005)Base de dados de proteínas unificada e não-redundante, resultante da reunião supervisionada de:

UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, PIR-PSD, EMBL, Ensembl, IPI, PDB, RefSeq, FlyBase, WormBase, European Patent Office proteins, United States Patent and Trademark Office (USPTO) e Japan Patent Office

Nº de registos: ~5.7M

Page 22: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 22

A interoperabilidade

Tem obrigado a que o formato mais prático de usar seja o de “FLAT FILE”, um formato de texto em que os registos são constituídos por linhas que começam com um código que indica o tipo de informação que a linha contém.

É arcaico mas muito fácil de manipular.Tem vantagens de simplificação, mas obriga a um

esforço permanente de reformatação para utilização com software específico.

Page 23: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 23

Um registo na EMBLID U83981 standard; RNA; HUM; 2331 BP.AC U83981;SV U83981.1DT 29-JUN-1998 (Rel. 56, Created)DT 04-MAR-2000 (Rel. 63, Last updated, Version 4)DE Homo sapiens apoptosis associated protein (GADD34) mRNA, complete cds.KW .OS Homo sapiens (human)OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;OC Eutheria; Primates; Catarrhini; Hominidae; Homo.RN [1]RP 1-2331RX MEDLINE; 97298078.RA Hollander M.C., Zhan Q., Bae I., Fornace A.J. Jr.;RT "Mammalian GADD34, an apoptosis- and DNA damage-inducible gene";"XXSQ Sequence 2331 BP; 543 A; 666 C; 712 G; 410 T; 0 other;

cccagttgtt gatcttatgc aagacgctgc acgaccccgc gcccgcttgt cgccacggca 60cttgaggcag ccggagatac tctgagttac tcggagcccg acgcctgagg gtgagatgaa 120cgcgctggcc tccctaaccg tccggacctg tgatcgcttc tggcagaccg aaccggcgct 180cctgcccccg gggtgacgcg cagctcccag ccgcccagac acatggcccc aggccaagca 240ccccatcagg ctaccccgtg gagggatgcc caccctttct tcctcctgtc cccagtgatg 300ggcctcctca gccgcgcctg gagccgcctg aggggcctgg gacctctaga gccctggctg 360gtggaagcag taaaaggagc agctctggta gaagctggcc tggagggaga agctaggact 420

Page 24: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 24

Cabeçalho contendo a anotaçãoEMBL:U83981ID U83981 standard; RNA; HUM; 2331 BP.XXAC U83981;XXSV U83981.1XXDT 29-JUN-1998 (Rel. 56, Created)DT 04-MAR-2000 (Rel. 63, Last updated, Version 4)XXDE Homo sapiens apoptosis associated protein (GADD34) mRNA, complete cds.XXKW .XXOS Homo sapiens (human)OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;OC Eutheria; Primates; Catarrhini; Hominidae; Homo.XXRN [1]RP 1-2331RX MEDLINE; 97298078.RA Hollander M.C., Zhan Q., Bae I., Fornace A.J. Jr.;RT "Mammalian GADD34, an apoptosis- and DNA damage-inducible gene";RL J. Biol. Chem. 272(21):13731-13737(1997).XXRN [2]RP 1-2331(more...)

EMBL

Page 25: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 25

Cabeçalho contendo a anotaçãoLOCUS HSU83981 2331 bp mRNA linear PRI 07-JUL-1998

DEFINITION Homo sapiens apoptosis associated protein (GADD34) mRNA, complete cds.

ACCESSION U83981

VERSION U83981.1 GI:3258617

KEYWORDS .

SOURCE Homo sapiens (human)

ORGANISM Homo sapiens

Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;

Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.

REFERENCE 1 (bases 1 to 2331)

AUTHORS Hollander,M.C., Zhan,Q., Bae,I. and Fornace,A.J. Jr.

TITLE Mammalian GADD34, an apoptosis- and DNA damage-inducible gene

JOURNAL J. Biol. Chem. 272 (21), 13731-13737 (1997)

MEDLINE 97298078

PUBMED 9153226

REFERENCE 2 (bases 1 to 2331)

AUTHORS Hollander,M.C. and Fornace,A.J. Jr.

TITLE Direct Submission

(more...)

Genbank

Page 26: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 26

Registo na EMBL (sequência)SQ Sequence 2331 BP; 543 A; 666 C; 712 G; 410 T; 0 other;

cccagttgtt gatcttatgc aagacgctgc acgaccccgc gcccgcttgt cgccacggca 60

cttgaggcag ccggagatac tctgagttac tcggagcccg acgcctgagg gtgagatgaa 120

cgcgctggcc tccctaaccg tccggacctg tgatcgcttc tggcagaccg aaccggcgct 180

cctgcccccg gggtgacgcg cagctcccag ccgcccagac acatggcccc aggccaagca 240

ccccatcagg ctaccccgtg gagggatgcc caccctttct tcctcctgtc cccagtgatg 300

ggcctcctca gccgcgcctg gagccgcctg aggggcctgg gacctctaga gccctggctg 360

gtggaagcag taaaaggagc agctctggta gaagctggcc tggagggaga agctaggact 420

cctctggcaa tcccccatac cccttggggc agacgccctg aagaggaggc tgaagacagt 480

.

.

cgggatcgca gccgcttcgc acgccgcatc acccaggccc aggaggagct gagcccctgc 2040

ctcacccctg ctgcccgggc cagagcctgg gcacgcctca ggaacccacc tttagccccc 2100

atccctgccc tcacccagac cttgccttcc tcctctgtcc cttcgtcccc agtccagacc 2160

acgcccttga gccaagctgt ggccacacct tcccgctcgt ctgctgctgc agcggctgcc 2220

ctggacctca gtgggaggcg tggctgagac caactggttt gcctataatt tattaactat 2280

ttattttttc taagtgtggg tttatataag gaataaagcc ttttgatttg t 2331

//

Page 27: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 27

BD BibliográficasAcesso livre e universal

Títulos, autores, palavras-chave, sumários, referências

12 M registos

Vocabulário controlado (MESH)

Pesquiza com ENTREZ

Iniciativa política

Page 28: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 28

Vocabulário controlado MESH

Organização hieráriquicaDecisão consensual

Hemoglobin ou haemoglobin?

NMR é uma técnica de espectroscopia

Nuclear Magnetic Resonance é uma técnica de imagiologia

Page 29: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 29

Mais BD Bibliográficas

Web of Knowledge, ISI, b-on

PubCrawler (alertas)–http://www.pubcrawler.ie

Page 30: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 30

BD EstruturaisPara cada proteína, as coordenadas 3D dos átomos tal como são submetidas por experimentalistas (difracção dos raios X, NMR). Estas coordenadas permitem a visualização como objecto gráfico usando software apropriado (RasMol, Swiss PDB Viewer, VMD, Chemscape Chime, etc.)

1FGB ATOM 1 N ALA D 1 14.023 -18.754 3.091 1.00 14.50 N

ATOM 2 CA ALA D 1 13.751 -18.777 4.557 1.00 13.42 C

ATOM 3 C ALA D 1 12.429 -19.500 4.748 1.00 15.38 C

ATOM 4 O ALA D 1 11.631 -19.583 3.809 1.00 15.75 O

ATOM 5 CB ALA D 1 13.655 -17.368 5.099 1.00 12.17 C

ATOM 6 N PRO D 2 12.204 -20.112 5.928 1.00 15.99 N

ATOM 7 CA PRO D 2 10.940 -20.819 6.172 1.00 18.53 C

ATOM 8 C PRO D 2 9.793 -19.836 6.031 1.00 18.62 C

Page 31: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 31

BD Estruturais

PDBhttp://www.rcsb.org/pdb/

Research Collaboratory for Structural Bioinformatics

(RCSB)

Molecule of the Month Cholera Toxin

Page 32: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 32

BD Estruturais com Classificação

CATHClassification, Architecture, Topology, Homology

http://www.biochem.ucl.ac.uk/bsm/cath_new/

SCOPStructural Classification of Proteinshttp://scop.mrc-lmb.cam.ac.uk/scop/

Page 33: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 33

BD integradas

Informação proveniente de múltiplas bases de dados, beneficiando de interconexão e anotação supervisada.

GeneCardshttp://bioinformatics.weizmann.ac.il/cards – Informação detalhada por gene com ligações a

várias bases de dados com informação laboratorial, clínica, etc.

Page 34: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 34

BD integradas

Interprohttp://www.ebi.ac.uk/interpro

–Resultado da integração de diversos recursos como PRINTS; PROSITE; SMART; ProDom; Pfam; TIGRfam

Page 35: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 35

BD Clínicas

HGMDhttp://www.hgmd.org –Mutações e doenças associadas

dbSNPhttp://ncbi.nlm.nih.gov/SNP/–O maior repositório público de SNPs

Page 36: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 36

BD de interesse biológico

Que esperar do futuro?

Maior integraçãoMaior controlo de qualidadeMelhores interfaces de utilizadorMelhor interoperabilidade

XML

Page 37: Bases de dados de interesse biológico - Técnico Lisboa ... · O interesse das bases de dados em Biologia aumenta ... experimentalmente e com elas predizer o papel de proteínas

15-9-2005 LEBM - Bioinformática 37

FIM