bases de dados de interesse biológico - técnico lisboa ... · o interesse das bases de dados em...
TRANSCRIPT
1515--99--20052005 LEBM LEBM -- BioinformáticaBioinformática 11
Bases de dados de interesse biológico
Pedro FernandesInstituto Gulbenkian de CiênciaOeiras, Portugal
15-9-2005 LEBM - Bioinformática 2
Bases de dados em Biologia
Antes do aparecimento da Biologia Molecular
–Bases de dados taxonómicas–Colecções biológicas–Observações de campo–Bases de dados de bibliografia científica
Os meios computacionais eram primitivos
15-9-2005 LEBM - Bioinformática 3
Com a Biologia Molecular
A comunidade científica apercebeu-se
– da real dimensão dos conjuntos de dados a que tinha acesso e da sua complexidade
– dos requisitos computacionais
– do que a Biologia iria representar em termos de organização de informação e de aquisição de conhecimentos
– dos impactos no mundo clínico, ambiente, indústria, etc.
15-9-2005 LEBM - Bioinformática 4
Tipologia de bases de dados de interesse biológico
Conteúdo:BibliografiaSequênciasGenomas e ProteomasClínicasHomologia
15-9-2005 LEBM - Bioinformática 5
Divisão temática de bases de dados de interesse biológico
Sequências: nucleotídicas , RNA, Proteínas
Estruturais
Genómicas (não-vertebrados)
Vias Metabólicas e de Sinalização (Signaling)
Genomas (Humano e de outros vertebrados)
Genes Humanos e Doenças
Dados de Microarrays e Expressão Génica
Proteomica
Biologia Molecular (outras)
Organelos
Plantas
Imunologia(adaptado de Nucleic Acids Research, DB Issue 2005)
15-9-2005 LEBM - Bioinformática 6
O interesse das bases de dados em Biologia aumenta
Se forem– acessíveis pela www– indexadas – instaláveis localmente (actualização)– interligadas– integradas
15-9-2005 LEBM - Bioinformática 7
Com Bioinformática, a utilização de bases de dados de proteínas permite
- Detectar num conjunto de proteínas uma possível relação evolutiva, se existir
- Detectar semlhanças locais que permitam atribuir função
- Explorar estruturas tridimensionais preditas ou encontradas experimentalmente e com elas predizer o papel de proteínas
- Explorar possíveis interacções de proteínas com proteínas ou de proteínas com outras moléculas
- Explorar a possibilidade de desenhar “inspiradamente” novas proteínas para fins específicos
- Explorar a possibilidade de modificar proteínas existentes, modificando as suas funções
15-9-2005 LEBM - Bioinformática 8
A Biologia, uma grande fonte de informação?
Há 1011
galáxias no Universo observável
Há 4 x 1022
estrelas no Universo observável
P: Quantos grãos de areia tem esta praia?
R: Assumindo que a praia tem 5km x 500m x 5m e que um grão de areia tem 1 micron de diâmetro, a praia terá 12.5x10
25partículas
Conhecemos cerca de 105
mas as regras que conhecemos fazem prever que poderão formar-se 10
66espécies moleculares
diferentes, a maioria delas com um papel biológico relevante
15-9-2005 LEBM - Bioinformática 9
Tipos de bases de dados com sequências biológicas
Primárias: contêm dados laboratoriais (sequências)
em registos revistos, validados e comentadosem registos gerados automaticamente
Secundárias: de padrões, resultantes de análises de material das primárias
15-9-2005 LEBM - Bioinformática 10
Bases de dados primárias– Entradas submetidas pelos investigadores,
revistas e validadas – Com “accession number” único por entrada
De Nucleótidos (N):–Genbank, EMBL, DDBJ–Sincronizadas (depósito em paralelo)
De Proteinas (P):–Swissprot, PIR, PDB
15-9-2005 LEBM - Bioinformática 11
Crescimento de bases de dados primárias N
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
Thou
sand
s
1997 2004http://www3.ebi.ac.uk/Services/DBStats/
Nucleotide databases:
EMBL, Genebank, DDBJ
7 Set 2005
This morning the EMBL Database contained 107,573,768,148 nucleotides in 58,160,970 entries. Breakdown by entry type:
Entry Type Entries Nucleotides Change in 1 yearStandard 47,527,188 52,172,771,562 +20%Constructed (CON) 333,717 n/aThird Party Annotation (TPA) 4,649 331,476,604 + 1MWhole Genome Shotgun (WGS) 10,294,618 54,793,749,562 2x
15-9-2005 LEBM - Bioinformática 12
Crescimento de bases de dados primárias P
http://au.expasy.org/sprot/relnotes/relstat.html
15-9-2005 LEBM - Bioinformática 13
Crescimento de bases de dados primárias P
PDB: base de dados primária de proteínas com informação estrutural
(de origem experimental e obtida com modelos)
15-9-2005 LEBM - Bioinformática 14
O dilúvio de informação vem
Dos projectos de sequenciação de genomasDos projectos de ProteómicaDe experimentação de alto débito:–Microarrays –Arrays de Proteínas–Teste paralelizado de fármacos–Outros testes em larga escala
15-9-2005 LEBM - Bioinformática 15
O tamanho dos genomas
ORGANISMO CROMOSOMAS Tam. GENOMA # GENESHomo sapiens 23 3,200,000,000 ~ 30,000Mus musculus 20 2,600,000,000 ~30,000D. melanogaster 4 180,000,000 ~18,000Sa. cerevisiae 16 14,000,000 ~6,000Zea mays 10 2,400,000,000 ???
Tabela elaborada por Silke Sperling, 2005
15-9-2005 LEBM - Bioinformática 16
O déficit de conhecimentoPodemos, em certos casos, predizer propriedades de protínas e até a
sua função a partir do conhecimento da estrutura. Quase nunca se consegue fazer o mesmo com apenas a sequência.
Sabemos mais de sequências do que de estrutura (e função)
Conhecemos 50*106 sequências nucleotídicas (EMBL) , das quais 22*106
são ESTs. Conhecemos 35*103 estruturas de proteínas (PDB), das quais apenas 8*103
estão confirmadas experimentalmente (NMR, difracção dos raios X, etc.)O rácio é 28*106 / 8*103 (> 3*103)
Em proteínas conhecemos 194*103 sequências (Swissprot)O rácio é 194*103 / 8*103 (> 24)
15-9-2005 LEBM - Bioinformática 17
Melhoramentos
N não-redundante:
RefSeq–Publicada pelo NCBI como a Genbenk–Contém mRNA, “Contigs” genómicos,
traduções conhecidas, etc.–Contém registos que provêm da
anotação de genomas
15-9-2005 LEBM - Bioinformática 18
Melhoramentos
P não-redundante:
RefSeqP–Base de anotação funcional para o
projecto do Genoma Humano–Suporte básico para o
Dogma Central da Biologia Molecular
15-9-2005 LEBM - Bioinformática 19
Subconjuntos
TrEMBL – Translated EMBL Nº de registos 2,105,517
Complemento da Swissprot com sequências de proteínas que se sabe resultarem da tradução de sequências nucleotídicas entradas na EMBL
SpTrEMBL – Sequências de proteínas prontas a entrar na Swissprot. Por exemplo, a aguardar uma evidência experimental
RmTrEMBL – Sequências de proteínas que não vão entrar na Swissprot: fragmentos, sequências sintéticas, etc.
15-9-2005 LEBM - Bioinformática 20
Primárias unificadas
UNIPROT (EBI, Dec 2003)Base de dados de proteínas unificada e não-redundante, resultante da reunião supervisionada de:
SwissProt, TrEMBL e PIR
Nº de registos: ~2M
15-9-2005 LEBM - Bioinformática 21
Primárias unificadas
UNIParc (UNIPROT Archive, EBI, Jan 2005)Base de dados de proteínas unificada e não-redundante, resultante da reunião supervisionada de:
UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, PIR-PSD, EMBL, Ensembl, IPI, PDB, RefSeq, FlyBase, WormBase, European Patent Office proteins, United States Patent and Trademark Office (USPTO) e Japan Patent Office
Nº de registos: ~5.7M
15-9-2005 LEBM - Bioinformática 22
A interoperabilidade
Tem obrigado a que o formato mais prático de usar seja o de “FLAT FILE”, um formato de texto em que os registos são constituídos por linhas que começam com um código que indica o tipo de informação que a linha contém.
É arcaico mas muito fácil de manipular.Tem vantagens de simplificação, mas obriga a um
esforço permanente de reformatação para utilização com software específico.
15-9-2005 LEBM - Bioinformática 23
Um registo na EMBLID U83981 standard; RNA; HUM; 2331 BP.AC U83981;SV U83981.1DT 29-JUN-1998 (Rel. 56, Created)DT 04-MAR-2000 (Rel. 63, Last updated, Version 4)DE Homo sapiens apoptosis associated protein (GADD34) mRNA, complete cds.KW .OS Homo sapiens (human)OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;OC Eutheria; Primates; Catarrhini; Hominidae; Homo.RN [1]RP 1-2331RX MEDLINE; 97298078.RA Hollander M.C., Zhan Q., Bae I., Fornace A.J. Jr.;RT "Mammalian GADD34, an apoptosis- and DNA damage-inducible gene";"XXSQ Sequence 2331 BP; 543 A; 666 C; 712 G; 410 T; 0 other;
cccagttgtt gatcttatgc aagacgctgc acgaccccgc gcccgcttgt cgccacggca 60cttgaggcag ccggagatac tctgagttac tcggagcccg acgcctgagg gtgagatgaa 120cgcgctggcc tccctaaccg tccggacctg tgatcgcttc tggcagaccg aaccggcgct 180cctgcccccg gggtgacgcg cagctcccag ccgcccagac acatggcccc aggccaagca 240ccccatcagg ctaccccgtg gagggatgcc caccctttct tcctcctgtc cccagtgatg 300ggcctcctca gccgcgcctg gagccgcctg aggggcctgg gacctctaga gccctggctg 360gtggaagcag taaaaggagc agctctggta gaagctggcc tggagggaga agctaggact 420
15-9-2005 LEBM - Bioinformática 24
Cabeçalho contendo a anotaçãoEMBL:U83981ID U83981 standard; RNA; HUM; 2331 BP.XXAC U83981;XXSV U83981.1XXDT 29-JUN-1998 (Rel. 56, Created)DT 04-MAR-2000 (Rel. 63, Last updated, Version 4)XXDE Homo sapiens apoptosis associated protein (GADD34) mRNA, complete cds.XXKW .XXOS Homo sapiens (human)OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;OC Eutheria; Primates; Catarrhini; Hominidae; Homo.XXRN [1]RP 1-2331RX MEDLINE; 97298078.RA Hollander M.C., Zhan Q., Bae I., Fornace A.J. Jr.;RT "Mammalian GADD34, an apoptosis- and DNA damage-inducible gene";RL J. Biol. Chem. 272(21):13731-13737(1997).XXRN [2]RP 1-2331(more...)
EMBL
15-9-2005 LEBM - Bioinformática 25
Cabeçalho contendo a anotaçãoLOCUS HSU83981 2331 bp mRNA linear PRI 07-JUL-1998
DEFINITION Homo sapiens apoptosis associated protein (GADD34) mRNA, complete cds.
ACCESSION U83981
VERSION U83981.1 GI:3258617
KEYWORDS .
SOURCE Homo sapiens (human)
ORGANISM Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.
REFERENCE 1 (bases 1 to 2331)
AUTHORS Hollander,M.C., Zhan,Q., Bae,I. and Fornace,A.J. Jr.
TITLE Mammalian GADD34, an apoptosis- and DNA damage-inducible gene
JOURNAL J. Biol. Chem. 272 (21), 13731-13737 (1997)
MEDLINE 97298078
PUBMED 9153226
REFERENCE 2 (bases 1 to 2331)
AUTHORS Hollander,M.C. and Fornace,A.J. Jr.
TITLE Direct Submission
(more...)
Genbank
15-9-2005 LEBM - Bioinformática 26
Registo na EMBL (sequência)SQ Sequence 2331 BP; 543 A; 666 C; 712 G; 410 T; 0 other;
cccagttgtt gatcttatgc aagacgctgc acgaccccgc gcccgcttgt cgccacggca 60
cttgaggcag ccggagatac tctgagttac tcggagcccg acgcctgagg gtgagatgaa 120
cgcgctggcc tccctaaccg tccggacctg tgatcgcttc tggcagaccg aaccggcgct 180
cctgcccccg gggtgacgcg cagctcccag ccgcccagac acatggcccc aggccaagca 240
ccccatcagg ctaccccgtg gagggatgcc caccctttct tcctcctgtc cccagtgatg 300
ggcctcctca gccgcgcctg gagccgcctg aggggcctgg gacctctaga gccctggctg 360
gtggaagcag taaaaggagc agctctggta gaagctggcc tggagggaga agctaggact 420
cctctggcaa tcccccatac cccttggggc agacgccctg aagaggaggc tgaagacagt 480
.
.
cgggatcgca gccgcttcgc acgccgcatc acccaggccc aggaggagct gagcccctgc 2040
ctcacccctg ctgcccgggc cagagcctgg gcacgcctca ggaacccacc tttagccccc 2100
atccctgccc tcacccagac cttgccttcc tcctctgtcc cttcgtcccc agtccagacc 2160
acgcccttga gccaagctgt ggccacacct tcccgctcgt ctgctgctgc agcggctgcc 2220
ctggacctca gtgggaggcg tggctgagac caactggttt gcctataatt tattaactat 2280
ttattttttc taagtgtggg tttatataag gaataaagcc ttttgatttg t 2331
//
15-9-2005 LEBM - Bioinformática 27
BD BibliográficasAcesso livre e universal
Títulos, autores, palavras-chave, sumários, referências
12 M registos
Vocabulário controlado (MESH)
Pesquiza com ENTREZ
Iniciativa política
15-9-2005 LEBM - Bioinformática 28
Vocabulário controlado MESH
Organização hieráriquicaDecisão consensual
Hemoglobin ou haemoglobin?
NMR é uma técnica de espectroscopia
Nuclear Magnetic Resonance é uma técnica de imagiologia
15-9-2005 LEBM - Bioinformática 29
Mais BD Bibliográficas
Web of Knowledge, ISI, b-on
PubCrawler (alertas)–http://www.pubcrawler.ie
15-9-2005 LEBM - Bioinformática 30
BD EstruturaisPara cada proteína, as coordenadas 3D dos átomos tal como são submetidas por experimentalistas (difracção dos raios X, NMR). Estas coordenadas permitem a visualização como objecto gráfico usando software apropriado (RasMol, Swiss PDB Viewer, VMD, Chemscape Chime, etc.)
1FGB ATOM 1 N ALA D 1 14.023 -18.754 3.091 1.00 14.50 N
ATOM 2 CA ALA D 1 13.751 -18.777 4.557 1.00 13.42 C
ATOM 3 C ALA D 1 12.429 -19.500 4.748 1.00 15.38 C
ATOM 4 O ALA D 1 11.631 -19.583 3.809 1.00 15.75 O
ATOM 5 CB ALA D 1 13.655 -17.368 5.099 1.00 12.17 C
ATOM 6 N PRO D 2 12.204 -20.112 5.928 1.00 15.99 N
ATOM 7 CA PRO D 2 10.940 -20.819 6.172 1.00 18.53 C
ATOM 8 C PRO D 2 9.793 -19.836 6.031 1.00 18.62 C
15-9-2005 LEBM - Bioinformática 31
BD Estruturais
PDBhttp://www.rcsb.org/pdb/
Research Collaboratory for Structural Bioinformatics
(RCSB)
Molecule of the Month Cholera Toxin
15-9-2005 LEBM - Bioinformática 32
BD Estruturais com Classificação
CATHClassification, Architecture, Topology, Homology
http://www.biochem.ucl.ac.uk/bsm/cath_new/
SCOPStructural Classification of Proteinshttp://scop.mrc-lmb.cam.ac.uk/scop/
15-9-2005 LEBM - Bioinformática 33
BD integradas
Informação proveniente de múltiplas bases de dados, beneficiando de interconexão e anotação supervisada.
GeneCardshttp://bioinformatics.weizmann.ac.il/cards – Informação detalhada por gene com ligações a
várias bases de dados com informação laboratorial, clínica, etc.
15-9-2005 LEBM - Bioinformática 34
BD integradas
Interprohttp://www.ebi.ac.uk/interpro
–Resultado da integração de diversos recursos como PRINTS; PROSITE; SMART; ProDom; Pfam; TIGRfam
15-9-2005 LEBM - Bioinformática 35
BD Clínicas
HGMDhttp://www.hgmd.org –Mutações e doenças associadas
dbSNPhttp://ncbi.nlm.nih.gov/SNP/–O maior repositório público de SNPs
15-9-2005 LEBM - Bioinformática 36
BD de interesse biológico
Que esperar do futuro?
Maior integraçãoMaior controlo de qualidadeMelhores interfaces de utilizadorMelhor interoperabilidade
XML
15-9-2005 LEBM - Bioinformática 37
FIM