bancos de dados biológicos -...

42
Bancos de Dados Biológicos CCM205 – Sistema de Bancos de Dados Ugo Henrique Pereira da Silva Professora Maria Camila N. Barioni

Upload: dinhhanh

Post on 08-Dec-2018

219 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Bancos de Dados Biológicos

CCM205 – Sistema de Bancos de Dados

Ugo Henrique Pereira da Silva

Professora Maria Camila N. Barioni

Page 2: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Banco de Dados Cientificos – Bancos de Dados Biológicos

Introdução Conceitos fundamentais

DNA, RNA Proteína Dogma Central da Biologia

Bancos de Dados de Sequências Genbank, PDB , …

Considerações finais Referências

Page 3: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Introdução

A análise da expressão dos genes é de grande interesse para as Ciências Biológicas.

Esse tipo de análise pode fornecer informações importantes sobre as funções de uma célula, uma vez que as mudanças na fisiologia de um organismo são geralmente acompanhadas por mudancas nos padrões de expressão dos genes (Alberts et al., 1997).

Page 4: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Introdução

No início da década de 1970, Ben Hesper e Paulien Hogeweg começaram a usar o termo "bioinformática" para a pesquisa que queriam fazer, definindo-o como ''o estudo dos processos computacionais nos sistemas bióticos'' (Hogeweg,.

Page 5: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Introdução

A pesquisa de similaridade em bancos de dados seqüência de DNA e proteínas é um campo essencial na pesquisa genômica (MOUNT, 2001; WEBB-ROBERTSON et al., 2008).

O método fundamental para encontrar as funções de DNA e seqüências de proteína é medir as semelhanças entre os dois seqüências.

Page 6: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Introdução

Existem muitos métodos para realizar uma verificação inteira na bases de dados de seqüência de DNA para uma busca de similaridade.

Os métodos que são normalmente utilizados são o algoritmo Smith-Waterman (Smith e Waterman, 1981) e BLAST (Altschul et al.,1990, 1997).

Page 7: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Introdução

O GenBank, banco de dados de seqüências genéticas continha somente 15 milhões de nucleotídeos em 1987, dobrou de tamanho nos 5 anos subseqüentes.

Em 1992 atingiu mais de 120 milhões utilizando sequenciadores deDNA automáticos (ADAMS, et. Al, p. 4).

Page 8: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Conceitos Fundamentais

DNA - deoxyribonucleic acid O ácido desoxirribonucleico: é um composto

orgânico cujas moléculas contêm as instruções genéticas que coordenam o desenvolvimento e funcionamento de todos os seres vivos e alguns vírus. O seu principal papel é armazenar as informações necessárias para a construção das proteínas e RNAs.

A estrutura doDNA foi descoberta conjuntamente pelo norte-americano James Watson e pelo britânico Francis Crick em 7 de Março de 1953, o que lhes valeu o Prêmio Nobel de Fisiologia/Medicina em 1962, juntamente com Maurice Wilkins.

Page 9: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Conceitos Fundamentais

DNA - deoxyribonucleic acid Açucares Bases nitrogenadas

Adenina (A), Guanina (G) - (Purinas) Timina (T), Citosina (C) - (Pirimidinas)

Grupo fosfato

Uma sequência de DNA é formada por dupla hélice emligação antiparalela

Page 10: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Conceitos Fundamentais

DNA - deoxyribonucleic acid

Page 11: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Conceitos Fundamentais

RNA - ribonucleic acid A composição do RNA é muito semelhante ao do

DNA (ácido desoxirribonucleico) contudo apresenta algumas diferenças:é formado por uma cadeia simples de nucleotídeos, e não uma de dupla hélice como o DNA;

O RNA tem o açúcar ribose em seus nucleotídeos em vez da desoxirribose encontrada no DNA.

as bases adenina (A), guanina (G), citosina (C) e uracila (U),

Page 12: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Conceitos Fundamentais

RNA - ribonucleic acid

Page 13: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Conceitos Fundamentais

Proteína são compostos de alto peso molecular; sintetizadas pelos organismos vivos através da

condensação de um grande número de moléculas de alfa-aminoácidos, através de ligações denominadas ligações peptídicas;

Uma proteína é um conjunto de no minimo 20 aminoácidos, mas sabemos que uma proteína possui muito mais que essa quantidade, sendo os conjuntos menores denominados Polipeptídeos.

Page 14: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Conceitos Fundamentais Proteína

Page 15: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Conceitos Fundamentais

Dogma Central da Biologia

Page 16: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Bancos de Dados Biológicos

Os bancos de dados envolvendo seqüências de nucleotídeos, de aminoácidos ou estruturas de proteínas podem ser classificados em bancos de seqüências primários e secundários.

Os primeiros são formados pela deposição direta de seqüências de nucleotídeos, aminoácidos ou estruturas protéicas, sem qualquer processamento ou análise.

Page 17: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Bancos de Dados Biológicos

Os principais bancos de dados primários são o GenBank, o EBI (European Bioinformatics Institute), o DDBJ (DNA Data Bank of Japan) e o PDB (Protein Data Bank). Os três primeiros bancos são membros do INSDC (International Nucleotide Sequence Database Colaboration) e cada um desses centros possibilita a submissão individual de seqüências de DNA.

Trocam informações entre si diariamente, de modo que todos os três possuem informações atualizadas de todas as seqüências de DNA depositadas em todo o mundo

Page 18: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Bancos de Dados Biológicos

Com o crescente número de dados biológicos que vem sendo gerados, vários bancos de dados têm surgido e anualmente a revista Nucleic Acids Research database publica uma lista atualizada com a classificação de todos os bancos de dados biológicos disponíveis.

Page 19: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Genbank

banco de dados público de seqüências de nucleotídeos e apoio bibliográfico e anotação biológica, criado e distribuído pela National Center for Biotechnology Information (NCBI), uma divisão da National Library of Medicine (NLM);

Construido basicamente a partir da submissão de dados da seqüência de autores e da maior parte de submissão de expressed sequence tag (EST), genome survey sequences (GSS), e outros de altas transferência de dados dos centros de sequenciamento.

Page 20: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Genbank

Há aproximadamente 126.551.501.141 bases em 135.440.924 registros seqüência na divisão tradicional, 191.401.393.188 bases em 62.715.288 registros seqüência na divisão WGS em abril de 2011.

Page 21: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Genbank

Sequência baseada em taxonomia Colaboração com EMBL e DDBJ e curadorias

externas, o que necessita de padrão para troca de dados

Adoção de uma Feature Table

Page 22: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Genbank Adoção de uma Feature Table

O objetivo geral do design da tabela é fornecer um extenso vocabulário para descrever características de uma estrutura flexível para manipulá-los.

A documentação representa a regras comuns que permitem que as três bases de dados para troca de dados em uma base diária.A gama de recursos para ser representado é diversificado, incluindo as regiões que:

Executar uma função biológica, Afetam ou são o resultado da expressão de uma função biológica, Interagir com outras moléculas, Afetam a replicação de uma seqüência, Afetam ou são o resultado de recombinação de seqüências diferentes, são uma unidade reconhecível repetida,te m estrutura secundária ou terciária, variação de exposição, ou que tenham sido revistos ou corrigidos

Page 23: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Genbank Feature table format (EMBL):

Feature table format example (EMBL): FT source 1..1859FT /db_xref="taxon:3899"FT /organism="Trifolium repens"FT /tissue_type="leaves"FT /clone_lib="lambda gt10"FT /clone="TRE361"FT /mol_type="genomic DNA"FT CDS 14..1495FT /db_xref="MENDEL:11000"FT /db_xref="UniProtKB/Swiss-Prot:P26204"FT /note="non-cyanogenic"FT /EC_number="3.2.1.21"FT /product="beta-glucosidase"FT /protein_id="CAA40058.1"FT /translation="MDFIVAIFALFVISSFTITSTNAVEASTLLDIGNLSR.......---------+---------+---------+---------+---------+---------+---------+---------1 10 20 30 40 50 60 70 79

Page 24: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Genbank Feature table format (Genbank):

Feature table format example (GenBank): source 1..8959 /organism="Homo sapiens" /db_xref="taxon:9606" /mol_type="genomic DNA" gene 212..8668 /gene="NF1" CDS 212..8668 /gene="NF1" /note="putative" /codon_start=1 /product="GAP-related protein" /protein_id="AAA59924.1" /translation="MAAHRPVEWVQAVVSRFDEQLPIKTGQQNTHTKVSTE.......---------+---------+---------+---------+---------+---------+---------+---------1 10 20 30 40 50 60 70 79

Page 25: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Genbank Feature table format (DDBJ):

Feature table format example (DDBJ): source 1..2136 /clone="pK28" /organism="Rattus norvegicus" /strain="Sprague-Dawley" /tissue_type="kidney" /mol_type="genomic DNA" mRNA 19..2128 CDS 31..1212 /codon_start=1 /function="Dual specificity protein tyrosine/threonine kinase" /product="MAP kinase kinase" /protein_id="BAA02603.1" /translation="MPKKKPTPIQLNPAPDGSAVNGTSSAETNLEALQKKL.......---------+---------+---------+---------+---------+---------+---------+---------1 10 20 30 40 50 60 70 79

Page 26: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Genbank Divisões e registros

Cada entrada inclui uma concisa descrição da sequência, o nome cientifico e taxonomia do organismo de origem, referencias bibliográficas e uma feature table por áreas de importancia biológica;

Os arquivos são particionados em divisões que correspondem a grupos taxonômicos como:

Bactérias (BCT) , vírus(VRL), primatas (PRI) e roedores (ROD), expressed seqüência tag (EST), pesquisa do genoma (GSS),

genômica de alto rendimento (HTG), cDNA de alto rendimento (HTC) e seqüências da amostra ambientais (ENV)

Page 27: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Genbank Divisões e registros

the BCT division is now composed of 72 files (+4) - the CON division is now composed of 149 files (+1) - the ENV division is now composed of 40 files (-1) - the EST division is now composed of 445 files (+10) - the GSS division is now composed of 247 files (+10) - the INV division is now composed of 30 files (+1) - the PAT division is now composed of 164 files (+23) - the PLN division is now composed of 48 files (+2) - the TSA division is now composed of 30 files (+8) - the VRL division is now composed of 18 files (+1) - the VRT division is now composed of 24 files (+1)

Page 28: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Genbank Divisões e registros

Cada um destes arquivos tem o mesmo formato e é composto por duas partes:

informações de cabeçalho e seqüência de entradas daquela divisão

Page 29: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Genbank Recuperação de Dados

Os registros de seqüência no GenBank são acessíveis através do Entrez (www.ncbi.nlm.nih.gov / sites / gquery), uma flexível sistema de banco de dados de recuperação que abrange 35 bancos de dados biológicas. Bases de dados Entrez contêm DNA e proteínas seqüências derivadas do GenBank e outras fontes, mapas genomicos, população, conjunto de sequencias filogenéticas e ambiental, os dados de expressão gênica, taxonomia, informações de domínio de proteína e estruturas do banco de dados Modelagem Molecular MMDB.

Cada banco de dados está ligado a literatura científica via PubMed Central e PubMed.

Page 30: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Genbank

Page 31: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Genbank

Page 32: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Genbank

Page 33: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

PDB – Protein Data Bank

O Protein Data Bank (PDB) é o único repositório mundial de informações sobre as estruturas 3D de grandes moléculas biológicas, incluindo proteínas e ácidos nucléicos.

Estas são as moléculas da vida que são encontrados em todos os organismos, incluindo bactérias, fungos, plantas, moscas, outros animais e seres humanos.

Page 34: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

PDB – Protein Data Bank

Compreender a forma de uma molécula ajuda a entender como ele funciona. Esse conhecimento pode ser usado para ajudar a deduzir papel de uma estrutura na saúde humana e doenças, e no desenvolvimento de medicamentos.

As estruturas na faixa de arquivo a partir de proteínas pequenas e pedaços de DNA de máquinas moleculares complexas como o ribossoma.

Page 35: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

PDB – Protein Data Bank restritos a coordenadas atômicas que são

substancialmente determinados por medições experimentais contendo amostra real de macromoleculas biológicas.

Atualmente, conjuntos produzidos por cristalografia de raios X, NMR, microscopia eletrônica, difração de nêutrons, difração de pó, difração de fibra, e espalhamento de solução pode ser depositado no PDB, desde a molécula estudada atende ao requisito de tamanho mínimo.

Page 36: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

PDB – Protein Data Bank Para cada coordenada atômica e entrada

bibliográfica o arquivo consiste de registros com 80 caracteres: Exemplo de registro:

HEADER : Date entered into Data Bank; identification code

OBSLTE : Identifies entries which have been replaced

Cols.1-6 HEADER 11 - 50 Functional classification of macromolecule 51 - 59 Date of deposition into Data Bank(i) 63 - 66 Identification code

Page 37: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

PDB – Protein Data Bank Exemplo de registro:

Cols. 1 -6 OBSLTE 9 - 10 Continuation field (this field will be blank for the

first OBSLTE record in each entry and numbered 2, 3, etc. for continuation records)

12 - 20 Date this entry was replaced 22 - 25 Identification code of this entry which is now

obsolete 32 - 35 Identification code of a new entry which has

replaced this old entry 37 – 40 ... 67 – 70 Identification code of a new entry which has

replaced thisold entry

Page 38: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

PDB – Protein Data Bank Bancos de dados armazenam as coordenadas

atomicas e informações sobre a estrutura molecular;

Necessidade de programas de visualização de imagens moleculares como o rasmol ou Jmol

Page 39: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

PDB – Protein Data Bank

Page 40: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

PDB – Protein Data Bank

Page 41: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Considerações Finais

Muitos dados e formatos de dados de sequências biologicas;

Necessidade de implementação de métodos de pesquisas de domínio especifico

Ferramentas de integração de multiplas fontes de dados e integradas aos SGBDs;

Comunidade preocupada com os novos requisitos de armazenamento de dados;

Desafios para analises dos grandes volumes de dados gerados e depositados

Page 42: Bancos de Dados Biológicos - professor.ufabc.edu.brprofessor.ufabc.edu.br/~camila.barioni/arquivos/sbd_ugo.pdf · ambiental, os dados de expressão gênica, taxonomia, informações

Referências ALBERTS, Bruce, et. Al, Fundamentos da Biologia Molecular. 2. ed. Porto

Alegre:Artmed, 2006.

ALTSCHUL, S.F., MADDEN, T.L., SCHAFFER, A.A., ZHANG, J., ZHANG, Z., MILLER, W., LIPMAN, D.J., 1997. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25, 3389–3402.

BENSON,D.A., KARSCH-MIZRACHI,I., Lipman,D.J., Ostell,J. And Wheeler,D.L. (2007) GenBank. Nucleic Acids Res., 35(Database issue), 21–25.

HOGEWEG, P (2011) The Roots of Bioinformatics in Theoretical Biology. PLoS Comput Biol 7(3):e1002021. doi:10.1371/journal.pcbi.1002021

MOUNT, D.W., 2001. Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press, New York.

WEBB-ROBERTSON, B.J., OEHMEN, C.S., SHAH, A.R., 2008. A feature vector integration approach for a generalized support vector machine pairwise homology algorithm. Comput. Biol. Chem. 32, 458–461.

LIFISCHITZ, Sérgio, Gerenciadores de Dados Biológicos:Genéricos ou Ad-Hoc,Anais XXVII Congresso SBC-Sociedade Brasileira da Computação, Rio de Janeiro , 2007