bancos de dados bancos de dados aplicados ao estudo de proteínas

Bancos de dados

Bancos de dados aplicados ao estudo de proteínas

1. Introdução

• Histórico – acúmulo de informação biológicas

Histórico:Ciências convergentes

Charles Robert Darwin (1809 —1882)

Herman Hollerith (1860-1929)

http://pt.wikipedia.org/wiki/1809

http://pt.wikipedia.org/wiki/1882

http://en.wikipedia.org/wiki/Gregor_Mendel

http://upload.wikimedia.org/wikipedia/commons/4/42/Charles_Darwin_aged_51.jpg

http://pt.wikipedia.org/wiki/Ficheiro:Darwin%27s_finches.jpeg

1953

1946

O ENIAC (Electrical Numerical Integrator and Computer)

James D Watson and Francis Crick

ENIAC30 toneladas160 m25.000 cálculos/segundo200 k memória

Histórico: Aquisição e armazenamento dos dados

http://en.wikipedia.org/wiki/James_D_Watson

http://upload.wikimedia.org/wikipedia/commons/3/3b/Two_women_operating_ENIAC.gif

Insulina

1° proteína a ser cristalizada (Abel, 1926),

1° proteína a ser sequenciada (Sanger et al, 1955 ),

1° proteína a ser sintetizada por técnicas químicas ( Du et al;Zahn;Katsoyanis; 1964),

Década de 60

Histórico: Aquisição dos dados

Degradação de Edman (Químico sueco Pehr Edman)

Histórico: Armazenamento dos dados

“Atlas of Protein Sequences”

1965 Margaret Dayhoff's

Primeira bionformata

Surgimento da eletroforese 2D

• Surge a 2D-PAGE

• Trabalhos de MacGillivray et al.( 1974);

• O´Farrel (1975) ; Klose (1975)

O´Farrel

Década de 1970

Aquisição dos dados: As Ômicas

• TRANSCRIPTÔMICA:-Differential Display (DD) - Serial Analysis of Gene

Expression (SAGE)- DNA Microarray

• PROTEÔMICA:-Eletroforese bidimensional

(2D)-MudPit

-Espectrometria de massa

Outras ômicas: Metabolômica, farmacogenômica, regulômica, peptidômica, degradômica…….

• Genômica

Era “Pós-Genômica”

• GENOMA – DNA – 3,4 bilhões de nt

• TRANSCRIPTOMA – mRNA – 30 mil genes

• PROTEOMA – Proteínas – 0,3-1,2 milhão proteínas

Homo sapiens Modificações pós-traducionais?

Interações entre proteínas?

Eletroforese 2D e Bioinformática

Proteoma Comparativo ou Diferencial

Sobreposição permite identificar diferenças nos padrões de bandas

Cromatografia líquida multidimensional-MudPit

Descrita pela primeira vez por WASHBURN et al. (2001),

Identificação e Sequenciamento de proteínas

E agora o que fazer?

EST

Vias metabólicas Análise in silico

SN

Ps

GENÔMICA e PROTEÔMICA

BIOTECNOLOGIA

Microarranjos

Sequenciamento genômico Eletroforese 2DEspectrometria de massa

Genes e proteínas alvos

Bancos de dados

Tipos de bancos de daods biológicos

Bancos de dados PrimáriosDados obtidos diretamente de seqüenciamentoDados submetidos por pesquisadoresConteúdo controlado pela pessoa que o submeteExemplos: GenBank, EMBL, DDJB, SNP, GEO

Bancos de dados Derivados (ou Secundários)Construído a partir da base de dados primáriaPadrões resultantes da análise dos primáriosConteúdo controlado por curadores (NCBI)Exemplos: Refseq, RefSNP, UniGene, NCBI Protein, Structure,Conserved Domain, SwissProt, Pfam

Tipos de bancos de dados• Bancos de dados Primários de

proteínas

“Atlas of Protein Sequences”

• Bancos de dados SecundáriosTrEMBL

+

• Seqüências depositadas têm várias anotações biológicas, como:– a função da proteína, – informações de

homologia,– seqüências relacionadas

("features").

• Promove a anotação funcional de proteínas.

• PIR-NRL3D– PIR - Sequence-Structure Database

• Este banco de dados é produzido pelo PIR a partir de seqüências extraídas do PDB (Protein Data Bank).

• Os títulos e as fontes biológicas das seqüências seguem o padrão de nomenclatura adotado pelo PIR.

• Referências bibliográficas, MEDLINE, estrutura secundária, sítios ativos, detalhes de métodos experimentais, estão disponíveis entre outras facilidades.

• PIR-NRL3D:http:/pir.georgetown.edu/pirwww/dbinfo/nrl3d.html

SWISS-PROT e TrEMBL

• SWISS-PROT foi criado em 1986 pelo Departamento de Bioquímica Médica da Universidade de Genebra e EMBL.

• Atualmente é mantido pelo Swiss Institute of Bioinformatics (SIB) e EBI/EMBL.

• Este banco mantém um alto nível de anotações, como a descrição e a função da proteína, estrutura dos seus domínios, modificações pós-tradução, além de ter uma estrutura que facilita o acesso computacional a diferentes campos de informações.

TrEMBL

SWISS-PROT e TrEMBL

• TrEMBL é um suplemento do SWISS-PROT que contém todas as traduções das entradas de seqüências codificantes de nucleotídeos do EMBL.

• As entradas do TrEMBL são menos extensivamente anotadas do que aquelas do SWISS-PROT, mas são movidas para o SWISS-PROT assim que uma anotação confiável seja disponível.

• Link SWISS-PROT e TrEMBL: http://us.expasy.org/sprot/

TrEMBL

Bancos de dados de proteínas

Crescimento do UniProt

TrEMBL

Busca de informações

Informações estruturais

• Modelos conceituais de estruturas de proteínas– Tipos de estruturas e modelos conceituais– Proteínas globulares– Estrutura secundária– Estrutura terciária– Estrutura quaternária– Proteínas integrais de membrana– Domínios– Evolução– Estrutura e função

Informações estruturais

• Tipos de estruturas e modelos conceituais:

– Proteínas globulares são solúveis em solventes predominantemente aquosos tal como o citosol e fluídos extra-celulares

– Proteínas integrais de membranas existem dentro de ambientes dominados por lipídeos das membranas biológicas.

– Modelos conceituais de estruturas de proteínas são importantes para o entendimento da bioinformática de proteínas.

Bancos de dados Estruturais

– PDB: recurso primário para dados estruturais de proteínas.

– Contém dados derivados de estudos de cristalografia de raio-X e NMR.

Banco de estrutura de proteínas

Ferramentas

• PDBSum– O PDBSum é um do principais recursos para

obtenção de informações estruturais, mantido pela University College London.

– Trata-se de um compêndio acessível pela Internet que contém resumos e análises de todas as estruturas no PDB.

– Cada resumo fornece a descrição da resolução, número de cadeias de proteínas, ligantes e íons metálicos, estruturas secundárias, interações ligantes, dentre muitas outras. Estas informações são vitais não somente para a visualização das estruturas mas também para o desenho, como um único recurso, das informações 1D, 2D e 3D.

Ferramentas• SCOP

– O SCOP (Structural Classification of Proteins) é um banco de dados mantido pelo Laboratory of Molecular Biology e pelo Centre for Protein Engineering (MRC) e tem por objetivo descrever as relações estruturais e evolutivas entre proteínas de estrutura conhecida.

– Na medida em que as ferramentas automáticas de comparação de estruturas hoje existentes não podem identificar, de forma confiável, tais relações, o SCOP foi concebido e construído de modo a utilizar um combinação de processos de inspeções manuais métodos automáticos.

Predição de estruturas• SOSUI

– Tokyo University of Agriculture and Technology (Department of Biotechnology).

– O SOSUI analisa seqüências de proteínas, com a finalidade de predizer estruturas secundárias em proteínas de membrana.

– Baseia-se nas propriedades físico-químicas dos aminoácidos, como hidrofobicidade e balanceamento de cargas.

– Esta ferramenta deve ser utilizada para os seguintes tipos de predição: discriminação entre proteínas de membrana e as solúveis, predição da existência e determinação da região de hélices transmembrânicas.

Famílias de proteínas

PROSITE• O banco de dados PROSITE contem seqüências

modelo associadas com membros de famílias de proteínas, funções específicas de proteínas e modificações pós-traducionais.

• Uma notação especial envolvendo colchetes (e.g. [LIVM]), chaves (e.g. {FD}) e x(n) é usada para expressar resíduos alternativos em cada posição do modelo.

• O banco de dados é curado manualmente e os falso positivos ou falso negativos conhecidos são registrados.

• Alguns dos padrões, particularmente modelos de modificações pós-traducionais curtas, não possuem especificidade e ocorrem muitas vezes na mesma seqüência.

Famílias de domínios proteínas

• Muitas proteínas são construídas a partir domínios em uma arquitetura modular.

• O estudo de famílias de proteínas é melhor englobado como um estudo de famílias de domínios de proteínas.

• O Prodom é um banco de dados de seqüências de domínios de proteínas criado automaticamente a partir de bancos de dados de seqüências de proteínas.

Ferramentas

• Recursos– Pfam e SMART podem ser usados para

análise de famílias de domínios de proteínas.– Um recurso integrado, o Interpro, une os

bancos de dados PROSITE, PRINTS, Pfam, Prodom, e SMART.

Ferramentas

• ExPASy– O ExPASy (Expert Protein Analysis System) é

mantido pelo Swiss Institute of Bioinformatics e disponibiliza uma enorme quantidade de recursos de bioinformática.

• Link para o ExPASy: http://www.expasy.org/

Ferramentas• InterPro

– Mantido pelo European Bioinformatics Institute.

– O InterPro é um banco de dados de assinaturas, capacitado para identificar relacionamentos distantes entre novas seqüências, conseguindo, assim, inferir funções protéicas.

– Como uma base integrada de documentação de famílias de proteínas, domínios e regiões funcionais, o InterPro integra os esforços do PROSITE, do PRINTS, do Pfam e do ProDom.

– Cada entrada do InterPro inclui uma descrição funcional, uma anotação e referências da literatura, além de links para os bancos de dados importantes.

Interprot

Exercícios

• Usando o SMART:• Usar sequência EF558621;• Usar sequência editada da BVL;• Faça uma busca por domínios e famílias.• Anote os resultados informando os dados de

cada domínio obtído;• Informe o que significa o SMART e quais

ferramentas estão disponíveis (por exemplo: Modo Normal e Modo Genômico)

bancos de dados bancos de dados aplicados ao estudo de proteínas

Documents