bancos de dados bancos de dados aplicados ao estudo de proteínas

36
Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Upload: internet

Post on 17-Apr-2015

112 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Bancos de dados

Bancos de dados aplicados ao estudo de proteínas

Page 2: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

1. Introdução

• Histórico – acúmulo de informação biológicas

Page 4: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

1953

1946

O ENIAC (Electrical Numerical Integrator and Computer)

James D Watson and Francis Crick 

ENIAC30 toneladas160 m25.000 cálculos/segundo200 k memória

Histórico: Aquisição e armazenamento dos dados

Page 5: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Insulina

1° proteína a ser cristalizada (Abel, 1926),

1° proteína a ser sequenciada (Sanger et al, 1955 ),

1° proteína a ser sintetizada por técnicas químicas ( Du et al;Zahn;Katsoyanis; 1964),

Década de 60

Histórico: Aquisição dos dados

Degradação de Edman (Químico sueco Pehr Edman)

Page 6: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Histórico: Armazenamento dos dados

“Atlas of Protein Sequences”

1965 Margaret Dayhoff's

Primeira bionformata

Page 7: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Surgimento da eletroforese 2D

• Surge a 2D-PAGE

• Trabalhos de MacGillivray et al.( 1974);

• O´Farrel (1975) ; Klose (1975)

O´Farrel

Década de 1970

Page 8: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Aquisição dos dados: As Ômicas

• TRANSCRIPTÔMICA:-Differential Display (DD) - Serial Analysis of Gene

Expression (SAGE)- DNA Microarray

• PROTEÔMICA:-Eletroforese bidimensional

(2D)-MudPit

-Espectrometria de massa

Outras ômicas: Metabolômica, farmacogenômica, regulômica, peptidômica, degradômica…….

• Genômica

Page 9: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Era “Pós-Genômica”

• GENOMA – DNA – 3,4 bilhões de nt

• TRANSCRIPTOMA – mRNA – 30 mil genes

• PROTEOMA – Proteínas – 0,3-1,2 milhão proteínas

Homo sapiens Modificações pós-traducionais?

Interações entre proteínas?

Page 10: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Eletroforese 2D e Bioinformática

Page 11: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Proteoma Comparativo ou Diferencial

Sobreposição permite identificar diferenças nos padrões de bandas

Page 12: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Cromatografia líquida multidimensional-MudPit

Descrita pela primeira vez por WASHBURN et al. (2001),

Page 13: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Identificação e Sequenciamento de proteínas

Page 14: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

E agora o que fazer?

EST

Vias metabólicas Análise in silico

SN

Ps

GENÔMICA e PROTEÔMICA

BIOTECNOLOGIA

Microarranjos

Sequenciamento genômico Eletroforese 2DEspectrometria de massa

Genes e proteínas alvos

Bancos de dados

Page 15: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Tipos de bancos de daods biológicos

Bancos de dados PrimáriosDados obtidos diretamente de seqüenciamentoDados submetidos por pesquisadoresConteúdo controlado pela pessoa que o submeteExemplos: GenBank, EMBL, DDJB, SNP, GEO

Bancos de dados Derivados (ou Secundários)Construído a partir da base de dados primáriaPadrões resultantes da análise dos primáriosConteúdo controlado por curadores (NCBI)Exemplos: Refseq, RefSNP, UniGene, NCBI Protein, Structure,Conserved Domain, SwissProt, Pfam

Page 16: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Tipos de bancos de dados• Bancos de dados Primários de

proteínas

“Atlas of Protein Sequences”

• Bancos de dados SecundáriosTrEMBL

+

Page 17: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

• Seqüências depositadas têm várias anotações biológicas, como:– a função da proteína, – informações de

homologia,– seqüências relacionadas

("features").

• Promove a anotação funcional de proteínas.

Page 18: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

• PIR-NRL3D– PIR - Sequence-Structure Database

• Este banco de dados é produzido pelo PIR a partir de seqüências extraídas do PDB (Protein Data Bank).

• Os títulos e as fontes biológicas das seqüências seguem o padrão de nomenclatura adotado pelo PIR.

• Referências bibliográficas, MEDLINE, estrutura secundária, sítios ativos, detalhes de métodos experimentais, estão disponíveis entre outras facilidades.

• PIR-NRL3D:http:/pir.georgetown.edu/pirwww/dbinfo/nrl3d.html

Page 19: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

SWISS-PROT e TrEMBL

• SWISS-PROT foi criado em 1986 pelo Departamento de Bioquímica Médica da Universidade de Genebra e EMBL.

• Atualmente é mantido pelo Swiss Institute of Bioinformatics (SIB) e EBI/EMBL.

• Este banco mantém um alto nível de anotações, como a descrição e a função da proteína, estrutura dos seus domínios, modificações pós-tradução, além de ter uma estrutura que facilita o acesso computacional a diferentes campos de informações.

TrEMBL

Page 20: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

SWISS-PROT e TrEMBL

• TrEMBL é um suplemento do SWISS-PROT que contém todas as traduções das entradas de seqüências codificantes de nucleotídeos do EMBL.

• As entradas do TrEMBL são menos extensivamente anotadas do que aquelas do SWISS-PROT, mas são movidas para o SWISS-PROT assim que uma anotação confiável seja disponível.

• Link SWISS-PROT e TrEMBL: http://us.expasy.org/sprot/

TrEMBL

Page 21: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Bancos de dados de proteínas

Crescimento do UniProt

TrEMBL

Page 22: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Busca de informações

Informações estruturais

• Modelos conceituais de estruturas de proteínas– Tipos de estruturas e modelos conceituais– Proteínas globulares– Estrutura secundária– Estrutura terciária– Estrutura quaternária– Proteínas integrais de membrana– Domínios– Evolução– Estrutura e função

Page 23: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Informações estruturais

• Tipos de estruturas e modelos conceituais:

– Proteínas globulares são solúveis em solventes predominantemente aquosos tal como o citosol e fluídos extra-celulares

– Proteínas integrais de membranas existem dentro de ambientes dominados por lipídeos das membranas biológicas.

– Modelos conceituais de estruturas de proteínas são importantes para o entendimento da bioinformática de proteínas.

Page 24: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Bancos de dados Estruturais

– PDB: recurso primário para dados estruturais de proteínas.

– Contém dados derivados de estudos de cristalografia de raio-X e NMR.

Page 25: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Banco de estrutura de proteínas

Page 26: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Ferramentas

• PDBSum– O PDBSum é um do principais recursos para

obtenção de informações estruturais, mantido pela University College London.

– Trata-se de um compêndio acessível pela Internet que contém resumos e análises de todas as estruturas no PDB.

– Cada resumo fornece a descrição da resolução, número de cadeias de proteínas, ligantes e íons metálicos, estruturas secundárias, interações ligantes, dentre muitas outras. Estas informações são vitais não somente para a visualização das estruturas mas também para o desenho, como um único recurso, das informações 1D, 2D e 3D.

Page 27: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Ferramentas• SCOP

– O SCOP (Structural Classification of Proteins) é um banco de dados mantido pelo Laboratory of Molecular Biology e pelo Centre for Protein Engineering (MRC) e tem por objetivo descrever as relações estruturais e evolutivas entre proteínas de estrutura conhecida.

– Na medida em que as ferramentas automáticas de comparação de estruturas hoje existentes não podem identificar, de forma confiável, tais relações, o SCOP foi concebido e construído de modo a utilizar um combinação de processos de inspeções manuais métodos automáticos.

Page 28: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Predição de estruturas• SOSUI

– Tokyo University of Agriculture and Technology (Department of Biotechnology).

– O SOSUI analisa seqüências de proteínas, com a finalidade de predizer estruturas secundárias em proteínas de membrana.

– Baseia-se nas propriedades físico-químicas dos aminoácidos, como hidrofobicidade e balanceamento de cargas.

– Esta ferramenta deve ser utilizada para os seguintes tipos de predição: discriminação entre proteínas de membrana e as solúveis, predição da existência e determinação da região de hélices transmembrânicas.

Page 29: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Famílias de proteínas

PROSITE• O banco de dados PROSITE contem seqüências

modelo associadas com membros de famílias de proteínas, funções específicas de proteínas e modificações pós-traducionais.

• Uma notação especial envolvendo colchetes (e.g. [LIVM]), chaves (e.g. {FD}) e x(n) é usada para expressar resíduos alternativos em cada posição do modelo.

• O banco de dados é curado manualmente e os falso positivos ou falso negativos conhecidos são registrados.

• Alguns dos padrões, particularmente modelos de modificações pós-traducionais curtas, não possuem especificidade e ocorrem muitas vezes na mesma seqüência.

Page 30: Bancos de dados Bancos de dados aplicados ao estudo de proteínas
Page 31: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Famílias de domínios proteínas

• Muitas proteínas são construídas a partir domínios em uma arquitetura modular.

• O estudo de famílias de proteínas é melhor englobado como um estudo de famílias de domínios de proteínas.

• O Prodom é um banco de dados de seqüências de domínios de proteínas criado automaticamente a partir de bancos de dados de seqüências de proteínas.

Page 32: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Ferramentas

• Recursos– Pfam e SMART podem ser usados para

análise de famílias de domínios de proteínas.– Um recurso integrado, o Interpro, une os

bancos de dados PROSITE, PRINTS, Pfam, Prodom, e SMART.

Page 33: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Ferramentas

• ExPASy– O ExPASy (Expert Protein Analysis System) é

mantido pelo Swiss Institute of Bioinformatics e disponibiliza uma enorme quantidade de recursos de bioinformática.

• Link para o ExPASy: http://www.expasy.org/

Page 34: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Ferramentas• InterPro

– Mantido pelo European Bioinformatics Institute.

– O InterPro é um banco de dados de assinaturas, capacitado para identificar relacionamentos distantes entre novas seqüências, conseguindo, assim, inferir funções protéicas.

– Como uma base integrada de documentação de famílias de proteínas, domínios e regiões funcionais, o InterPro integra os esforços do PROSITE, do PRINTS, do Pfam e do ProDom.

– Cada entrada do InterPro inclui uma descrição funcional, uma anotação e referências da literatura, além de links para os bancos de dados importantes.

Page 35: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Interprot

Page 36: Bancos de dados Bancos de dados aplicados ao estudo de proteínas

Exercícios

• Usando o SMART:• Usar sequência EF558621;• Usar sequência editada da BVL;• Faça uma busca por domínios e famílias.• Anote os resultados informando os dados de

cada domínio obtído;• Informe o que significa o SMART e quais

ferramentas estão disponíveis (por exemplo: Modo Normal e Modo Genômico)