bioinformática básica - federal university of rio de janeiro · de proteínas conheciadas...

Bioinformática Básica Modelagem Comparativa

Rafael Dias Mesquita [email protected]

Laboratório de Bioinformática

Departamento de Bioquímica Instituto de Química - UFRJ

Aminoácidos Apolares

Aminoácidos Polares

Aminoácidos Polares Carregados

Ligação pep6dica

-‐  Rígida e plana -‐  Ligação simples com caráter de dupla ligação

Ângulos Φ, Ψ e ω

ω

Ligação pep6dica – limitações estruturais

Limitações estruturais impostas pelas ligações pep6dicas •  Impedimento estérico

Radical – limitações estruturais

Limitações estruturais impostas pelo radical •  Volume (impedimento estérico) •  Repulsões de carga

Estrutura de proteínas

Estrutura secundária

• Proteínas enoveladas têm segmentos de conformação regular

• O que não é regular não é estrutura secundária • O que não é regular é chamado de estrutura randômica

Alfa hélice

Tripla hélice de colágeno

Parâmetros conformacionais de elementos helicoidais

Conformação Phi Psi Omega Resíduos/volta Distância/resíduo Hélice alfa

Hélice 3-‐10 Hélice pi

Folha beta

Em vermelho as combinações dos ângulos φ e ψ permiTdas

Em rosa as combinações permiTdas se alguma relaxação é considerada

Estrutura secundária: diagrama de Ramachandran

Preferência conformacional dos aminoácidos

Predição de estrutura secundária

Freqüência normalizada de cada conformação.

Um valor maior que 1 indica a preferência por uma Tpo de estrutura secundária em parTcular

Williams, R.W. et al.(1987) Biochim. Biophys. Acta 916:200-‐204

Redes Neurais Artificiais

• Inspiradas na interação entre neurônios, formando uma rede de processamento com múltiplas unidades.

•  Uso do computador para resolver um problema sem saber as etapas ou a qual modelo aquele problema corresponde.

• Permite a modelagem de relações complexas entre dados de entrada e saída.

• Permite o uso de informações de sequência e estrutura, podendo classificar novas sequências após treinamento da rede.

Redes Neurais Artificiais

Conjunto de n indivíduos com m características

Sub-conjunto “A”

Sub-conjunto “B”

Redes Neurais Artificiais: Treinamento


ativo

inativo

Conjunto de n indivíduos com m características Conjunto de n

indivíduos com m características

• Criação de modelos que serão usados na classificação

ativo

inativo

ativo

inativo

Redes Neurais Artificiais Difusas (Fuzzy Neural Network)

• Identificação das regras prevalentes para o modelo

Fuzzy Layer


Sub-conjunto “A”

Sub-conjunto “B”

Redes Neurais Artificiais Difusas: Treinamento

Conjunto de n indivíduos com

m características

ativo

inativo


m características


m características

• Identificação das regras prevalentes para cada modelo (conjunto)

• Criação de modelos que serão usados na classificação

ativo

inativo

ativo

inativo

Fuzzy Layer

Sites Secondary structure prediction Sequence based methods, Very good: http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_seccons.html Learning algorithims : "   PHD/PHDpsi http://www.predictprotein.org/ PSIPRED http://bioinf.cs.ucl.ac.uk/psipred/ "   PROF (king) http://www.aber.ac.uk/~phiwww/prof/ " SSpro http://scratch.proteomics.ics.uci.edu/ "   Porter http://distill.ucd.ie/porter/ "   APSSP2 http://www.imtech.res.in/raghava/apssp2/ "   SAM-T06

http://www.soe.ucsc.edu/research/compbio/SAM_T06/T06-query.html/ "   YASPIN http://www.ibi.vu.nl/programs/yaspinwww/ " Jpred (v3) http://www.compbio.dundee.ac.uk/jpred/ Web services comparison and evaluation algorithms : "   EVA http://cubic.bioc.columbia.edu/eva/

Modelagem de estruturas 3D

Tipos de Predição Computacional •  Modelagem Comparativa: Usa como molde a estrutura 3D de outra proteína de referência (resolvida experimentalmente e com coordenadas cartesianas depositadas em banco de dados de estruturas).

•  Predição de Enovelamento de Proteínas (Threading): Tenta-se ajustar a estrutura da proteína de interesse aos tipos de enovelamentos de proteínas conheciadas (atualmente mais de 1000 tipos ja foram registrados) e depositados em bibliotecas de enovelamentos. •  Predição por Primeiros Princípios (ab initio):

Baseia-se nas propriedades físico-químicas conhecidas de cada aminoácido para a construção de funções de energia. Estas funções são minimizadas por algoritmos que realizam buscas no espaço de conformações que a proteína de interesse possa assumir.

Priscila VZC Goliatt, LNCC/MCT, Brasil

Limitações da Predição Computacional


Métodos Identidade sequência

Modelagem comparativa >25%

Threading 20-30%

ab initio 0-20%

Limitação quanto ao tamanho da sequência

Limitações da Predição Computacional O Paradoxo de Levinthal, 1968:

Uma proteína não pode experimentar todas as possíveis conformações entre o estado desenovelado e o estado nativo. Imagine uma proteína com 150 aa que experimentam apenas as 3 conformações previstas no plote de Ramachandran. Cada conformação se interconverteria na outra em picoseg (10-12s). Essa proteína, então, possuiria 3150 possíveis conformações (= 1068). Para experimentar todas essas conformações seriam necessários

1068 x 10-12 seg = 1056 seg = 1048 anos !!!

O enovelamento demora de 0.1 a 1000 seg in vivo e in vitro.

O enovelamento é, portanto, dirigido passando por rotas cinéticas e intermediários bem definidos escapando de conformações irrelevantes.

Modelagem Comparativa •  A metodologia se baseia no fato de que duas proteínas com função similar

possuem similaridade estrutural.

•  Por isso é possível usar estruturas resolvidas experimentalmente como moldes para construção de um modelo estrutural da seqüência da proteína de interesse.

A pressão evolutiva se dá sobre a função, que depende diretamente das

estruturas 3D das proteínas. A sequência de aminoácidos possui alguma flexibilidade para ser alterada,

desde que garanta a “mesma” função. A sequência de DNA muito mais flexibilidade, desde que garanta os

“mesmos” AA.


seqüência/seqüência seqüência/estrutura

pareado múltiplo

corpos rígidos restrições espaciais

estereoquímica conformacional energética

•similaridades•qualidade da referência•condições fisiológicas•presença de ligantes

•estruturas secundárias•motivos seqüenciais•sítio ativo/ligação•alinhamentos múltiplos

•tipo de pesquisa•família da proteína•informações estruturais•refinamento


Modelagem Comparativa: moldes 1) Busca por proteínas homólogas no PDB (via BLAST): para uma seqüência ser considerada como candidata a estrutura de referência, é necessário que haja no mínimo 25-30% de identidade entre as seqüências primárias. 2) Estudo estrutural detalhado das moléculas homólogas: busca por domínios, região catalítica, sítios alostéricos, predição de estrutura secundária, identificação de cisteínas e pontes dissulfetos. 3) Sobreposição (alinhamento) estrutural: buscar o menor desvio médio quadrático (RMSD) entre as seqüências indicadas como de referência. É importante que se faça uma visualização do alinhamento estrutural (e.g. VMD, SPDBViewer, Pymol).


Modelagem Comparativa


1. Identificação de Referências e Seleção de Molde(s):1.3. Alinhamento Estrutural:

Sobreposição de moldes

Modelagem Comparativa: alinhamento

Alinhamento Global entre as Sequências 1)  Alinhamento não tem objetivo de análise evolutiva,

simplesmente químico (identidade e similaridade). 2)  Gaps significam “ausência de molde” para aquela(s)

posição(ões) da sequência a ser modelada, e não são penalizados.

3)  O uso de múltiplos moldes para fazer o alinhamento pode melhorá-lo.




1) Toma-se a seqüência com o maior número de resíduos.

2) Alinha a segunda seqüência ao longo de toda a extensão da primeira, de forma a

coincidir o maior número de resíduos idênticos e similares.

3) Rresulta na abertura de tantos gaps quantos forem necessários.

4) Atenção para a presença de heteroátomos, águas e ligantes.

2. Alinhamento Global Entre as Seqüências Alvo e de Referência(s):

Modelagem ComparativaModelagem Comparativa

>P1;./sequences/1CHZstructureX:./sequences/1CHZ :1 :A:+152 : ::: 1.76:-1.00VRDAYIAKP-------------------------HNCVYECARNEYCNNLCTKNGAKSGYCQWSGKYGNGCWCIELPDNVPIRVPGKCH./wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww*

>P1;./sequences/A0F0C2sequence:tr|A0F0C2|A0F0C2_MESMA: : : : :::-1.00:-1.00MKILTVFMIFIANFLNMMQVFSVKDRFLIINGSYELCVYAENLGEDCENLCKQQKATDGFCRQ-----PHCFCTDMPDDYATRPDTVDPI-M--------------------------------------------------------------------------------------*

2.1. Alinhamento com Única Referência:

2. Alinhamento Global Entre as Seqüências Alvo e de Referência(s):2.1. Alinhamento com Múltiplas Referências:

>P1;./sequences/1CHZstructureX:./sequences/1CHZ: 1 :A:+152 : ::: 1.76:-1.00----------------------VRDAYIAKP---HNCVYECARNEYCNNLCTKNGAKSGYCQWSGKYGNGCWCIELPDNVPIRVPGKCH---./wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww*

>P1;./sequences/1ZVEstructureX:./sequences/1ZVE: 1 :A:+169 : ::: 1.70:-1.00--------------------NSVRDAYIAGP---HNCVYECARNEYCNDLCTKNGAKSGYCQWVGKYGNGCWCIELPDNVPIRVPGKCH---/.wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww*

>P1;./sequences/1SN4structureX:./sequences/1SN4: 1 :A:+186 : ::: 1.30:-1.00----------------------VRDAYIAKP---ENCVYHCAGNEGCNKLCTDNGAESGYCQWGGRYGNACWCIKLPDDVPIRVPGKCH---/.....wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww*

>P1;./sequences/A0F0C2sequence:tr|A0F0C2|A0F0C2_MESMA::::::::MKILTVFMIFIANFLNMMQVFSVKDRFLIINGSYELCVYAENLGEDCENLCKQQKATDGFCRQP-----HCFCTDMPDDYATR-PDTVDPIM*



Modelagem Comparativa: algorítimos Corpos Rígidos Constrói um modelo por partes baseando-se no fato de que proteínas homólogas possuem regiões estruturalmente conservadas como α-hélices e folhas β: Estratégia 1) Definição das regiões estruturalmente conservadas: através de predição de estruturas secundárias. 2) Alinhamento considerando-se as regiões conservadas do molde (ou a média das posições dos Cα dos moldes)


Modelagem Comparativa: algorítimos Corpos Rígidos 3) As regiões que não satisfazem as exigências são chamadas de regiões variáveis (geralmente, regiões de voltas que conectam as regiões conservadas). 4) A cadeia principal das regiões variáveis: pode ser obtida em bancos de dados de estruturas protéicas, que apresentam conjuntos de voltas determinados através do número de aminoácidos e do tipo de estruturas secundárias que conectam. 5) Inserção das cadeias laterais dos aminoácidos, através de busca em bibliotecas de rotâmeros.


Modelagem Comparativa: algorítimos Restrições espaciais Extrai-se do molde suas restrições espaciais (distâncias e ângulos) e transfere-as para o modelo. Estratégia 1) Alinhamento entre a seqüência em estudo e a de referência. 2) O tamanho das ligações bem como seus ângulos preferenciais são obtidos de campos de força. 3) Dados para os átomos não ligados são obtidos por análise estatística de um grupo representativo de estruturas conhecidas (limitação do número de possíveis conformações que o modelo pode assumir).


Modelagem Comparativa: algorítimos Restrições espaciais Principais características deste método: •  Obtenção empírica das restrições espaciais (funções densidade de

probabilidade): A partir de banco de dados contendo informações sobre alinhamentos entre estruturas protéicas de alta resolução.

•  Minimização das violações das restrições espaciais: As restrições espaciais e os termos de energia são combinados em uma função objetivo, sendo submetida a métodos de otimização (e.g. gradiente conjugado).


New protein structures in PDBjan 2013

1970 1980 1990 2000 2010 20200

20000

40000

60000

80000

100000

Year

New

pro

tein

st

ruct

ures

Scop new folds in PDBjan 2013

1970 1980 1990 2000 2010 20200

500

1000

1500

Year

New

Fol

ds

Bancos de dados de estruturas 3D: Sites Modelos 3D PDB: http://www.rcsb.org ePDB: http://www.ebi.ac.uk/pdbe NCBI: http://www.ncbi.nlm.nih.gov/structure Tipos de dobras CATH: http://www.biochem.ucl.ac.uk/bsm/cath SCOP: http://scop.mrc-lmb.cam.ac.uk/scop Outros ineressantes PALI: http://pali.mbu.iisc.ernet.in/

Modelagem Comparativa: Sites Corpos Rígidos Swiss PDB viewer http://spdbv.vital-it.ch/ Software (sem serviço web) Restrições espaciais (Estes serviços web usam o software modeller em pipelines automatizados) MHOLline: http://www.mholline.lncc.br/ Phyre2: http://www.sbg.bio.ic.ac.uk/~phyre2 SwissModel: http://swissmodel.expasy.org/

Modelagem Comparativa: validação Alinhamento com Molde (RMSD)

Modelagem Comparativa: validação Alinhamento com Molde (RMSD)

Wikipedia: Structural alignment of thioredoxins from humans and the fruit fly Drosophila melanogaster. The proteins are shown as ribbons, with the human protein in red, and the fly protein in yellow. Generated in PyMol from PDB 3TRX and 1XWC. Based on Image:Alignment_of_thioredoxins.png by Tim Vickers.

Modelagem Comparativa: validação Qualidade Estereoquímica e.g. PROCHECK



No. of residues %-tage ------ ------ Most favoured regions [A,B,L] 318 90.9%

Additional allowed regions [a,b,l,p] 30 8.6% Generously allowed regions [~a,~b,~l,~p] 0 0.0% Disallowed regions [XX] 2 0.6%*

---- ------ Non-glycine and non-proline residues 350 100.0% End-residues (excl. Gly and Pro) 12

Glycine residues 26 Proline residues 20

---- Total number of residues 408



Average Parameter Score Score

--------- ----- -----

Dihedral angles:-

Phi-psi distribution -0.17

Chi1-chi2 distribution 0.03

Chi1 only 0.03

Chi3 & chi4 0.41

Omega -0.67*

-0.19

=====

Main-chain covalent forces:-

Main-chain bond lengths 0.48

Main-chain bond angles 0.42

0.44

=====

OVERALL AVERAGE 0.05

=====

Modelagem Comparativa: validação Análise Global e.g. Verify3D Analise de loops e.g. ERRAT

Análise individual de cada resíduo:

a) Natureza da Estrutura Secundária

b) Grau de exposição ao solvente

c) Hidrofobicidade do resíduo

ATENÇÃO: A qualidade do modelo depende da qualidade das estruturas escolhidas como


Modelagem Comparativa: validação


Erros mais comuns nos modelos:

Modelagem ComparativaModelagem Comparativa

A)Posicionamento da cadeia lateral.

B)Distorções em regiões alinhadas.

C)Regiões sem molde.

D)Alinhamentos ineficientes.

E)Escolha errada do molde.

Modelagem Comparativa: refinamento


1) Minimização de Energia:

a) Gradiente Conjugado

b) Máximo Declive

c) Outros 2) Dinâmica Molecular:

a) Minimização de Energia

b) Cadeias Laterais

c) Águas

d) Enovelamento

ATENÇÃO: A aplicação do modelo gerado está diretamente relacionada com a sua qualidade.

Validação de Modelos: Sites 3D Alignment and RMSD calculation SuperPose http://wishart.biology.ualberta.ca/SuperPose/ PDBeFold http://www.ebi.ac.uk/msd-srv/ssm/ Matras http://strcomp.protein.osaka-u.ac.jp/matras/ Dalitle http://www.ebi.ac.uk/Tools/structure/dalilite/ Ramachandram plot PDBsum (PROCHECK de moldes) http://www.ebi.ac.uk/pdbsum/ PROCHECK de modeloshttp://www.ebi.ac.uk/thornton-srv/databases/pdbsum/Generate.html Global analisis VErify3D http://nihserver.mbi.ucla.edu/Verify_3D/ loops ERRAT http://nihserver.mbi.ucla.edu/ERRAT/

bioinformática básica - federal university of rio de janeiro · de proteínas conheciadas...

Documents