bioinformática básica - federal university of rio de janeiro · de proteínas conheciadas...

50
Bioinformática Básica Modelagem Comparativa Rafael Dias Mesquita [email protected] Laboratório de Bioinformática Departamento de Bioquímica Instituto de Química - UFRJ

Upload: others

Post on 30-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Bioinformática Básica Modelagem Comparativa

Rafael Dias Mesquita [email protected]

Laboratório de Bioinformática

Departamento de Bioquímica Instituto de Química - UFRJ

Page 2: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Aminoácidos  Apolares  

Page 3: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Aminoácidos  Polares  

Page 4: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Aminoácidos  Polares  Carregados  

Page 5: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Aminoácidos  Polares  Carregados  

Page 6: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Ligação  pep6dica  

-­‐  Rígida  e  plana  -­‐  Ligação  simples  com  caráter  de  dupla  ligação    

Page 7: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Ângulos  Φ,  Ψ  e  ω  

ω

Page 8: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Ligação  pep6dica  –  limitações  estruturais  

Limitações  estruturais  impostas  pelas  ligações  pep6dicas  •  Impedimento  estérico  

Page 9: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Radical  –  limitações  estruturais  

Limitações  estruturais  impostas  pelo  radical  •  Volume  (impedimento  estérico)  •  Repulsões  de  carga  

Page 10: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Estrutura  de  proteínas  

Page 11: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Estrutura  secundária  

• Proteínas  enoveladas  têm  segmentos  de  conformação  regular  

• O  que  não  é  regular  não  é  estrutura  secundária  • O  que  não  é  regular  é  chamado  de  estrutura  randômica  

Page 12: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Alfa  hélice  

Tripla  hélice  de  colágeno  

Parâmetros  conformacionais  de  elementos  helicoidais  

Conformação                                                  Phi                                  Psi                      Omega                Resíduos/volta                        Distância/resíduo  Hélice  alfa  

Hélice  3-­‐10  Hélice  pi  

Page 13: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Folha  beta  

Page 14: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Em  vermelho  as  combinações  dos  ângulos  φ  e  ψ  permiTdas  

Em  rosa  as  combinações  permiTdas  se  alguma  relaxação  é  considerada  

Estrutura  secundária:  diagrama  de  Ramachandran  

Page 15: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Preferência conformacional dos aminoácidos

Predição  de  estrutura  secundária  

Freqüência  normalizada  de  cada  conformação.  

Um  valor  maior  que  1  indica  a  preferência  por  uma  Tpo  de  estrutura  secundária  em  parTcular  

Williams,  R.W.  et  al.(1987)  Biochim.  Biophys.  Acta  916:200-­‐204  

Page 16: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Redes Neurais Artificiais

• Inspiradas na interação entre neurônios, formando uma rede de processamento com múltiplas unidades.

•  Uso do computador para resolver um problema sem saber as etapas ou a qual modelo aquele problema corresponde.

• Permite a modelagem de relações complexas entre dados de entrada e saída.

• Permite o uso de informações de sequência e estrutura, podendo classificar novas sequências após treinamento da rede.

Page 17: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Redes Neurais Artificiais

Conjunto de n indivíduos com m características

Sub-conjunto “A”

Sub-conjunto “B”

Page 18: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Redes Neurais Artificiais: Treinamento

Conjunto de n indivíduos com m características

ativo

inativo

Conjunto de n indivíduos com m características Conjunto de n

indivíduos com m características

• Criação de modelos que serão usados na classificação

ativo

inativo

ativo

inativo

Page 19: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Redes Neurais Artificiais Difusas (Fuzzy Neural Network)

• Identificação das regras prevalentes para o modelo

Fuzzy Layer

Conjunto de n indivíduos com m características

Sub-conjunto “A”

Sub-conjunto “B”

Page 20: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Redes Neurais Artificiais Difusas: Treinamento

Conjunto de n indivíduos com

m características

ativo

inativo

Conjunto de n indivíduos com

m características

Conjunto de n indivíduos com

m características

• Identificação das regras prevalentes para cada modelo (conjunto)

• Criação de modelos que serão usados na classificação

ativo

inativo

ativo

inativo

Fuzzy Layer

Page 21: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Sites Secondary structure prediction Sequence based methods, Very good: http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_seccons.html Learning algorithims : "   PHD/PHDpsi http://www.predictprotein.org/ PSIPRED http://bioinf.cs.ucl.ac.uk/psipred/ "   PROF (king) http://www.aber.ac.uk/~phiwww/prof/ " SSpro http://scratch.proteomics.ics.uci.edu/ "   Porter http://distill.ucd.ie/porter/ "   APSSP2 http://www.imtech.res.in/raghava/apssp2/ "   SAM-T06

http://www.soe.ucsc.edu/research/compbio/SAM_T06/T06-query.html/ "   YASPIN http://www.ibi.vu.nl/programs/yaspinwww/ " Jpred (v3) http://www.compbio.dundee.ac.uk/jpred/ Web services comparison and evaluation algorithms : "   EVA http://cubic.bioc.columbia.edu/eva/

Page 22: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem de estruturas 3D

Page 23: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Tipos de Predição Computacional •  Modelagem Comparativa: Usa como molde a estrutura 3D de outra proteína de referência (resolvida experimentalmente e com coordenadas cartesianas depositadas em banco de dados de estruturas).

•  Predição de Enovelamento de Proteínas (Threading): Tenta-se ajustar a estrutura da proteína de interesse aos tipos de enovelamentos de proteínas conheciadas (atualmente mais de 1000 tipos ja foram registrados) e depositados em bibliotecas de enovelamentos. •  Predição por Primeiros Princípios (ab initio):

Baseia-se nas propriedades físico-químicas conhecidas de cada aminoácido para a construção de funções de energia. Estas funções são minimizadas por algoritmos que realizam buscas no espaço de conformações que a proteína de interesse possa assumir.

Priscila VZC Goliatt, LNCC/MCT, Brasil

Page 24: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Limitações da Predição Computacional

Priscila VZC Goliatt, LNCC/MCT, Brasil

Métodos Identidade sequência

Modelagem comparativa >25%

Threading 20-30%

ab initio 0-20%

Limitação quanto ao tamanho da sequência

Page 25: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Limitações da Predição Computacional O Paradoxo de Levinthal, 1968:

Uma proteína não pode experimentar todas as possíveis conformações entre o estado desenovelado e o estado nativo. Imagine uma proteína com 150 aa que experimentam apenas as 3 conformações previstas no plote de Ramachandran. Cada conformação se interconverteria na outra em picoseg (10-12s). Essa proteína, então, possuiria 3150 possíveis conformações (= 1068). Para experimentar todas essas conformações seriam necessários

1068 x 10-12 seg = 1056 seg = 1048 anos !!!

O enovelamento demora de 0.1 a 1000 seg in vivo e in vitro.

O enovelamento é, portanto, dirigido passando por rotas cinéticas e intermediários bem definidos escapando de conformações irrelevantes.

Page 26: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa •  A metodologia se baseia no fato de que duas proteínas com função similar

possuem similaridade estrutural.

•  Por isso é possível usar estruturas resolvidas experimentalmente como moldes para construção de um modelo estrutural da seqüência da proteína de interesse.

A pressão evolutiva se dá sobre a função, que depende diretamente das

estruturas 3D das proteínas. A sequência de aminoácidos possui alguma flexibilidade para ser alterada,

desde que garanta a “mesma” função. A sequência de DNA muito mais flexibilidade, desde que garanta os

“mesmos” AA.

Priscila VZC Goliatt, LNCC/MCT, Brasil

Page 27: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

seqüência/seqüência seqüência/estrutura

pareado múltiplo

corpos rígidos restrições espaciais

estereoquímica conformacional energética

•similaridades•qualidade da referência•condições fisiológicas•presença de ligantes

•estruturas secundárias•motivos seqüenciais•sítio ativo/ligação•alinhamentos múltiplos

•tipo de pesquisa•família da proteína•informações estruturais•refinamento

Priscila VZC Goliatt, LNCC/MCT, Brasil

Page 28: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa: moldes 1) Busca por proteínas homólogas no PDB (via BLAST): para uma seqüência ser considerada como candidata a estrutura de referência, é necessário que haja no mínimo 25-30% de identidade entre as seqüências primárias. 2) Estudo estrutural detalhado das moléculas homólogas: busca por domínios, região catalítica, sítios alostéricos, predição de estrutura secundária, identificação de cisteínas e pontes dissulfetos. 3) Sobreposição (alinhamento) estrutural: buscar o menor desvio médio quadrático (RMSD) entre as seqüências indicadas como de referência. É importante que se faça uma visualização do alinhamento estrutural (e.g. VMD, SPDBViewer, Pymol).

Priscila VZC Goliatt, LNCC/MCT, Brasil

Page 29: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa

Priscila VZC Goliatt, LNCC/MCT, Brasil

1. Identificação de Referências e Seleção de Molde(s):1.3. Alinhamento Estrutural:

Sobreposição de moldes

Page 30: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa: alinhamento

Alinhamento Global entre as Sequências 1)  Alinhamento não tem objetivo de análise evolutiva,

simplesmente químico (identidade e similaridade). 2)  Gaps significam “ausência de molde” para aquela(s)

posição(ões) da sequência a ser modelada, e não são penalizados.

3)  O uso de múltiplos moldes para fazer o alinhamento pode melhorá-lo.

Priscila VZC Goliatt, LNCC/MCT, Brasil

Page 31: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa: alinhamento

Priscila VZC Goliatt, LNCC/MCT, Brasil

1) Toma-se a seqüência com o maior número de resíduos.

2) Alinha a segunda seqüência ao longo de toda a extensão da primeira, de forma a

coincidir o maior número de resíduos idênticos e similares.

3) Rresulta na abertura de tantos gaps quantos forem necessários.

4) Atenção para a presença de heteroátomos, águas e ligantes.

2. Alinhamento Global Entre as Seqüências Alvo e de Referência(s):

Modelagem ComparativaModelagem Comparativa

>P1;./sequences/1CHZstructureX:./sequences/1CHZ :1 :A:+152 : ::: 1.76:-1.00VRDAYIAKP-------------------------HNCVYECARNEYCNNLCTKNGAKSGYCQWSGKYGNGCWCIELPDNVPIRVPGKCH./wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww*

>P1;./sequences/A0F0C2sequence:tr|A0F0C2|A0F0C2_MESMA: : : : :::-1.00:-1.00MKILTVFMIFIANFLNMMQVFSVKDRFLIINGSYELCVYAENLGEDCENLCKQQKATDGFCRQ-----PHCFCTDMPDDYATRPDTVDPI-M--------------------------------------------------------------------------------------*

2.1. Alinhamento com Única Referência:

Page 32: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

2. Alinhamento Global Entre as Seqüências Alvo e de Referência(s):2.1. Alinhamento com Múltiplas Referências:

>P1;./sequences/1CHZstructureX:./sequences/1CHZ: 1 :A:+152 : ::: 1.76:-1.00----------------------VRDAYIAKP---HNCVYECARNEYCNNLCTKNGAKSGYCQWSGKYGNGCWCIELPDNVPIRVPGKCH---./wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww*

>P1;./sequences/1ZVEstructureX:./sequences/1ZVE: 1 :A:+169 : ::: 1.70:-1.00--------------------NSVRDAYIAGP---HNCVYECARNEYCNDLCTKNGAKSGYCQWVGKYGNGCWCIELPDNVPIRVPGKCH---/.wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww*

>P1;./sequences/1SN4structureX:./sequences/1SN4: 1 :A:+186 : ::: 1.30:-1.00----------------------VRDAYIAKP---ENCVYHCAGNEGCNKLCTDNGAESGYCQWGGRYGNACWCIKLPDDVPIRVPGKCH---/.....wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww*

>P1;./sequences/A0F0C2sequence:tr|A0F0C2|A0F0C2_MESMA::::::::MKILTVFMIFIANFLNMMQVFSVKDRFLIINGSYELCVYAENLGEDCENLCKQQKATDGFCRQP-----HCFCTDMPDDYATR-PDTVDPIM*

Modelagem Comparativa: alinhamento

Priscila VZC Goliatt, LNCC/MCT, Brasil

Page 33: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa: algorítimos Corpos Rígidos Constrói um modelo por partes baseando-se no fato de que proteínas homólogas possuem regiões estruturalmente conservadas como α-hélices e folhas β: Estratégia 1) Definição das regiões estruturalmente conservadas: através de predição de estruturas secundárias. 2) Alinhamento considerando-se as regiões conservadas do molde (ou a média das posições dos Cα dos moldes)

Priscila VZC Goliatt, LNCC/MCT, Brasil

Page 34: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa: algorítimos Corpos Rígidos 3) As regiões que não satisfazem as exigências são chamadas de regiões variáveis (geralmente, regiões de voltas que conectam as regiões conservadas). 4) A cadeia principal das regiões variáveis: pode ser obtida em bancos de dados de estruturas protéicas, que apresentam conjuntos de voltas determinados através do número de aminoácidos e do tipo de estruturas secundárias que conectam. 5) Inserção das cadeias laterais dos aminoácidos, através de busca em bibliotecas de rotâmeros.

Priscila VZC Goliatt, LNCC/MCT, Brasil

Page 35: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa: algorítimos Restrições espaciais Extrai-se do molde suas restrições espaciais (distâncias e ângulos) e transfere-as para o modelo. Estratégia 1) Alinhamento entre a seqüência em estudo e a de referência. 2) O tamanho das ligações bem como seus ângulos preferenciais são obtidos de campos de força. 3) Dados para os átomos não ligados são obtidos por análise estatística de um grupo representativo de estruturas conhecidas (limitação do número de possíveis conformações que o modelo pode assumir).

Priscila VZC Goliatt, LNCC/MCT, Brasil

Page 36: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa: algorítimos Restrições espaciais Principais características deste método: •  Obtenção empírica das restrições espaciais (funções densidade de

probabilidade): A partir de banco de dados contendo informações sobre alinhamentos entre estruturas protéicas de alta resolução.

•  Minimização das violações das restrições espaciais: As restrições espaciais e os termos de energia são combinados em uma função objetivo, sendo submetida a métodos de otimização (e.g. gradiente conjugado).

Priscila VZC Goliatt, LNCC/MCT, Brasil

Page 37: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

New protein structures in PDBjan 2013

1970 1980 1990 2000 2010 20200

20000

40000

60000

80000

100000

Year

New

pro

tein

st

ruct

ures

Page 38: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Scop new folds in PDBjan 2013

1970 1980 1990 2000 2010 20200

500

1000

1500

Year

New

Fol

ds

Page 39: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Bancos de dados de estruturas 3D: Sites Modelos 3D PDB: http://www.rcsb.org ePDB: http://www.ebi.ac.uk/pdbe NCBI: http://www.ncbi.nlm.nih.gov/structure Tipos de dobras CATH: http://www.biochem.ucl.ac.uk/bsm/cath SCOP: http://scop.mrc-lmb.cam.ac.uk/scop Outros ineressantes PALI: http://pali.mbu.iisc.ernet.in/

Page 40: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa: Sites Corpos Rígidos Swiss PDB viewer http://spdbv.vital-it.ch/ Software (sem serviço web) Restrições espaciais (Estes serviços web usam o software modeller em pipelines automatizados) MHOLline: http://www.mholline.lncc.br/ Phyre2: http://www.sbg.bio.ic.ac.uk/~phyre2 SwissModel: http://swissmodel.expasy.org/

Page 41: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa: validação Alinhamento com Molde (RMSD)

Page 42: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa: validação Alinhamento com Molde (RMSD)

Wikipedia: Structural alignment of thioredoxins from humans and the fruit fly Drosophila melanogaster. The proteins are shown as ribbons, with the human protein in red, and the fly protein in yellow. Generated in PyMol from PDB 3TRX and 1XWC. Based on Image:Alignment_of_thioredoxins.png by Tim Vickers.

Page 43: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa: validação Qualidade Estereoquímica e.g. PROCHECK

Page 44: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa: validação Qualidade Estereoquímica e.g. PROCHECK

Priscila VZC Goliatt, LNCC/MCT, Brasil

No. of residues %-tage ------ ------ Most favoured regions [A,B,L] 318 90.9%

Additional allowed regions [a,b,l,p] 30 8.6% Generously allowed regions [~a,~b,~l,~p] 0 0.0% Disallowed regions [XX] 2 0.6%*

---- ------ Non-glycine and non-proline residues 350 100.0% End-residues (excl. Gly and Pro) 12

Glycine residues 26 Proline residues 20

---- Total number of residues 408

Page 45: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa: validação Qualidade Estereoquímica e.g. PROCHECK

Priscila VZC Goliatt, LNCC/MCT, Brasil

Average Parameter Score Score

--------- ----- -----

Dihedral angles:-

Phi-psi distribution -0.17

Chi1-chi2 distribution 0.03

Chi1 only 0.03

Chi3 & chi4 0.41

Omega -0.67*

-0.19

=====

Main-chain covalent forces:-

Main-chain bond lengths 0.48

Main-chain bond angles 0.42

0.44

=====

OVERALL AVERAGE 0.05

=====

Page 46: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa: validação Análise Global e.g. Verify3D Analise de loops e.g. ERRAT

Análise individual de cada resíduo:

a) Natureza da Estrutura Secundária

b) Grau de exposição ao solvente

c) Hidrofobicidade do resíduo

ATENÇÃO: A qualidade do modelo depende da qualidade das estruturas escolhidas como

Priscila VZC Goliatt, LNCC/MCT, Brasil

Page 47: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa: validação

Priscila VZC Goliatt, LNCC/MCT, Brasil

Erros mais comuns nos modelos:

Modelagem ComparativaModelagem Comparativa

A)Posicionamento da cadeia lateral.

B)Distorções em regiões alinhadas.

C)Regiões sem molde.

D)Alinhamentos ineficientes.

E)Escolha errada do molde.

Page 48: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Modelagem Comparativa: refinamento

Priscila VZC Goliatt, LNCC/MCT, Brasil

1) Minimização de Energia:

a) Gradiente Conjugado

b) Máximo Declive

c) Outros 2) Dinâmica Molecular:

a) Minimização de Energia

b) Cadeias Laterais

c) Águas

d) Enovelamento

ATENÇÃO: A aplicação do modelo gerado está diretamente relacionada com a sua qualidade.

Page 49: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Priscila VZC Goliatt, LNCC/MCT, Brasil

Page 50: Bioinformática Básica - Federal University of Rio de Janeiro · de proteínas conheciadas (atualmente mais de 1000 tipos jáforam registrados) e depositados em bibliotecas de enovelamentos

Validação de Modelos: Sites 3D Alignment and RMSD calculation SuperPose http://wishart.biology.ualberta.ca/SuperPose/ PDBeFold http://www.ebi.ac.uk/msd-srv/ssm/ Matras http://strcomp.protein.osaka-u.ac.jp/matras/ Dalitle http://www.ebi.ac.uk/Tools/structure/dalilite/ Ramachandram plot PDBsum (PROCHECK de moldes) http://www.ebi.ac.uk/pdbsum/ PROCHECK de modeloshttp://www.ebi.ac.uk/thornton-srv/databases/pdbsum/Generate.html Global analisis VErify3D http://nihserver.mbi.ucla.edu/Verify_3D/ loops ERRAT http://nihserver.mbi.ucla.edu/ERRAT/