bioinformática básica - federal university of rio de janeiro · de proteínas conheciadas...
TRANSCRIPT
Bioinformática Básica Modelagem Comparativa
Rafael Dias Mesquita [email protected]
Laboratório de Bioinformática
Departamento de Bioquímica Instituto de Química - UFRJ
Aminoácidos Apolares
Aminoácidos Polares
Aminoácidos Polares Carregados
Aminoácidos Polares Carregados
Ligação pep6dica
-‐ Rígida e plana -‐ Ligação simples com caráter de dupla ligação
Ângulos Φ, Ψ e ω
ω
Ligação pep6dica – limitações estruturais
Limitações estruturais impostas pelas ligações pep6dicas • Impedimento estérico
Radical – limitações estruturais
Limitações estruturais impostas pelo radical • Volume (impedimento estérico) • Repulsões de carga
Estrutura de proteínas
Estrutura secundária
• Proteínas enoveladas têm segmentos de conformação regular
• O que não é regular não é estrutura secundária • O que não é regular é chamado de estrutura randômica
Alfa hélice
Tripla hélice de colágeno
Parâmetros conformacionais de elementos helicoidais
Conformação Phi Psi Omega Resíduos/volta Distância/resíduo Hélice alfa
Hélice 3-‐10 Hélice pi
Folha beta
Em vermelho as combinações dos ângulos φ e ψ permiTdas
Em rosa as combinações permiTdas se alguma relaxação é considerada
Estrutura secundária: diagrama de Ramachandran
Preferência conformacional dos aminoácidos
Predição de estrutura secundária
Freqüência normalizada de cada conformação.
Um valor maior que 1 indica a preferência por uma Tpo de estrutura secundária em parTcular
Williams, R.W. et al.(1987) Biochim. Biophys. Acta 916:200-‐204
Redes Neurais Artificiais
• Inspiradas na interação entre neurônios, formando uma rede de processamento com múltiplas unidades.
• Uso do computador para resolver um problema sem saber as etapas ou a qual modelo aquele problema corresponde.
• Permite a modelagem de relações complexas entre dados de entrada e saída.
• Permite o uso de informações de sequência e estrutura, podendo classificar novas sequências após treinamento da rede.
Redes Neurais Artificiais
Conjunto de n indivíduos com m características
Sub-conjunto “A”
Sub-conjunto “B”
Redes Neurais Artificiais: Treinamento
Conjunto de n indivíduos com m características
ativo
inativo
Conjunto de n indivíduos com m características Conjunto de n
indivíduos com m características
• Criação de modelos que serão usados na classificação
ativo
inativo
ativo
inativo
Redes Neurais Artificiais Difusas (Fuzzy Neural Network)
• Identificação das regras prevalentes para o modelo
Fuzzy Layer
Conjunto de n indivíduos com m características
Sub-conjunto “A”
Sub-conjunto “B”
Redes Neurais Artificiais Difusas: Treinamento
Conjunto de n indivíduos com
m características
ativo
inativo
Conjunto de n indivíduos com
m características
Conjunto de n indivíduos com
m características
• Identificação das regras prevalentes para cada modelo (conjunto)
• Criação de modelos que serão usados na classificação
ativo
inativo
ativo
inativo
Fuzzy Layer
Sites Secondary structure prediction Sequence based methods, Very good: http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_seccons.html Learning algorithims : " PHD/PHDpsi http://www.predictprotein.org/ PSIPRED http://bioinf.cs.ucl.ac.uk/psipred/ " PROF (king) http://www.aber.ac.uk/~phiwww/prof/ " SSpro http://scratch.proteomics.ics.uci.edu/ " Porter http://distill.ucd.ie/porter/ " APSSP2 http://www.imtech.res.in/raghava/apssp2/ " SAM-T06
http://www.soe.ucsc.edu/research/compbio/SAM_T06/T06-query.html/ " YASPIN http://www.ibi.vu.nl/programs/yaspinwww/ " Jpred (v3) http://www.compbio.dundee.ac.uk/jpred/ Web services comparison and evaluation algorithms : " EVA http://cubic.bioc.columbia.edu/eva/
Modelagem de estruturas 3D
Tipos de Predição Computacional • Modelagem Comparativa: Usa como molde a estrutura 3D de outra proteína de referência (resolvida experimentalmente e com coordenadas cartesianas depositadas em banco de dados de estruturas).
• Predição de Enovelamento de Proteínas (Threading): Tenta-se ajustar a estrutura da proteína de interesse aos tipos de enovelamentos de proteínas conheciadas (atualmente mais de 1000 tipos ja foram registrados) e depositados em bibliotecas de enovelamentos. • Predição por Primeiros Princípios (ab initio):
Baseia-se nas propriedades físico-químicas conhecidas de cada aminoácido para a construção de funções de energia. Estas funções são minimizadas por algoritmos que realizam buscas no espaço de conformações que a proteína de interesse possa assumir.
Priscila VZC Goliatt, LNCC/MCT, Brasil
Limitações da Predição Computacional
Priscila VZC Goliatt, LNCC/MCT, Brasil
Métodos Identidade sequência
Modelagem comparativa >25%
Threading 20-30%
ab initio 0-20%
Limitação quanto ao tamanho da sequência
Limitações da Predição Computacional O Paradoxo de Levinthal, 1968:
Uma proteína não pode experimentar todas as possíveis conformações entre o estado desenovelado e o estado nativo. Imagine uma proteína com 150 aa que experimentam apenas as 3 conformações previstas no plote de Ramachandran. Cada conformação se interconverteria na outra em picoseg (10-12s). Essa proteína, então, possuiria 3150 possíveis conformações (= 1068). Para experimentar todas essas conformações seriam necessários
1068 x 10-12 seg = 1056 seg = 1048 anos !!!
O enovelamento demora de 0.1 a 1000 seg in vivo e in vitro.
O enovelamento é, portanto, dirigido passando por rotas cinéticas e intermediários bem definidos escapando de conformações irrelevantes.
Modelagem Comparativa • A metodologia se baseia no fato de que duas proteínas com função similar
possuem similaridade estrutural.
• Por isso é possível usar estruturas resolvidas experimentalmente como moldes para construção de um modelo estrutural da seqüência da proteína de interesse.
A pressão evolutiva se dá sobre a função, que depende diretamente das
estruturas 3D das proteínas. A sequência de aminoácidos possui alguma flexibilidade para ser alterada,
desde que garanta a “mesma” função. A sequência de DNA muito mais flexibilidade, desde que garanta os
“mesmos” AA.
Priscila VZC Goliatt, LNCC/MCT, Brasil
seqüência/seqüência seqüência/estrutura
pareado múltiplo
corpos rígidos restrições espaciais
estereoquímica conformacional energética
•similaridades•qualidade da referência•condições fisiológicas•presença de ligantes
•estruturas secundárias•motivos seqüenciais•sítio ativo/ligação•alinhamentos múltiplos
•tipo de pesquisa•família da proteína•informações estruturais•refinamento
Priscila VZC Goliatt, LNCC/MCT, Brasil
Modelagem Comparativa: moldes 1) Busca por proteínas homólogas no PDB (via BLAST): para uma seqüência ser considerada como candidata a estrutura de referência, é necessário que haja no mínimo 25-30% de identidade entre as seqüências primárias. 2) Estudo estrutural detalhado das moléculas homólogas: busca por domínios, região catalítica, sítios alostéricos, predição de estrutura secundária, identificação de cisteínas e pontes dissulfetos. 3) Sobreposição (alinhamento) estrutural: buscar o menor desvio médio quadrático (RMSD) entre as seqüências indicadas como de referência. É importante que se faça uma visualização do alinhamento estrutural (e.g. VMD, SPDBViewer, Pymol).
Priscila VZC Goliatt, LNCC/MCT, Brasil
Modelagem Comparativa
Priscila VZC Goliatt, LNCC/MCT, Brasil
1. Identificação de Referências e Seleção de Molde(s):1.3. Alinhamento Estrutural:
Sobreposição de moldes
Modelagem Comparativa: alinhamento
Alinhamento Global entre as Sequências 1) Alinhamento não tem objetivo de análise evolutiva,
simplesmente químico (identidade e similaridade). 2) Gaps significam “ausência de molde” para aquela(s)
posição(ões) da sequência a ser modelada, e não são penalizados.
3) O uso de múltiplos moldes para fazer o alinhamento pode melhorá-lo.
Priscila VZC Goliatt, LNCC/MCT, Brasil
Modelagem Comparativa: alinhamento
Priscila VZC Goliatt, LNCC/MCT, Brasil
1) Toma-se a seqüência com o maior número de resíduos.
2) Alinha a segunda seqüência ao longo de toda a extensão da primeira, de forma a
coincidir o maior número de resíduos idênticos e similares.
3) Rresulta na abertura de tantos gaps quantos forem necessários.
4) Atenção para a presença de heteroátomos, águas e ligantes.
2. Alinhamento Global Entre as Seqüências Alvo e de Referência(s):
Modelagem ComparativaModelagem Comparativa
>P1;./sequences/1CHZstructureX:./sequences/1CHZ :1 :A:+152 : ::: 1.76:-1.00VRDAYIAKP-------------------------HNCVYECARNEYCNNLCTKNGAKSGYCQWSGKYGNGCWCIELPDNVPIRVPGKCH./wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww*
>P1;./sequences/A0F0C2sequence:tr|A0F0C2|A0F0C2_MESMA: : : : :::-1.00:-1.00MKILTVFMIFIANFLNMMQVFSVKDRFLIINGSYELCVYAENLGEDCENLCKQQKATDGFCRQ-----PHCFCTDMPDDYATRPDTVDPI-M--------------------------------------------------------------------------------------*
2.1. Alinhamento com Única Referência:
2. Alinhamento Global Entre as Seqüências Alvo e de Referência(s):2.1. Alinhamento com Múltiplas Referências:
>P1;./sequences/1CHZstructureX:./sequences/1CHZ: 1 :A:+152 : ::: 1.76:-1.00----------------------VRDAYIAKP---HNCVYECARNEYCNNLCTKNGAKSGYCQWSGKYGNGCWCIELPDNVPIRVPGKCH---./wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww*
>P1;./sequences/1ZVEstructureX:./sequences/1ZVE: 1 :A:+169 : ::: 1.70:-1.00--------------------NSVRDAYIAGP---HNCVYECARNEYCNDLCTKNGAKSGYCQWVGKYGNGCWCIELPDNVPIRVPGKCH---/.wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww*
>P1;./sequences/1SN4structureX:./sequences/1SN4: 1 :A:+186 : ::: 1.30:-1.00----------------------VRDAYIAKP---ENCVYHCAGNEGCNKLCTDNGAESGYCQWGGRYGNACWCIKLPDDVPIRVPGKCH---/.....wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww*
>P1;./sequences/A0F0C2sequence:tr|A0F0C2|A0F0C2_MESMA::::::::MKILTVFMIFIANFLNMMQVFSVKDRFLIINGSYELCVYAENLGEDCENLCKQQKATDGFCRQP-----HCFCTDMPDDYATR-PDTVDPIM*
Modelagem Comparativa: alinhamento
Priscila VZC Goliatt, LNCC/MCT, Brasil
Modelagem Comparativa: algorítimos Corpos Rígidos Constrói um modelo por partes baseando-se no fato de que proteínas homólogas possuem regiões estruturalmente conservadas como α-hélices e folhas β: Estratégia 1) Definição das regiões estruturalmente conservadas: através de predição de estruturas secundárias. 2) Alinhamento considerando-se as regiões conservadas do molde (ou a média das posições dos Cα dos moldes)
Priscila VZC Goliatt, LNCC/MCT, Brasil
Modelagem Comparativa: algorítimos Corpos Rígidos 3) As regiões que não satisfazem as exigências são chamadas de regiões variáveis (geralmente, regiões de voltas que conectam as regiões conservadas). 4) A cadeia principal das regiões variáveis: pode ser obtida em bancos de dados de estruturas protéicas, que apresentam conjuntos de voltas determinados através do número de aminoácidos e do tipo de estruturas secundárias que conectam. 5) Inserção das cadeias laterais dos aminoácidos, através de busca em bibliotecas de rotâmeros.
Priscila VZC Goliatt, LNCC/MCT, Brasil
Modelagem Comparativa: algorítimos Restrições espaciais Extrai-se do molde suas restrições espaciais (distâncias e ângulos) e transfere-as para o modelo. Estratégia 1) Alinhamento entre a seqüência em estudo e a de referência. 2) O tamanho das ligações bem como seus ângulos preferenciais são obtidos de campos de força. 3) Dados para os átomos não ligados são obtidos por análise estatística de um grupo representativo de estruturas conhecidas (limitação do número de possíveis conformações que o modelo pode assumir).
Priscila VZC Goliatt, LNCC/MCT, Brasil
Modelagem Comparativa: algorítimos Restrições espaciais Principais características deste método: • Obtenção empírica das restrições espaciais (funções densidade de
probabilidade): A partir de banco de dados contendo informações sobre alinhamentos entre estruturas protéicas de alta resolução.
• Minimização das violações das restrições espaciais: As restrições espaciais e os termos de energia são combinados em uma função objetivo, sendo submetida a métodos de otimização (e.g. gradiente conjugado).
Priscila VZC Goliatt, LNCC/MCT, Brasil
New protein structures in PDBjan 2013
1970 1980 1990 2000 2010 20200
20000
40000
60000
80000
100000
Year
New
pro
tein
st
ruct
ures
Scop new folds in PDBjan 2013
1970 1980 1990 2000 2010 20200
500
1000
1500
Year
New
Fol
ds
Bancos de dados de estruturas 3D: Sites Modelos 3D PDB: http://www.rcsb.org ePDB: http://www.ebi.ac.uk/pdbe NCBI: http://www.ncbi.nlm.nih.gov/structure Tipos de dobras CATH: http://www.biochem.ucl.ac.uk/bsm/cath SCOP: http://scop.mrc-lmb.cam.ac.uk/scop Outros ineressantes PALI: http://pali.mbu.iisc.ernet.in/
Modelagem Comparativa: Sites Corpos Rígidos Swiss PDB viewer http://spdbv.vital-it.ch/ Software (sem serviço web) Restrições espaciais (Estes serviços web usam o software modeller em pipelines automatizados) MHOLline: http://www.mholline.lncc.br/ Phyre2: http://www.sbg.bio.ic.ac.uk/~phyre2 SwissModel: http://swissmodel.expasy.org/
Modelagem Comparativa: validação Alinhamento com Molde (RMSD)
Modelagem Comparativa: validação Alinhamento com Molde (RMSD)
Wikipedia: Structural alignment of thioredoxins from humans and the fruit fly Drosophila melanogaster. The proteins are shown as ribbons, with the human protein in red, and the fly protein in yellow. Generated in PyMol from PDB 3TRX and 1XWC. Based on Image:Alignment_of_thioredoxins.png by Tim Vickers.
Modelagem Comparativa: validação Qualidade Estereoquímica e.g. PROCHECK
Modelagem Comparativa: validação Qualidade Estereoquímica e.g. PROCHECK
Priscila VZC Goliatt, LNCC/MCT, Brasil
No. of residues %-tage ------ ------ Most favoured regions [A,B,L] 318 90.9%
Additional allowed regions [a,b,l,p] 30 8.6% Generously allowed regions [~a,~b,~l,~p] 0 0.0% Disallowed regions [XX] 2 0.6%*
---- ------ Non-glycine and non-proline residues 350 100.0% End-residues (excl. Gly and Pro) 12
Glycine residues 26 Proline residues 20
---- Total number of residues 408
Modelagem Comparativa: validação Qualidade Estereoquímica e.g. PROCHECK
Priscila VZC Goliatt, LNCC/MCT, Brasil
Average Parameter Score Score
--------- ----- -----
Dihedral angles:-
Phi-psi distribution -0.17
Chi1-chi2 distribution 0.03
Chi1 only 0.03
Chi3 & chi4 0.41
Omega -0.67*
-0.19
=====
Main-chain covalent forces:-
Main-chain bond lengths 0.48
Main-chain bond angles 0.42
0.44
=====
OVERALL AVERAGE 0.05
=====
Modelagem Comparativa: validação Análise Global e.g. Verify3D Analise de loops e.g. ERRAT
Análise individual de cada resíduo:
a) Natureza da Estrutura Secundária
b) Grau de exposição ao solvente
c) Hidrofobicidade do resíduo
ATENÇÃO: A qualidade do modelo depende da qualidade das estruturas escolhidas como
Priscila VZC Goliatt, LNCC/MCT, Brasil
Modelagem Comparativa: validação
Priscila VZC Goliatt, LNCC/MCT, Brasil
Erros mais comuns nos modelos:
Modelagem ComparativaModelagem Comparativa
A)Posicionamento da cadeia lateral.
B)Distorções em regiões alinhadas.
C)Regiões sem molde.
D)Alinhamentos ineficientes.
E)Escolha errada do molde.
Modelagem Comparativa: refinamento
Priscila VZC Goliatt, LNCC/MCT, Brasil
1) Minimização de Energia:
a) Gradiente Conjugado
b) Máximo Declive
c) Outros 2) Dinâmica Molecular:
a) Minimização de Energia
b) Cadeias Laterais
c) Águas
d) Enovelamento
ATENÇÃO: A aplicação do modelo gerado está diretamente relacionada com a sua qualidade.
Priscila VZC Goliatt, LNCC/MCT, Brasil
Validação de Modelos: Sites 3D Alignment and RMSD calculation SuperPose http://wishart.biology.ualberta.ca/SuperPose/ PDBeFold http://www.ebi.ac.uk/msd-srv/ssm/ Matras http://strcomp.protein.osaka-u.ac.jp/matras/ Dalitle http://www.ebi.ac.uk/Tools/structure/dalilite/ Ramachandram plot PDBsum (PROCHECK de moldes) http://www.ebi.ac.uk/pdbsum/ PROCHECK de modeloshttp://www.ebi.ac.uk/thornton-srv/databases/pdbsum/Generate.html Global analisis VErify3D http://nihserver.mbi.ucla.edu/Verify_3D/ loops ERRAT http://nihserver.mbi.ucla.edu/ERRAT/