caio césar neves de oliveira ccno mário barbosa de araújo júnior mbaj

30
PROTEIN NETWORK BASED PREDICTION OF DOMAIN-DOMAIN AND DOMAIN-PEPTIDE INTERACTIONS Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Upload: internet

Post on 22-Apr-2015

115 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

PROTEIN NETWORK BASED PREDICTION OF DOMAIN-

DOMAIN AND DOMAIN-PEPTIDE INTERACTIONS

Caio César Neves de Oliveira ccno

Mário Barbosa de Araújo Júnior mbaj

Page 2: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Motivação

Informações podem ser extraidas das redes de interação proteína-proteína

Falta detalhes dessas interações Esse conhecimento poderá ser uma

arma para o estudo de doenças e de produção de remédios

Page 3: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Interações da proteína

Interações domínio-domínioGerais

○ InteragemEspecíficas

○ Interagem ou não○ Dependem do contexto

Expressão dependende do cicloLocalização da célulaCaracterísticas específicas da sequência de

aminoácidos

Page 4: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Métodos para predizer interações

Métodos representativosAssociationMaximum Likelihood EstimationDomain Pair Exclusion AnalysisParsimonious ExplanationIntegrative approach

Page 5: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Association method

Detecta pares de domínios super-representados

Atribui Score de frequência para cada par Se Pi é observado freqüentemente no domínio i

na rede de interação e Pij é observado freqüentemente no par (i, j), temos o score

Score é 2 para completa interação (fusão), caso contrário é 0

Page 6: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Association method

Page 7: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Association method

Outra forma de calcular score É mais precisa por considerar mais fatores

N – número de arestas na rede de interação proteína-proteína#exk – número de experimentos distintos na rede que detecta interações da proteína k #ppairsk – número de contatos do potencial domínio na interação da proteína k#ppairskij - número de contatos do potencial domínio entre o par (i, j) na interação da proteína kPi – frequência do domínio i na rede de proteínas

Page 8: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Maximum Likelihood Estimaton (MLE) Para cada par de domínio, ele gera a

probabilidade de interação entre o domínio, Maximiza a probabilidade da rede de interação Permite levar em conta falso positivos e falso

negativo da informação Interações proteína-proteína e domínio-domínio

são tratadas como variáves aleatórias

Page 9: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Maximum Likelihood Estimaton (MLE)

Variáveis aleatóriasPAB

○ 1 – se A e B interagem○ 0 – caso contrário

Dij

○ 1 – se o domínio i e j interagem○ 0 – caso contrário

Assumindo que duas proteínas interagem sse pelo menos um dos potenciais pares de domínios interagem de fato

Page 10: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Maximum Likelihood Estimaton (MLE) Probabilidade de interação entre duas

proteínas A e B

λij = Pr(Dij = 1) – denota a probabilidade do domínio i interagir com jDij ϵ PAB - Conjunto de potencial domínio que entram em contato com o par de proteínas (A, B)

Page 11: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Maximum Likelihood Estimaton (MLE)

OAB descreve a observação do experimento de interação1 para interação observada0 para caso contrário

Denotandofp – false positivefn – false negative

Page 12: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Maximum Likelihood Estimaton (MLE) O objetivo do método MLE é estimar o

parâmetro λij para maximizar a função de probabilidade L, dada por

Page 13: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Maximum Likelihood Estimaton (MLE)

Num estudo feito por Deng e seus colegas eles estimaram que se fp = 2.5E-4 e fn = 0.80 os valores λij seria computado com a expectativa máxima, isso maximiza L. Em cada interação t, valores de λij^(t-1) é usado para computar Pr(OAB =1 | λ^(t-1))

Page 14: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Maximum Likelihood Estimaton (MLE)

E(Dij^(AB)) – probabilidade do domínio (i, j) executar a interação emtre (A, B)Nij – número de par de proteínas na rede que possui (i, j) como potencial par de domínios

Expectation Step:

Maximization Step:

Page 15: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Maximum Likelihood Estimaton (MLE)

Uma limitação do MLE é a dificudade em detectar interações de domínios específicosO algoritmo considera que existem muitos fn

Page 16: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Domain Pair Exclusion Analysis (DPEA) Este método utiliza MLE como subrotina Executa o MLE várias vezes Corrige o problema de domínios específicos de

MLE Bloqueia uma interação domínio-domínio por

vez e analiza o grau de redução da esperança E proteína-proteína

Supera o desempenho de Association e MLE

Page 17: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Domain Pair Exclusion Analysis (DPEA)

Page 18: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Parsimonious Explanation (PE)

Um problema de otimização de programação linear

Page 19: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Parsimonious Explanation (PE)

PW-ScoreFiltra predições (otimiza)São baseados nas seguites observações

○ Interações com muitas testemunhas são mais fáceis de estarem corretas do que as que possuem poucas

○ Interações domínio-domínio tem sua pontuação relacionada à frequência de ocorrências

Pw-score penaliza interações promíscuas e incentiva interações com muitas testemunhas

Método com excelentes resultados

Page 20: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Integrative approach

Abordagem diferenteInformações da interação da proteínaComposição do domínio da proteína

Método baseado nesses principiosIntegrative Bayesian (IB)

Page 21: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Integrative Bayesian (IB)

Espectativa de interação de pares de domínios são computado separadamenteLeveduraVermeMosca de fruta (drosófila)Humano

Scores obtidos utilizando MLEPr(Dij =1) como score

Page 22: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Integrative Bayesian (IB)

Os resultados obtidos pelas quatro redes são considerados quatro pedações independentes

Utiliza a base de dados Gene Ontology (GO) como base do algoritmoDesvantagem, pois dados novos sem estudos

prévious não podem ser utilizados nesse algoritmo

Nij – número de par de proteínas na rede que possui (i, j) como potenciais contatos domínios

Page 23: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Validação dos Métodos Sugeridos Pares de domínios não específicos versus

Pares de dominós específicos Testar para cada par de proteínas que

interagem o par de domínios que tem maior score e comparar com o iPFAM

Medida de performance: PPV = valor de predição positiva

Page 24: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Resultados

Métodos aplicados a 1780 proteínas que interagiram

Association MLE DPEA PE

PPV +- 11% +-11% 43% 75%

Guimarães e colegas

Page 25: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Descobrindo Rede Fosforilização

Motifs sozinhos são insuficientes para identificar as enzimas responsáveis pela fosforilização de locais correspondentes na célula

NetworKIN algoritmo para predição de redes de fosforilização

Page 26: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

NetworKIN first stepExperimentalmente os locais de fosforilização são mapeados de acordo com a seqüência da proteína

Então é predito a família da proteína que provavelmente é responsável pela fosforilização naquele local

Rede Neural (PSSMs)

BLAST search

Page 27: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

NetworKIN second step

Informações baseadas no contexto

STRING database

Schemes Scores são calibrados através do KEGG database

Resultando em todos probabilísticos scores para todas as evidencias

Associação com outros organismos através Bayesian Scoring Scheme e Floyd-Warshall enzima – substrato

80% do poder de predição vem da informação do contexto

Page 28: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Conclusão

Poucas pesquisas na área Muitos dados não analisado No caso de interações domínio-peptídeo

existe poucos bancos de dados para se fazer pesquisas

Page 29: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Referências

[1] Protein network based prediction of domain-domain and domain-peptide interactions, Katia Guimaraes and Tereza Przytycka.

Systematic discovery of new recognition peptides mediating protein interaction networks, Neduva and Linding

Page 30: Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj

Duvidas?