aprimoramento de uma ferramenta de predição de ncrnas … · 2016-02-18 · aprimoramento de uma...
TRANSCRIPT
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Aprimoramento de uma ferramenta de predicaode ncRNAs baseada em estruturas secundarias
Trabalho de Formatura Supervisionado
Felipe Lamberti AmadoOrientador: Prof. Dr. Alan Mitchell Durham
Instituto de Matematica e Estatıstica - USP
Sao Paulo, 11 de novembro de 2013
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Introducao
Biologia basica - Transcricao e Traducao
Dogma central da Biologia
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Introducao
Biologia basica - Transcricao e Traducao
Dogma central - nao previa ncRNAs
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Introducao
Tipos de RNA
Tipos de RNA
http://www.nature.com/horizon/rna/background/pdf/micrornas.pdf
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Introducao
Importancia dos MicroRNAs
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Introducao
Representando sequencias como grafos
Como funciona o preditor?
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Introducao
O preditor
Arestas de i a j onde i < j - 1 ocultadas por motivos esteticos.
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Objetivos
Objetivos deste trabalho
I Otimizar os parametros utilizados pelo preditor
I Fazer uma comparacao justa com algum outro preditor demicroRNAs
I Implementar uma extensao do preditor para realizar otreinamento automatico
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Metodos e resultados
Otimizacao dos parametros
Parametros a serem otimizados
I Limiar deprobabilidade
I Tamanhomınimo dehelice
0,02
0,254
0,056
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Metodos e resultados
Otimizacao dos parametros
Curvas ROC
●
● ● ●●
●
●
● ● ●●
●
●
● ●●●
●
● ● ●●●
●
●●●●
●
●●
●●●●●
●●●●●●
●●●●●● ●
●●●●●
3 4 5
6 7 8
9 10 11
0.00
0.25
0.50
0.75
1.00
0.00
0.25
0.50
0.75
1.00
0.00
0.25
0.50
0.75
1.00
0.6 0.7 0.8 0.9 1.00.6 0.7 0.8 0.9 1.00.6 0.7 0.8 0.9 1.0Specificity
Sen
sitiv
ity
0.00
0.25
0.50
0.75
prob_threshold
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Metodos e resultados
Otimizacao dos parametros
Arvore de decisao
Sequencia Padrao 1 Padrao 2 ... Padrao N microRNA real?
seqA 1 0 ... 0 1seqB 1 1 ... 1 1seqC 0 1 ... 0 0
: : : : : :
≡ Padrao i v Padrao j
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Metodos e resultados
Otimizacao dos parametros
Arvore de decisao
Sequencia Padrao 1 Padrao 2 ... Padrao N microRNA real?
seqA 1 0 ... 0 1seqB 1 1 ... 1 1seqC 0 1 ... 0 0
: : : : : :
≡ Padrao i v Padrao j
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Metodos e resultados
Otimizacao dos parametros
Padroes otimizados
Padrao I V Padrao II
Limiar de probabilidade: 0 Limiar de probabilidade: 0,57Tamanho mınimo de helice: 7 Tamanho mınimo de helice: 5
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Metodos e resultados
Otimizacao dos parametros
Antes x Depois da otimizacao
Medida Antes Depois
Especificidade 87,538% 84,154%Sensibilidade 71,692% 82,692%
Acuracia 79,615% 83,423%
Especificidade = TN/(TN + FN)Sensibilidade = TP/(TP + FP)Acuracia = (TP + TN)/(TP + FP + TN + FN)
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Metodos e resultados
Comparacao entre os preditores
Comparacao entre os preditores
Medida MiPred Nosso preditor
Especificidade 88,076% 84,154%Sensibilidade 80,615% 82,692%
Acuracia 84,346% 83,423%
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Metodos e resultados
Treinamento automatico do preditor
Treinamento automatico do preditor
I Feito encontrando subestruturas tıpicas em um conjunto demicroRNAs
I Que foram encontradas utilizando um algoritmo de subgrafomaximal entre dois grafos
I Que, por sua vez, foi implementado utilizando uma reducaoao problema do clique maximal
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Metodos e resultados
Treinamento automatico do preditor
Reducao ao problema do clique maximal
I Entrada: Grafos G1 =< V1,A1 > G2 =< V2,A2 >
I Grafo produto de arestas He = G1 ◦ G2 possui como vertices oconjunto VH = E1 × E2
I Ha uma aresta do no v = (v1, v2) ao w = (w1,w2) em He ssev1 6= w1 e v2 6= w2 e (o no que conecta as arestas v1 e w1 ecompatıvel com o no que conecta v2 e w2 OU v1 e w1 nao saoarestas adjacentes em G1 e v2 e w2 tambem nao saoadjacentes em G2)
I Saıda: Clique maximal de He que corresponde a um subgrafocomum
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Metodos e resultados
Treinamento automatico do preditor
Reducao do problema ao problema do clique maximal
Retirado do artigo de Koch de 2001.
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Metodos e resultados
Treinamento automatico do preditor
Aplicando iterativamente
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Metodos e resultados
Treinamento automatico do preditor
Famılia A x Famılia B
(a) (b)
I O treinamento foi realizado em 21sequencias da famılia A,encontrando 4 subestruturasrecorrentes
I 53,7% das sequencias da famılia Aforam identificadas com sucesso
I Apenas 2,7% das sequencias dafamılia B foram identificadas comosendo de A
http://rfam.sanger.ac.uk/
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Conclusoes
Conclusoes
I Com a otimizacao dos parametros, obtivemos uma discretamelhora, mas suficiente para alcancar um nıvel de acuraciacomparavel a um dos melhores preditores de microRNAatualmente
I Apesar de ter apresentado um bom resultado em um dostestes realizados, o algoritmo de treinamento automaticoainda precisa de melhorias
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Conclusoes
Conclusoes
I Com a otimizacao dos parametros, obtivemos uma discretamelhora, mas suficiente para alcancar um nıvel de acuraciacomparavel a um dos melhores preditores de microRNAatualmente
I Apesar de ter apresentado um bom resultado em um dostestes realizados, o algoritmo de treinamento automaticoainda precisa de melhorias
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Parte subjetiva
O que mais me ajudou neste trabalhoI Disciplina de Algoritmo em grafosI Disciplina de Biologia ComputacionalI Disciplina de Data Mining (cursada durante intercambio)I Iniciacao cientıfica
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Parte subjetiva
Duvidas?
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Apendice
Bibliografia
Bibliografia I
Hu LL et al (2012). Benchmark comparison of ab initiomicroRNA identification methods and software. GMR.
A Machado-Lima, HA del Portillo, AM Durham (2008).Computational methods in noncoding RNA research.. J MathBiol. 56(1-2):15-49
Ina Koch (2001). Enumerating all connected maximal commonsubgraphs in two graphs. Elsevier.
Sarah W. Burge et al (2013). Rfam 11.0: 10 years of RNAfamilies. Nucleic Acids Res.
Jiang P et al (2007). MiPred: classification of real and pseudomicroRNA precursors using random forest prediction modelwith combined features. Nucleic Acids Res.
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Apendice
Bibliografia
Bibliografia II
Wei-Yin Loh and Yu-Shan Shih (1997). Split SelectionMethods For Classification Trees. Statistica Sinica 7, 815-840
Marilena V. Iorio et al (2005). MicroRNA Gene ExpressionDeregulation in Human Breast Cancer. AACR.
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Apendice
Bibliografia
MicroRNA
http://en.wikipedia.org/wiki/MicroRNA
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Apendice
Bibliografia
RNAfold
shuf34
G G C C G G U C C G G C U C C G A G C U C G G G G G C G C C C U A G U C C G A G U G A U A G U A C U G C C G C U A A C G U U G A G U U G U A G G G C
G G C C G G U C C G G C U C C G A G C U C G G G G G C G C C C U A G U C C G A G U G A U A G U A C U G C C G C U A A C G U U G A G U U G U A G G G CGG
CC
GG
UC
CG
GC
UC
CG
AG
CU
CG
GG
GG
CG
CC
CU
AG
UC
CG
AG
UG
AU
AG
UA
CU
GC
CG
CU
AA
CG
UU
GA
GU
UG
UA
GG
GC
GG
CC
GG
UC
CG
GC
UC
CG
AG
CU
CG
GG
GG
CG
CC
CU
AG
UC
CG
AG
UG
AU
AG
UA
CU
GC
CG
CU
AA
CG
UU
GA
GU
UG
UA
GG
GC
(c)
GGCCGGUCCGGCUC
CG A G CUC G G G G G C G C C C U A
G U C C G AGU GA U A G U
A C UG
CCGCUAACGUUGAG
UUGUAGGGC
(d)
Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias
Apendice
Bibliografia
Pseudo-no
(e)
http://en.wikipedia.org/wiki/File:Pseudoknot.svg