aprimoramento de uma ferramenta de predição de ncrnas … · 2016-02-18 · aprimoramento de uma...

29
Aprimoramento de uma ferramenta de predi¸c˜ ao de ncRNAs baseada em estruturas secund´ arias Aprimoramento de uma ferramenta de predi¸c˜ ao de ncRNAs baseada em estruturas secund´ arias Trabalho de Formatura Supervisionado Felipe Lamberti Amado Orientador: Prof. Dr. Alan Mitchell Durham Instituto de Matem´ atica e Estat´ ıstica - USP ao Paulo, 11 de novembro de 2013

Upload: others

Post on 24-Apr-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Aprimoramento de uma ferramenta de predicaode ncRNAs baseada em estruturas secundarias

Trabalho de Formatura Supervisionado

Felipe Lamberti AmadoOrientador: Prof. Dr. Alan Mitchell Durham

Instituto de Matematica e Estatıstica - USP

Sao Paulo, 11 de novembro de 2013

Page 2: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Introducao

Biologia basica - Transcricao e Traducao

Dogma central da Biologia

Page 3: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Introducao

Biologia basica - Transcricao e Traducao

Dogma central - nao previa ncRNAs

Page 4: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Introducao

Tipos de RNA

Tipos de RNA

http://www.nature.com/horizon/rna/background/pdf/micrornas.pdf

Page 5: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Introducao

Importancia dos MicroRNAs

Page 6: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Introducao

Representando sequencias como grafos

Como funciona o preditor?

Page 7: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Introducao

O preditor

Arestas de i a j onde i < j - 1 ocultadas por motivos esteticos.

Page 8: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Objetivos

Objetivos deste trabalho

I Otimizar os parametros utilizados pelo preditor

I Fazer uma comparacao justa com algum outro preditor demicroRNAs

I Implementar uma extensao do preditor para realizar otreinamento automatico

Page 9: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Otimizacao dos parametros

Parametros a serem otimizados

I Limiar deprobabilidade

I Tamanhomınimo dehelice

0,02

0,254

0,056

Page 10: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Otimizacao dos parametros

Curvas ROC

● ● ●●

● ● ●●

● ●●●

● ● ●●●

●●●●

●●

●●●●●

●●●●●●

●●●●●● ●

●●●●●

3 4 5

6 7 8

9 10 11

0.00

0.25

0.50

0.75

1.00

0.00

0.25

0.50

0.75

1.00

0.00

0.25

0.50

0.75

1.00

0.6 0.7 0.8 0.9 1.00.6 0.7 0.8 0.9 1.00.6 0.7 0.8 0.9 1.0Specificity

Sen

sitiv

ity

0.00

0.25

0.50

0.75

prob_threshold

Page 11: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Otimizacao dos parametros

Arvore de decisao

Sequencia Padrao 1 Padrao 2 ... Padrao N microRNA real?

seqA 1 0 ... 0 1seqB 1 1 ... 1 1seqC 0 1 ... 0 0

: : : : : :

≡ Padrao i v Padrao j

Page 12: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Otimizacao dos parametros

Arvore de decisao

Sequencia Padrao 1 Padrao 2 ... Padrao N microRNA real?

seqA 1 0 ... 0 1seqB 1 1 ... 1 1seqC 0 1 ... 0 0

: : : : : :

≡ Padrao i v Padrao j

Page 13: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Otimizacao dos parametros

Padroes otimizados

Padrao I V Padrao II

Limiar de probabilidade: 0 Limiar de probabilidade: 0,57Tamanho mınimo de helice: 7 Tamanho mınimo de helice: 5

Page 14: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Otimizacao dos parametros

Antes x Depois da otimizacao

Medida Antes Depois

Especificidade 87,538% 84,154%Sensibilidade 71,692% 82,692%

Acuracia 79,615% 83,423%

Especificidade = TN/(TN + FN)Sensibilidade = TP/(TP + FP)Acuracia = (TP + TN)/(TP + FP + TN + FN)

Page 15: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Comparacao entre os preditores

Comparacao entre os preditores

Medida MiPred Nosso preditor

Especificidade 88,076% 84,154%Sensibilidade 80,615% 82,692%

Acuracia 84,346% 83,423%

Page 16: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Treinamento automatico do preditor

Treinamento automatico do preditor

I Feito encontrando subestruturas tıpicas em um conjunto demicroRNAs

I Que foram encontradas utilizando um algoritmo de subgrafomaximal entre dois grafos

I Que, por sua vez, foi implementado utilizando uma reducaoao problema do clique maximal

Page 17: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Treinamento automatico do preditor

Reducao ao problema do clique maximal

I Entrada: Grafos G1 =< V1,A1 > G2 =< V2,A2 >

I Grafo produto de arestas He = G1 ◦ G2 possui como vertices oconjunto VH = E1 × E2

I Ha uma aresta do no v = (v1, v2) ao w = (w1,w2) em He ssev1 6= w1 e v2 6= w2 e (o no que conecta as arestas v1 e w1 ecompatıvel com o no que conecta v2 e w2 OU v1 e w1 nao saoarestas adjacentes em G1 e v2 e w2 tambem nao saoadjacentes em G2)

I Saıda: Clique maximal de He que corresponde a um subgrafocomum

Page 18: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Treinamento automatico do preditor

Reducao do problema ao problema do clique maximal

Retirado do artigo de Koch de 2001.

Page 19: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Treinamento automatico do preditor

Aplicando iterativamente

Page 20: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Treinamento automatico do preditor

Famılia A x Famılia B

(a) (b)

I O treinamento foi realizado em 21sequencias da famılia A,encontrando 4 subestruturasrecorrentes

I 53,7% das sequencias da famılia Aforam identificadas com sucesso

I Apenas 2,7% das sequencias dafamılia B foram identificadas comosendo de A

http://rfam.sanger.ac.uk/

Page 21: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Conclusoes

Conclusoes

I Com a otimizacao dos parametros, obtivemos uma discretamelhora, mas suficiente para alcancar um nıvel de acuraciacomparavel a um dos melhores preditores de microRNAatualmente

I Apesar de ter apresentado um bom resultado em um dostestes realizados, o algoritmo de treinamento automaticoainda precisa de melhorias

Page 22: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Conclusoes

Conclusoes

I Com a otimizacao dos parametros, obtivemos uma discretamelhora, mas suficiente para alcancar um nıvel de acuraciacomparavel a um dos melhores preditores de microRNAatualmente

I Apesar de ter apresentado um bom resultado em um dostestes realizados, o algoritmo de treinamento automaticoainda precisa de melhorias

Page 23: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Parte subjetiva

O que mais me ajudou neste trabalhoI Disciplina de Algoritmo em grafosI Disciplina de Biologia ComputacionalI Disciplina de Data Mining (cursada durante intercambio)I Iniciacao cientıfica

Page 24: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Parte subjetiva

Duvidas?

Page 25: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Apendice

Bibliografia

Bibliografia I

Hu LL et al (2012). Benchmark comparison of ab initiomicroRNA identification methods and software. GMR.

A Machado-Lima, HA del Portillo, AM Durham (2008).Computational methods in noncoding RNA research.. J MathBiol. 56(1-2):15-49

Ina Koch (2001). Enumerating all connected maximal commonsubgraphs in two graphs. Elsevier.

Sarah W. Burge et al (2013). Rfam 11.0: 10 years of RNAfamilies. Nucleic Acids Res.

Jiang P et al (2007). MiPred: classification of real and pseudomicroRNA precursors using random forest prediction modelwith combined features. Nucleic Acids Res.

Page 26: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Apendice

Bibliografia

Bibliografia II

Wei-Yin Loh and Yu-Shan Shih (1997). Split SelectionMethods For Classification Trees. Statistica Sinica 7, 815-840

Marilena V. Iorio et al (2005). MicroRNA Gene ExpressionDeregulation in Human Breast Cancer. AACR.

Page 27: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Apendice

Bibliografia

MicroRNA

http://en.wikipedia.org/wiki/MicroRNA

Page 28: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Apendice

Bibliografia

RNAfold

shuf34

G G C C G G U C C G G C U C C G A G C U C G G G G G C G C C C U A G U C C G A G U G A U A G U A C U G C C G C U A A C G U U G A G U U G U A G G G C

G G C C G G U C C G G C U C C G A G C U C G G G G G C G C C C U A G U C C G A G U G A U A G U A C U G C C G C U A A C G U U G A G U U G U A G G G CGG

CC

GG

UC

CG

GC

UC

CG

AG

CU

CG

GG

GG

CG

CC

CU

AG

UC

CG

AG

UG

AU

AG

UA

CU

GC

CG

CU

AA

CG

UU

GA

GU

UG

UA

GG

GC

GG

CC

GG

UC

CG

GC

UC

CG

AG

CU

CG

GG

GG

CG

CC

CU

AG

UC

CG

AG

UG

AU

AG

UA

CU

GC

CG

CU

AA

CG

UU

GA

GU

UG

UA

GG

GC

(c)

GGCCGGUCCGGCUC

CG A G CUC G G G G G C G C C C U A

G U C C G AGU GA U A G U

A C UG

CCGCUAACGUUGAG

UUGUAGGGC

(d)

Page 29: Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma ferramenta de predi˘c~ao de ncRNAs baseada em estruturas secund arias Conclus~oes

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Apendice

Bibliografia

Pseudo-no

(e)

http://en.wikipedia.org/wiki/File:Pseudoknot.svg