israel tojal da silva orientador: prof. wilson araújo da silva jr. laboratório de genética...

59
Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Doutorado em Ciências com ênfase em Genética Uma plataforma computacional para análise de expressão diferencial múltipla

Upload: caua-cornelio

Post on 07-Apr-2016

223 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Israel Tojal da Silva

Orientador: Prof. Wilson Araújo da Silva Jr.

Laboratório de Genética Molecular e BioinformáticaDepartamento de Genética

Faculdade de Medicina de Ribeirão Preto

Doutorado em Ciências com ênfase em Genética

Uma plataforma computacional para análise de expressão diferencial múltipla

Page 2: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Introdução

Expressão Gênica

Page 3: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

IntroduçãoExpressão gênica

Dogma Central da Biologia Molecular

Page 4: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

IntroduçãoExpressão gênica

Por que estudar o transcriptoma?

Um ponto de partida para a compreensão das desordens moleculares associadas com a fisiopatologia de um dado fenótipo.

(Murray et al., 2007)

0

20000

40000

60000

1951

1962

1965

1968

1971

1974

1977

1980

1983

1986

1989

1992

1995

1998

2001

2004

2007

2010

gene expression gene expression AND cancer

Busca no PubMed por palavra chave

Page 5: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

IntroduçãoExpressão gênica

Análise dos perfis de expressão gênica

Page 6: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

IntroduçãoExpressão gênica

• Real Time quantitative RT-PCR

• Microarray (Schena et al., 1995)

• Serial Analysis of Gene Expression (SAGE) (Velculescu et al., 1995)

• Massively Parallel Signature Sequencing (MPSS) (Brenner et al., 2000)

• Proxima geração de sequenciamento (Rusk & Kiermer, 2008)

• 454 Roche• Illumina Solexa• SOLiD system

Medida da Expressão Gênica

Page 7: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

IntroduçãoBanco de dados biológicos

NCBI - National Center for Biotechnology Information

Page 8: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Estado da arte

Introdução

Page 9: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Análise da Expressão Diferencial – ED

Questões :

Sejam duas amostras biológicas C e T, quais os genes que estão hiper ( > ) ou hipo ( < ) expressos em relação ao controle( C ) ?

IntroduçãoEstado da arte

Page 10: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

C T

C < T

p < cutoff

T<T c/ p < cutoff

• Análise ED

(1)

(2)

(3)

(4)

C T

C < T

IntroduçãoEstado da arte

Teste

Teste Fisher Exato X2

Audic-Claverie (Audic & Claverie, 1997) teste tw (Baggely et al., 2003) teste log-t (Lu et al., 2005) SAGEbetaBin (Vencio et al., 2004), etc

Page 11: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

IntroduçãoEstado da arte

Ferramentas web para análise ED

Page 12: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

T1 T2 T3

IntroduçãoEstado da arte

Análise da Expressão Diferencial Múltipla – ED

Questões :

Sejam duas amostras biológicas C e T, quais os genes que estão hiper ( > ) ou hipo ( < ) expressos em relação ao controle( C ) ?

Page 13: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

A B

A < B

p < cutoff

Teste

A < B c/ p < cutoff

• Análise EDM

A CB

(1)

(2)

(3)

(4)

B C Teste

B > C

p < cutoff

B > C c/ p < cutoff

(5)A<B AND B>CA < B > C

A < B > C

IntroduçãoEstado da arte

Erros de estimação

A, B : A B ;

A, B, C : A B ; B C

(Romualdi et al., 2003)

Page 14: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Objetivos

Introdução

Page 15: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

IntroduçãoObjetivos

Geral

Desenvolver uma plataforma computacional para análises de EDM;

ProbFAST

Gene1Gene2Gene3Gene4Gene5….GeneN

A CB

Conhecimento apriori

Hipótese

Medidas

Análises

Interpretação

Page 16: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

IntroduçãoObjetivos

Geral

Desenvolver uma plataforma computacional para análises de EDM;

Específicos

Estabelecer uma métrica de avaliação e verificar o desempenho do método em relação às demais abordagens por meio de um estudo simulado;

Criar uma plataforma (ProbFAST) que permita análises globais associando aos resultados informações funcionais;

Avaliar um conjunto de dados de expressão gênica pelo ProbFAST.

ProbFAST

Gene1Gene2Gene3Gene4Gene5….GeneN

A B

Conhecimento apriori

Hipótese

Medidas

Análises

Interpretação

Page 17: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Material e Métodos

Page 18: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade
Page 19: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade
Page 20: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Método para análise EDM e ED

A B C

G1 6 99 24

G2 46 88 66

G3 24 65 52

G4 66 76 25

G5 11 8 89

… … ... ...

GN 3 77 49

CONDIÇÃO BIOLÓGICA

EXPRESSÃO

3

10

50

100

A B C

Beta(a,b) (Chen et al., 1998; Baggerly et al., 2003; Vëncio et al. 2003; Zuyderdyn, 2007)

Material e MétodosModelagem

P (A < B > C) P ( (A < B ) AND (A>C) ) …

Page 21: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Material e MétodosModelagem

Como funciona ?

A B C

G1 26 19 24

G2 56 48 66

G3 44 45 52

G4 66 36 65

G5 11 8 59

… … ... ...

GN 33 7 49

A > B < C+

+

Cutoff

G1 59

G2 66

G3 62

G4 88

G5 79

… ...

GN 94

Page 22: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade
Page 23: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

MAQC - MicroArray Quality Control

• Affymetrix (AFX);

•~ 1000 genes validados ( TaqMan )

• 2 amostras de RNAs:Universal Human Reference RNA (UHRR) Human Brain Reference RNA (HBRR)

•4 pools: A: 100% UHRR B: 100% HBRR C: 75% UHRR e 25% HBRR D: 25% UHRR:75% HBRR

(Shi et al .2006)

Material e MétodosAvaliação do método - Análise simulada

Page 24: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Affymetrix (AFX)

Material e MétodosEstudo simulado – pré processamento

Atualizada a anotação spot c/ maior intensidade Excluir probes repetidos TaqMan

4 test site

A B C D

A1 6 99 24 32

A2 56 88 66 19

A3 24 65 52 61

A4 66 76 25 53

A5 11 8 89 47

1) A1,A2,A3,A4 > B1,B2,B3,B4

2) A1 > C1 > D1 > B1

Gerando as tags virtuais

Page 25: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Curva ROC (Receiver Operating Characteristic)

1 – TN/(FP+TN)

TP/(T

P+FN

)

(Fawcett 2006)

Material e MétodosAvaliação do método - Análise simulada

• Verdadeiro positivo - TP , Verdadeiro negativo - TN • Falso positivo - FP , Falso negativo - FN

Page 26: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Construindo a curva ROC

Material e MétodosAvaliação do método - Análise simulada

Corte TP TN FP FN X Y70 179 105 414 22 0.80 0.8971 178 106 413 23 0.80 0.8972 178 109 410 23 0.79 0.8973 178 109 410 23 0.79 0.8974 178 120 399 23 0.77 0.8975 178 120 399 23 0.77 0.8976 178 120 399 23 0.77 0.8977 177 125 394 24 0.76 0.8878 177 125 394 24 0.76 0.88...100 176 131 388 25 0.75 0.88

TaqMan

Cutoff

G1 59

G2 66

G3 62

G4 88

G5 79

… ...

GN 94

Cortes (limiar de decisão)

+

+

Page 27: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade
Page 28: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Material e MétodosPlataforma de desenvolvimento – ProbFAST

Linguagem de Programação

• R• PERL

Interface de Aplicação

• CGI + Apache• DBI

Sistema de Gerenciamento de Banco de Dados

• MySQL

Sistema Operacional

• Linux Red Hat

DBDesigner, CPAN, BioPERL

Page 29: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Material e Métodos Modelo entidade relacional - ProbFAST

Dados Biológicos

• Informações funcionaisi. KEGGii. BIOCARTA/CGAPiii. Gene Ontology

• Dados de expressão gênica

i. GEO(Gene Expression Omnibus)

• Anotaçãoi. Unigene – Geneii. Tag - gene

Page 30: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade
Page 31: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Material e MétodosAplicação – Análise com dados reais

Efeito da radiação na expressão gênica

Acesso Biblioteca # Tags # Transcritos

GSM66698 Controle 17297 52162

GSM66712 Exposta a RF durante 2h 15487 51916

GSM66714 Exporsta a RF durante 6h 17814 51601

GSM755 Tumoral 23001 57686

GSM756 Tumoral 21254 49064

GSM728 Normal 17913 50179

GSM729 Normal 16569 49593

Grupos biológicos

Page 32: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Resultados e Discussões

Page 33: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Resultados e Discussões

Page 34: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Resultados e Discussões

Page 35: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Análise da curva ROC

A1,A2,A3,A4 > B1,B2,B3,B4 ( ProbFAST x Baggerly x BetaBin x log-t )

F =1E6 F =1E7 F =1E8

Resultados e DiscussõesEstudo simulado

Page 36: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Análise da curva ROC

A1,A2,A3,A4 > B1,B2,B3,B4 ( ProbFAST x Baggerly x BetaBin x log-t )

F = 1E6

Resultados e DiscussõesEstudo simulado

Page 37: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

A1 C1

A1 >C1

p < cutoff

A1 > C1 c/ p < cutoff

(1)

(2)

(3)

(4)

C1 D1

C1 > D1

p < cutoff

C1 > D1 c/ p < cutoff

(5)A1 >C1 AND C1>D1 AND D1>B1 ( A1>C1>D1>B1 )

D1 > B1 c/ p < cutoff

D1 B1

D1 > B1

p < cutoff

Análise da curva ROC

A1>C1>D1>B1 ( ProbFAST x Fisher x Chi2x2 x AC )

Resultados e DiscussõesEstudo simulado

Page 38: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Análise da curva ROC

A1>C1>D1>B1 ( ProbFAST x Fisher x Chi2x2 x AC )

F = 1E7F = 1E6 F = 1E8

Resultados e DiscussõesEstudo simulado

Page 39: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Análise da curva ROC

A1>C1>D1>B1 ( ProbFAST x Fisher x Chi2x2 x AC )

F = 1E7

Resultados e DiscussõesEstudo simulado

Page 40: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade
Page 41: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

ResultadosProbFAST - Arquitetura

ProbFAST – Probabilistic Functional Analysis System Tool

http://gdm.fmrp.usp.br/probfast

Page 42: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Analysis

Creating Question

VisualizeAnalysis

Resultados e discussõesProbFAST – interface web

Page 43: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Analysis

Creating Question

VisualizeAnalysis

Resultados e discussõesProbFAST – interface web

Page 44: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

ProbFAST– Workflow web

Analysis

Creating Question

€€€

VisualizeAnalysis

Resultados e discussõesProbFAST – interface web

Page 45: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Analysis

Creating Question

VisualizeAnalysis

Resultados e discussõesProbFAST – interface web

Page 46: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Aplicações

Resultados e discussões

Page 47: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Efeito da radiação na expressão gênica

Lee et al. (2005) GSM66698 (CT), GSM66712 (2h) e GSM66714 (6h)

ProbFAST - questões avaliadas relacionadas ao tempo de exposição

Quais os genes que foram ativados ( CT < 2h < 6h )

Quais os genes que foram desativados ( CT > 2h > 6h )PTMA (prothymosin, alpha)

• Ojima et al (2007) células suscetíveis a apotose

Resultados e discussõesAplicações

EIF5 (eukaryotic translation initiation factor 5) • Li et al. (2004) indução apotose – cancer de pulmão• Taylor et al. (2004) protegeu células a entrarem em apoptose

X

Page 48: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Resultados e discussõesAplicações

Page 49: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Efeito da radiação na expressão gênica

Lee et al. (2005) GSM66698 (CT), GSM66712 (2h) e GSM66714 (6h)

ProbFAST - questões avaliadas relacionadas ao tempo de exposição

Resultados e discussõesAplicações

EIF5PTMA

Apoptose

Page 50: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Resultados e discussõesAplicacões

Page 51: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Resultados e discussõesAplicacões

Page 52: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Resultados e discussõesAplicacões

Gene Estudo Descrição

PRR5 Johnstone et al. 2005

Envolvido com a tumorigênese de colon retal e células mamárias

BP1 Rojo et al., 2007 Progressão de neoplasias por meio da sinalização celular

S100A6 Komatsu et al. 2002

Tumorigênese cólon retal

PLCB2 Bertagnolo et al. 2007

Capacidade de invasão em células mamárias

REG1A LIU et al. 2008 Infiltração de propriedade primária do carcinoma gástrico.

Hanahan & Weinberg (2000)

Page 53: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Conclusão

Page 54: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

ConclusãoProbFAST para análises EDM e ED

• ProbFAST para análises EDM e ED– Aplicação web (on the fly) para análises de dados de expressão

basedo em sequenciamento (perfis digitais);– Interface intuitiva para formular expressões ( AND , > , < ) ;– Análises globais a partir de dados públicos (GEO) e/ou privados ;– Ambiente integrado com informações funcionais do Gene

Ontology, Biocarta e KEGG;– Alternativa de análise aos procedimentos usuais.

Page 55: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

ConclusãoEstudo simulado

• Avaliação do método – estudo simulado– Curva ROC– MAQC – gerar os dados virtuais– Boa performance quando comparado aos procedimentos usuais

durante análise EDM (A>B>C>D) e ED (A1,A2,A3,A4 > B1,B2,B3,B4)

Page 56: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

ConclusãoAnálise com dados reais

• Avaliação do método – dados reais– 2 análises realizadas;

• Exposição a RF ( Ativados e Desativados )• Super expressos em amostras tumorais

– Resultados refletem a natureza dos dados experimentais; – Genes não descritos em Lee et al. (2005) ;– Informações funcionais (GO e vias) associados aos genes auxiliam

a visualizar os processos ativados e/ou desativados.

Page 57: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Conclusão

O ambiente integrado do ProbFAST habilita identificar potenciais marcadores baseados nas alterações no padrão de expressão gênica e, também, auxilia o pesquisador a compreender em termos funcionais estas alterações.

Page 58: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Conclusão

• Próximas etapas– Integrar informações de outros estudos a partir do GeneRIF (Gene

Reference Into Function);– Adaptar o ProbFAST para comportar processamento paralelo

com o objetivo de reduzir o tempo de processamento;– Disponibilizar um sistema de exportação dos dados para análises

locais.– Comportar análises com dados de Microarray

Page 59: Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade

Agradecimentos

Prof. Rafael Rosales – DFM/FFCLRP

Prof. Ricardo Vêncio – RGE/FMRP Prof. Junior Barrera – DFM/FFCLRP

LaLaboratório de boratório de GeGenética nética MMolecular e olecular e BBioinformáticaioinformática