predição computacional de genes [email protected] marcelo falsarella carazzolle...

33
Predição computacional de genes [email protected] Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica

Upload: internet

Post on 22-Apr-2015

104 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Predição computacional de genes

[email protected]

Marcelo Falsarella Carazzolle

Laboratório de Genômica e Proteômica

Unicamp

Page 2: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Resumo

- Motivação

-Estrutura de genes

- Procariotos

- Eucariotos

- Predição de genes em procariotos

- Predição de genes em eucariotos

Page 3: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Motivação- Encontrar genes novos

?

Page 4: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

- Genoma de fungo possuem 30% - 40% dos genes sem nenhuma função conhecida

- Expedição de Craig Venter coletou micro organismos ao redor do mundo e sequenciou :

- 6.12 milhões de proteínas (~2x o número de proteínas depositadas no NCBI)

- ~ 4.000 novas famílias de proteínas

- ~ 6.000 proteínas que estavam depositadas nos bancos públicos e estavam sem similaridade passaram a ter similaridade

- Foram coletados 41 amostras nos mares do mundo (~ 8000 km)

PLOS Biology 5 (2007), 0432

Page 5: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Informações biológicas usadas pelos programas

- Sinais na sequência :

- Códons de start e stop (3 nt)

- Intron splice sites (2 nt em cada ponta)

- Promotor : elementos Cis (~10 nt com degenerescência), TATA box (5 nt)

- Sítio de poliadenização (~10 nt)

- Códon usage

- Conteúdo GC

- Similaridade com outras proteínas

- Alinhamento ESTs - DNA

Page 6: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Estrutura dos genes- Procariotos

-Alta densidade gênica (~ 85 % de regiões codantes em E.coli)

- Genes sem íntrons

Page 7: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Promoter Cistron1 Cistron2 CistronN Terminator

Transcription RNA Polymerase

mRNA 5’ 3’

TranslationRibosome, tRNAs,Protein Factors

1 2 N

NC

NC N

C

1 2 3

Page 8: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

- Eucariotos

Page 9: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp
Page 10: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp
Page 11: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Predição de genes em procariotos

Sinais na sequência de DNA de um procarioto que podem ser utilizados na predição de genes

Regiões da sequência de DNA de um procarioto que apresentam diferenças nas análises de conteúdo GC e codon usage

Page 12: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Conteúdo GC

- Regiões condantes (que codificam um gene) tem alto conteúdo GC (rica em nucleotídeos G e C)

Região do DNA que contêm um gene Conteúdo GC elevado nessa região

- Regiões rica em GC são mais difíceis de sofrerem mutações (ligação química forte)

Page 13: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

ORF – open read frame

A C G T A A C T G A C T A G G T G A A T

GTA ACT GAC TAG GTG AAT

TAA CTG ACT AGG TGA

CGT AAC TGA CTA GGT GAA

- Cada grupo de nucleotídeos em trincas consecutivas constituem um read frame

- Existem 3 diferentes read frames na direção 5’ -> 3’ e mais 3 na direção contrária (outra fita)

- Uma sequência de trincas que não contêm um stop dentro é chamanda de open read frame (ORF)

Page 14: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

-A probabilidade de uma sequência aleatória de “n” nucleotídeos não conter um códon de stop é (61/64)n

- Quando n=50 a probabilidade de ter um códon de stop no meio da sequência é de 92%

- Normalmente usa-se, para procariotos, ORFs de tamanho n>=60 para definir possíveis candidatos a genes

Page 15: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Códon usage-Baseado no fato que o uso do códon é diferente para cada organismo

- Regiões codantes seguem o codon usage do organismo diferentemente das regiões intergênicas

V, P, A, G => 4 combinações

L, S, R => 6 combinações

I,* => 3 combinações

F, Y, H, Q, N, K, D, E, C => 2 combinações

M, W => 1 combinações

Page 16: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

• All organisms have a preferred set of codons.

Malaria TrypanosomaGTT 0.41 GTT 0.28

GTC 0.06 GTC 0.19

GTA 0.42 GTA 0.14

GTG 0.11 GTG 0.39

Page 17: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Códon usage homo sapiens

Page 18: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

http://bioweb.pasteur.fr/seqanal/interfaces/syco.html

Gene1 Gene2

Frame

+1

+2

+3

Page 19: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

• http://www.kazusa.or.jp/codon/Cálculo do códon usage

Page 20: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

http://bioweb.pasteur.fr/docs/EMBOSS/cusp.html http://codonw.sourceforge.net/

- A tabela de uso do códon do organismo é facilmente obtida usando programas como codonw ou cusp e usando como entrada sequências em nucleotídeo que codificam proteínas e no frame correto (tipicamente obtidas via similaridade entre a sequência e a proteína)

Page 21: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

• One type of RNA polymerase.

Sinais no promotor

- Com o alinhamento de sequências de promotores ortólogos é possível reconhecer regiões que se mantêm conversadas durante a evolução, observem que as distâncias também são conservadas

Page 22: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Positional Weight Matrix

• For TATA box:

Page 23: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Juntando tudo

-Promotor e início de transcrição são sinais obtidos através de alinhamentos entre promotores ortólogos (treinamento feito usando sequências de organismos próximos)

- Regiões codantes (exons) são obtidos por codon usage (treinamento feito usando regiões do DNA que possuam com similaridade forte com proteínas conhecidas) e conteúdo GC

- Outro vínculo importante é a ordem dos sinais. Não tem sentido um sinal de início de transcrição no meio do exon

Page 24: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

• Gene length: 30kb, coding region: 1-2kb • Binding site: ~6bp; ~30bp upstream of TSS• Long Introns• Average of 6 exons, 150bp long

Predição de genes em eucariotos

Page 25: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Identificando splice sites (junção íntron-exon)

- Com o alinhamento entre sequências de cDNA e DNA é possível identificar as regiões dos íntrons

Page 26: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

- Com o alinhamento global entre os íntrons constroem-se a matriz de posição com os padrões de splice sites, branch site e tamanho médio dos íntrons

Page 27: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp
Page 28: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Juntando tudo

-Promotor e início de transcrição são sinais obtidos através de alinhamentos entre promotores ortólogos (treinamento feito usando sequências de organismos próximos)

- Regiões codantes (exons) são obtidos por codon usage (treinamento feito usando regiões do DNA que possuam com similaridade forte com proteínas conhecidas) e conteúdo GC

- Informações sobre os íntrons são obtidas através de alinhamento do DNA com ESTs

- Outro vínculo importante é a ordem dos sinais. Não tem sentido um sinal de início de transcrição no meio do exon

Page 29: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

- Usando genes conhecidos e de preferência não usados no conjunto de treinamento podem ser usados para medir a performance do preditor

Sp=TP/(TP+FP)

Page 30: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

- Usando genes conhecidos e de preferência não usados no conjunto de treinamento podem ser usados para medir a performance do preditor

Page 31: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Performance

KORF, I. Gene finding in novel genomes. BMC Bioinformatics 5:59. 2004.

Sn=TP/(TP+FN) Sp=TP/(TP+FP)

Page 32: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

END

Page 33: Predição computacional de genes mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

CodonPreference: 3rd position GC bias