uso da bioinformática na análise genômica. tagagcatcgatcgatgctgcagatgatgctagcatcggctaggcgacg...

Uso da bioinformática na análise genômica

TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG

ATCTCGTAGCTA

ATCTCGTAGCTAGCTACGACGTCTA

ATCTCGTAGCTAGCTA

ATCTCGTAGCTAGATCTCGTAGCTAGCATCTCGTAGCTAGCT

ATCTCGTAGCTAGCTACATCTCGTAGCTAGCTACGATCTCGTAGCTAGCTACGAATCTCGTAGCTAGCTACGACATCTCGTAGCTAGCTACGACGATCTCGTAGCTAGCTACGACGTATCTCGTAGCTAGCTACGACGTCATCTCGTAGCTAGCTACGACGTCT

ATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCT

A

G

C

T

A

C

G

A

C

G

T

C

T

A

Start

End

20

30

10

• A nomeação é praticamente aleatória no início e no final, onde a chance de erro é alta (baixo valor de Phred)

• O programa Phred lê o cromatograma e nomeia as bases

cromatograma

acgatctcgctagctgctactgtagccgcgattattcgcgatctacgtatatcgcgatcgatc

• Cada base tem uma chance de erro de sua nomeação (10% = 0,1)• A escala de Phred é semelhante à de pH multiplicado por 10: - chance de erro de 0,001 = 10-3 = Phred 30

Processamento de seqüências

In the Pursuit of Optimal Sequence Trimming Parameters

for EST Projects

Fabiano C. Peixoto & J. Miguel Ortega

LCC-CENAPAD

A

T

GCBIOINFORMÁTICA UFMG

Noticed:

• BLAST results• Phred 15• Too much trimming

0

10

20

30

40

50

Query: 469 TTAGGAGGATCGTTTTTAGAATCCCCTGCAACGTTACCACGGTGGATTTCACTGACTGCG 528 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 1038 ttaggaggatcgtttttagaatcccctgcaacgttaccacggtggatttcactgactgcg 979

Query: 529 ACGTTCTTAACGTTGAATCCAACGTTGCTACCAgggagagcctcagtaagtgcttcatga 588 ||||||||||||||||| || |||||||||||||||||| ||||||||||||||||||||Sbjct: 978 acgttcttaacgttgaagcccacgttgctaccagggagaccctcagtaagtgcttcatga 919

Query: 589 tgcatttcgacagaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccata 648 |||||||||||||| |||||||||| |||| ||||||||||| |||||||||||||||||Sbjct: 918 tgcatttcgacagacttgacttcagccgaccaaccttgcggaccaaaagtgacgaccata 859

Query: 649 ccaggcttgatgataccagtttcaacgc 676 ||||||||||||||||||||||||||||Sbjct: 858 ccaggcttgatgataccagtttcaacgc 831

.TGAAGCTTTCAGCTTCTTTAGGAGGATCGTTTTTAGAATCCCCTGCAACGTTACCACGGTGGATTTCACTGACTGCGACGTTCTTAACGTTGAATCCAACGttGCTACCAgggagagcctcagtaagtgcttcatgatgcatttcgacagaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccataccaggcttgatgataccagtttcaacgcctcggggccaggctggcgtgaacagggcctagcgggtccgcgggggaagggtcccggctcaatccaccaatagagcggagctaaagtgacgggggcgcca

Phred 15

Experimental approach

Sequences:

•pUC18 plasmidial vector (published sequence)•Sequence reaction:

•Single pool - 3 plates (96 samples)•MegaBACE sequencer

•3 reads for each plate, esd processing - 846 reads

Processing:

•BLAST (MegaBLAST, as in UniGene)•Phred

•trim: a chromatogram analyzer•trim_alt: trim_cutoff parameter 1% up to 25%

-500

-400

-300

-200

-100

0

100

200

1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12% 13% 14% 15% 16% 17% 18% 19% 20% 21% 22% 23% 24% 25%

Trim_cutoff parameter value(%)

Nu

mb

er

of

ba

se

s

Included (trim) Discarded (trim) Included (TrimAlt) Discarded(TrimAlt)

0,00%

5,00%

10,00%

15,00%

20,00%

25,00%

30,00%

1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12% 13% 14% 15% 16% 17% 18% 19% 20% 21% 22% 23% 24% 25%

total miscall stepwise miscall

16% 17%

Trim_alt sequence

BLAST

gaps/missmatches(% of bases)

Additionalbases

3%

Seqüências

0

2.000.000

4.000.000

6.000.000

8.000.000

10.000.000

12.000.000

14.000.000

16.000.000

1982

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

1993

1994

1995

1996

1997

1998

1999

2000

2001

Ano

606

15 milhões

Crescimento do GenBank

Europeu Japonês

24h

Seqüencias do DNA(genoma)

Seqüências do mRNA(genes expressos)

Repetição calculada•draft = 5x•finished = 10x

Amostragemtecidos

momentos

Genoma pequeno(seqüenciador grande)

Eucariotos

mRNA

cDNA

TR

Seqüenciamento parcial de transcritos

Seqüênciamento de genes expressos:

Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e ...damonh...]

• EST (Etiqueta de Seqüência Expressa) – seqüenciamento único de cada cDNA

– extremidades 5’ ou 3’

• ORESTES (ESTs ricas em ORFs)– seqüenciamento único do amplicon derivado de

cDNA por PCR inespecífico

– prevalece o centro do cDNA (cds)

Um mRNA & suas ESTs

(A)200(T)18cDNA (fita -)

AUG(A)18

cDNA (fita +)

(A)200(T)18cDNA (fita -)

AUG(A)18

cDNA (fita +)

ATGATCATGACTTACGGGCGCGCGAT

GGCGCGCGATATCCAAATTTATTATCC

3’EST

3’EST5’EST

5’EST

AAATTTATTATCCATCTACG

PCR inespecífico & seu ORESTES

(A)200

cDNA (fita -)

AUG amplicon (fita +)

Iniciador(60ºC 37ºC)

amplicon (fita -)

amplicon (fita +)

PCR(60ºC)

ORESTES

AGATCGATCATGACTTACGGGCGCGCGATATCG

GGGCGCGCGATATCGAAAAATTTATAAGGCTAGCCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC

+ORESTES (outros iniciadores)

100

150

200

250

• O formato FASTA, o mais simples, é anotado

>Gene5 EST com homologia...

ACTATTACGGCGTAGCTGTAGCTACGTAGCTAGCTGATGCTGACTGATCGTAGCTAGCTGACTGATCGTACGTAGTGTTTTTTTACGTGCGTATTtCTagCTaGtc

Seqüências > 50 nt, sem ambiguidades e com anotação, ganham entrada no Entrez Protein/Nucleotide

Alinhador local

• Identifica, numa coleção de seqüências, as que apresentam alinhamento com a sua.

• Fragmenta sua seqüência e procura homologia no banco de dados.

• Descarta todas as pesquisas com pontuação pequena (score baixo) e vai alinhando a vizinhança das com pontuação boa, até chegar ao máximo valor.

• É fácil verificar que algumas regiões de certos genes alinham bem, mas outras pouco conservadas, não. O Alinhador Local não quer chegar ao alinhamento final, ele só quer identificar sequências com um nível de homologia significativo

Alinhamento local

• O fundamento teórico é que a função gênica está quase sempre confinada em domínios contínuos de uma proteína

• Se não fosse assim, não teria sentido usar...

Programas BLAST & Bancos

• Há vários Programas BLAST úteis

• Alguns são usados quando a sua sequência é de nucleotídeos (BLASTn, BLASTx e tBLASTx)

• Outros são usados quando a sua seqüência é de aminoácidos (BLASTp)

• E vários bancos de dados para escolher (nr, pdb, dbEST, yeast, month, etc...)

• Ou usa-se limites [organism]

BLASTn e BLASTx

• A EST identifica o gene homólogo: BLASTn

• A EST identifica proteína ortóloga de outro organismo - a evolução conservou a proteína enquanto o DNA divergiu: BLASTx– BLASTx: a EST traduzida em seis proteínas

– 1 existe, 5 não...

– O mundo Blast é assim

tBLASTx• tBLASTx traduz sua seqüência de nucleotídeos para proteína nas 6

possibilidades, exatamente como BLASTx

• Depois pesquisa com essas 6 proteínas deduzidas, um banco de dados de nucleotídeos também traduzido dessa maneira

• Pra que serve? Pois imagine que a telomerase de Euplotes seja parecida com a telomerase humana, mas os dois DNA não!

• Traduzindo a seqüência pesquisada e o banco de dados dbEST foi possível encontrar seqüências da telomerase humana

• Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum)

• Podemos saber quantas vezes um gene foi seqüenciado, e detectar os freqüentes!

• E quantos dos genes foram detectados– Usa-se também para validar bibliotecas

Aglomerados ou Clusters

Programas para aglomerar

• Icatools

• Phrap

• Cap3, Cap4

• Swat

• BLAST

• MegaBLAST

Um aglomerado = Um gene

Qualidade das bibliotecas(100 primeiras ESTs)

Freqüência em que uma EST foi amostrada

Boa biblioteca?

Nú

mer

o d

e se

qü

ênci

as

1

2

3

4

5

7

9

11

• Organização das sequências do GenBank em um conjunto de aglomerados

• Cada aglomerado do UniGene contém as sequências que representam um gene único

• E também informações relacionadas, como em que tecidos o gene é expresso, etc.

• E também onde está mapeado

UniGene

MegaBLAST gera o UniGene

Todas ESTs contra todas

Detecção de homologia

> 96% de identidade

> 70% do potencial

Aglomerar

uso da bioinformática na análise genômica. tagagcatcgatcgatgctgcagatgatgctagcatcggctaggcgacg...

Documents