seqüenciamento e montagem do genoma humano e análise de transcriptoma

Post on 05-Jan-2016

49 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Seqüenciamento e montagem do genoma humano e análise de transcriptoma. Seqüenciamento do Genoma Humano. Embate: Consórcio público x Celera genomics: Consórcio público: mapeamento físico, shotgun hieráriquico. Celera genomics: whole genome shotgun - PowerPoint PPT Presentation

TRANSCRIPT

Seqüenciamento e montagem do genoma humano

e análise de transcriptoma

Seqüenciamento do Genoma Humano

• Embate: Consórcio público x Celera genomics:

– Consórcio público: mapeamento físico, shotgun hieráriquico.

– Celera genomics: whole genome shotgun

• Em fevereiro de 2001 foi publicada de forma independendente versão draft ou preliminar ambos grupos.

Seqüenciamento do Genoma Humano

• 2003: Consórcio público apresenta versão final do seqüenciamento do genoma humano

– Comprimento total: 3 bilhões pb

– 99% deste total foi seqüenciado

– Erro de seqüenciamento estimado em 1/10.000 nt

– 99.9% não apresenta diferenças entre indivíduos.

– 25.000 genes

– Genes codificadores de proteínas correspondem a apenas 2% do genoma

– 50 % do genoma consiste de regiões repetitivas (D.melanogaster 3%, C.elegans 7%)

Celera Genomics – Iniciativa privada

Whole genome shotgun (WGS)

Genoma

Biblioteca genômicaPlasmídeo (inserto 10 kb)BAC (inserto 100 kb)

Seqüenciamento das extremidadesdo inserto

Leituras ou reads

Contig

Mate pairs

Celera Genomics – Iniciativa privada

Whole genome shotgun (WGS) – Montagem

AGCGTTA GTTACAAC

AGCGTTACAAC

Contig Contig

Mate pairs

Celera Genomics – Iniciativa privada

Whole genome shotgun (WGS) – Montagem

Contig Contig

Mate pairsBAC contendo inserto demaior comprimento

Celera Genomics – Iniciativa privada

Whole genome shotgun (WGS) – Montagem

Contig Contig

Mate pairs

Contig ContigScaffold

Mate pairs

Celera Genomics – Iniciativa privada

Whole genome shotgun (WGS) – Montagem

Consórcio públicoMapeamento físico, shotgun hierárquico

Cromossomo

Biblioteca genômicaem BAC (inserto 100Kb)

Fragmento cromossômico

Biblioteca genômicaem BAC

Consórcio públicoMapeamento físico, shotgun hierárquico

Cromossomo

Biblioteca genômicaem BAC (inserto 100Kb)

Fragmento cromossômico

Biblioteca genômicaem BAC

BAC

BibliotecaPlasmídeo (inserto 10 kb)

Seqüenciamento das extremidadesdo inserto

Leituras ou reads

Consórcio públicoMapeamento físico, shotgun hierárquico - Montagem

Contig

Mate pairs

AGCGTTA GTTACAAC

AGCGTTACAAC

Consórcio públicoMapeamento físico, shotgun hierárquico - Montagem

Consórcio públicoMapeamento físico, shotgun hierárquico

Cromossomo

Biblioteca genômicaem BAC (inserto 100 kb)

Consórcio públicoMapeamento físico, shotgun hierárquico

Cromossomo

Biblioteca genômicaem BAC (inserto 100 kb)

Consórcio públicoMapeamento físico, shotgun hierárquico

Cromossomo

Biblioteca genômicaem BAC (inserto 100 kb)

Avaliação de estratégias de seqüenciamento

Vantagens WGS

• Estratégia mais simples com menos etapas.

Vantagens Shotgun Hierárquico

• Menos vulnerável que a estratégia WGS em relação a montagem de regiões repetitivas.

Avaliação de estratégias de seqüenciamentoRepetições no genoma

X X

Cenário I

X

MontagemGenoma

Processo de montagem é suscetível a erros quando empregado em genomas com alto índice de repeticões.

WGS: Montagem de 3 bilhões de bases (todo genoma).

Shotgun hierárquico: Montagem de 100 mil bases (inserto de cada BAC).

In silico

Base-calling

• Geração de uma seqüência de nucleotídeos através da análise dos chromatogramas

PHRED

gaattcggcacgagagttctcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttcccgccactttgctcgcctgcgcatcgatgtaacagtccgtggtgacgaagtcataccgttaagtattacgtttttgttgtcgttgttgcagcaatagtagaggacgggcgcttttttttttgtcaagagaaagggggaggggcgtactaccgctttatcgaggttggtattatttcttatatataaagggaaagagcaacgtgaagcgggtaagggaagagtgaaagtcgag

Mascaramento

• Eliminar fragmentos de vetor cross_match

>5’gctccaccgcggtggcggccgctctagaactagtggatcccccgggctgcaggaattcggcacgagagttctcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttcccgccactttgctcgcctgcgcatcgatgtaacagtccgtggtgacgaagtcataccgttaagtattacgtttttgttgtcgttgttgca

>3’gcaatagtagaggacgggcgcttttttttttgtcaagagaaagggggaggggcgtactaccgctttatcgaggttggtattatttcttatatataaagggaaagagcaacgtgaagcgggtaagggaagagtgaaagtcgagggggggcccggtacccaattc

Montagem

• Produzir uma seqüência contígua através de seqüências menores que possuam regiões de sobreposiçãoPHRAP, Celera Assembler, Arachne

contig

leituras

Anotação

• Localizar na seqüencia genômica final:• Genes que codificam proteínas e RNAs não traduzidos (tRNA, rRNA, snRNA)

• Determinar, se possível, o produto provável de cada gene encontrado.

• Associar cada gene à uma categoria funcional ou via metabólica. Ex.: síntese de lipídeos, maquinaria de tradução, fosforilação oxidativa, etc.

Anotação

Streptococcus pneumoniae R6

Anotação Automática

Glimmer

contig

RBSfinder tRNAscanGeneMark

CDS

Anotação Automática

BLAST contra KEGG

InterproBLAST contra GenBank

PSORTBLAST contra COG

Anotação manual

BLAST(Basic Local Alignment Search Tool)

BLASTKEGG

COG

GenBankNucleotídeos

> SEQ1atgggcacgagagttctcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttcccgccactttgctcgcctg

Bancos de seqüências

GenBankProteínas

BLAST(Basic Local Alignment Search Tool)

Aldolase Trypanosoma cruzi

.........1.........2.........3.........4.........5.........6.........7.........8.........9.........10 acaagctggagctcccgcggtggtcggcgctctagaactagtggatcccccgggctgcaggaattcggcacgagaacaacttcaaccgcgtctggaaggcgccacgccgcccgtttgagaaggaacgccttgaccgcgagatgaaactctgcggccagtacggccttcngttgcaacgcgtgagatttggcgccgtgaacatgacgctctccaagatgcgtcgtaccgcccgtctgttgttgacgttgccggagaaccacccgcgccggcagctggagggttccgccatcatgcgccgctgccacgactacggcttcctcgagggggggcccggtacccaattcgccctatagtgagtcgtattacannattcactggccgntcgntnntttacaacgtcgntnngactgggnannaaaccctggnnncgttacccaacttaatcgcctt

BLAST it!

Anotação Automática

BLAST contra KEGG

InterproBLAST contra GenBank

PSORTBLAST contra COG

Anotação manual

Aldolase Trypanosoma cruzi

.........1.........2.........3.........4.........5.........6.........7.........8.........9.........10 acaagctggagctcccgcggtggtcggcgctctagaactagtggatcccccgggctgcaggaattcggcacgagaacaacttcaaccgcgtctggaaggcgccacgccgcccgtttgagaaggaacgccttgaccgcgagatgaaactctgcggccagtacggccttcngttgcaacgcgtgagatttggcgccgtgaacatgacgctctccaagatgcgtcgtaccgcccgtctgttgttgacgttgccggagaaccacccgcgccggcagctggagggttccgccatcatgcgccgctgccacgactacggcttcctcgagggggggcccggtacccaattcgccctatagtgagtcgtattacannattcactggccgntcgntnntttacaacgtcgntnngactgggnannaaaccctggnnncgttacccaacttaatcgcctt

Interpro

• Procura na seqüências por domínios, assinaturas ou motivos conhecidos.

• Se utiliza de outros bancos de domínios para produzir seu relatório final. PFAM, SMART, PROSITE, etc

Interpro

Anotação Automática

BLAST contra KEGG

InterproBLAST contra GenBank

PSORTBLAST contra COG

Anotação manual

Anotação

Streptococcus pneumoniae R6

SabiáSystem for Automated Bacterial Integrated Annotation

• LNCC – Coordenação do Projeto Genoma Brasileiro

• Gerenciamento de todos softwares de Base-calling, Mascaramento, Montagem e Anotação automática.

• Disponibilização da Anotação automática dos resultados via Web possibilitando a realização da Anotação manual por pesquisadores distribuídos geograficamente.

Exemplo Sabiá Mapa Antes Mapa Depois

Análise do transcriptoma

Projetos que precedem seqüenciamento do genoma nuclear:

• Identificação de novos genes.

• Estimativa do perfil de expressão da linhagem celular, estágio de desenvolvimento ou tecido avaliado

Transcrição e Transcriptoma

EST

RNA total

cístron Poli A mRNACAP5’ 3’

Transcrição e Transcriptoma

ESTPoli A

Poli A

Poli A

Poli A

cDNA

Vetor + cDNA

Transcrição e Transcriptoma

EST

Sequenciamentoextremidades

5’ Poli A

3’ Poli A

3’

5’

~ 800 pb

Vetor Vetor

VetorVetorcDNA completo

Transcrição e Transcriptoma

ESTRemoçãoSequencia de vetor(cross_match, Lucy)

Remoção Poli A (Script Perl)

EST

5’ Poli A3’Vetor Vetor

Poli A

X X

X5’ 3’

5’ 3’

Análise do transcriptoma

EST – Anotação

BLASTXE

BLASTN

GenBankNucleotídeos>clone_23 5’

ggcacgagagttctcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttcccgccactttgctcgcctg

Bancos de seqüências

GenBankProteínas

5’ 3’

clone_23 5’ = amastina

Análise do transcriptoma

EST – Anotação

Agrupamento deseqüência similaresouagrupamento via anotação

= amastina>clone_23 5’ggcacgagagttctcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttcccgccactttgctcgcctg

Número de ESTs Anotação

4 amastina

6 TcMUC II

Transcrição e Transcriptoma

Transcriptoma de amastigotas

Transcrição e Transcriptoma

Transcriptoma de amastigotas

top related