montagem de genomas - unespgenomics.fcav.unesp.br/aulas/aula5/mnt.pdf · resultado final da...
TRANSCRIPT
Montagem de Genomas
Prof. Dr. Alessandro Varani UNESP - FCAV
Conceitos da Genômica
O que é um genoma ?
→ O conjunto de DNA que compõe um determinado (micro) organismo
- Cromossomos; - Organelas: Mitocôndria e Cloroplasto; - Plasmídeos; - Vírus (alguns são de RNA e não de DNA); - Bacteriófagos (fagos)
→ Essencialmente um conjunto de strings
- Usando as 4 letras do alfabeto de DNA (A,G,C,T)
Conceitos da Genômica
Tamanho de Genomas
→ A quantidade de DNA de um genoma haploide é designada de valor C.
→ O valor C é constante dentro de uma espécie, porém variável entre espécies
Escala de tamanho
- 1 Kb = 1,000bp; - 1 Mb = 1,000,000bp; - 1 Gb = 1,000,000,000bp
Tamanhos dos Genomas (procariotos)
http://www.sci.sdsu.edu/~smaloy/MicrobialGenetics/topics/chroms-genes-prots/genomes.html
Cópias do genoma
Leituras ou
”reads"
Montagem
Sequenciamento Processamento dos dados
Aula de hoje Como montar ?
→ Reconstruir a sequência do genoma, a partir
de abordagens computacionais
Como ?
→ Quais os problemas que podem ocorrer ?
Como solucioná-los ?
Objetivos
http://www.nature.com/nmeth/journal/v9/n4/full/nmeth.1935.html
Montagem de Genoma em uma figura (1)
Montagem de Genoma em uma figura (2)
Ideal Mundo Real
Leituras não ambíguas e em erros
Leituras ambíguas e pequenas e com com
problemas de qualidade ou erros
1. O princípio
Shotgun – Craig Venter (1995) 1995 - Haemophilus influenzae: 1,830,140 bp
1. O princípio
Shotgun – Craig Venter (1995) 1995 - Haemophilus influenzae: 1,830,140 bp
nebulizador sonicador
2. Apresentando os ”Vilões”
Ion torrent: 1 Gb em 2-4 horas (leitura ~200 bases)
Ion proton: 200 Gb em 2-4 horas
(leitura ~100 bases)
Illumina MiSeq: ~8 Gb em 24 horas (leitura 2x250 bases)
Sequenciadores de DNA de nova geração
2. Apresentando os ”Vilões”
- 454 GS FXL+ : 700Mb em 23h (leituras de até 1kb); - 454 Gs Jr: 35Mb em 10 horas (leituras ~ 400
bases);
- HiScan SQ: 18Gb em 8 dias e meio
(Leitura 2x 100bases)
Sequenciadores de DNA de nova geração
2. Apresentando os Vilões Sequenciadores de DNA de nova geração
Como centenas de leituras de 50 pb - 450 pb podem reconstituir um genoma de 5 Mb, 10 Mb, 60Mb ou 3Gb (ou
mais) ??
Porém, quanto maior a leitura melhor e mais fácil será o processo!
2. Apresentando o futuro ”Mocinho”
Sequenciadores de DNA leituras longas
Single Molecule, Real Time (SMRT) DNA Sequencing
Leitura do DNA 99,999% correta (?)
1/10 do custo !!!
Pacific Biociences – PacBio RS Tempo de corrida de 2 a 4 horas
Leituras com tamanho médio de 4.500 pb Leituras podem chegar até 12,500 pb !!!
~230 Mb por corrida
2. Apresentando o futuro ”Mocinho”
Sequenciadores de DNA leituras longas
3. O objetivo (princípio)
O inverso do picador de papel...
Genoma
Reconstituído
ou ”montado”
Montagem
Reads
(leituras)
O fluxo de todo esse processo atualmente
”In a nutshell”
shotgun montagem
Bioinformática Você !
- Qual o melhor algoritmo ?
- Quais as melhores abordagens de sequenciamento ? - Depois de montado o genoma, como poderemos
inferir se a montagem reflete realmente a biologia ?
Dentre outros problemas: regiões repetidas (duplicações, tandens), variação de GC%, poliploidia e
limitações técnicas das tecnologias.
Um dos mais complexos procedimentos computacionais na biologia.
Sequenciadores Leituras curtas
(~500bp)
O fluxo de todo esse processo
”In a nutshell”
montagem
Bioinformática Você !
Sequenciadores Leituras longas
(~15.000bp)
A promessa de um processo menos “custoso”
Em um futuro (presente?) não muito distante...
Sequenciadores Leituras curtas
(~500bp)
Formato FASTQ (o papel picado)
Formato FASTQ (o papel picado)
Como os reads (papel picado) podem ser sequenciados ?
Voltamos a falar lá na frente…
Trimagem (arrumando o papel picado)
→ Trimagem de qualidade:
- Baseado nos scores de qualidade;
→ Trimagem de ambiguidade:
- Remover NNs;
→ Remoção de adaptadores e/ou contaminantes;
→ Remoção de bases:
- Remove um número específicos de bases na posição 5’ ou 3’;
→ Trimagem por tamanho
- Remove reads um tamanho específico (menores que 50 pb)
Programas para Trimagem
→ Seqyclean (linha de comando)
Abordagem de Montagem de Genomas
(1) De novo
(2) Montagem usando uma referência
Montando um genoma (a analogia do ferro velho)...
Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Filtragem
-Remoção de baixa
qualidade;
-Contaminantes.
Montando um genoma (a analogia do ferro velho)...
Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Montando um genoma (a analogia do ferro velho)
O resultado da montagem esperado
Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Montando um genoma (a analogia do ferro velho)
O resultado da montagem inesperado!
Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
?
Montando um genoma (a analogia do ferro velho)
Abordagem comparativa – Procurando um Genoma de Referência
Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Montando um genoma (a analogia do ferro velho)
Abordagem comparativa – Genoma de Referência
Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Montando um genoma (a analogia do ferro velho)
Abordagem comparativa – Genoma Referência
Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Montando um genoma (a analogia do ferro velho)
Os problemas de usar um Genoma Referência
Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Nem sempre existe um genoma referência próximo e parecido ao seu.
E muitas vezes não fazemos idéia destas diferenças.
Essas diferenças vão influênciar na montagem por referência!
Referências Disponíveis
Montando um genoma (a analogia do ferro velho)
Os problemas de usar um Genoma Referência
Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
?
referência
Montando um genoma (a analogia do ferro velho)
Em resumo, alguns princípios:
Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
1) Quanto menores forem as peças (reads
curtos/pequenos) mais complicado será o
processo;
2) Peças maiores facilitam o processo de
montagem;
3) Utilizar uma referência pode ajudar o
processo. Tem que ser muito parecida
(colinearidade, conteúdo gênico, repetições e
etc);
4) Um genoma de referência “distante” vai
certamente induzir a montagens erradas.
ATCGCGAATTCCGATTAGCAGGTACGTAGCTAGACGAGCTAGCTACCGATGCCGATC
Por que é um processo complicado ?
Não sabemos a posição de cada sequência (fragmento) do genoma!
?
Reads
actgcagtctgatgctgatcccatatgcttagacgatgctcagtagagatgac DNA
GAP
Contig
O que acontece durante a montagem ?
Descobrimos a posição de cada sequência (fragmento) do genoma
através da sobreposição, realizadas por um programa de computador
Termos Técnicos em Montagem
→ Read: Fragmento sequenciado, produto do laboratório e do sequenciador. É um arquivo texto, geralmente no formato FASTQ; → Contig/Consenso: Sequência contigua, formada pela sobreposição de um conjunto de reads (alinhamento semi-global – programa de computador para montagem) ; → Singlet: Read que não apresenta nenhuma sobreposição. No resultado final da montagem está sozinho e solto nos arquivos gerados. Pode representar uma região do genoma com baixa cobertura; → Gap: Região do genoma que ainda não foi sequenciada; → Cobertura: Quantidade de bases sequenciadas dividido pelo tamanho do genoma. De 8X a 10X para Sanger. 15X para 454 e mais de 30X para Illumina.
Termos Técnicos em Montagem
→ Genoma Draft: Em geral é feito o sequenciamento e montagem, porém não são resolvidos os gaps, repetições, duplicações. Portanto o resultado final geralmente é um arquivo FASTA com centenas ou milhares de contigs representando o genoma bruto. Nada de cromossomos, replicons e plasmídeos separados, esta tudo junto e misturado e as regiões repetidas geralmente estão colapsadas em únicos contigs; → Genoma Fechado: Cromosssomos, replicons, plasmídeos já estão montados em 1 contig para cada, porém ainda pode existir pequenos gaps, regiões repetidas ou não 100% resolvidas e regiões de baixa cobertura. A próxima etapa é a finalização (finishing);
→ Genoma Completo e Finalizado: Cromosssomos, replicons, plasmídeos montados em 1 contig para cada, sem gaps, com alta cobertura e qualidade.
Fatores Técnicos a serem considerados na escolha
do organismo/micro-organismo
→ Total de bases: Quanto maior o genoma a ser sequenciado provavelmente (99,99%) mais difícil será o processo de montagem;
→ Número de cromossomos: Quantos mais cópias dos cromossomos mais complicado fica o processo. Fase dicariótioca (fungos);
→ Projeto procariotos: cultura axénica (pura);
→ Projeto eucariotos: Genoma haplóide se possível;
Experimentos de bancada que podem ajudar a resolver estas questões: PFGE e ensaios de restrição;
Conhecer o número de genes (esperado): Auxilia no processo de montagem e a estimar o tamanho do genoma.
Exemplo: contig, reads, gap, singlets e cobertura
Genoma Draft
Exemplo: Visualização do resultado da montagem (CONSED) e cobertura
Conceito de Scaffold
Ordenando os contigs
Termos Técnicos em Montagem
Vínculos entre os reads!
1) Ordenação dos contigs;
2) Ajuda a resolver a montagem de regiões repetidas, ambíguas.
Resolvendo o problema dos repeats
Vínculos entre os reads: jumping library
- Bibliotecas mate-paired: 5kb, 10kb até 15kb (illumina) - Sequenciamento de “pontas” de BACs, Cosmídeos e etc (Sanger)
O programa de computador entende esse informação e leva em
consideração no processo de montagem
Exemplo: Vínculos entre os reads
Ordenação dos contigs -> Scaffold
Auxílio na ordenação da montagem e resolução de regiões repetidas
-> Gaps Virtuais: Sabe-se o tamanho ao qual ele corresponde (tamanho do inserto); -> Gaps Reais: Não sabe-se nada a respeito (tamanho). Difícil resolução (primer walking ou re-sequenciamento)
Quais os problemas que podem ocorrer ?
Repetições ou repeats
Ocorrem em praticamente todos genomas já sequenciados!
-> Podem representar mais de 20% em genomas de bactérias;
Quem são: Profagos, transposons e outros EGMs, duplicações e etc.
-> Em algumas plantas e vertebrados podem compor a maior parte do genoma.
Quem são: retrotransposons e outros EGMs, duplicações (poliploidia), microsatélites.
Repetições ou repeats (A analogia do quebra cabeça)
Repetições ou repeats (A analogia do quebra cabeça)
Repetições ou repeats (A analogia do quebra cabeça)
Visualizando Repetições ou repeats em uma montagem
Visualizando Repetições ou repeats em uma montagem
Identificando repeats
-Alinhamentos
-Visualização da montagem
Erros de montagem causados por repeats
Complexidade dos Genomas Bacterianos
depositados no NCBI
Classe I: poucas repetições (rRNAs) (~5kb) -> 69%
Classe II: transposons, duplicações, tandem repeats (~5kb a 7kb) -> 8%
Classe III: profagos, grandes duplicações e tandem repeats (> 7kb) -> 23%
Koren et al., 2013
Programas para Montagem de Genomas
→ 1 geração: Phrap, TIGR assembler, CAP3;
→ 2 geração: Celera Assembler, Arachne, Mira
→ “Novos”: Velvet, Euler, ABySS, CLCBio, ALLPATHS-LG, Newbler, SSPADE … vários, dezenas !
Algoritmos:
de Bruijn Graph e Overlap/Layout/consensus
Uma lista com vários programas montadores:
http://en.wikipedia.org/wiki/Sequence_assembly
a
a
http://www.nature.com/nmeth/journal/v9/n4/full/nmeth.1935.html
Montagem de Genoma em uma figura
Leitura Recomendada