prof. joão carlos setubalsequenciamento de dna, genomas e bioinformática qbq 102 – aula 5...
TRANSCRIPT
Sequenciamento de DNA, genomas e bioinformática
QBQ 102 – Aula 5 (biomol)
Prof. João Carlos Setubal
5ʹ 3ʹ
Replicação de DNA
A replicação pára
Reação da DNA Polimerase com dNTPs síntese de DNA
Desoxirribonucleotídeo
Purina ou Pirimidina
FosfatoDesoxir-ribose
2´, 3´didesoxirribonucleotídeo trifosfato (ddNTP)
Reação da DNA Polimerase com dNTPs + ddNTPs interrupção da síntese de DNA
Método de Sanger: terminação controlada da síntese de DNA com didesoxirribonucleotídeos
DNA a ser sequenciado
Novas cadeias de DNA serão separadas por eletroforese em gel de poliacrilamida com resolução para separar fragmentos de DNA
com 1 nucleotídeo de diferença
ddATP
primer radioativo
Desnaturação da dupla fitaAnelamento do “primer radioativo”
Terminação da síntese: adição dos ddNTPs
Método de Sanger
Adição da enzima e dNTPs
Eletroforese em gel de poliacrilamida desnaturante
Autorradiografia
Sequ
ênci
a co
mpl
emen
tar
ao D
NA
mol
de
Eletroforese em gel de poliacrilamida: separação de fragmentos de DNA diferindo por 1 nucleotídeo no tamanho
Autorradiograma de um gel de sequenciamento de DNA
CCAGAAGATTTCA
GGATGCGCT
5´
3´
Automação do Sequenciamento pelo Método de Sanger
ddNTPsfluorescentes(4 fluoróforosdistintos)
separação de fragmentos de DNA diferindo por 1 nucleotídeo no tamanho
Inte
nsi
dad
e d
e fl
uo
resc
ênci
a
Tamanho em nucleotídeos (bases)
Imagem da detecção por fluorescência no sequenciamento automatizado: cada amostra em um capilar
Cromatograma do sequenciamento automatizado pelo método de Sanger
Tamanho médio das sequências geradas 700 – 1000 pb
Novas Tecnologias de Sequenciamento
Ion Torrent Por síntese com DNA polimerase/ Ion Proton detecção de protons liberados na
síntese
35-400
Aplicações do sequenciamento de DNA
Obter a sequência completa de fragmentos de DNA (clonados em plasmídeos, produtos de PCR)
Obter a sequência completa de cromossomos/genomas
Obter a sequência de transcritos (RNA)/transcritoma
Como os genomas são sequenciados
Nature 15 Feb 2001 409(6822)
DNA genômico
Biblioteca de clones (BAC)
Ordenamento dos clones da biblioteca
Seleção dos clones de BAC para sequenciamento
Sequenciamento dos clones (sequenciamento shotgun)
Montagem (in silico)
Geração de sub-bibliotecas dos clones de BAC em plasmídeos
Fragmentação e clonagem
Fragmentação e clonagem
Fragmentar aleatoriamente e clonar os fragmentos em vetores do tipo BAC:
biblioteca de BACDNA genômico
Sequenciar extremidades dos clones de BAC e
ordenar Seleção dos clones de BAC para sequenciamento completo
Montagem das sequências obtidas (in silico)
Geração de sub-bibliotecas shotgun e sequenciamento de ambas as fitas de DNA de cada clone
BAC: cromossomo artificial de leveduras
Como os genomas são sequenciados utilizando as metodologias de última geração?
A etapa laboriosa de clonagem e seleção de clones
recombinantes dos fragmentos do DNA genômico foi eliminada
Como os genomas são sequenciados atualmente
Nature 15 Feb 2001 409(6822)
DNA genômico ou bibliotecas de BAC
Montagem (in silico)
Fragmentação
Amplificação dos fragmentos
Sequenciamento
Montagem de DNA
Montagem de DNA
Passo básico: determinar sobreposiçãoentre fragmentos por comparação de sequencias
Supõe grande redundância no sequenciamento e cortes aleatórios
Quebra-cabeças linear
Montagem de DNA
buraco
contig
CTTCCAGTTCAACCGGCCGGTCGTCGCGGACGACGACGGCCGCCGGCGCC
TCATCTGGCCGTCCGCGGAGATCCTGGGCCCAGCTCGCCCCGGCGACACC
GGCGATGCGCGCCTGGACGCCACCGGCGCCAACGCGGGCAATATCTTCCTTCTCCTCGGCACCGAGCCGTCGCGCAGCTGGCGCAGCTTCACCGCGGAGA
TCATGGATGCGGCCCTGGCCTCCGACATCGGCGCCATCGTCTTCCTCGGT
GCGATGCTGGCGGACGTACCGCACACCCGCCCCATCTCCATCTTCGCTTC
GAGCGAGAACGCGGCCGTCCGTGCGGAGCTCGGCATCGAACGCTCTTCGT
ACGAGGGGCCGGTCGGTATCCTGAGCGCGCTCGCCGAAGGGGCGGAGGAC
GTGGGCATTCCGACCATCTCCATCTGGGCGTCGGTTCCGCACTATGTCCA
AGCTGGTGAATGTCACCATCCCGCGTGGCTCGCTGGTGGAGGAGGCCACG
GCCTGGGAAGCCGGGATCGACGCGCTGGCTCTGGACGACGACGAGATGGC
TACGTACATCCAGCAGCTGGAGCAGGCACGCGACACCGTGGACTCCCCTG
AGGCCAGCGGCGAGGCGATCGCCCAGGAGTTCGAGCGCTACCTCCGCCGC
Anotação
• Achar genes que codificam proteína• Achar genes de RNA• Inferir função das proteínas
Bioinformática
• Algoritmos e programas para processar sequencias de DNA e outras entidades da biologia molecular (RNAs, proteínas, etc)
• Montagem de DNA é um exemplo• Vejamos outro exemplo
6/20/2013 J. C. Setubal 30
DNA tem quadros de leitura
+1: GTGGTGGCCTTCGAAGGGT+2: TGGTGGCCTTCGAAGGGT+3: GGTGGCCTTCGAAGGGT
6/20/2013 J. C. Setubal 31
DNA tem duas fitas (+ e –)
GTGGTGGCCTTCGAAGGGTCACCACCGGAAGCTTCCCA
+
–
5′ 3′
3′ 5′
6/20/2013 J. C. Setubal 32
6 quadros no total
GTGGTGGCCTTCGAAGGGTTGGTGGCCTTCGAAGGGT
GGTGGCCTTCGAAGGGTCACCACCGGAAGCTTCCCACACCACCGGAAGCTTCCCCACCACCGGAAGCTTCC
6/20/2013 J. C. Setubal 33
6/20/2013 J. C. Setubal 34
Quadro aberto de leitura (ORF)
• Um trecho do genoma em que– O número de nucleotídeos é múltiplo de 3– O último codon é de parada– Não existe nenhum outro codon de parada presente
6/20/2013 J. C. Setubal 35
Método (rudimentar) para achar genes em procariotos
Ache todas as ORFs com pelo menos 900 bp
6/20/2013 J. C. Setubal 36
...AGCTCGCGCTCCGCATCCATCCAGTAGGGTTCGGTGTCGACGAGCGTGCC
GTCCATATCCCAGAAGACGGCGGCCGGCATCGCGTGCGGAGTCAGTTCGG
TCACGGCTGACAAGTCTATCCCGGCGGCCCCGGGCCTATTCTTGAGGGAC
GGCGTCCTGACCGGTCGCCGGATGAAAGGACCAGAACGCCCCGTGACTGA
CGCGAACAGCATCCTCGGAGGGCGCATCCTCGTGGTGGCCTTCGAAGGGT
GGAACGACGCTGGCGAGGCCGCCAGCGGGGCCGTCAAGACGCTCAAGGAC
CAGCTGGATGTCGTCCCGGTCGCCGAGGTCGATCCCGAGCTGTACTTCGA
CTTCCAGTTCAACCGGCCGGTCGTCGCGGACGACGACGGCCGCCGGCGCC
TCATCTGGCCGTCCGCGGAGATCCTGGGCCCAGCTCGCCCCGGCGACACC
GGCGATGCGCGCCTGGACGCCACCGGCGCCAACGCGGGCAATATCTTCCT
TCTCCTCGGCACCGAGCCGTCGCGCAGCTGGCGCAGCTTCACCGCGGAGA
TCATGGATGCGGCCCTGGCCTCCGACATCGGCGCCATCGTCTTCCTCGGT
GCGATGCTGGCGGACGTACCGCACACCCGCCCCATCTCCATCTTCGCTTC
GAGCGAGAACGCGGCCGTCCGTGCGGAGCTCGGCATCGAACGCTCTTCGT
ACGAGGGGCCGGTCGGTATCCTGAGCGCGCTCGCCGAAGGGGCGGAGGAC
GTGGGCATTCCGACCATCTCCATCTGGGCGTCGGTTCCGCACTATGTCCA
CAATGCGCCCAGCCCGAAGGCGGTGCTCGCACTGATCGACAAGCTCGAAG
AGCTGGTGAATGTCACCATCCCGCGTGGCTCGCTGGTGGAGGAGGCCACG
GCCTGGGAAGCCGGGATCGACGCGCTGGCTCTGGACGACGACGAGATGGC
TACGTACATCCAGCAGCTGGAGCAGGCACGCGACACCGTGGACTCCCCTG
AGGCCAGCGGCGAGGCGATCGCCCAGGAGTTCGAGCGCTACCTCCGCCGC
CGCGACGGCCGCGCCGGCGATGACCCCCGCCGTGGCTGACGTCACCCCCT
CTCTGCGTCCGCCGTCCTCTGTTCCCCCCGCTCGGCCTCCCCTGAGGCCG
AGGAGTCGCGCCCACATGCCGGAAACTCCTCCTTTCCTGACTTTCTGGAG ...
DNA de bactéria
6/20/2013 J. C. Setubal 37
...AGCTCGCGCTCCGCATCCATCCAGTAGGGTTCGGTGTCGACGAGCGTGCC
GTCCATATCCCAGAAGACGGCGGCCGGCATCGCGTGCGGAGTCAGTTCGG
TCACGGCTGACAAGTCTATCCCGGCGGCCCCGGGCCTATTCTTGAGGGAC
GGCGTCCTGACCGGTCGCCGGATGAAAGGACCAGAACGCCCCGTGACTGA
CGCGAACAGCATCCTCGGAGGGCGCATCCTCGTGGTGGCCTTCGAAGGGT
GGAACGACGCTGGCGAGGCCGCCAGCGGGGCCGTCAAGACGCTCAAGGAC
CAGCTGGATGTCGTCCCGGTCGCCGAGGTCGATCCCGAGCTGTACTTCGA
CTTCCAGTTCAACCGGCCGGTCGTCGCGGACGACGACGGCCGCCGGCGCC
TCATCTGGCCGTCCGCGGAGATCCTGGGCCCAGCTCGCCCCGGCGACACC
GGCGATGCGCGCCTGGACGCCACCGGCGCCAACGCGGGCAATATCTTCCT
TCTCCTCGGCACCGAGCCGTCGCGCAGCTGGCGCAGCTTCACCGCGGAGA
TCATGGATGCGGCCCTGGCCTCCGACATCGGCGCCATCGTCTTCCTCGGT
GCGATGCTGGCGGACGTACCGCACACCCGCCCCATCTCCATCTTCGCTTC
GAGCGAGAACGCGGCCGTCCGTGCGGAGCTCGGCATCGAACGCTCTTCGT
ACGAGGGGCCGGTCGGTATCCTGAGCGCGCTCGCCGAAGGGGCGGAGGAC
GTGGGCATTCCGACCATCTCCATCTGGGCGTCGGTTCCGCACTATGTCCA
CAATGCGCCCAGCCCGAAGGCGGTGCTCGCACTGATCGACAAGCTCGAAG
AGCTGGTGAATGTCACCATCCCGCGTGGCTCGCTGGTGGAGGAGGCCACG
GCCTGGGAAGCCGGGATCGACGCGCTGGCTCTGGACGACGACGAGATGGC
TACGTACATCCAGCAGCTGGAGCAGGCACGCGACACCGTGGACTCCCCTG
AGGCCAGCGGCGAGGCGATCGCCCAGGAGTTCGAGCGCTACCTCCGCCGC
CGCGACGGCCGCGCCGGCGATGACCCCCGCCGTGGCTGACGTCACCCCCT
CTCTGCGTCCGCCGTCCTCTGTTCCCCCCGCTCGGCCTCCCCTGAGGCCG
AGGAGTCGCGCCCACATGCCGGAAACTCCTCCTTTCCTGACTTTCTGGAG ...
Um gene (CDS)
6/20/2013 J. C. Setubal 38
Método (um pouco melhor) para achar genes em procariotos
1. Ache todas ORFs2. Traduza cada uma usando o código genético3. Compare cada uma com seqüências de
genes conhecidos– Se achar algum hit estatisticamente significativo,
guarde; senão jogue fora
4. Resolva sobreposições
Comparação de sequencias
• Similaridade “suficiente”• O que é similaridade?• O que é “suficiente”?• Google das sequencias: BLAST• Basic Local Alignment Search Tool• Altschul et al., 1990, 1997
1995 - Haemophilus influenzae1º. Genoma bacteriano sequenciado1.830.137 pb
Sequenciamento e comparação de sequências genômicas de indivíduos
Identificação de SNP (polimorfismo de único nucleotídeo) em genomas. Grupos de SNPs marcadores são compilados em um haplótipo e podem ser utilizados para identificação de indivíduos pelo sequenciamento de regiões definidas de seus genomas.
Sequências de genes e genomas podem ser depositadas em bancos de dados públicos
MR Stratton et al. Nature 458, 719-724 (2009) doi:10.1038/nature07943
Evolução da tecnologia de sequenciamento de DNA
Sumário
1. DNA: composição e estrutura2. RNA: composição e estrutura3. O código genético4. Transcrição: DNA → mRNA5. Tradução: mRNA → proteína6. Replicação: DNA → 2 DNA7. Expressão gênica8. Sequenciamento de DNA9. Bioinformática10. Laboratórios