1 seqüenciamento e análise de genomas. 2 1953 – modelo de watson e crick - o dna é uma hélice...

32
1 Seqüenciamento e Análise de Seqüenciamento e Análise de Genomas Genomas

Upload: internet

Post on 17-Apr-2015

108 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

11

Seqüenciamento e Análise de Seqüenciamento e Análise de GenomasGenomas

Page 2: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

22

1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes de hidrogênio

Page 3: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

33

1958 - A replicação do DNA é semiconservativa1958 - A replicação do DNA é semiconservativa

Lewin, http://www.ergito.com

Page 4: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

44

Seqüenciamento de DNA

Em 1977 o método de seqüenciamento Em 1977 o método de seqüenciamento com terminadores de cadeia é com terminadores de cadeia é desenvolvido desenvolvido

Sanger F, Nicklen, S and Coulson AR. Sanger F, Nicklen, S and Coulson AR. DNA sequencing with chain-terminating DNA sequencing with chain-terminating inhibitors. inhibitors. Proceedings of the National Proceedings of the National Academy of Sciences (USA)Academy of Sciences (USA) 7474: 5463–: 5463–5467, 19775467, 1977

Page 5: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

55

Seqüenciamento de DNApelo método de Sanger

Page 6: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

66

SeqüenciamentoSeqüenciamento de DNA pelo método de Sanger de DNA pelo método de Sanger

Page 7: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

77

Manual sequencing uses radiolabeled dATP (35-S or 33-P) to label the DNA.  The sample is then split into four tubes  each with an individual ddNTP present.  The samples are then subjected to acrylamide gel electrophoresis followed by autoradiography

G      A      T    C

Manual Sequencing

Page 8: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

88

O INÍCIO DA ANÁLISE DE

GENOMAS

Page 9: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

99

1977 – Sanger e colegas desenvolvem a técnica de seqüenciamento usando inibidores como terminadores de síntese de DNA. O primeiro genoma completo é seqüenciado - o do bacteriófago phi-x174 (5375 bases).Sanger F et al. The nucleotide sequence of bacteriophage phi-X174. Journal of Molecular Biology 125: 225-46, 1977. Sanger F, Nicklen S, Coulson AR. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74: 5463-5467, 1977 .

1980 – O método de Shotgun é desenvolvido Sanger e colaboradores desenvolveram o método de shotgun para preparar moldes para seqüenciamento de DNA: esse trabalho também apresentou o uso de vírus bacterianos (bacteriófago M13) para clonagem e preparação de moldes. Sanger et al. Cloning in single-stranded bacteriophage as an aid to rapid DNA sequencing. 1980. Journal of Molecular Biology 143 161-78

http://www.yourgenome.org/timeline.html

Page 10: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

1010

Early genome sequencing projectsEarly genome sequencing projects

The ability to undertake DNA sequencing on a large scale started a revolution in biology, as it became theoretically possible to determine the complete DNA sequence of any organism, and thus obtain a full description of the complete set of genes, or genome. Initially small genomes of viruses and organelles were studied (phiX174, 5.4kb; the mitochodrial genome, 16kb; bacteriophage lambda, 50kb; Epstein Barr virus, 172kb; human cytomegalovirus, 229kb). It became clear that the most efficient means to determine a complete genome sequence was to break the DNA randomly into fragments of appropriate size for sequencing, and then to reassemble the pieces using the DNA sequence itself. Overlaps between the individual pieces were identified on the basis of matches between independently sequenced DNA fragments. This process, termed random shotgun sequencing, was first applied to the whole genome of bacteriophage lambda, and has since been applied to progressively larger projects as the speed of sequencing and the power of computers to undertake the assembly process has increased.

http://www.sanger.ac.uk/HGP/draft2000/early.shtml

Page 11: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

1111

1981 - IBM introduz o primeiro computador de uso pessoal – ele tinha 100 KB de memória, um driver de disco flexível e custava cerca de $3000

1982 - Compaq introduziu o primeiro computador portátil – sem disco rígido e custava cerca de $3000

1982 – O primeiro genoma é seqüenciado pela metodologia de shotugun de genoma total (whole genome shotgun - WGS)Sanger e colaboradores seqüenciam o genoma do bacteriófafo Lambda usando a técnica de shotgun. Sanger F et al. 1982. Nucleotide sequence of bacteriophage lambda. Journal of Molecular Biology. 162: 729–73Tamanho do genoma – 48.502 pb

Page 12: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

1212

1986 – O primeiro protótipo de uma máquina para seqüenciamento de DNA é apresentado.

1987 -Apple introduz o Mac II. Com um disco rígido de 40MB e custo de $5500

1987 - Olson e colegas desenvolvem o método para clonagem de longas regiões de DNA do genoma (100.000–200.000 pares de bases) Burke et al. Cloning of large segments of exogenous DNA into yeast by means of artificial chromosome vectors. Science 236 806-812, 1987.

Page 13: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

1313

1989 – O primeiro sistema de hipertexto – a base da world wide web – foi desenvolvido no European Organisation for Nuclear Research(CERN )

1989 – Criação da Human Genome Organisation (HUGO) HUGO, uma associação internacional de pesquisadores envolvidos com o Projeto Genoma Humano foi criado para ajudar a coordenar as atividades e auxiliar na distribuição dos dados e recursos.

1990 – Apresentação, da Proposta formal do Department of Energy e National Institutes of Health, USA, para seqüenciar o genoma humano.

Page 14: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

1414

1992 - Sulston e Waterston solicitam recursos da Wellcome Trust para seqüenciar 40Mb do genoma humano – proposta de cinco anos. Wellcome Trust e Medical Research Council, UK, associam-se ao Projeto Genoma Humano

1994 -Mosaic Communications – depois Netscape Communications – é criado

1995 – O primeiro genoma de um microrganismo de vida livre é seqüenciadoO genoma de Haemophilus influenzae – 1.830.137 pares de bases – é seqüenciado pelo The Institute for Genomic Research (TIGR)

Page 15: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

1515

1997 - Seqüenciador automático MegaBace 1000 (96 capilares)5 corridas/dia = ~200.000 pb

1998 – O seqüenciador ABI Prism 3700 é lançado, com capacidade para analisar oito conjuntos de 96 reações por dia =~308.000 pb

2001 - Seqüenciador automático MegaBace 4000 (384 capilares)

Parte de um eletroferograma gerado no seqüenciamento automático de DNA

Page 16: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

1616

The MegaBACE 1000 DNA Sequencing System features:

· Capillary electrophoresis with automated gel matrix replacement, sample injection, DNA separation, and base calling. Unlike slab-gel systems, the automation of gel replacement eliminates the need to pour gels, wash glass plates, and re-track samples after electrophoresis.· Electrokinetic sample injection automatically loads samples from a 96-well plate into the capillaries. Automated sample injection eliminates manual sample loading and sample mix up.· Energy transfer (ET) dye chemistry kits are the most robust and sensitive kits available. DYEnamic™ ET primers and DYEnamic ET terminator kits are formulated with Thermo Sequenase™ DNA polymerase and Thermo Sequenase II DNA polymerase, respectively, and are optimized for use with the MegaBACE.· The MegaBACE 1000 uses linear polyacrylamide (LPA) separation matrix. LPA is an innovation in capillary electrophoresis sieving matrices that enables read lengths in excess of 800 bases. With long read lengths; MegaBACE 1000 is ideal for finishing.· Flexible, user-friendly analysis software produces accurate base-calling data in a PHRED-compatible file format.

Page 17: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

1717

DYEnamic ET TerminatorsThe dye terminators feature novel dye-labelled dideoxynucleotides and a new

DNA polymerase. Each dideoxy terminator is labelled with two dyes. One of these dyes, fluorescein, has a large extinction coefficient at the wavelength (488 nm) of the argon-ion laser in the instrument. The fluorescein donor dye absorbs light energy from incident laser light and transfers the collected energy using radiationless energy transfer to an “acceptor” dye.

Each of the four chain terminators, ddG, ddA, ddT, and ddC, has a different acceptor dye coupled with the fluorescein donor. The acceptor dyes then emit light at their characteristic wavelengths. The fluorescence is detected by the instrument, which allows the nucleotide that caused the termination event to be identified. Using energy transfer provides a more efficient excitation of the acceptor dyes than does using direct excitation by the laser, and results in a sequencing method that is very sensitive and robust.

The acceptor dyes are the same standard rhodamine dyes used in DYEnamic ET primers: rhodamine 110, rhodamine-6-G, tetramethyl rhodamine, and rhodamine X. By using the standard rhodamine dyes as acceptors, the reaction products can be detected using the same filter set as the DYEnamic ET primers.

The DYEnamic ET primers for the MegaBACE system are 5-carboxy-fluorescein (FAM) as the donor dye. The acceptor dyes are rhodamine 110 (R110) (C), 6-carboxyrhodamine (REG) (A), N,N,N’,N’,-tetramethyl-5-carboxyrhodamine (TAMRA) (G) and 5-carboxy-X-rhodamine (ROX) (T).

Page 18: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

1818

Crescimento no número de seqüências no GenBank

Revised: February 16, 2005.

Year Base pairs Sequences

1982 680,338 606

1994 217,102,462 215,273

1995 384,939,485 555,694

1996 651,972,984 1,021,211

1997 1,160,300,687 1,765,847

1998 2,008,761,784 2,837,897

1999 3,841,163,011 4,864,570

2000 11,101,066,288 10,106,023

2001 15,849,921,438 14,976,310

2002 28,507,990,166 22,318,883

2003 36,553,368,485 30,968,418

2004 44,575,745,176 40,604,319

Page 19: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

1919

Projetos Genoma

Vários projetos de seqüenciamento de genomas bacterianos foram ou estão sendo desenvolvidos no mundo, enfocando as mais diversas espécies de organismos como Mycobacterium tuberculosis, Vibrio cholera e inúmeras outras bactérias (248 já concluídos e mais de 402 em andamento); Vários genomas eucarióticos também já foram seqüenciados.

Page 20: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

2020

Genome sequencing projects statistics Organism Complete Draft assembly In progress total

Prokaryotes 248 127 275 650 Archaea 22 3 11 36 Bacteria 226 124 264 614

Eukaryotes 19 54 131 204 Animals 4 20 61 85

Mammals 2 7 18 27 Birds 1 1 Fishes 2 2 4 Insects 1 6 25 32 Flatworms 2 2 Roundworms 1 2 3 6 Amphibians 1 1 Reptiles 0 Other animals 2 12 14

Plants 2 19 21 Land plants 2 15 17 Green Algae 4 4

Fungi 9 25 20 54 Ascomycetes 7 21 16 44 Basidiomycetes 1 3 2 6 Other fungi 1 1 2 4

Protists 4 9 27 40 Apicomplexans 5 9 14 Kinetoplasts 2 1 3 6 Other protists 2 3 14 19

total: 267 181 406 854

Revised: Aug 16, 2005

http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html

Page 21: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

2121

C. elegans

Arabidopsis thaliana

human

Plasmodium falciparum

Drosophila melanogaster

Genomas eucarióticos

Schizosaccaromyces pombe

Page 22: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

2222

Whole Genomes

The Draft Genome of Ciona intestinalis: Insights into Chordate and Vertebrate Origins Paramvir Dehal et al.Science, 13 December 2002, p.

2157-2167

The Genome Sequence of the Malaria Mosquito Anopheles gambiaeRobert A. Holt et al. Science, 4 October 2002, p. 129-149

Whole-Genome Shotgun Assembly and Analysis of the Genome of Fugu rubripes Samuel Aparicio et al. Science, 23 August 2002, p. 1301-1310;

published online July 25, 2002, 10.1126/science.1072104

A Draft Sequence of the Rice Genome (Oryza sativa L. ssp. indica)Jun Yu et al. Science, 5 April 2002, p. 79-92

A Draft Sequence of the Rice Genome (Oryza sativa L. ssp. japonica)Stephen A. Goff et al. Science, 5 April 2002, p. 92-100

Miniature Genome in the Marine Chordate Oikopleura dioicaHee-Chan Seo et al. Science, 21 December 2001, p. 2506

Page 23: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

2323

Nature 431: 931 (2004)

Genoma humano

Page 24: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

2424

Estratégias para Seqüenciamento de Genomas

Shotgun: o genoma é fragmentado ao acaso em pedaços pequenos (2,0 – 4,0 kb) que se sobrepõem. Esses fragmentos dão clonados num plamídeo (pUC18). Um número suficiente de clones é seqüenciado para gerar um conjunto de seqüências que corresponde a várias vezes o genoma (aproximadamente 10X). As seqüências (reads) são montadas com auxílio de programas de computador em regiões genômicas completas.

Clone a clone: um conjunto de clones de cada cromossomo ou região do genoma é organizado, cada clone é seqüenciado e as seqüencias de cada clone são montadas num segmento maior.

Page 25: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

2525

Shotgun

Clone a Clone

Estratégias para Seqüenciamento

Page 26: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

2626

Cobertura do genomaCobertura do genoma

C= N.r/GC= cobertura do genomaN= número de readsr= tamanho médio dos readsG= tamanho do genoma

Genome coverage: average number of times a nucleotide is represented by a high-quality base in random raw sequence. Full shotgun coverage: genome coverage in random raw sequence required to produce finished sequence, usually 8-10 fold.Partial shotgun coverage: typically 3-6X random coverage of a genome which produces sequence data of sufficient quality to enable gene identification but which is not sufficient to produce a finished genome sequenceContig: contiguous DNA sequence produced from joining overlapping raw sequence reads.Scaffold: a group of ordered and orientated contigs known to be physically linked to each other by paired read information.Finished sequence: complete sequence of a genome with no gaps and an accuracy of > 99.9%.

C= 8XN= número de readsr= 400 bpG= 1 Mb10=N.400/106

N= 20.000

Page 27: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

2727

Estratégia de seqüenciamento shotgun

DNA genômico

Seleção por tam anhoReparacão das pontasLigacão no vetor

Biblioteca

Seqüenciam ento

M ontagem

Contigs

Fecham ento e anotação

Page 28: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

2828

Estratégia para FechamentoEstratégia para FechamentoPACE - PCR-Assisted Contig ExtensionPACE - PCR-Assisted Contig Extension

Carraro et al. BioTechniques 34:626-632 (March 2003)

Page 29: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

2929

Page 30: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

3030

Lab Bioinformática – LNCCDra. Ana Tereza Vasconcelos

Page 31: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

3131

Diagrama mostrando as etapas de um projeto de seqüenciamento de genoma por “shotgun”. Fraser et al. (Nature 406, 799 – 803, 2000)

Page 32: 1 Seqüenciamento e Análise de Genomas. 2 1953 – Modelo de Watson e Crick - O DNA é uma hélice dupla em que as bases nitrogenadas interagem por pontes

3232

O genoma de H. inflluenzae tem 1,83 Mb e contém 1740 open reading frames (ORFs)

O genoma de M. genitalium tem 580.074 bp e contém 470 ORFs