sequenciamento e caracterizaÇÃo parcial do genoma

78
UNIVERSIDADE FEDERAL DE GOIÁS ESCOLA DE AGRONOMIA PROGRAMA DE PÓS-GRADUAÇÃO EM GENÉTICA E MELHORAMENTO DE PLANTAS SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA DE CAGAITEIRA (Eugenia dysenterica DC.) STELA BARROS RIBEIRO Orientador: Prof. Alexandre Siqueira Guedes Coelho Março 2016

Upload: vokiet

Post on 07-Jan-2017

225 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

UNIVERSIDADE FEDERAL DE GOIÁS ESCOLA DE AGRONOMIA

PROGRAMA DE PÓS-GRADUAÇÃO EM GENÉTICA E MELHORAMENTO DE PLANTAS

SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO

GENOMA DE CAGAITEIRA (Eugenia dysenterica DC.)

STELA BARROS RIBEIRO

Orientador: Prof. Alexandre Siqueira Guedes Coelho

Março – 2016

Page 2: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

Ficha catalográfica elaborada automaticamente com os dados fornecidos pelo(a) autor(a), sob orientação do Sibi/UFG.

RIBEIRO, STELA BARROS SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMADE CAGAITEIRA (Eugenia dysenterica DC.) [manuscrito] / STELABARROS RIBEIRO. - 2016. LXXVI, 76 f.: il.

Orientador: Prof. Dr. ALEXANDRE SIQUEIRA GUEDES COELHO;co-orientador MARIANA PIRES DE CAMPOS TELLES.Dissertação (Mestrado) - Universidade Federal de Goiás, Escola deAgronomia (EA) , Programa de Pós-Graduação em Genética &Melhoramentos de Plantas , Goiânia, 2016. Bibliografia.

1. Cagaiteira. 2. Draft assembly. 3. Cerrado . I. SIQUEIRA GUEDESCOELHO, ALEXANDRE , orient. II. PIRES DE CAMPOS TELLES,MARIANA , co-orient. III. Título.

Page 3: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

TERMO DE CIÊNCIA E DE AUTORIZAÇÃO PARA DISPONIBILIZAR AS TESES E

DISSERTAÇÕES ELETRÔNICAS (TEDE) NA BIBLIOTECA DIGITAL DA UFG

Na qualidade de titular dos direitos de autor, autorizo a Universidade Federal de Goiás (UFG) a disponibilizar, gratuitamente, por meio da Biblioteca Digital de Teses e Dissertações (BDTD/UFG), sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o do-cumento conforme permissões assinaladas abaixo, para fins de leitura, impressão e/ou down-load, a título de divulgação da produção científica brasileira, a partir desta data.

1. Identificação do material bibliográfico: [X] Dissertação [ ] Tese 2. Identificação da Tese ou Dissertação Autor (a): Stela Barros Ribeiro E-mail: [email protected] Seu e-mail pode ser disponibilizado na página? [X]Sim [ ] Não Vínculo empregatício do autor Agência de fomento: Universidade Federal de Goiás Sigla: UFG País: Brasil UF: GO CNPJ: Título: Sequenciamento e caracterização parcial do genoma de cagaiteira (E. dysenterica

DC.) Palavras-chave: Cagaiteira, draft assembly, Cerrado. Título em outra língua: Sequencing and partial characterization of cagaiteira tree genome (E.

dysenterica DC) Palavras-chave em outra língua: Cagaiteira, draft assembly, Cerrado Área de concentração: Genética e Melhoramento de Plantas Data defesa: (11/03/2016) Programa de Pós-Graduação: Genética e Melhoramento de Plantas Orientador (a): Dr. Alexandre Siqueira Guedes Coelho E-mail: [email protected]

*Necessita do CPF quando não constar no SisPG 3. Informações de acesso ao documento: Concorda com a liberação total do documento [X] SIM [ ] NÃO1

Havendo concordância com a disponibilização eletrônica, torna-se imprescindível o en-vio do(s) arquivo(s) em formato digital PDF ou DOC da tese ou dissertação.

O sistema da Biblioteca Digital de Teses e Dissertações garante aos autores, que os ar-quivos contendo eletronicamente as teses e ou dissertações, antes de sua disponibilização, re-ceberão procedimentos de segurança, criptografia (para não permitir cópia e extração de con-teúdo, permitindo apenas impressão fraca) usando o padrão do Acrobat. ________________________________________ Data: ____ / ____ / _____ Assinatura do (a) autor (a)

1 Neste caso o documento será embargado por até um ano a partir da data de defesa. A extensão deste prazo suscita justificativa junto à coordenação do curso. Os dados do documento não serão disponibilizados durante o período de embargo.

Page 4: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

STELA BARROS RIBEIRO

SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA DE CAGAITEIRA (Eugenia dysenterica DC.)

Dissertação apresentada à Coordenação do Programa de Pós-Graduação em Genética e Melhoramento de Plantas da Universidade Federal de Goiás, como exigência para obtenção do título de Mestre em Genética e Melhoramento de Plantas.

Orientador: Prof. Dr. Alexandre Siqueira Guedes Coelho

Coorientadora: Prof.ª Dr.ª Mariana Pires de Campos Telles

Goiânia, GO – Brasil

Page 5: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

"Um pássaro pousado em uma árvore nunca tem medo que o galho se rompa, porque sua confiança

não está no galho e sim em suas próprias asas”.

Chico Xavier

Page 6: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

À minha Mãe, meu Pai e Maninha, pessoas que trazem o sentido à minha vida, dedico.

Page 7: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

AGRADECIMENTOS

Resolvi escrever de acordo com ordem cronológica dos acontecimentos, na

expectativa de não esquecer nenhum dos momentos vividos nesta fase, bem como não

esquecer nenhuma das pessoas envolvidas ...

Primeiramente agradeço à Keyla, que além de professora, tornou-se uma amiga,

que emprestou seu tempo e seus ouvidos para compartilhar comigo momentos bons e ruins,

me deu conselhos, e acima de tudo, foi a primeira pessoa a acreditar em mim quando me

apresentou ao LGGP (Laboratório de Genética e Genômica de Plantas).

Agradeço agora à todas as pessoas que me acompanharam no início de tudo, me

deram força e me ajudaram a superar minhas dificuldades de iniciante (Lud, Camilla e

Milena) e àqueles que mesmo estando longe neste momento (Arthur e Bianca), também

fizeram parte dessa etapa e tem lugar garantido nas minhas melhores lembranças.

Agradeço imensamente aos professores do PGMP, em especial, aos meus

orientadores Alexandre e Mariana. Ao professor Alexandre por todos os momentos em que

pude ter o privilégio de absorver um pouco de seu vasto conhecimento, por toda a paciência

e disposição em me ensinar e me tranquilizar nos momentos em que duvidei da minha

capacidade. À Professora Mariana, por ser para mim um exemplo de profissional e de pessoa

e por me dar a oportunidade de fazer parte de uma bela equipe (LGBio), fato que me ajudou

muito em diversos aspectos nesta última fase do mestrado.

Aos meus amigos de longa data e eternos (Vanuza, Mayane, Fabrício, Amanda,

Nayane, Mariana e Murilo) que estiveram ao meu lado, não só nesta, mas em várias fases da

minha vida, me proporcionando momentos de alegria, compreensão e companheirismo.

Aos amigos que ganhei de presente durante o mestrado, e que tem uma

importância indescritível no meu trabalho e na minha vida. Rhewter, Ivone, Clistiane e

Isabela, jamais esquecerei do quanto aprendi e evolui convivendo com vocês, quero leva-los

comigo, na vida e no coração para sempre.

A todas as pessoas que me marcaram de alguma forma, me fazendo rir, trocando

uma idéia sobre a vida e principalmente, me ensinando a lidar e amar as diferenças e

peculiaridades de cada um (Sabrina, Lanusse, Débora, Mariane, Régis, Suzy, Danilo, Karla,

Mayara, Ueric, Edivaldo e Giórgia).

Page 8: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

À minha família: minha Mãezinha, meu velhinho e “Tify”, razões do maior

amor que carrego no peito...

Agradeço também aos membros da banca examinadora Thannya e Maria

Imaculada pela disposição e carinho em contribuir com a evolução deste trabalho.

À UFG pela estrutura e apoio, à CAPES pela concessão da bolsa de estudos e

ao GENPAC-02 e 03 CNPq/FAPEG/PRO-CENTRO-OESTE (563839/2010-4;

564145/2010-6 e 201110267000125) pelo apoio financeiro para a realização deste

trabalho.

E grandemente, agradeço ao meu pai do céu, que mesmo diante das minhas

fraquezas, revoltas e dúvidas, mostra todos os dias, de incontáveis formas, o quão grande

é o seu amor por mim.

Page 9: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

SUMÁRIO

RESUMO.......................................................................................................................... . 8 ABSTRACT..................................................................................................................... .. 9 1 INTRODUÇÃO ................................................................................................. 10 2 REVISÃO DE LITERATURA ........................................................................ 13 2.1 ESTRUTURA GENÔMICA DE PLANTAS ..................................................... 13 2.1.1 Aspectos Gerais ................................................................................................. 13 2.1.2 Elementos Repetitivos ....................................................................................... 17 2.1.2.1 Repetições em Tandem ....................................................................................... 17 2.1.2.2 Elementos Transponíveis .................................................................................... 20 2.1.3 Aspectos Evolutivos .......................................................................................... 26 2.2 SEQUENCIAMENTO, MONTAGEM E ANOTAÇÃO DE GENOMAS DE

PLANTAS ........................................................................................................... 29 2.2.1 Aspectos Gerais ................................................................................................. 29 2.2.2 Tecnologias de Sequenciamento de Nova Geração ........................................ 30 2.2.3 Ferramentas Computacionais para Montagem e Anotação de Genomas ... 32 2.3 CARACTERÍSTICAS GERAIS DA CAGAITEIRA (Eugenia dysenterica DC.) .. 36 2.3.1 Aspectos Biológicos ........................................................................................... 36 2.3.2 Caraterização Físico-Química ......................................................................... 37 2.3.3 Caracterização Genética Baseada em Caracteres Quantitativos e Marcadores

Moleculares ........................................................................................................ 39 3 MATERIAL E MÉTODOS ............................................................................. 43 3.1 EXTRAÇÃO DE DNA GENÔMICO E SEQUENCIAMENTO ....................... 43 3.2 AVALIAÇÃO E CONTROLE DE QUALIDADE DAS SEQUÊNCIAS ......... 44 3.3 DRAFT ASSEMBLY DO GENOMA DE E. dysenterica .................................... 45 3.4 IDENTIFICAÇÃO E CARACTERIZAÇÃO DE ELEMENTOS REPETITIVOS . 46 3.5 PREDIÇÃO E ANOTAÇÃO DE GENES ......................................................... 46 4 RESULTADOS E DISCUSSÃO ...................................................................... 48 4.1 CONTROLE DE QUALIDADE DOS DADOS DE SEQUENCIAMENTO .... 48 4.2 ESTIMAÇÃO DO TAMANHO DOS FRAGMENTOS DE SEQUENCIAMENTO ... 52 4.3 AVALIAÇÃO DO DRAFT ASSEMBLY ............................................................ 53 4.4 CARACTERIZAÇÃO GENÔMICA .................................................................. 55 4.4.1 Elementos Transponíveis .................................................................................. 55 4.4.2 Regiões Microssatélites ..................................................................................... 57 4.4.3 Genes e Transcritos ........................................................................................... 59 5 CONSIDERAÇÕES FINAIS ........................................................................... 66 6 REFERÊNCIAS ................................................................................................ 67

Page 10: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

RESUMO

RIBEIRO, S. B. Sequenciamento e caracterização parcial do genoma de cagaiteira (E. dysenterica DC.). 2016. 76 f. Dissertação (Mestrado em Genética e Melhoramento de Plantas) – Escola de Agronomia, Universidade Federal de Goiás, Goiânia, 2016.1

Com o desenvolvimento das tecnologias de análise genômica, entre elas o sequenciamento de nova geração (NGS), a obtenção de uma grande quantidade de dados de sequenciamento de DNA é hoje uma realidade. Estes dados, associados às ferramentas computacionais desenvolvidas para sua análise, permitem o acesso às informações sobre genomas de diversos organismos, através da montagem de suas sequências parciais ou completas, bem como sua caracterização estrutural e funcional. A cagaiteira (E.dysenterica DC.) é uma das espécies nativas do Cerrado que possui potencial de utilização em sistemas de produção agrícola, devido ao potencial de utilização de seus frutos, folhas e casca além de possuir grande valor ecológico, por servir de alimento para a fauna nas suas regiões de ocorrência. Apesar dos avanços obtidos, pouco se sabe sobre a organização e estrutura genética desta espécie, visto que os trabalhos já realizados fazem o uso de um pequeno número de marcadores moleculares, aplicados a estudos sobre sistema cruzamento e efeitos de eventos microevolutivos nas populações. Foi realizada a montagem e a caracterização parcial o genoma de E.dysenterica com relação à quantidade, estrutura e função de genes e DNAs repetitivos, de forma a agregar informações àquelas já existentes. DNAs de cinco indivíduos de populações distintas foram sequenciados utilizando a plataforma Illumina MiSeq. O controle de qualidade das sequências genômicas obtidas foi feito utilizando o FastQc e o Trimmomatic. O draft assembly foi obtido utilizando o dipSpades e o controle de qualidade do assembly foi feito utilizando o blastn e o SamTools. A identificação e caracterização de regiões repetitivas foi feita com os programas RepeatMasker, RepeatModeler e QDD. Para a predição e anotação de genes foram utilizados os programas AUGUSTUS e o Blast2GO. Foi obtido um volume inicial de 8,64 Gb de sequências, distribuídos em 63.017.960 reads. Este valor diminuiu para após o controle de qualidade, restando 5,63 Gb, distribuídos em 59.415.168 reads. Mesmo com diminuição da quantidade de dados, foi observado o aumento das taxas de alinhamento entre o genoma de E.dysentera e E.grandis, espécie mais próxima à cagaiteira, cujo genoma já foi sequenciado. Após a retirada de DNAs organelares e contigs menores que 500 bases, foram obtidos 130.243 contigs, representando 56,7% (~250 Mb) do tamanho estimado para o genoma de E.dysenterica (~442 Mb). Cerca de 35,3% do assembly é composto por regiões repetitivas das quais 27,1% são elementos transponíveis, sendo a maioria pertencente à ordem LTR retrotransposons. Foram identificadas 55.491 regiões microssatélites das quais 46.701 são monocleotídeos e 8.403 são dinucleotídeos. O motivo de repetição T/A foi o mais frequente, seguido por A/T e GA/TC. Foram preditos 60.171 fragmentos gênicos e 228.510 transcritos. Observou-se uma densidade de 1 gene a cada 7,3 kb e uma média de 3,8 transcritos por gene. Diante dos resultados obtidos e a abordagem utilizada, este trabalho faz da cagaiteira a primeira espécie vegetal nativa do Cerrado cujo genoma foi amplamente amostrado e caracterizado utilizando dados NGS.

Palavras Chave: Cagaiteira, draft assembly, Cerrado

Page 11: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

ABSTRACT

RIBEIRO, S. B. Sequencing and partial characterization of cagaiteira tree genome (E. dysenterica DC). 2016. 76 l. Dissertation (Master in Genetics and Plant Breeding) – Escola de Agronomia, Universidade Federal de Goiás, Goiânia, 2016.1

The development of genomic analysis technologies, mainly the next generation sequencing platforms (NGS), has enabled to obtain a large amount of DNA sequencing information. The association between NGS data and cutting edge computational tools affords access to whole genome information for different organisms, through whole genome assembly (or partial) and structural and functional characterization. The cagaiteira tree (E. dysenterica DC.) is one of the Cerrado native species with potential utilization in crop production systems, due to its products exploration: fruits, leaves and bark. Besides, it has ecological importance for food availability to local fauna. Despite the efforts made, little is known about the organization and genetic structure of the cagaiteira tree. The previous researches take into account a reduced number of molecular markers applied to mating systems studies and effects of micro evolutionary events in populations. In this study we obtained an assembly and a partial characterization of E. dysenterica genome, regarding number, structure and function of genes and repetitive DNA. We obtained DNA sequences for five individuals from different populations using Illumina MiSeq sequencing platform. The quality control was performed with FasQc and Trimmomatic. We assembled the reads using dipSPAdes and used blastn and Samtools to verify the assembly quality. We used Repeat Masker, Repeat Modeler and QDD to identify and characterize the repetitive DNA content. For gene prediction and annotation we used AUGUSTUS and Blast2GO. The raw DNA sequences amounted 8.64 Gb, distributed in 63,017,960 reads. After trimming for low quality, the amount decreased to 5.63 Gb, distributed in 59,415,168 reads. After filtering for organellar DNA and contigs smaller than 500 bp, we assembled 130,243 contigs, representing 56.7% (~250 Mb) of estimated E.dysenterica genome size (~442 Mb). About 35.3% of genome assembled comprised repetitive regions, of which 27.1% are transposable elements (most LTR retrotransposons). We identified 55,491 microsatellite regions, 46,701 mononucleotides and 8,403 dinucleotides. The T/A motif was the most common follow by A/T and GA/TC. We predicted 60,171 gene fragments and 228,510 transcripts. We observed a gene density of 1 gene per 7.3 Kb and an average of 3.8 transcripts per gene. This study makes the cagaiteira tree the first native plant species from Cerrado of which genome was widely sampled and characterized using NGS data.

Key words: Cagaiteira, draft assembly, Cerrado

Page 12: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

1 INTRODUÇÃO

Populações naturais de plantas estão cada vez mais vulneráveis à erosão

genética, ocasionada por eventos como uso inadequado dos solos e mudanças climáticas.

Estes eventos podem funcionar como agentes seletivos de genótipos, contribuindo para a

diminuição dos tamanhos populacionais e consequente perda de variabilidade genética.

Além disso, essas populações sofrem com os efeitos da depressão por endogamia devido à

fragmentação de seus habitats naturais (Ribeiro & Rodrigues, 2006).

O conhecimento acerca da estrutura genômica e variabilidade genética das

espécies é o primeiro passo para desenvolvimento de programas de conservação. A partir

dessas informações, é possível se obter estimativas de parâmetros populacionais que servirão

como guia na escolha dos materiais a serem conservados e assim aumentar a variabilidade

existente para vários caracteres em bancos de germoplasma (Zonneveld et al., 2012).

Com o desenvolvimento das tecnologias de análise genômica, entre elas o

sequenciamento de nova geração (NGS – Next Generation Sequencing), a obtenção de uma

grande quantidade de dados de sequenciamento de DNA é hoje uma realidade. Estes dados,

associados às ferramentas computacionais desenvolvidas para sua análise, permitem o

acesso às informações sobre genomas de diversos organismos, através da montagem de suas

sequências parciais ou completas, bem como sua caracterização estrutural e funcional. Essas

informações permitem verificar o potencial de aplicação e as limitações destas tecnologias

em estudos de genética da conservação e de genética e genômica de populações (Allendorf

et al., 2010; Zonneveld et al., 2012).

O sequenciamento de diversos genomas de plantas tem possibilitado desde a

análise conjunta dos aspectos genéticos e fenotípicos em comparações intraespecíficas da

diversidade genética, até a comparação interespecífica dos níveis de expressão gênica, de

sua relação com fenótipos e com as funções de genes de interesse (Cooper et al., 2012). O

Page 13: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

11

aumento do número de marcadores genéticos proporcionado por essas ferramentas tem

possibilitado a identificação de genes, de sequências repetitivas e de polimorfismos de uma

única base (SNPs - Single Nucleotide Polymorphism) nos genomas, que podem ser usados

para estudar de uma forma mais precisa os efeitos da seleção natural, da história

demográfica, do fluxo gênico e do parentesco nas populações de interesse (Carvalho & Silva,

2010; Davey et al., 2011; Ouborg et al., 2010).

O Cerrado compreende a segunda maior biodiversidade da América do Sul,

superado apenas pela Amazônia. Apesar de ser um bioma rico em espécies com potencial

econômico e ambiental, a maioria dessas espécies é utilizada de forma exclusivamente

extrativista e tem seu habitat natural substituído por monoculturas. Tais processos afetam a

estrutura genética e diminuem a ocorrência de populações naturais, evidenciando a

importância do desenvolvimento de programas de manejo e conservação dessa

biodiversidade (Gomes & Moura, 2010).

A cagaiteira é uma das espécies nativas do Cerrado que possui potencial de

utilização em sistemas de produção agrícola, principalmente devido ao potencial de

utilização de seus frutos, folhas e casca para obtenção de produtos alimentícios,

desenvolvimento de fármacos e ornamentação. A planta também possui grande valor

ecológico, por servir de alimento para a fauna nas suas regiões de ocorrência (Cardoso et al.,

2011; Martinotto et al., 2008).

Diversos estudos acerca da estrutura genética de populações naturais de

cagaiteira foram desenvolvidos nas últimas décadas, bem como sobre os efeitos de alguns

processos microevolutivos que atuam sobre essas populações. Esses estudos foram

realizados utilizando-se um pequeno número de marcadores moleculares, incluindo desde

isoenzimas até marcadores microssatélites, desenvolvidos exclusivamente para a espécie ou

transferidos de E. grandis, e trouxeram informações importantes para o desenvolvimento de

futuros programas de conservação e cultivo. Porém com a grande quantidade de informações

fornecidas pelas tecnologias de obtenção e na análise de dados, é possível obter ainda mais

informações acerca da composição e organização do genoma da espécie, estabelecendo uma

base para o campo da genômica populacional (Carvalho & Silva, 2010; Telles et al., 2001a;

2001b; Trindade & Chaves, 2005, Zucchi, 2004; Zucchi, 2005).

Page 14: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

12

O constante desenvolvimento de tecnologias para geração e análise de dados

genômicos possibilitou a condução de estudos genômica para diversas espécies de plantas.

Para a família Myrtaceae, à qual pertence a cagaiteira, estes estudos ainda encontram-se

limitados a espécies do gênero Eucalyptus e Eugenia uniflora. Segundo Escudero (2014),

por apresentarem características como genomas relativamente pequenos e diploidia, as

espécies dessa família são fortes candidatas a modelos para estudo e compreensão de

diferentes processos biológicos que ocorrem em plantas (Da Costa et al., 2008). Quando

associadas às tecnologias e ferramentas de análise disponíveis, essas características podem

facilitar a obtenção de informações sobre genes e elementos reguladores, que por sua vez

podem ser utilizadas como referência para a compreensão da variação genômica em nível

populacional (Feuillet et al., 2011; Escudero, 2014).

Neste contexto, o presente estudo teve como objetivo obter uma amostra do

genoma de E. dysenterica que permitisse caracterizá-lo com relação à quantidade, estrutura

e função de genes e DNAs repetitivos, de forma a agregar informações àquelas já existentes.

Pela abordagem utilizada, este trabalho faz da cagaiteira a primeira espécie vegetal nativa

do Cerrado cujo genoma foi amplamente amostrado e caracterizado utilizando dados NGS.

Page 15: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

2 REVISÃO DE LITERATURA

2.1 ESTRUTURA GENÔMICA DE PLANTAS

2.1.1 Aspectos Gerais

A quantidade de sequências genômicas disponíveis têm crescido rapidamente

nas últimas décadas, possibilitando a caracterização de genomas de diversos organismos,

modelos e não-modelos. Este processo tem revelado detalhes específicos de cada espécie

que incluem a estrutura e o tamanho dos genomas, bem como seus padrões de duplicação e

número de genes, além da grande quantidade de elementos repetitivos, suas funções e efeitos

(Caicedo & Purugganan, 2005; Michael & Jackson, 2013).

Assim como nos demais organismos eucariotos, os genomas de plantas são

compostos basicamente por moléculas de DNA associadas a proteínas, as quais formam

unidades denominadas nucleossomos. Os nucleossomos por sua vez estão dispostos em

intervalos de ~200 pb, compactados em arranjos que formam a cromatina (Heslop-Harrison

& Schwarzacher, 2011; Michel & Jackson, 2013). A cromatina é organizada em

cromossomos, não sendo conhecido outro padrão de organização até o momento. Cada

cromossomo consiste em uma única molécula de DNA linear e ininterrupta de uma

extremidade à outra. Além das proteínas que se ligam ao DNA, nos cromossomos também

ocorrem proteínas associadas aos processos de expressão gênica, replicação e reparo

(Alberts et al., 2010; Heslop-Harrison & Schwarzacher, 2011).

Os cromossomos de plantas são divididos longitudinalmente em partes

delimitadas pela ocorrência de duas estruturas: o centrômero e o telômero. O centrômero

divide o cromossomo em dois braços e define a sua morfologia, além de permitir que uma

cópia de cada cromossomo duplicado seja levada às células filhas durante a divisão celular.

Contém sequências repetitivas, incluindo DNAs satélites em sua região central e elementos

transponíveis nas regiões flanqueadoras (Matsumoto et al., 2005). Os centrômeros não estão

Page 16: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

14

sujeitos à recombinação, o que provavelmente está relacionado com os padrões únicos de

evolução molecular observados nos genes que residem nessas regiões. Os telômeros são

sequências repetitivas, localizadas nas extremidades dos cromossomos e que permitem a sua

replicação eficiente. Essas estruturas também evitam, juntamente com suas regiões

adjacentes, que as extremidades dos cromossomos sejam confundidas com moléculas que

necessitem de reparo (Kellog & Bennetzen, 2004; Heslop-Harrison & Schwarzacher, 2011).

Comumente dois tipos de cromatina estão presentes em células vegetais: a

heterocromatina e a eucromatina. A heterocromatina concentra-se principalmente em

regiões do centrômero e telômero. O DNA heterocromático possui poucos genes e apresenta

elevado nível de compactação, o que torna essa região, do ponto de vista de expressão gênica,

pouco ativa. Apesar dessa condição, em Arabidopsis, por exemplo, foram identificados 47

genes expressos nessas regiões. A eucromatina consiste de regiões menos condensadas, que

constituem a maior parte dos cromossomos interfásicos. São regiões geralmente ricas em

genes, com níveis elevados de atividade de transcrição e recombinação na meiose (Alberts

et al., 2010; Hamilton et al., 2012).

Os cromossomos carregam genes. Genes são definidos como segmentos de DNA

que contêm as instruções para produção de determinadas proteínas, embora existam genes

cujos produtos finais sejam moléculas de RNA. Essas moléculas podem exercer diversas

funções estruturais e catalíticas nas células, como codificação de proteínas, splicing do pré-

mRNA e transporte de proteínas (Bennetzen et al., 2004; Michel & Jackson, 2013).

Além dos genes, os cromossomos de plantas contêm um excesso de DNA

repetitivo, organizado lado a lado ou de forma intercalante, que por muito tempo foi

considerado “DNA-lixo” por não ter função conhecida. Atualmente, sabe-se que parte dessas

sequências está envolvida na expressão gênica, além de apresentar outras funções que vêm

sendo estudadas (Alberts et al., 2010; Hua-Van et al., 2011).

A informação genética nas plantas pode ser encontrada tanto no núcleo das

células quanto em organelas (mitocôndrias e cloroplastos), sendo possível ainda encontrar

DNAs organelares inseridos de forma independente no DNA nuclear desses organismos. Na

análise do genoma de arroz, por exemplo, observou-se que 0,20-0,24% e 0,18-0,19% do

genoma nuclear é composto por inserções de DNA cloroplastidial e mitocondrial,

respectivamente (Matsumoto et al., 2005).

Page 17: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

15

Genomas de plantas são conservados em sua estrutura geral, porém variam

quanto ao tamanho e número de cromossomos, não se observando uma relação direta entre

esses dois aspectos. Isso pode ser demostrado pela comparação entre o genoma de arroz

(Oryza sativa) e cevada (Hordeum vulgare), em que o primeiro possui cerca de 389 Mb

distribuídos em 12 cromossomos, enquanto o genoma de cevada tem seus 5100 Mb

distribuídos em apenas sete cromossomos (Kellogg & Bennetzen, 2004; Michael & Jackson,

2013; Phytozome, 2015). Outro exemplo pode ser observado entre espécies da família

Myrtaceae (n=11), em que as estimativas feitas por citometria de fluxo revelam variações

entre gêneros e espécies, que vão desde 245 Mb, para Eugenia uniflora, até 545 Mb, em

Eucalyptus globulus. O projeto de sequenciamento do genoma de Eucalyptus grandis

revelou que seu genoma possui cerca de 640 Mb. Até o momento, o menor genoma

sequenciado é o da planta carnívora Utricularia gibba (82 Mb, n=16) e o maior é o de trigo,

um alopoliploide (Triticum aestivum, 17 Gb, n=3x=21) (Grattapaglia et al., 2012; Michael

& Jackson, 2013).

Os genes de plantas têm se apresentado bastante compactos e distribuídos mais

ou menos ao acaso, com variações substancias de densidade em posições diferentes dentro

de um mesmo cromossomo. Um exemplo dessa variação é a quantidade média de genes

identificados em Arabidopsis, aproximadamente 25 genes a cada 100 kb em regiões de

centrômeros e telômeros, podendo variar de 1 a 38 genes a cada 100 kb fora dessas regiões.

No genoma de arroz, a densidade é de 10,1 genes a cada 100 kb. Em pêssego, essa densidade

é de 12,2 genes a cada 100 kb (Brown, 2002; Matsumoto et al., 2005; Verde et al., 2013).

Durante a replicação, quando ocorrem erros que resultam em duplicações de

partes do genoma, ocorre a retenção de segmentos de DNA originais ou duplicados. Genes

duplicados dessa forma geralmente passam então a realizar funções especializadas dentro da

célula. Repetições deste processo, ao longo de milhares de anos, têm dado origem às famílias

gênicas. As famílias gênicas podem ter tamanhos variáveis entre espécies e desempenhar

funções importantes relacionadas à adaptação ou à especiação, tais como fatores de

transcrição, enzimas, transportadores ou transdutores moleculares (Alberts et al., 2010;

Lópes-Flores, 2012; Guo, 2013; Martinez, 2011).

Genes que se diferenciam gradualmente ao longo da evolução, cujas cópias

foram produzidas em eventos de especiação, e geralmente continuam exercendo a mesma

função em espécies diferentes, são chamados ortólogos. Aqueles que resultam de um evento

Page 18: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

16

de duplicação dentro de um único genoma, e que geralmente adquirem funções

especializadas, são chamados parálogos. Ambos, os genes ortólogos e os genes parálogos,

por apresentarem uma ancestralidade comum, são chamados de homólogos (Alberts et al.,

2010).

Genes são altamente conservados, permanecendo reconhecíveis em todas as

espécies. Novos genes sempre surgem a partir de sequências de DNA já existentes, podendo

ocorrer inovações a partir de mutações intragênicas, duplicações gênicas, embaralhamento

de segmentos e transferência horizontal. Evolutivamente, todos esses eventos deixam

evidências de seu acontecimento, através de traços característicos que podem ser detectados

na sequência de DNA (Alberts et al., 2010).

Alguns RNAs produzidos por genes, apesar de não codificarem proteínas

(ncRNAs - non-coding RNA), contêm em sua estrutura informações que possibilitam sua

atuação como componentes estruturais e enzimáticos para uma ampla gama de processos nas

células (Alberts et al., 2010; Cui & Cao, 2014; Dias Correia & Dias Correia, 2007). Os

pequenos RNAs nucleares (snRNA - small nuclear RNA), por exemplo, direcionam o

splicing do pré-RNA para formar moléculas de RNA mensageiro (mRNA). Os RNAs

ribossomais (rRNAs) são responsáveis pela formação da estrutura básica dos ribossomos,

além de catalisarem a síntese proteica. Moléculas de RNAs transportadores (tRNAs)

funcionam como adaptadores entre o mRNA e os aminoácidos. Sabe-se também que

moléculas de microRNAs (miRNAs) e pequenos RNAs de interferência (siRNAs - small

interfering RNA) atuam como reguladores-chave na expressão de genes eucarióticos (Cui &

Cao, 2014; Dias Correia & Dias Correia, 2007; Martienssen & Moazed, 2015).

Os genes podem ser classificados de acordo com suas funções ou com base nas

estruturas das proteínas codificadas por eles, através da análise dos domínios que formam

essas proteínas. O método de classificação baseado na estrutura das proteínas pode ser

aplicado mesmo a genes cujas funções não são conhecidas, abrangendo o conjunto total de

genes constituintes de determinado genoma. O método de classificação baseado em funções

utiliza o princípio segundo o qual todos os organismos eucariotos possuem o mesmo

conjunto básico de genes, mas as espécies mais complexas têm um maior número de genes

em cada categoria. Este método apresenta a desvantagem de deixar de fora uma parte do

conjunto total de genes, em casos onde suas funções ainda não foram identificadas (Brown,

2002).

Page 19: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

17

2.1.2 Elementos Repetitivos

O termo “elementos repetitivos” refere-se a fragmentos de DNA que estão

presentes em múltiplas cópias, podendo representar grande parte do genoma de algumas

espécies. Em uva, cerca de 41% do genoma é formado por elementos repetitivos, proporção

mais elevada do que a encontrada no genoma de arroz (~35%), que tem um tamanho inferior.

Em milho, os elementos repetitivos representam mais de 80% do genoma (Jaillon et al.,

2007; Mehrotra & Goyal, 2014; Schnable et al., 2009).

Os DNAs repetitivos podem ser divididos em dois grandes grupos que

compreendem aqueles organizados em matrizes de repetições em tandem (DNAs satélites,

minissatélites e microssatélites) e repetições intercaladas (elementos transponíveis). As

repetições em tandem representam matrizes de fragmentos de DNA imediatamente

adjacentes uns aos outros na orientação de 5’ ⟶ 3’. Já as repetições intercaladas são

fragmentos de DNA de tamanho superior a 20 kb, inseridos mais ou menos ao acaso no DNA

hospedeiro (Jurka et al., 2007; Lerat 2010; Lópes-Flores & Garrido-Ramos, 2012).

2.1.2.1 Repetições em Tandem

As sequências de DNA repetidas em tandem, podem ser classificadas em três

grupos, de acordo com o comprimento da unidade de repetição e o tamanho da matriz. O

primeiro grupo consiste em repetições compostas por motivos de até seis pb e um tamanho

de matriz que pode variar de 10-100 unidades, conhecidos como microssatélites ou

repetições simples repetidas (SSR - Simple Sequence Repeats) (Lópes-Flores & Garrido-

Ramos, 2012; Mehrotra & Goyal, 2014).

Os microssatélites são sequências comuns em genomas de eucariotos e

procariotos e que apresentam altos níveis de polimorfismo alélico. O polimorfismo e a

variabilidade dessas regiões as tornaram amplamente utilizados no desenvolvimento de

marcadores moleculares. Esses marcadores têm sido aplicados a estudos de mapeamento

genético, genética de populações e biologia da conservação para diversos organismos (Amos

et al., 2008; Bhargava & Fuentes, 2010).

Essas repetições são classificadas de acordo com o motivo de repetição em

mono, di, tri, tetra, penta e hexanucleotídeos. A classificação também é feita, de acordo com

o tipo de repetição, em perfeitos ou imperfeitos, interrompidos ou compostos.

Page 20: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

18

Microssatélites perfeitos são sequências formadas apenas pelas bases que constituem os

motivos repetidos, já nos imperfeitos há um par de bases que não corresponde ao motivo

repetido. Em um microssatélite interrompido existe uma pequena sequência dentro da

repetição que não coincide com a sequência do motivo, enquanto os microssatélites

compostos são formados por pelo menos dois motivos de repetição distintos adjacentes

(Bhargava & Fuentes, 2010; Oliveira et al., 2006).

Em genomas de plantas, os microssatélites de mononucleotídeos predominam

sobre os formados pelos demais tipos de repetições, sendo o motivo A/T descrito como o

mais frequente nesses organismos. Os de dinucleotídeos vêm em seguida, sendo os motivos

GA/TC e AT/AT os mais frequentes. Já os de trinucleotídeos são menos frequentes nos

genomas de uma maneira geral, ocorrendo com maior frequência em regiões codificantes

(Bhargava & Fuentes, 2010, Lópes & Flores & Garrido-Ramos 2012; Myburg et al., 2014).

Dentre os principais critérios utilizados na seleção de locos microssatélites para

serem utilizados como marcadores moleculares estão: o tipo de repetição (di, tri, tetra, penta

ou hexanucleotídeos), o número de repetições, o número de alelos por loco e a magnitude da

heterozigosidade (Buschiazzo & Gemmell, 2006). Segundo Lourenço (2004),

microssatélites de mononucleotídeos não têm praticamente utilidade. Nestes casos a

identificação dos alelos é bastante trabalhosa e muito sujeita a erros. Marcadores baseados

neste tipo de polimorfismo estão sujeitos a um efeito denominado stutter, caracterizado pelo

surgimento de “sombras” de bandas com uma repetição a mais ou a menos do que o alelo

verdadeiro (Myburg et al., 2014; Lourenço, 2004).

Os microssatélites são encontrados com frequências altamente variáveis em

diferentes espécies, tanto em regiões codificantes quanto não codificantes (Amos et al.,

2008; Buschiazzo & Gemmell, 2006). Zhao et al. (2013) sugerem que não há uma relação

significativa entre o tamanho dos genomas de plantas e a densidade de microssatélites.

Morgante et al. (2002) avaliaram a frequência de microssatélites em cinco espécies de

plantas (Arabidopsis, soja, milho, arroz e trigo) e observaram que as frequências de

microssatélites são significativamente diferentes entre as plantas estudadas. Nas espécies

que possuem genomas maiores, como milho e trigo, as quantidades de microssatélites

identificados foram menores. Tal hipótese foi corroborada ainda pela frequência observada

de 0,85% de microssatélites no genoma de Arabidopsis (125 Mb), comparada aos 0,37%

observados no genoma de milho (2300 Mb).

Page 21: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

19

Os principais mecanismos de mutação em microssatélites são o deslizamento de

cadeia durante a replicação (strand-slippage) e recombinação desigual (Figura 1). Ambos os

processos implicam no pareamento incorreto dos filamentos de DNA, acarretando ganho ou

perda de unidades de repetição. Modelos alternativos estão sendo utilizados para explicar a

evolução destes elementos. Esses modelos compartilham a pressuposição de que cada loco

pode variar independente do comprimento, ao longo do tempo (Ellegren, 2004; Lópes-Flores

& Garrido-Ramos, 2012).

Figura 1. Mecanismos de mutação de regiões microssatélites. a) Erros durante a recombinação

intracromossomal podem produzir alelos curtos com números reduzidos de unidades de repetição. Alternativamente, o crossing-over desigual pode ampliar ou diminuir o tamanho dos alelos. b) O deslizamento de cadeia pode acarretar erros de pareamento entre os nucleotídeos durante a replicação do DNA, resultando em diminuição ou aumento de unidades de repetição. Fonte: Gemayel et al. (2010).

As taxas de mutação de regiões microssatélites podem variar entre locos, alelos

e espécies e dependem de características como o número de unidades repetidas, o

comprimento da repetição e o motivo repetido. Devido à maior probabilidade de

deslizamento, regiões com maior número de repetições tendem a ser mais mutáveis

(Bhargava & Fuentes, 2010). A mutabilidade de microssatélites depende também da

constituição genômica das sequências que flanqueiam essas regiões.

Os minissatélites constituem o segundo grupo de repetições em tandem e são

formados por sequências com mais de 9 pb de comprimento e um tamanho da matriz de 0,5-

Page 22: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

20

30 kb. A maioria dos minissatélites é rica em GC, com uma forte assimetria em suas cadeias.

O polimorfismo dessas regiões resulta de variações no número de repetições e da capacidade

que algumas dessas matrizes têm em hibridizar com dezenas de outras regiões semelhantes

no genoma. Os minissatélites foram os primeiros marcadores moleculares altamente

polimórficos e multialélicos utilizados em estudos de ligação e nos estágios iniciais de

mapeamento do genoma humano (Vergnaut & Denoeud, 2000; Oliveira et al., 2015).

Minissatélites ocorrem não só em DNA nuclear mas também no genoma de

cloroplastos e mitocôndrias, como observado em arroz e em espécies do gênero Brassica.

Podem ser encontrados em aglomerados nas regiões pericentroméricas dos cromossomos e

geralmente constituem regiões hipervariáveis e não codantes (Lópes-Flores & Garrido-

Ramos, 2012; Mehrotra & Goyal, 2014; Oliveira et al., 2015).

O terceiro grupo de repetições em tandem envolve as sequências de DNAs

satélites (satDNA), que consistem de repetições curtas não codificantes. Estes elementos

podem representar cerca de 30% do DNA de algumas plantas e são os principais

componentes da heterocromatina, encontrada nos cromossomos (Ambrozová et al., 2011;

Mehrotra & Goyal, 2014; Garrido-Ramos, 2015). Famílias de DNA satélite podem surgir

por mecanismos moleculares como crossing-over desigual, amplificação por círculo rolante,

deslizamento durante a replicação e por mutação. Elas se diferenciam de acordo com a

localização, sequência de nucleotídeos, complexidade das sequências, abundância e

comprimento das unidades de repetição. Segundo Garrido-Ramos (2015), funções

biológicas têm sido sugeridas para as diferentes famílias de DNA satélite, além de outras

funções como organização, emparelhamento e segregação dos cromossomos (Pezer et al.,

2012; Plohl et al., 2012, 2014; Rao et al., 2010).

2.1.2.2 Elementos Transponíveis

Os elementos transponíveis (TEs - Transposable Elements) são fragmentos de

DNA que têm a capacidade de se mover e de se inserir em novas posições do genoma, muitas

vezes fazendo cópias de si mesmos durante esse processo. Quando ativos, devido à sua

mobilidade e capacidade de auto replicação, esses elementos tornaram-se componentes

abundantes e responsáveis por boa parte da diversidade genômica observada (Barron et al.,

2014; Feschotte et al., 2002; Lópes-Flores & Garrido-Ramos, 2012).

Page 23: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

21

Os TEs foram primeiramente descritos por Barbara McClintock, nos anos de

1940, em estudos sobre quebras cromossômicas em milho. Na época, esses elementos foram

chamados de “elementos controladores”, por estarem relacionados a alterações na expressão

de genes que estivessem próximos ou nos próprios locais de inserção dos mesmos. Em

plantas, a primeira clonagem desses elementos foi feita no início dos anos de 1980. Com o

sequenciamento de diversos genomas, foi possível identificar a presença de TEs em

praticamente todos os eucariotos analisados até agora (Bennetzen & Wang, 2014; Wicker et

al., 2007).

Os TEs exibem uma grande diversidade, podendo constituir cerca de 80% do

DNA genômico total de espécies como o milho. Inicialmente, os TEs podem ser divididos

em dois grupos, o primeiro grupo envolve elementos de replicação autônoma, capazes de

codificar um conjunto completo de enzimas características de sua família, sendo auto

suficientes em termos de transposição. Os elementos autônomos são então capazes de se

mover e acumular cópias de si mesmos em novas posições do genoma. Estes elementos já

foram vistos como egoístas desde que Hickey (1982) descobriu sua capacidade de se

espalhar nas populações, mesmo causando mutações prejudiciais (Hurst & Werren, 2001,

Jurka et al., 2007).

Elementos não-autônomos formam o segundo grupo e envolvem aqueles que se

transpõem por meio de empréstimos da maquinaria de proteínas, codificadas por seus

parentes autônomos. Os não-autônomos carecem de alguns (ou todos) os domínios

encontrados em elementos autônomos. Normalmente, contém uma região de codificação

altamente degenerada, ou mesmo a falta de capacidade de codificação (Jurka et al., 2007;

Wicker et al., 2007).

Finnegan (1989) foi o primeiro a propor um sistema de classificação para os TEs,

distinguindo estes elementos de acordo com seus mecanismos de transposição. Além da

divisão em classes, os TEs podem ainda ser agrupados em subclasses e ordens, com base

nas suas relações estruturais, e em superfamílias e famílias, de acordo com a similaridade de

sequências (Barrón et al., 2014).

Segundo Wicker et al. (2007) o nível taxonômico ordem é utilizado para marcar

grandes diferenças nos mecanismos de inserção e consequentemente, na organização geral

do elemento. As superfamílias, dentro de ordens, distinguem-se a partir da estrutura das

Page 24: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

22

proteínas codificadas ou dos domínios de codificação, além da presença e tamanho do sítio

alvo de duplicação (TSD - Target Site Duplication) que consiste de uma pequena repetição

em ambos os flancos de inserção de um TE. As superfamílias são subdivididas em famílias,

as quais são definidas pela conservação da sequência de DNA. A similaridade entre as

proteínas codificadas é geralmente elevada entre as diferentes famílias que pertencem à

mesma superfamília. Por outro lado, a conservação da sequência de DNA é mínima e restrita

a partes altamente conservadas das regiões codificantes (Wicker et al., 2007).

Os elementos transponíveis da classe I, também chamados de retrotransposons,

utilizam um RNA intermediário cujo transcrito é utilizado como molde para um novo DNA,

produzido através da atividade de uma transcritase reversa (RT - Reverse Transcriptase).

Em seguida esse novo DNA é inserido no genoma hospedeiro através de uma enzima

integrase ou endonuclease (Figura 2). Cada ciclo de replicação completo produz uma nova

cópia, fazendo com que os retrotransposons sejam muitas vezes os principais contribuintes

para a fração repetitiva em grandes genomas (Bennetzen & Wang, 2014; Hurst & Werren,

2001).

Figura 2. Elemento transponível pertencente à classe I (retrotransposons). O mecanismo de

transposição desses elementos baseia-se na atividade de uma transcritase reversa que utiliza o produto de um RNA intermediário para gerar uma cópia do fragmento de DNA original. Fonte: Lisch et al. (2013).

Page 25: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

23

Os retrotransposons podem ser divididos em cinco ordens: retrotransposons

LTR, LINEs, DIRs-like, Penelopes (PLEs) e SINEs. O comprimento desses elementos pode

variar de algumas centenas até 25 Kb (Jurka et al., 2007; Wicker et al., 2007). Os membros

da ordem DIRS (Dictyostelium Intermediate Repeat Sequence) têm sido detectados em

diversas espécies, que vão de algas verdes até animais e fungos. Já os elementos da ordem

PLE foram encontrados pela primeira vez em Drosophila virilis e já foram detectados em

mais de 50 espécies de animais, fungos e plantas (Lopes-Flores, 2012; Wicker et al., 2007).

Os retrotransposons LTR diferenciam-se das demais ordens por possuírem uma

estrutura com capacidade de codificação chamada repetição terminal longa (LTR - Long

Terminal Repeat) em suas duas extremidades (Figura 3). Os retrotransposons LTR são os

elementos transponíveis encontrados com maior frequência em plantas, representando cerca

de 35% das repetições do genoma de arroz, 55% do genoma de sorgo e 75% do genoma de

milho. Tais achados sugerem que há uma correlação positiva entre o tamanho dos genomas

e a quantidade de retrotransposons LTR. Em plantas, os elementos LTR mais comumente

encontrados são pertencentes às superfamílias Copia e Gypsy (Lerat, 2010).

Os retrotransposons da ordem LINE (Long Interspersed Elements) são

elementos autônomos, ou seja, possuem toda a maquinaria necessária para sua transposição.

Esses elementos não possuem sequências LTR, porém podem exibir uma cauda poli-A em

sua extremidade 3’. Os elementos da família SINE (Short Interspersed Elements), também

desprovidos de sequências LTR, são elementos não autônomos, ou seja, dependem de

proteínas codificadas pelos LINEs para sua transposição (Figura 3) (Lopes-Flores, 2012;

Wicker et al., 2007).

Page 26: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

24

Figura 3. a) Representação da estrutura dos retrotransposons LTR. b) Estrutura de elementos que

não possuem regiões LTR (LINEs e SINEs). Fonte: Jurka et al. (2007).

Os elementos transponíveis da classe II, também conhecidos como transposons

de DNA utilizam uma transposase para excisar um DNA e inseri-lo em outros locais (Figura

4), processo também conhecido como recorta-e-cola (cut-and-paste) (Bennetzen & Wang,

2014). A classe II contém duas subclasses, que se distinguem pelo número de cadeias de

DNA que são cortadas durante a transposição. A subclasse I compreende os elementos da

ordem TIR (Terminal Inverted Repeats) (Figura 4), caracterizados por suas repetições

terminais invertidas de comprimento variável. As nove superfamílias conhecidas

distinguem-se pelas sequências TIR e pelo tamanho da região TSD (Figura 4). Em plantas

os elementos TIRs mais comuns são os Ac-Ds, primeiros elementos transponíveis descritos,

identificados primeiramente em milho (Wicker et al., 2007).

Os helitrons compreendem a subclasse II dos transposons de DNA e se

diferenciam dos demais quanto ao mecanismo de transposição que ocorre por meio de

círculo rolante (Figura 4) (Bennetzen & Wang, 2014). De modo geral os Helitrons não

parecem reconhecer TSDs. Apesar disso, no genoma do milho, em que foram melhor

caracterizados, apresentam certa especificidade de inserção por estarem sempre próximos

uns aos outros e dispostos na mesma orientação (Yang & Bennetzen 2009).

Os TEs podem apresentar diversos efeitos, de acordo com sua estrutura e local em que

estejam inseridos. A presença de TEs em regiões gênicas pode causar alterações na

expressão desses genes. Isso foi observado em milho, onde a inserção de elementos

transponíveis no gene b1 resultou na mudança da expressão desse gene nos grãos, alterando

sua cor. Da mesma forma, em laranja, a inserção de um retrotransposon no gene que confere

a cor da polpa foi responsável pelo mutante Ruby, dando origem à variedade de frutos com

Page 27: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

25

polpa avermelhada, conhecida como Blood Orange (Figura 5) (Lisch et al., 2013). TEs

também podem aumentar a expressão de genes, alterando drasticamente o fenótipo de

algumas plantas. Esse fato tem sido observado durante o processo de domesticação do milho.

Figura 4. Transposons de DNA representando a subclasse I, que compreende os elementos da

ordem TIR e a subclasse II, que compreende os Helitrons. Fonte: Jurka et al. (2007).

Figura 5. Alterações na cor da polpa de laranjas, ocasionadas pela inserção de um retrotrasposon.

Fonte: Lisch (2013).

Page 28: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

26

Dentre os cinco locos que separam o milho comercial do seu ancestral selvagem, teosinte, o

loco tb1 codifica um fator que reprime a ramificação, logo a super-expressão desse gene em

milho, resultou numa drástica diminuição na quantidade de ramos quando comparado aos

seus genitores selvagens, e isso se deve à atividade do retrotransposon Hopscotch, situado

na região de codificação do gene (Lisch et al., 2013).

Mesmo diante de alguns exemplos de vantagens adaptativas ocasionadas pela

inserção de TEs, esses elementos estão de modo geral associados a efeitos deletérios. As

plantas dedicam recursos consideráveis para o controle da atividade desses elementos, o que

geralmente é conseguido por silenciamento epigenético. Os mecanismos epigenéticos são a

primeira linha de defesa contra a proliferação descontrolada de TEs e incluem a metilação

do DNA, a remodelação da cromatina e os siRNAs (Lee & Kim, 2014; Lisch, 2013).

Apesar dos elementos transponíveis terem sido considerados por muito tempo

como DNA-lixo ou egoísta, a seleção contra suas consequências negativas, bem como as

estratégias específicas utilizadas por estes elementos e por seus hospedeiros para amenizar

essas consequências garantem que a maioria das mudanças sobreviventes causadas por TEs

sejam seletivamente neutras ou apenas levemente prejudiciais (Lisch, 2013).

2.1.3 Aspectos Evolutivos

Dentre as descobertas realizadas na análise da grande quantidade de informação

obtida pelo sequenciamento de genomas, as descobertas da existência de sequências de DNA

conservadas e de genes homólogos são de longe as maiores. Como resultado, a análise de

similaridade entre sequências se tornou uma ferramenta poderosa por permitir a detecção de

sinais de eventos evolutivos passados. Duplicações de genes, segmentos cromossômicos ou

de genomas inteiros, fontes primárias de novidades evolutivas, incluindo novas funções e

padrões de expressão gênica, são eventos detectáveis pelas modernas técnicas de análise

genômica comparativa (Alberts et al., 2010; Vanneste et al., 2014a).

O sequenciamento de genomas tem demostrado que eventos de duplicação em

pequena e grande escala ocorreram em muitas etapas da evolução, especialmente em

linhagens de plantas, onde há evidências de duplicações recorrentes de genomas inteiros

(WGDs - Whole Genome Duplications) (Figura 6). Muitos desses eventos parecem estar

associados a períodos com maiores níveis de estresse ambiental, algo que pode ser observado

Page 29: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

27

nas linhagens evolutivas de espécies de plantas poliploides e paleopoliploides formadas há

cerca de 66 Ma, a partir do evento de extinção ocorrido no período Cretáceo-Paleogeno

(Vanneste et al., 2014b).

As primeiras análises de sequências de plantas evidenciaram eventos de

duplicação do genoma em espécies que eram anteriormente consideradas diploides. Estes

eventos tiveram consequências importantes na evolução desses organismos. Na medida em

que mais espécies de plantas foram analisadas, tornou-se claro que muitos genomas de

plantas tinham sofrido poliploidização (completa ou parcial) e outros rearranjos

cromossômicos (Bancroft, 2001; Cui et al.,2006; Jaillon et al., 2007).

Figura 6. Eventos de duplicação de genomas em plantas. As barras horizontais representam

eventos de WGD observados com maior frequência a partir do Cretáceo (barras vermelhas). A barra tracejada indica um possível WGD na base das plantas monocotiledôneas, porém sua colocação filogenética exata ainda permanece pouco clara. Fonte: Vanneste et al. (2014b).

A poliploidização é uma força preponderante na evolução das plantas e causa

efeitos profundos que vão desde alterações moleculares a alterações ecológicas. Os genomas

das plantas modernas abrigam provas de várias rodadas desses eventos, muitas vezes

Page 30: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

28

seguidos de silenciamento e eliminação de genes. As angiospermas em particular têm sido

alvo de estudos relacionados à frequência de poliploidização em seus genomas. Estima-se

que cerca de 30-50% dessas espécies são poliploides (Adams et al., 2005, Cui et al., 2006;

Soltis et al., 2014).

A análise do genoma de Arabidopsis revelou que 60% desse genoma está contido

em grandes segmentos que foram duplicados, embora menos da metade dos genes nesses

segmentos tenham sido conservados. Em Populus, há evidências de ocorrência de um evento

de WGD datado de 8-13 Ma, em que cerca de 8000 pares de genes duplicados nesse evento

sobreviveram no genoma. Um evento mais antigo de duplicação (~100-120 Ma) coincide

com o período em que ocorreu a divergência entre Populus e Arabidopsis (Fawcett et al.,

2009; Tuskan et al., 2006).

As análises genômicas realizadas em Eucalyptus grandis revelaram que a

história evolutiva do genoma da espécie é marcada por um evento de paleotetraploidização

de uma linhagem específica, sobreposto ao evento de paleohexaploidização anteriormente

compartilhado por todas as plantas eudicotiledôneas. Estima-se que este evento tenha

ocorrido há ~110 milhões de anos atrás (Myburg et al., 2014; Vanneste et al., 2014a).

Os eventos de duplicação de genes e genomas muitas vezes resultam em

alterações fenotípicas que contribuem para a domesticação e sucesso das espécies. Em

tomate, por exemplo, há evidência de um evento de triplicação do genoma compartilhado

com batata que resultou na produção de frutos carnosos, característica importante para a

distribuição das sementes, por atrair dispersores vertebrados. O evento foi responsável pelo

surgimento de famílias gênicas, relacionadas ao amadurecimento e pigmentação dos frutos

(Sato et al., 2012).

Pode-se observar que a maioria dos eventos identificados na evolução de

genomas de plantas, até agora, ocorreram em um curto intervalo de tempo. As WGDs

parecem tem ocorrido no período que corresponde ao evento de extinção do Cretáceo-

Paleogeno, o que sugere que as espécies poliploides atuais estabeleceram-se e proliferaram

devido às suas vantagens evolutivas quando comparadas aos seus genitores diploides. Essas

vantagens surgiram a partir de eventos cataclísmicos ou de grande turbulência ambiental

(Fawcett et al., 2009).

Page 31: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

29

2.2 SEQUENCIAMENTO, MONTAGEM E ANOTAÇÃO DE GENOMAS DE PLANTAS

2.2.1 Aspectos Gerais

Diversas razões contribuem para o grande interesse dos pesquisadores no

sequenciamento de genomas de plantas. Esses organismos formam a base da cadeia

alimentar, servindo como fonte de alimento para os demais seres vivos. A importância

ecológica das plantas envolve espécies que são responsáveis pela manutenção do equilíbrio

dos ciclos de carbono, proteção dos solos contra erosões e por constituírem uma promissora

fonte de energia renovável. As plantas dão origem a produtos utilizados na medicina e

servem como organismos-modelo para estudos de sistemas biológicos, tais como função dos

elementos transponíveis e epigenética. Mesmo diante de todas estas razões, poucos genomas

de plantas foram sequenciados, levando-se em consideração a quantidade de espécies

existentes (Schatz et al., 2012).

O primeiro genoma de planta a ser sequenciado foi o de Arabidopsis thaliana,

seguida por Oryza sativa, Carica papaya e Zea mays, todos utilizando o método de

sequenciamento automático com eletroforese por capilares. O aumento na quantidade de

genomas de plantas sequenciados, principalmente a partir do ano de 2011 no qual 12

sequências de genomas foram publicadas, está relacionado ao constante desenvolvimento de

tecnologias de obtenção e análise de dados. Essas novas tecnologias permitem maior

rendimento, com menor tempo e custo por gigabase, quando comparadas aos métodos

anteriores (Michael & Jackson, 2013; Schatz et al., 2012).

O acesso a informações genômicas obtidas a partir desses dados tem

possibilitado a anotação de novos genes, bem como o desenvolvimento de estudos de

genômica comparativa e de marcadores moleculares, com ampla aplicação em áreas como o

melhoramento de plantas. Apesar dos notáveis avanços, a montagem e anotação de genomas

de plantas ainda exige esforços consideráveis. A presença de características típicas destes

organismos, como genomas extensos, ploidias elevadas, altas taxas de heterozigosidade e de

elementos repetitivos, são fatores complicadores. Uma outra dificuldade na montagem de

genomas de plantas é a presença de grande quantidade sequências de DNA plastidial nos

dados de sequenciamento, dificultando a montagem do genoma nuclear (Pellicer et al., 2010;

Schatz et al., 2012).

Page 32: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

30

Uma boa montagem de genoma requer a combinação adequada entre cobertura

(ou profundidade) de sequenciamento e reads com comprimento e qualidade adequados. O

não atendimento a alguma destas condições poderá resultar em um assembly fragmentado.

Para contornar o problema de reads curtos produzidos pelos métodos NGS, alguns estudos

contam com a união de reads de diferentes tamanhos e geradas por diferentes plataformas,

buscando balancear as vantagens e desvantagens de cada uma delas (Ekblom & Wolf, 2014;

Koren et al., 2012; Schatz et al., 2012).

2.2.2 Tecnologias de Sequenciamento de Nova Geração

A década de 90 marcou o início da transição da genética para a genômica, com

o desenvolvimento de métodos de sequenciamento automatizados que baseavam-se no

método de sequenciamento dideoxi ou sequenciamento de Sanger. Com o aumento do poder

das ferramentas computacionais, o rendimento desse método de sequenciamento aumentou

ainda mais, possibilitando o sequenciamento do genoma de organismos com pouca ou

nenhuma informação prévia disponível (Hamilton & Buell, 2012; Mardis, 2008).

O lançamento em 2005 da plataforma 454, desenvolvida pela 454 Life Sciences,

depois adquirida pela Roche, disponibilizou à comunidade científica um método de alto

rendimento, baseado em sequenciamento por síntese, conhecido como pirossequenciamento

(Roche, 2015; Margulies et al., 2005; Shendure & Ji, 2008). Este método utiliza a técnica de

PCR em emulsão e o sequenciamento de fato ocorre em uma flow cell, onde a adição de um

nucleotídeo à cadeia de DNA resulta na liberação de um pirofosfato. Genomas já publicados

como os de uva (Vitis vinifera) e morango (Fragaria vesca) utilizaram esta plataforma para

obtenção de parte de seus dados (Jaillon et al., 2007; Schatz et al., 2010; Shulaev et al.,

2011).

Posteriormente, um método de sequenciamento por síntese de elevado

rendimento foi desenvolvido pela Solexa, mais tarde adquirida pela Ilumina (Illumina,

2015a). As plataformas de sequenciamento Illumina diferem do método 454 em vários

aspectos, entre eles o tipo de amplificação utilizada, que nesse caso é a técnica de PCR em

ponte. Nessa plataforma os conjuntos de fragmentos de DNA são sintetizados diretamente

na flow cell e os amplicons servem como molde para o sequenciamento (Mardis, 2008;

Shendure & Ji, 2008).

Page 33: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

31

O fluxo de trabalho dos sequenciadores Illumina pode ser dividido em quatro

etapas: a preparação de bibliotecas, a geração de clusters, o sequenciamento e a análise dos

dados gerados. Durante a preparação das bibliotecas, são obtidos fragmentos de ácidos

nucleicos com adaptadores ligados a ambos os extremos desses fragmentos para posterior

geração de clusters e sequenciamento. O processo de geração de clusters tem como principal

objetivo a obtenção de DNA suficiente para ser detectado durante o sequenciamento que

ocorre na célula de fluxo (flow cell) (Illumina, 2015a; Shendure & Ji, 2008).

A flow cell é formada por um par de lâminas de vidro com um canal no seu

interior. O canal está alinhado a adaptadores de oligonucleótidos complementares aos

fragmentos de DNA. Em sua superfície existem dois oligonucleótidos complementares a

cada um dos adaptadores adicionados aos fragmentos de DNA. A amostra passa através da

superfície da flow cell e hibridiza com os seus oligonucleótidos complementares (Illumina,

2015a).

Uma vez que a amostra tenha hibridizado com a superfície da flow cell, uma

cópia da cadeia original é realizada pela adição de DNA polimerase e dNTPs. Após a síntese

da nova cadeia, o passo seguinte consiste em remover a cadeia original após uma rápida

desnaturação. A cadeia removida então se liga novamente a superfície da flow cell. A cadeia

gira e hibridiza novamente a um oligonucleotídeo que se encontra ligada à flow cell, em

seguida são adicionados a polimerase e os dNPTs gerando uma nova extensão, que forma

uma ‘ponte’ de cadeia dupla. Esta cadeia é novamente desnaturada, onde cada uma das fitas

liga-se a novos oligonucleotídeos continuando o processo conhecido por PCR em ponte

(Hamilton et al., 2012; Illumina, 2015a).

Ao fim do processo de agrupamento teremos clusters dos fragmentos de DNA

originais, cada um contendo um fragmento amplificado diferente da amostra original. Após

a clusterização, são geradas imagens dos clusters por meio de combinações de filtro e LED

específicas para cada um dos quatro didesoxinucleotídeos marcados através de

fluorescência. Após a geração da imagem de um bloco da flow cell, esta é movida para expor

o próximo bloco, repetido-se o processo para cada ciclo de sequenciamento. Depois da

análise das imagens, o programa realiza uma análise primária dos dados, que inclui a

chamada de bases, filtragem e pontuação de qualidade (Illumina, 2015a, Mardis, 2008).

Page 34: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

32

Atualmente a plataforma Illumina é a mais utilizada, produzindo reads com

comprimentos que variam de 25 a 600 bases em uma velocidade maior e custos mais baixos

do que o sequenciamento de Sanger. Dado o comprimento reduzido dos reads obtidos por

essa tecnologia, seu uso na montagem de genomas demanda a utilização de coberturas

maiores. O aumento da cobertura de sequenciamento, ao compensar esta redução, permite a

obtenção de conjuntos de dados de alta qualidade, com taxas de erro pequenas (~10-16),

considerando que cada nucleotídeo tenha sido confirmado pelo menos oito vezes por reads

idênticos (cobertura mínima de 8x). Elevadas coberturas de sequenciamento também são

necessárias para obtenção de dados de genotipagem de locos polimórficos em genomas

diploides ou poliploides (Schatz et al., 2012; Sims et al., 2014).

A superação dos desafios existentes na montagem de genomas complexos

depende de avanços nas tecnologias de sequenciamento no que diz respeito a melhorias no

rendimento, custo, comprimento de reads e precisão. Novas tecnologias têm sido

desenvolvidas para suprir essas demandas. Estas tecnologias, denominadas de terceira

geração, vem sendo desenvolvidas pelas empresas Pacific Biosciences (PacBio) e Oxford

Nanopore. Estas novas plataformas permitem a obtenção de reads bem mais longos (até

50kb), que poderão ser utilizados para otimizar o sequenciamento de genomas complexos,

heterozigóticos e ricos em DNA repetitivo (Naito et al., 2015; Schatz et al., 2012).

2.2.3 Ferramentas Computacionais para Montagem e Anotação de Genomas

Dentre os fatores que devem ser considerados na escolha dos algoritmos de

montagem de genomas incluem-se: a quantidade de dados disponíveis (comprimento dos

reads e cobertura de sequenciamento); a qualidade dos dados (taxas de erro); e a estrutura

do genoma (tamanho, conteúdo GC, heterozigosidade, número e tamanho de regiões

repetitivas). Diversos softwares já foram desenvolvidos para realizar montagens de genomas

a partir de sequências curtas, como as geradas pelas tecnologias NGS. Alguns destes

softwares, como o Velvet e Spades, utilizam algoritmos baseados em grafos de Bruijn,

abordagem em que os reads são fragmentados em k-meros que por sua vez tornam-se nós

em um grafo (Li et al., 2010; Sanfonova & Pevzner, 2015; Zerbino & Birney 2008; Zerbino

et al., 2009). Nesses algoritmos, os k-meros tomam o lugar das sequências-semente

utilizadas pelas ferramentas de montagem de genomas baseadas no algoritmo overlap-

Page 35: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

33

layout-consensus, conforme mostrado na Figura 7 (Compeau & Tesler, 2011; Schatz et al.,

2010).

A escolha da abordagem ideal para montagem de um determinado genoma passa

pela comparação de vários métodos de montagem diferentes, para que o mais adequado para

os dados em questão possa ser identificado (Ekblom & Wolf, 2014). Antes da montagem, o

controle de qualidade dos dados de sequenciamento deve ser realizado. Os dados de baixa

qualidade, as duplicações resultantes de PCR, bem como as sequências de iniciadores,

devem ser retiradas pois podem atrapalhar o processo de montagem. O processo de

montagem consiste na união dos reads em contigs, estruturas que são unidas para formar

longos trechos de sequência conhecidos como scaffolds. Em uma última etapa, os scaffolds

são reunidos em grupos de ligação ou em cromossomos, de forma a representar da melhor

maneira possível a estrutura do genoma. Esta etapa é geralmente realizada através do

alinhamento dos reads a mapas obtidos por outras estratégias de análise genética. As

montagens de sequências genômicas obtidas sem a utilização de uma sequência de referência

prévia são conhecidas como montagens de novo (Ekblom & Wolf, 2014; Martins, 2013).

Uma variedade de estatísticas que refletem diferentes aspectos da integridade e

continuidade da montagem estão disponíveis, sendo N50 a mais utilizada. Para a obtenção

desta métrica, os contigs devem ser ordenados por tamanho (do maior para o menor) e a

partir do contig mais longo, os comprimentos devem ser somados até que se obtenha o valor

que corresponde à metade do comprimento de todos os contigs montados. Este valor

corresponde ao N50. No entanto, o N50 e suas variações têm de ser interpretados com

cautela, pois limitam-se a indicar a contiguidade e não contêm informação sobre a precisão

de montagem. Outras informações utilizadas para avaliar a qualidade da montagem são o

tamanho médio de intervalos (gaps) em scaffolds e o número médio de gaps por scaffold

(Earl et al., 2011; Yandell & Ence, 2012).

Page 36: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

34

Figura 7. Diferença entre grafos de sobreposição (overlap) e grafos de Bruijn para a montagem

de genomas. Sequências de dez reads de 8 pb (A) são representadas como nós no grafo de sobreposição (B), onde as setas pontilhadas indicam sobreposição de até 5 pb. As sobreposições mais longas são indicadas pelas setas. Nos grafos de Brujin (C), um nó é criado para cada um dos k-meros de todos os reads. Nesse exemplo o tamanho do k-mero é 3 e as linhas são traçadas entre todos os k-meros sucessivos. A sobreposição ocorre por k–1 bases. Em ambas as abordagens, as regiões repetitivas causam bifurcações nos grafos. Fonte: Schatz et al. (2010).

Após concluída a montagem, deve ser feita a anotação das informações obtidas

como genes e outros elementos de interesse. O processo de anotação pode ser

conceitualmente dividido em duas fases. Na fase computacional, várias evidências de

genomas ou transcritomas de outras espécies são usadas em paralelo para criar previsões de

genes e transcritos iniciais. Já na segunda etapa, que consiste na anotação em si, as

informações anteriormente obtidas são reunidas seguindo as regras determinadas pelo

pipeline de anotação adotado (Yandell & Ence 2012; Ekblom & Wolf, 2014).

Antes de predição de genes, é de grande importância identificar e mascarar

sequências repetitivas, incluindo regiões de baixa complexidade e elementos transponíveis.

Sugere-se que se crie um banco de dados de elementos repetitivos específico para cada

espécie, visto que essas regiões são pouco conservadas. Esta etapa deve ser feita com o

intuito de evitar erros na predição de genes, além de ajudar na caracterização das repetições,

que atualmente estão sendo estudadas para verificar seus efeitos e funções nos genomas.

Atualmente estão disponíveis diversas ferramentas que fazem busca e mascaram repetições

de uma forma geral, como o RepeatMasker e o RepeatModeler, além de ferramentas que

Page 37: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

35

buscam por repetições específicas, como MGEScan non-LTR e Helitron finder (Du et al.,

2008; Ekblom & Wolf, 2014; Smit et al., 2015a; Rho & Tang 2009).

Os termos predição e anotação de genes são geralmente tratados como sinônimos

apesar de não serem (Figura 8). A diferença entre as duas etapas é que a predição de genes

busca identificar estruturas como sequências codantes (CDS - Coding DNA Sequences) e

características genômicas específicas do organismo, tais como as frequências de códons de

iniciação e parada, e as distribuições de comprimento de éxons-íntrons, para distinguir os

genes de regiões intergênicas e para determinar suas estruturas. Geralmente os preditores

não relatam as regiões não traduzidas (UTR - UnTranslated Regions). A fase de anotação de

genes por outro lado inclui informações acerca da localização de regiões UTR, bem como

das isoformas dos genes, através de evidências associadas aos dados preditos (Yandell &

Ence, 2012). As ferramentas computacionais de predição Augustus, GenomeScan e MakerP

são as mais utilizadas para plantas e são também chamadas de preditores ab initio, por

utilizarem modelos matemáticos ao invés de elementos como ESTs e proteínas para

identificar estruturas gênicas.

Figura 8. A) Predição de genes. B) Inclusão de evidências (ESTs, mRNA). C) Alinhamento dos

genes preditos às sequências de proteínas já anotadas, buscando novas evidências. D) Anotação do gene, que resultou de um consenso entre todas as evidências, que também sugerem formas de splicing alternativo. Adaptado de Yandell & Ence (2012).

A fase final de identificação e caracterização de genes consiste em anotar

informações biologicamente relevantes como variações estruturais e informações

funcionais, para isso, utilizam-se os termos de ontologia de genes (GO - Gene Ontology). O

GO foi desenvolvido no final dos anos 1990, caracterizando o primeiro esforço significativo

A

B

C

D

Page 38: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

36

para se desenvolver um vocabulário unificado que descrevesse os atributos dos produtos

gênicos (Cooper et al., 2012; Gene Ontology Consortium 2012).

2.3 CARACTERÍSTICAS GERAIS DA CAGAITEIRA (Eugenia dysenterica DC.)

2.3.1 Aspectos Biológicos

A cagaiteira é uma árvore frutífera nativa do Brasil, que ocupa áreas de Cerrado

nos estados de Mato Grosso, Mato Grosso do Sul, Piauí, Goiás, Minas Gerais, São Paulo,

Tocantins, Bahia e Distrito Federal, ocorrendo preferencialmente em formações de cerradão

e cerrado stricto sensu, em solos profundos e bem drenados. A distribuição espacial da

cagaiteira se dá em agregados, com subpopulações geograficamente descontínuas, mesmo

em áreas preservadas (Camilo et al., 2013; Chaves & Telles, 2006).

A espécie pertence à família Myrtaceae, que compreende plantas dicotiledôneas

lenhosas, contém mais de 5.650 espécies organizadas em cerca de 150 gêneros dos quais

vários possuem relevância econômica, entre eles Eucalyptus, Corymbia, Psidium e Eugenia.

A família Myrtaceae é representada no Cerrado por 14 gêneros e 211 espécies, sendo

considerada uma das dez famílias mais representativas desse bioma, contribuindo com cerca

de 51% da sua riqueza florística (Chaves & Telles, 2006; Marinotto et al., 2008; Grattapaglia

et al., 2012).

As cagaiteiras possuem porte médio com alturas que podem variar entre 4 e 10

metros, com copa alongada e densa. Possuem troncos tortuosos cujo diâmetro varia entre 20

e 40 cm, com casca suberosa e fendada (Figura 9). As folhas são dispostas de maneira oposta,

com formas ovalares e glabras; são aromáticas e caducam no período de floração. As flores

da cagaiteira são hermafroditas, completas e autocompatíveis, apresentando um padrão de

floração denominado por Proença & Gibbs (1994) de Big Bang, em que ocorre uma

sincronização do florescimento em um curto período de tempo (Almeida Júnior et al., 2014;

Camilo et al., 2013).

Nos galhos, as flores da cagaiteira são organizadas de forma solitária ou em

trios, com pétalas de coloração branca (Figura 9). As abelhas das espécies Bombus atratus e

B. morios são as principais responsáveis pela polinização (Silva et al., 2001; Telles et al.,

2001a; Chaves & Telles, 2006). O florescimento das cagaiteiras ocorre entre agosto e

Page 39: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

37

setembro, período no qual também surgem novas brotações ricas em pigmentação

avermelhada (Figura 9).

A frutificação ocorre logo depois, entre os meses de setembro e outubro e a

maturação dos frutos ocorre de maneira relativamente rápida, coincidindo com o início do

período chuvoso (Camilo et al., 2013). Os frutos da cagaiteira possuem formato globoso, cor

amarelo-clara, casca fina e brilhante com sabor levemente ácido (Figura 9). O comprimento

dos frutos varia de 3 a 4 cm com diâmetro entre 3 a 5 cm (Chaves & Telles, 2006; Martinotto

et al., 2008).

Segundo Andrade et al. (2003) as sementes da cagaiteira apresentam

comportamento recalcitrante, onde altas taxas de germinação ocorrem a temperaturas que

variam de 15 a 30º C e a viabilidade é perdida quando as sementes são expostas a taxas de

umidade inferiores a 22%. A principal forma de dispersão de sementes é zoocórica, realizada

por animais como macacos e morcegos que se alimentam dos frutos e os transportam para

diferentes pontos (Chaves & Telles, 2006). De acordo com Telles et al. (2003) e Zucchi et

al. (2002), a cagaiteira apresenta sistema de cruzamento misto, com predomínio de alogamia,

apresentando taxa de fecundação cruzada estimada de 83,5% e 100,0%, em estudos com uso

de marcadores isoenzimáticos e microssatélites, respectivamente.

A espécie destaca-se entre as diversas plantas nativas dos cerrados brasileiros

que apresentam potencial de utilização em sistemas tradicionais de produção agrícola, pelo

consumo de seus frutos in natura ou processados sob a forma de doces, geleias, licores,

sucos e sorvetes. A planta também possui valor ornamental devido à sua beleza, realçada

principalmente na época de florescimento (Cardoso et al., 2011; Martinotto et al., 2008).

2.3.2 Caraterização Físico-Química

Cardoso et al. (2011) analisaram características físicas e químicas de frutos de

cagaiteira coletados no estado de Minas Gerais e observaram a presença de proteínas (0,63

g/100 g), lipídeos (0,57 g/100 g) e carotenoides (0,77 mg/100 g) em sua composição, além

de uma considerável quantidade de vitamina C (34,11 mg/100 g). O estudo demostrou que

o consumo de 100 g dos frutos da cagaiteira por dia contribui significativamente para

fornecer as necessidades diárias de vitaminas A, C e folatos em seres humanos.

Page 40: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

38

Figura 9. A cagaiteira. A) indivíduo adulto. B) Fruto da cagaiteira maduro (cagaita). C) Flores.

D) Folhas jovens. Fotos: Rhewter Nunes (2014).

Estas propriedades também foram estudadas por Silva et al. (2015), que

realizaram esta mesma caracterização, desta vez com frutos provenientes do estado de Goiás.

Estes autores observaram que cerca de 90% dos frutos são compostos por água que

juntamente com os açúcares, constituem os componentes majoritários da polpa e da casca

(20,47%) das cagaitas. Já nas sementes, proteínas e lipídios são os nutrientes predominantes

(4,42 e 0,49%, respectivamente).

Quanto à composição química, a cagaiteira constitui-se de elementos como

cálcio, ferro e carboidratos. Análises realizadas com óleos essenciais obtidos a partir de

folhas de cagaiteira demonstraram a presença de uma grande quantidade de compostos

fenólicos, como os flavonoides, que além de conferir proteção às plantas contra herbivoria,

Page 41: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

39

possuem propriedades antibacterianas e antifúngicas (Duarte et al., 2009; 2010; Silva, 2013;

Vilela et al., 2012).

Após realizar uma extensiva revisão sobre as propriedades químicas da espécie,

Silva et al. (2015) concluíram que a cagaiteira possui amplo potencial para desenvolvimento

de medicamentos fitoterápicos. Estes autores destacam, porém, que ainda existe a

necessidade de pesquisas afim de preencher lacunas no que diz respeito à sua eficácia e

segurança, para posterior desenvolvimento desses produtos.

2.3.3 Caracterização Genética Baseada em Caracteres Quantitativos e Marcadores Moleculares

Estudos acerca da variabilidade, estrutura genética e sistema de cruzamento de

populações naturais de E. dysenterica vêm sendo desenvolvidos nas últimas décadas,

permitindo grandes avanços no conhecimento genético e de alguns dos processos

microevolutivos que atuam sobre essas populações. Os estudos desenvolvidos contam com

análises de caracteres quantitativos e um pequeno número de marcadores moleculares que

incluem isoenzimas, marcadores RAPD e microssatélites, além de marcadores SNPs que

ainda se encontram em fase de teste (Telles et al., 2001a; 2001b; Trindade & Chaves, 2005;

Zucchi, 2004; Zucchi, 2005; Nunes, 2015, comunicação pessoal).

Telles et al. (2001a), através de marcadores isoenzimáticos, analisaram o padrão

de autocorrelação espacial da variação genética em subpopulações naturais de Eugenia

dysenterica e verificaram quais processos microevolutivos estariam atuando na

diferenciação genética dessas subpopulações. Para isso, foram utilizados seis sistemas

enzimáticos (SKDH, 6-PGD, α-EST, MDH, PGI e PGM), com oito locos polimórficos. A

partir deste estudo, foi possível sugerir que os padrões espaciais de divergência genética

entre as subpopulações estudadas poderiam ser explicados por processos estocásticos como

o isolamento por distância, onde as populações podem divergir sob um processo estocástico

simples (deriva genética), contrabalançado por fluxo gênico em curtas distâncias.

A diversidade genética e estrutura populacional da espécie também foram

estudadas a partir dos mesmos indivíduos do estudo citado anteriormente por Telles et al.

(2003). Neste caso também foram utilizados dados isoenzimáticos (seis sistemas

enzimáticos com oito locos polimórficos) para estimar vários parâmetros populacionais,

Page 42: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

40

entre eles o índice de fixação intrapopulacional (f) que permite inferir o nível de endogamia

e o sistema reprodutivo predominantes na espécie; o grau de diferenciação interpopulacional

e os padrões espaciais associados à divergência genética, informações importantes para o

desenvolvimento de programas de conservação in situ e ex situ.

Após os estudos de caracterização genética da espécie utilizando marcadores

isoenzimáticos, Trindade & Chaves (2005) utilizaram caracteres morfológicos e marcadores

moleculares para analisar a estrutura genética de subpopulações amostradas da região

nordeste do estado de Goiás. Das treze subpopulações amostradas, três foram analisadas com

marcadores RAPDs (Random Amplified Polymorphic DNA) a partir de seis primers que

apresentaram maior padrão de polimorfismo, assim como verificado no trabalho realizado

por Zucchi et al. (2005), onde a mesma série de primers foi utilizada na comparação de

populações provenientes da região sudeste de Goiás.

Zucchi et al. (2004) estudaram a estrutura genética e o fluxo gênico em

subpopulações de E. dysenterica, sugerindo que os marcadores SSR seriam mais sensíveis

para cálculos de estimativas populacionais que os marcadores isoenzimáticos e RAPD,

utilizados em estudos anteriores com a mesma espécie. Para a condução do estudo foram

testados 356 pares de primers, previamente desenvolvidos por Brondani et al. (1998) para

Eucalyptus spp., dos quais dez pares foram transferidos para E. dysenterica.

Os resultados mostraram o potencial de transferibilidade de locos SSR de

Eucalyptus spp. para espécies de gêneros diferentes da família Myrtaceae. Também foi

possível se observar o comprometimento da estrutura metapopulacional da espécie, pelos

indícios de que as populações estudadas sofreram deriva genética devido à ação humana. As

informações obtidas devem ser levadas em consideração na elaboração de programas de

conservação e pré-melhoramento de E. dysenterica.

Telles et al. (2013) relataram o desenvolvimento e caracterização de locos

microssatélites para a espécie e demonstram a sua aptidão para estudos posteriores de

estrutura genética populacional e fluxo gênico. A partir desse estudo nove iniciadores foram

desenhados, dos quais cinco renderam produto de amplificação. Estes cinco primers foram

testados em 97 indivíduos amostrados de três diferentes regiões. Todos os locos

apresentaram polimorfismo, com número de alelos por loco variando de 3 a 11 e

heterozigosidades esperada variando de 0,309 a 0,884. O desenvolvimento de marcadores

Page 43: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

41

moleculares específicos para a espécie é importante para esclarecer os mecanismos

evolutivos da variabilidade genética de E. dysenterica.

Aguiar et al. (2009) ressaltam a importância do conhecimento da variabilidade

genética existente nas populações naturais de espécies frutíferas para o desenvolvimento de

uma gestão adequada dos ecossistemas e de variedades mais adaptadas para cultivo. Estes

autores estimaram parâmetros genéticos de caracteres quantitativos (altura da planta,

diâmetro do caule e suas respectivas taxas de crescimento) em 110 progênies derivadas de

dez subpopulações naturais de E. dysenterica. Os resultados mostraram que a maior parte da

variação genética se encontra dentro de subpopulações.

Junior et al. (2014), também utilizando caracteres quantitativos, realizaram a

caracterização da coleção de germoplasma de E. dysenterica da Universidade Federal de

Goiás. Foram avaliados na primeira etapa os caracteres altura da planta, altura da primeira

bifurcação, circunferência do caule a 10 cm do solo e projeção média da copa. Na segunda

etapa foram coletados dados métricos das folhas (comprimento e largura do limbo, formato

e comprimento do pecíolo). A partir da análise desses dados foi possível observar que as

subpopulações representadas não estão estruturadas para os caracteres avaliados, não

apresentando consequentemente, diferenciação fenotípica nos caracteres das árvores. Com

relação aos caracteres das folhas, foi observada estruturação, resultando em diferenciação

fenotípica das folhas entre as árvores.

Novaes (2014) também utilizou caracteres quatitativos, além de marcadores

microssatélites com o objetivo de analisar e comparar a proporção da variação genética

quantitativa e molecular entre subpopulações naturais de Eugenia dysenterica DC. Foi

possível observar altos níveis de variação fenotípica e genotípica tanto entre as

subpopulações quanto entre famílias dentro de subpopulações, com a maior proporção

verificada entre famílias. As estimativas de herdabilidade foram de 0,23 e 0,27 para taxa de

crescimento e número de folhas e maior que 0,34 para os outros caracteres, que indicam bom

potencial de seleção para caracteres avaliados, cuja seleção de progênies com rápido

desenvolvimento inicial é importante para a produção comercial de mudas.

Barbosa et al. (2015) obtiveram novas estimativas de diversidade genética a

partir de marcadores microssatélites em regiões neutras e não neutras do genoma de

E.dysenterica. As análises revelaram um gradiente noroeste-sudeste contínuo na

Page 44: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

42

diferenciação da população, e não dois grupos distintos de populações como sugerido em

estudos anteriores e que um simples processo de diferenciação estocástica não explica os

padrões observados.

Rodrigues et al. (2016) avaliaram o sistema reprodutivo e fluxo gênico mediado

por pólen em uma geração de Eugenia dysenterica da coleção de germoplasma da

Universidade Federal de Goiás, utilizando marcadores microssatélites. Eles observaram uma

elevada taxa de diversidade genética que não diferiu significativamente entre os adultos

(H e = 0,777) e progênies (H e = 0,617). Os resultados do trabalho também mostraram

que E. dysenterica se reproduz por alogamia na coleção de germoplasma (t m = 0,957). De

acordo com os autores, os resultados mostraram que a coleção de germoplasma analisada

tem um elevado potencial para iniciar um programa de criação de E. dysenterica, com uma

alta taxa de cruzamento e uma elevada diversidade genética, proporcionando um

contribuindo de forma significativa para a conservação ex-situ desta espécie.

Diversas informações genéticas e fenotípicas sobre a cagaiteira já foram obtidas,

porém o seu uso decorrente unicamente do extrativismo e a falta de conhecimento que

possibilite o seu cultivo em grande escala, ainda revelam que há muito a ser feito para se

complementar as informações existentes, possibilitando o desenvolvimento de estratégias

efetivas de conservação e domesticação desta espécie. O advento de tecnologias de

sequenciamento e as ferramentas de análise de dados em grande escala apresentam uma

possibilidade para a obtenção dessas informações.

Page 45: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

3 MATERIAL E MÉTODOS

3.1 EXTRAÇÃO DE DNA GENÔMICO E SEQUENCIAMENTO

Foram obtidas amostras de tecido foliar a partir de cinco indivíduos provenientes

da coleção de germoplasma mantida na Universidade Federal de Goiás, de modo que cada

indivíduo representasse uma subpopulação de E. dysenterica. O DNA genômico foi extraído

utilizando-se o protocolo CTAB 2% desenvolvido por Doyle & Doyle (1987). A avaliação

do DNA quanto à concentração e qualidade foi feita por meio de eletroforese horizontal em

gel de agarose 1% e no equipamento Qubit® Fluorometer Quantitation (Life Technologies,

2014).

As bibliotecas de fragmentos de DNA genômico para sequenciamento foram

construídas utilizando-se o kit Nextera® DNA Sample Preparation Kit 2x 300

Illumina, 2015b). Este kit elimina a necessidade de fragmentação mecânica do DNA, além

de permitir uma diminuição do tempo de manuseio das amostras. O sistema Nextera inclui

transposases que têm a função de fragmentar o DNA e inserir adaptadores de 19 pb nas

extremidades dos fragmentos, de forma simultânea.

Os fragmentos obtidos foram amplificados em uma reação de PCR com ciclos

limitados (15 ciclos). Nesta etapa foram adicionados os barcodes para identificação das

amostras, além de adaptadores comuns (P5 e P7), necessários para geração dos clusters de

sequenciamento. As bibliotecas produzidas foram então submetidas à plataforma de

sequenciamento Illumina MiSeq no modo paired-end, em que ocorre o sequenciamento dos

fragmentos a partir de ambas as extremidades (Illumina, 2015a).

Foram produzidos dois lanes de sequenciamento. No primeiro, o DNA genômico

de apenas um indivíduo foi sequenciado. No segundo, o DNA genômico de outros quatro

indivíduos foram sequenciados em multiplex, utilizando barcodes. Ao fim do processo,

Page 46: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

44

foram obtidos dados de sequenciamento de cinco bibliotecas, correspondentes aos cinco

indivíduos amostrados.

3.2 AVALIAÇÃO E CONTROLE DE QUALIDADE DAS SEQUÊNCIAS

Para a visualização dos dados de sequenciamento, foi utilizado o programa

FastQC. Para a eliminação de sequências de baixa qualidade foi utilizado o programa

Trimmomatic (Andrews, 2010; Bolger et al., 2014). A partir dos módulos Per Base Sequence

Quality, Per Base Sequence Content e Adapter Content, fornecidos pelo FastQC, foi possível

identificar a presença de adaptadores de sequenciamento e bases de má qualidade

principalmente na região terminal 3’ das sequências.

Os adaptadores foram removidos utilizando-se a opção ILLUMINACLIP do

programa Trimmomatic. Posteriormente, buscou-se eliminar regiões que apresentassem

distorções em seu conteúdo nucleotídico (per base sequence content). Para isso foram

utilizadas as opções HEADCROP e CROP do Trimmomatic que permitem o descarte de

bases a partir de posições especificadas na linha de comando. Também foram eliminadas as

bases das extremidades 5’ e 3’, cujos valores de qualidade phred foram inferiores a 15

(opções LEADING e TRAILING). O valor de qualidade phred também foi utilizado para

eliminar bases sempre que o valor médio dentro de um intervalo de quatro bases fosse

inferior a 15 (opção SLIDINGWINDOW). Foram selecionadas apenas sequências com

comprimento de pelo 20 bases (opção MINLEN).

Após o controle de qualidade, foram gerados quatro arquivos para cada

biblioteca, em que dois deles reuniram os reads que após a filtragem permaneceram em pares

(paired-ends) e os outros dois reuniram os reads em que somente um dos elementos do par

permaneceu após o filtro (single reads). O programa Bowtie2 foi utilizado para realizar um

alinhamento entre os reads de E. dysenterica (antes e depois de passarem pela filtragem)

com sequências genômicas de Eucalyptus grandis, espécie mais próxima, cujo genoma já

foi sequenciado. Esta etapa teve como objetivo verificar os efeitos do controle de qualidade

no alinhamento das sequências (Langmead & Salzberg, 2012).

O produto do alinhamento feito entre os reads filtrados e o genoma de

Eucalyptus grandis foi utilizado na obtenção de estimativas do tamanho dos fragmentos

Page 47: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

45

sequenciados e que permaneceram após o controle de qualidade, com o intuito de obter

estimativas que foram utilizadas na etapa de montagem.

3.3 DRAFT ASSEMBLY DO GENOMA DE E. dysenterica

Dada a inexistência de uma sequência de referência para o genoma de E.

dysenterica, a estratégia de montagem de novo foi utilizada. Essa estratégia possibilita a

montagem de genomas pela formação de contigs e scaffolds. O programa dipSPAdes versão

1.0 foi utilizado para obtenção de um draft assembly de novo para E. dysenterica. Esse

programa faz uso de um algoritmo baseado em grafos de Bruijn para realizar a montagem

(Safonova et al., 2015).

Buscando melhorar a qualidade do assembly obtido, os contigs compostos por

menos de 500 bases foram retirados utilizando script em Pyton (Nunes, 2015a, comunicação

pessoal). A ferramenta blastn foi utilizada para identificar sequências que apresentaram altos

níveis de similaridade com sequências conhecidas de DNA organelar (cloroplastidial e

mitocondrial). As sequências assim identificadas foram retiradas do assembly final.

A estimação das estatísticas descritivas do assembly foi feita com o script

assemblathon.sh (Earl et al., 2011), com o qual foram obtidas informações relativas à

proporção estimada do tamanho do genoma de E. dysenterica representada pelo assembly, o

número de contigs formados, o tamanho médio dos contigs, o comprimento do maior e do

menor contig e o valor N50 (Martins, 2013; Souza, 2014).

A cobertura de sequenciamento dos contigs obtidos foi estimada afim de se

verificar a sua homogeneidade e confiança. Esta estimativa foi feita através do alinhamento

dos reads de E. dysenterica ao assembly obtido, utilizando-se o software Bowtie2

(Langmead & Salzberg, 2012). A partir deste alinhamento, foram obtidos cinco arquivos no

formato SAM, que foram posteriormente ordenados e reunidos em um único arquivo no

formato BAM, utilizando as ferramentas do programa SamTools (Li et al., 2009). O arquivo

BAM foi então utilizado para se estimar a profundidade de sequenciamento pelo uso da

ferramenta BedTools (Quinlan & Hall, 2010).

Page 48: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

46

3.4 IDENTIFICAÇÃO E CARACTERIZAÇÃO DE ELEMENTOS REPETITIVOS

Para a identificação e caracterização de elementos transponíveis (TEs) foi

utilizado o programa RepeatMasker (Smit, 2015a). Inicialmente foi realizada uma consulta

ao banco de dados de plantas eudicotiledôneas do NCBI, para identificar repetições comuns

entre E. dysenterica e outras espécies de plantas cujos genomas já foram anotados.

Posteriormente, também com o RepeatMasker, foi realizada uma nova busca, desta vez por

elementos exclusivos, baseando-se em um banco de dados de repetições de E. dysenterica

construído pelo RepeatModeler, que consiste de um pacote de identificação e modelagem de

novo de famílias de repetições, composto de dois programas (RECON e RepeatScout) que

empregam métodos computacionais complementares para identificar os limites do elemento

de repetição e as relações familiares a partir de dados de sequenciamento de nova geração

(Smit, 2015b).

Para a caracterização dos elementos não classificados, foi utilizada a ferramenta

blastx, com o intuito de verificar a presença de genes ou domínios conservados dentro desses

elementos, além da busca por ORFs (Open Reading Frames), realizada pela utilização da

ferramenta ORFFinder (NCBI, 2015). A caracterização das regiões microssatélites foi

realizada utilizando-se o programa QDD (Meglécz et al., 2014). Esta análise envolve quatro

passos e possibilita não só a identificação de regiões microssatélites, como também a busca

por possíveis contaminações, o desenho de primers e a comparação destes com sequências

de elementos transponíveis conhecidos, buscando-se eliminar regiões que se encontrem

neste contexto.

3.5 PREDIÇÃO E ANOTAÇÃO DE GENES

A predição de genes foi realizada com o programa AUGUSTUS, a partir do

assembly com as repetições mascaradas. O AUGUSTUS forneceu um arquivo no formato

GFF3 contendo informações como posição dos genes, de éxons, íntrons e de transcritos para

cada gene (Stanke et al., 2006). A partir do script getAnnoFasta.pl fornecido pelo próprio

programa, foi possível obter um arquivo FASTA contendo apenas as sequências de proteínas

que foram alinhadas contra o banco de dados de plantas embriófitas com o blastp.

Page 49: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

47

O arquivo de saída fornecido pelo blastp foi utilizado para anotação funcional

dos genes identificados, etapa realizada com o programa Blast2GO (Conesa & Gots, 2008).

A ferramenta blastp foi utilizada para verificar quantos dos transcritos preditos para E.

dysenterica seriam recuperados no transcriptoma de E. grandis.

Page 50: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

48

4 RESULTADOS E DISCUSSÃO

4.1 CONTROLE DE QUALIDADE DOS DADOS DE SEQUENCIAMENTO

Foram sequenciadas 8,64 Gb, distribuídas em 63.017.960 de reads do tipo

paired-ends. No controle de qualidade, o volume total de sequências foi reduzido a 5,63 Gb,

distribuídas em 59.415.168 reads. A visualização das sequências permitiu a observação do

impacto da retirada das sequências de baixa qualidade (trimagem). As bases que restaram

apresentam-se de boa qualidade, com valores de phred acima de 30 (Figura 10). Com relação

às frequências de bases sequenciadas (Figura 11), observou-se a diminuição das

discrepâncias que antes existiam no início e no final das sequências. Como esperado, a

retirada de adaptadores contaminantes e das bases de má qualidade tornou a distribuição

mais homogênea para todas as posições dos reads.

Originalmente os dados de sequenciamento foram constituídos em sua maioria

por sequências de 250 pb, com menor ocorrência de reads menores (20-240 pb). Como pode

ser visto na Figura 12, após o controle de qualidade ocorreu o aumento da frequência de

reads mais curtos, com comprimentos entre 20 e 180 pb, com reads maiores (190-250 pb)

ocorrendo em menor frequência. É importante salientar que apesar do aumento da

quantidade de reads curtos, estes são de boa qualidade, e que as bases eliminadas consistiram

de sequências de má qualidade e de fragmentos de adaptadores que, se não retirados,

poderiam prejudicar as análises posteriores.

Apesar da diminuição do volume de dados ocasionada pelo controle de

qualidade, foi possível verificar o aumento das taxas de alinhamento entre os reads das cinco

bibliotecas de E. dysenterica e o genoma de Eucalyptus grandis (Tabela 1). Este resultado

corrobora o que foi observado por Del Fabbro et al. (2013), que ao compararem nove

ferramentas de trimagem, observaram o aumento das taxas de alinhamento dos reads a um

genoma de referência, mesmo com a diminuição do volume de sequências.

Page 51: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

49

Tabela 1. Número de reads que formam as bibliotecas antes e após o controle de qualidade. Observa-se o aumento das taxas de alinhamento dos reads de E. dysenterica brutos e filtrados com o genoma de Eucalyptus grandis, mesmo com a diminuição do volume de dados de sequenciamento.

Biblioteca Nº total de reads

% de alinhamento

Nº de reads alinhados

Brutos Filtrados Brutos Filtrados Brutos Filtrados

Edy1 27.208.448 24.089.756 10,3 11,3 2.797.970 2.471.213

Edy2 11.017.486 10.888.645 13,2 14,2 1.453.388 1.543.252

Edy3 10.226.114 10.067.174 13,3 14,3 1.363.728 1.429.918

Edy4 7.174.024 7.047.220 14,3 15,4 1.023.554 1.078.507

Edy5 7.391.888 7.322.373 14,6 16,1 1.076.607 1.176.931

Total 63.017.960 59.415.168 13,8 15,0 7.715.247 7.699.821

Page 52: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

50

A

A

B

Figura 10. V

isualização da qualidade das bases de uma biblioteca de E. dysenterica antes (A

) e após (B) o controle de qualidade. O eixo x indica a posição

das bases nos reads e o eixo y indica os valores de qualidade phred.

Page 53: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

51

A

B

Figura 11. D

istribuição do conteúdo de bases em um

a biblioteca de E. dysenterica (biblioteca Edy1) antes (A) e após (B) o controle de qualidade. O

eixo x indica a posição das bases nos reads e o eixo y indica as proporções de conteúdo por base.

Page 54: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

52

52

Figura 12. Distribuição de frequência dos reads de acordo com seus tamanhos (pb) antes (A) e depois (B) da eliminação de sequências de adaptadores e bases com qualidade phred inferior a 15.

4.2 ESTIMAÇÃO DO TAMANHO DOS FRAGMENTOS DE SEQUENCIAMENTO

As estimativas de tamanho dos fragmentos que formam as bibliotecas paired-

end e single-reads foram utilizadas como informação complementar acerca da qualidade dos

dados sequenciados e posteriormente utilizadas para a obtenção do draft assembly. Os

valores estimados dos fragmentos foram obtidos a partir do alinhamento das bibliotecas de

DNA de E. dysenterica ao genoma de E. grandis e foram distribuídos de acordo com sua

frequência (Figura 13). Observa-se que para as cinco bibliotecas, a maioria dos fragmentos

obtidos possuem tamanho médio de 200 bases, o que pode ser justificado pelo kit utilizado

Page 55: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

53

utilizado para construir as bibliotecas e pelo próprio método de sequenciamento, que assim

como as demais plataformas NGS, gera fragmentos pequenos.

4.3 AVALIAÇÃO DO DRAFT ASSEMBLY

Após obtido o assembly, afim de melhorar sua qualidade e aumentar a precisão

de análises posteriores como a predição de genes, os contigs que continham menos de 500

bases foram eliminados. Além disso, a partir da análise com a ferramenta blastn, as

sequências que obtiveram hit com e-value de 1e-16, similaridade e cobertura da query de

pelo menos 80% com DNAs organelares também foram retiradas do assembly, o que

diminuiu em cerca de 37% a amostragem inicialmente obtida (Tabela 2).

Figura 13. Distribuição dos fragmentos de DNA de E. dysenterica sequenciados, de acordo com

seus tamanhos. O eixo x indica os tamanhos dos fragmentos (pb) e o eixo y indica as frequências.

Ainda com o intuito aumentar a confiança no assembly, estimou-se a cobertura

de sequenciamento dos contigs que o compõem. Foi possível observar que a para a maioria

desses contigs, a cobertura média de sequenciamento é de 10x, ou seja, cada base foi

confirmada em média 10 vezes durante o sequenciamento, o que contribui para uma melhor

acurácia na determinação das sequências de DNA que formam esses contigs. Esse resultado

Page 56: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

54

sugere uma menor ocorrência de erros durante o a obtenção da sequência de referência

(Martins, 2013; Sims et al., 2014).

A partir da razão entre a quantidade total de bases das cinco bibliotecas e a

cobertura média de sequenciamento observada, foi obtida uma estimativa de tamanho de 442

Mb para o genoma de E. dysenterica DC., valor utilizado como referência para calcular

algumas métricas de qualidade bem como a quantidade do genoma representado pelo

assembly (Tabela 3). Considerando plantas da família Myrtaceae, observa-se uma variação

de tamanho de genomas entre gêneros e entre espécies. No gênero Eucalyptus, por exemplo,

os genomas variam de 498 Mb em E. globulus, 625 Mb em E. urophylla e 640 Mb em

Eucalyptus grandis. Já no gênero Corymbia, o tamanho estimado do genoma é de 370 Mb

para a espécie Corymbia citriodora, e em Psidium, 247 Mb foi estimado para a espécie

Psidium guajava (da Costa et al., 2008, Grattapaglia et al., 2012; Praça et al., 2009).

Para o gênero Eugenia, as estimativas variam de 238 Mb em Eugenia crenata,

245 Mb em E. uniflora e 311 Mb em E. multicostata) (da Costa et al., 2008, Grattapaglia et

al., 2012; Praça et al., 2009). A partir dessas informações, pode-se dizer que a estimativa de

tamanho obtida para o genoma de E. dysenterica DC. está dentro dos valores médios

observados para plantas da família Myrtaceae.

O assembly obtido conseguiu representar 56,7% (~250 Mb) do valor estimado

para o genoma de E. dysenterica DC. Foram obtidos 130.243 contigs, dos quais 81.826 com

mais de 1 kb e 861 com mais de 10 kb. Os contigs formados têm tamanho médio de 1.92 kb,

sendo o maior contig composto por 58.42 kb. O N50 obtido com a montagem foi de 2.658

pb (Tabela 2).

Tabela 2. Informações utilizadas para avaliar a qualidade de um draft assembly obtido para E. dysenterica.

Métrica Valor obtido

Nº inicial de contigs 206.293 Nº de contigs após retirada de DNA organelar e contigs < 500 130.243 Contigs > 1 kb 81.826 Contigs > 10 kb 861 Tamanho médio dos contigs (pb) 1.924 Maior contig (pb) 58.428 Menor contig (pb) 500 N50 (pb) 2.658 Quantidade do genoma representada pelo assembly (%) 56,7

Page 57: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

55

4.4 CARACTERIZAÇÃO GENÔMICA

4.4.1 Elementos Transponíveis

Observou-se que 35,3% do assembly (~ 88 Mb) é composto por regiões

repetitivas, sendo que os elementos transponíveis (TEs) representam a maior parte dessas

repetições (27,1%). A fração do genoma de E. dysenterica representada por TEs foi superior

à proporção identificada em Arabidopsis (18,5%) e inferior ao que foi identificado em uva

(44,5%) e eucalipto (50,1%) (Jaillon et al., 2007; Kaul et al., 2000; Myburg et al., 2014).

Foram identificados 312.127 TEs, dos quais 34.904 são comuns a outras espécies

e 277.223 foram identificados com base no banco de dados de repetições criado

exclusivamente para E. dysenterica. Como já observado em genomas de plantas, os

elementos LTR retrotransposons constituem a ordem mais frequente, abrangendo 26% dos

TEs identificados, dentre eles, os elementos Ty1-copia constituem a família mais abundante,

resultado observado também no genoma de pêssego. Já os transposons de DNA aparecem

com uma frequência de 11%, sendo que a maioria deles não foi colocado dentro de famílias

(Figura 14) (Myburg et al., 2014; Schnable et al., 2012; Verde et al., 2013).

Dentre os TEs identificados, 60% não foram agrupados em classes e destes, os

oito elementos que ocorreram de forma mais abundante foram analisados quanto a sua

estrutura e possíveis funções biológicas. A busca por genes que codificam para proteínas

dentro destes elementos feita com o blastx não identificou domínios conservados entre esses

elementos e outras espécies cujas informações encontram-se disponíveis no banco de dados

do NCBI.

Por outro lado, a busca por ORFs com a ferramenta ORFFinder, revelou que

apenas a sequência referente ao elemento mais abundante não possui tais estruturas,

sugerindo que esta possa se tratar de uma sequência não funcional do genoma (Tabela 6).

Por outro lado, a presença de ORFs nos demais elementos analisados, sugere que estas

regiões possuem potencial para codificação de genes, podendo constituir genes unicamente

pertencentes a E. dysenterica.

Page 58: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

56

Figura 14. Frequência de elementos transponíveis identificados no genoma de E. dysenterica, de

acordo com as classes.

Tabela 3. Elementos transponíveis não classificados e que ocorreram de forma abundante no genoma de E. dysenterica.

ID do elemento Frequência absoluta Blastx ORF Finder

rnd-2_family-33 14.320 - -

rnd-2_family-117 7.470 - 2

rnd-2_family-30 6.786 - 5

rnd-2_family-222 3.942 - 1

rnd-2_family-112 3.805 - 4

rnd-2_family-27 3.661 - 1

rnd-2_family-138 3.223 - 2

rnd-4_family-191 3.041 - 1

Além dos elementos transponíveis, o RepeatMasker também identificou outras

repetições, entre elas repetições em tandem (satélites, microssatélites), DNAs de baixa

complexidade e pequenos RNAs, descritos na tabela a seguir:

Page 59: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

57

Tabela 4. Outros grupos de elementos repetitivos identificados no genoma de E. dysenterica. Tipo de repetição Frequência

absoluta

Pequenos RNAs 1.794

DNAs Satélites 147

Repetições Simples 79.371

Baixa complexidade 18.990

TOTAL 100.302

4.4.2 Regiões Microssatélites

Foram identificadas 55.491 regiões microssatélites, das quais a maioria consiste

de mononucleotídeos (Tabela 7). A maioria das regiões contém entre dez e doze

nucleotídeos, sendo a maior região composta por 77 nucleotídeos. Foram classificadas como

microssatélites, apenas as regiões que continham pelo menos dez repetições para cada tipo

de motivo, desde mono até hexanucleotídeos. Este critério de classificação pode ser usado

como justificativa para o valor maior de regiões identificadas pelo RepeatMasker. A

divergência de valores também pode ser justificada pelo fato de que a análise feita com o

RepeatMasker não separa os microssatélites de outras repetições simples, podendo

encontrar-se incluídas na contagem minissatélites e DNAs satélites.

Tabela 5. Quantidade de regiões microssatélites identificadas no genoma de E. dysenterica de acordo com o tipo de motivo de repetição.

Tipo de motivo Frequência absoluta

Mononucleotídeos 46.701

Dinucleotídeos 8.403

Trinucleotídeos 337

Tetranucleotídeos 46

Pentanucleotídeos 2

TOTAL 55.491

O motivo de repetição T/A foi o mais frequente (44%), seguido de A/T (43%)

do dinucleotídeo GA/TC (7%). Motivos compostos por pelo menos três nucleotídeos

ocorreram com frequências inferiores a 1 % na amostragem analisada (Figura 15).

Page 60: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

58

Figura 15. Frequência dos motivos de repetição de regiões microssatélites identificadas no genoma

de E. dysenterica.

Foram construídos 119.326 pares de primers para as regiões identificadas, dos

quais 25.803 foram eliminados por apresentarem similaridade com elementos transponíveis

conhecidos, a partir do banco de dados consultado. A eliminação dessas regiões foi feita com

a intenção de reduzir a ocorrência de alelos nulos e consequentemente de erros de

genotipagem. O alelismo nulo em regiões microssatélites é causado por mutações na região

de hibridização dos iniciadores, evitando a amplificação dos alelos afetados (Carlsson, 2008;

Pompanon, et al, 2008). Outra situação que pode gerar alelismo nulo é a amplificação de

alelos que variam de tamanho, onde alelos curtos muitas vezes amplificam de forma mais

eficiente do que aqueles com maiores dimensões, de modo que apenas o menor dos dois

alelos é detectado em um indivíduo heterozigoto (Dakin & Avise, 2004).

Erros de genotipagem causados por alelismo nulo podem ter efeitos sobre

estimativas como tamanho populacional, onde a obtenção de informações imprecisas pode

causar tomada de decisões incorretas sobre as populações estudadas (Pompanon, et al.,

2008). Além desses, mais 1.895 primers também foram eliminados por apresentarem

similaridade com outras repetições conhecidas, com o intuito de selecionar apenas primers

que estejam em regiões livres de possíveis contaminações, reunindo assim um total de

27.628 primers eliminados.

Page 61: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

59

A partir dos 91.628 primers restantes, foram adotados critérios sugeridos pelo

próprio QDD, para seleção dos melhores primers, incluem além das regiões livres de

elementos transponíveis, a escolha de um primer por contig, com pelo menos 30 pb de

comprimento e desenhados a partir de microssatélites puros. Os primers desenhados para

regiões ricas em AT também foram descartados com o intuito de evitar a formação de

estruturas como os hairpins que podem afetar o anelamento do primer e consequentemente

a amplificação. A partir desses critérios, foi selecionada uma bateria de 6.953 primers, que

poderão ser testados quanto à sua aplicabilidade como marcadores moleculares,

complementando informações genéticas já existentes, obtidas com trabalhos que utilizaram

microssatélites e outros marcadores (Telles et al., 2001 a, b; Trindade et al, 2005; Zucchi et

al., 2004, 2005). O esquema de seleção de pode ser observado na figura a seguir.

Figura 16. Esquema de seleção de primers microssatélites desenvolvidos a partir de um draft

assembly de E. dysenterica.

4.4.3 Genes e Transcritos

Foram preditos 60.171 fragmentos gênicos putativos, com tamanho médio de 1.7

kb. A maioria dos fragmentos (84, 61%) contém até 3 kb de tamanho, sendo o maior deles

constituído por 20.5 kb e o menor constituído por 37 bases (Figura 17). O valor médio de

tamanho observado para os fragmentos gênicos preditos em E. dysenterica é inferior aos

descrito para Arabidopsis (2.4 kb) e arroz (4.5 kb), porém estes valores incluem regiões

Page 62: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

60

UTR, informação não contida na predição de genes feita para E. dysenterica (Kaul et al.,

2000; Matsumoto et al., 2005).

A quantidade de fragmentos gênicos preditos em E. dysenterica é superior aos

valores descritos para espécies como Eucalipto (~36.376), Populus (~45.000) uva (~30.334)

e Arabidopsis (~25.000). Segundo Danton et al. (2014), isso pode ser justificado pela

fragmentação do assembly, descrito pelos pesquisadores como a principal causa da

superestimação da quantidade de genes (Kaul et al., 2000; Miburg et al., 2014; Tuskan et al.,

2006).

A variação observada no número de genes pode representar tanto a diversidade

genética resultante da evolução das famílias de genes, quanto a inferência feita a partir de

sequenciamento e montagem de artefatos. Isso ocorre porque a clivagem e separação de

genes em vários contigs dificulta a capacidade de preditores em identifica-los corretamente.

A obtenção e inclusão de informações complementares como ESTs e RNA-seq poderiam

funcionar como forma de melhorar a precisão da predição inicial (Danton et al., 2014).

Figura 17. Distribuição de frequência dos fragmentos gênicos preditos, de acordo com seus

tamanhos (pb).

De acordo com a estimativa de tamanho obtida para o genoma de E. dysenterica

neste trabalho (442 Mb), observa-se a ocorrência de 1 gene a cada 7.3 kb, mostrando uma

densidade de genes maior que a observada em espécies como eucalipto (1 gene a cada 17

kb), uva (1 gene a cada 16 kb) e Populus (1 gene a cada 10 kb) e proporcional à quantidade

de fragmentos gênicos preditos. Considerando-se os 130.243 contigs que constituem o

assembly analisado, tem-se uma média de 2.16 fragmentos gênicos por contig (Figura 18),

Page 63: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

61

sendo que 80% dos contigs possuem apenas um fragmento de gene putativo. Este resultado

nos leva a supor que ~ 40% do genoma de E. dysenterica é composta por genes.

Figura 18. Frequência de ocorrência de fragmentos gênicos de acordo com o número de contigs

que compõe o draft assembly de E. dysenterica.

A partir dos fragmentos gênicos preditos, foram observados um total de 228.510

transcritos, com média de 3.8 transcritos por gene, onde cerca de 37% dos genes possuem

apenas um transcrito (Figura 19). A média de tamanho observada para estas estruturas foi de

2.7 kb, sendo que 50% deles são compostos por até 2.2 kb (Figura 20).

Figura 19. Distribuição de frequência de transcritos por fragmento gênico.

Page 64: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

62

Figura 20. Distribuição dos transcritos preditos, de acordo com seus tamanhos (pb).

Também foi possível observar um total de 1.325.790 éxons, com uma média de

214 bases de tamanho, sendo 91,16% deles compostos por até 500 bases. Considerando-se

a quantidade de transcritos observados, tem-se em média 5.8 éxons para cada transcrito.

Foram observados um total de 1.160.721, íntrons com tamanho médio de 270 bases, sendo

que a 97 % dos íntrons observados possuem entre 500 e 1.000 bases. Os íntrons compostos

por mais de 1 kb ocorreram em uma frequência pequena, porém, chama a atenção a

informação de que o maior íntron identificado é composto por 4.8 kb, o que pode ser causado

pela presença de elementos transponíveis, evento observado em quase todos os íntrons

maiores que 1 kb, durante os estudos em genoma de arroz (Matsumoto et al., 2005).

Page 65: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

63

Figura 21. Distribuição dos introns preditos, de acordo com seus tamanhos (pb).

Com o intuito de aumentar a confiança na predição, os transcritos de E. grandis

foram alinhados ao um banco de dados criados para o assembly de E. dysenterica, através

da ferramenta blastn. O resultado mostrou que 86,7% dos transcritos de E. grandis estão no

genoma de E. dysenterica, sugerindo que esses transcritos são referentes a genes homólogos

entre as espécies.

A anotação com o uso do Blast2go categorizou os 228.510 transcritos preditos

em três domínios (Figuras 22, 23 e 24): Componente Celular (CC), Função molecular (FM)

e Processo Biológico (PB). Categorias GO pertencentes ao domínio CC estão envolvidas

com partes da célula e do seu meio extracelular. As atividades elementais de um produto

gênico a nível molecular são agrupadas no domínio FM. Finalmente, o domínio PB agrupa

categorias GO de eventos moleculares com início e fim bem definidos relativos ao

funcionamento das células, tecidos e órgãos e organismos.

Considerando a anotação GO para CC, pode-se verificar que a maior parte dos

transcritos foram anotados como pertencentes às categorias ontológicas relacionadas com a

estrutura da célula (GO: The Cell 30.946 transcritos). Estas classes incluem todos os

componentes intracelulares excetuando os componentes da membrana plasmática. Seguindo

a ordem decrescente da anotação para CC, a segunda anotação mais frequente se deu para o

termo GO Organelle (21.413 transcritos) seguida por Membrane proteins (GO: Membrane

= 17.811).

Page 66: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

64

Cellular Process e Single Organism Process foram as anotações GO mais

frequentes para PB (42.202 e 35.954, respectivamente), processos relacionados às classes

GO Reproduction, Imune System Process, Growth foram anotados em menor escala (567,

455, 978, respectivamente). Já para o domínio FM apresentou predominância de anotações

para as classes GO Catalytic Activity e Binding (47.472 e 36.723, respectivamente).

Figura 22. Classificação GO obtida para o domínio Componente Celular, na análise dos 228.510

transcritos com o uso do programa Blast2go.

Page 67: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

65

Figura 23. Classificação GO obtida para o domínio Processo Biológico, na análise dos 228.510

transcritos com o uso do programa Blast2go.

Figura 24. Classificação GO obtida para o domínio Função Molecular, na análise dos 228.510

transcritos com o uso do programa Blast2go.

Page 68: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

5 CONSIDERAÇÕES FINAIS

i. A abordagem utilizada neste trabalho mostrou-se eficiente para a amostragem e

caracterização do genoma de E. dysenterica. A montagem obtida apresenta-se

fragmentada em uma grande quantidade de contigs, porém, ainda assim foi possível

recuperar 56,7 % do tamanho estimado para o genoma da espécie. Dessa forma,

recomenda-se para trabalhos futuros o uso de um maior conjunto de sequências

genômicas, além do sequenciamento de diferentes tipos de bibliotecas (mate-pair,

PacBio, etc) com o objetivo de aumentar a contiguidade nas sequências montadas;

ii. As etapas de controle de qualidade das sequências e do assembly mostraram efeitos

positivos, constituindo um importante passo para melhorar a qualidade dos dados e

consequentemente dos resultados;

iii. O genoma de cagaiteira, apresenta uma grande quantidade de elementos repetitivos

(~35% do assembly), o que corrobora as informações descritas na literatura para

genomas de plantas;

iv. Os elementos transponíveis constituem a maior parte das repetições identificadas,

sendo que a maioria desses elementos (60%) não foram classificados neste estudo e

constituem matéria prima para estudos posteriores acerca da estrutura e função desses

elementos no genoma de E. dysenterica;

v. As ferramentas computacionais utilizadas permitiram a identificação grande

quantidade de regiões microssatélites (55.491) bem como a obtenção de primers que

não estão em contexto de elementos transponíveis, o que pode otimizar sua

amplificação. As regiões microssatélites identificadas podem utilizados como

marcadores moleculares, permitindo a obtenção de informações genéticas ainda

desconhecidas;

vi. Este trabalho constitui o primeiro rascunho de genoma de uma espécie nativa do

Cerrado e o segundo para a família Myrtaceae. Sendo assim, os resultados obtidos

sugerem que o genoma de cagaiteira é um candidato a

ser futuramente uma sequência modelo para essa família.

Page 69: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

6 REFERÊNCIAS

AMBROZOVÁ, K.; MANDÁKOVÁ, T.; BURES, P.; NEUMANN, P.; LEITCH, I. J.; KOBLÍZKOVÁ et al. Diverse retrotransposon families and an AT-rich satellite DNA revealed in giant genomes of Fritillaria lilies. Annals of botany, v.107, n.2, p.255-268, dez. 2011.

AGREN, J. ARVID; STEPHEN I. WRIGHT. Co-evolution between transposable elements and their hosts: a major factor in genome size evolution? Chromosome research, v. 19, n. 6, p. 777-786, ago. 2011.

AGUIAR, A.V. de.; VENCOVSKY, R., CHAVES, L. J.; MOURA, N. F.; MORAIS, L. K. de. Genetics and expected selection gain for growth traits in Eugenia dysenterica DC. populations. Bragantia, Campinas, v. 68, n. 3, p. 629-637, set. 2009.

ALBERTS, B.; JOHNSON, A.; LEWIS, J.; RAFF, M.; ROBERTS, K., WALTER, P. Biologia molecular da célula, 5. ed. Porto Alegre: Artmed, 2010.

ALLENDORF, F. W.; HOHENLOHE, A. P.; LUIKART, G. Genomics and the future of conservation genetics. Nature Reviews Genetics, London, v. 11, n. 10, out. 2010.

AMOS, W.; FLINT, J.; XU, X. Heterozygosity increases microsatellite mutation rate, linking it to demographic history. BMC genetics, v. 9, p. 72, nov.2008.

ANDRADE, A. C. S.; CUNHA, R.; SOUZA, A. F.; REIS, R. B.; ALMEIDA, K. J. Physyological and morphological aspects of seed viability of a neotropical savannah tree, Eugenia dysenterica DC. Seed Science and Technology, v. 31, n., p .125-137, abr. 2003.

ANDREWS, S.: FastQC. A quality control tool for high throughput sequence data. Disponível em: < http://www.bioinformatics.babraham.ac.uk/projects/fastqc/>. Acesso em: 20 ago. 2015.

AUGUSTUS. Gene Prediction with the Command-Line Version of AUGUSTUS. Disponível em: http://augustus.gobics.de/binaries/README.TXT. Acesso em 05 ago. 2015.

BANCROFT, I. Duplicate and diverge: the evolution of plant genome microstructure. Trends in genetics, v. 17, n. 2, p. 89–93, fev. 2001.

BARBOSA, A. C. D. O. F.; COLLEVATTI, R. G.; CHAVES, L. J.; GUEDES, L. B. S.; DINIZ-FILHO, J. A. F.; TELLES, M. P. C. Range-wide genetic differentiation of Eugenia dysenterica (Myrtaceae) populations in Brazilian Cerrado. Biochemical Systematics and Ecology, v. 59, p. 288-296, abr. 2015.

Page 70: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

68

BARRÓN, M. G. FISTON-LAVIER, A.; PETROV, D. A.; GONZÁLEZ, J. Population genomics of transposable elements in Drosophila. Annual review of genetics, v. 48, p. 561-581, out. 2014.

BENNETZEN, J. L.; COLEMAN, C.; LIU, R.; RAMAKRISHNA, W. Consistent over-estimation of gene number in complex plant genomes. Current Opinion in Plant Biology, v. 7, n. 6, p. 732–736, set. 2004.

BHARGAVA, A.; FUENTES, F. F. Mutational dynamics of microsatellites. Molecular Biotechnology, v. 44, p. 250-266, dez. 2009.

BODT, S.; MAERE, S.; VAN DE PEER, Y. Genome duplication and the origin of angiosperms. Trends in Ecology and Evolution, v. 20, n. 11, p. 591-597, nov. 2005.

BOLGER, A. M.; LOHSE, M.; USADEL, B. Trimmomatic: A flexible trimmer for Illumina sequence data. Bioinformatics, v. 30, n. 15, p. 2114-2120, 2014.

BROWN, T. A. Genomes. 3 ed. New York: Garland Science Publishing, 2007.

BRONDANI, R.P.V.; BRONDANI, C.; TARCHINI, R.; GRATTAPAGLIA, D. Development, characterization and mapping of microsatellite markers in Eucalyptus grandis and E. urophyla. Theoretical and Applied Genetics, v.97, p.816-827, mar. 1998.

BUSCHIAZZO, E.; GEMMELL, N. J. The rise, fall and renaissance of microsatellites in eukaryotic genomes. BioEssays, v. 28, n. 10, p. 1040-1050, out. 2006.

CAICEDO, A. L.; PURUGGANAN, M. D. Comparative plant genomics. Frontiers and prospects. Plant physiology, v. 138, n. 2, p. 545–547, jun. 2005.

CAMILO, Y. M. V.; SOUZA, E. R. B. D.; VERA, R.; NAVES, R. V. Fenologia, produção e precocidade de plantas de Eugenia dysenterica visando melhoramento genético. Revista de Ciências Agrárias, v.36, v.2, p.192-198, jan. 2013.

CARDOSO, L. M.; MARTINO, H. S. D.; MOREIRA, A. V. B.; RIBEIRO, S. M. R.; SANT’ANA, H. M. P. Cagaita (Eugenia dysenterica DC.) of the Cerrado of Minas Gerais, Brazil: Physical and chemical characterization, carotenoids and vitamins. Food Research International, Ottawa, v. 44, n. 2, mar. 2011.

CARVALHO, M. C.; SILVA, D. C. G. Sequenciamento de DNA de nova geração e suas aplicações na genômica de plantas. Ciência Rural, Santa Maria, v. 40, n. 3, mar. 2010.

CASACUBERTA, E.; GONZÁLEZ, J. The impact of transposable elements in environmental adaptation. Molecular Ecology, v. 22, n. 6, p. 1503-1517, jan. 2013.

CHAVES, L. J.; TELLES, M. P. C. de. Cagaita. In: Frutas Nativas da Região Centro-Oeste do Brasil. 1.ed. Brasília: Embrapa, 2006, cap. 7, p. 120-134.

COOPER, L., WALLS, R. L., ELSER, J., GANDOLFO, M. A., STEVENSON, D. W., SMITH et al. The plant ontology as a tool for comparative plant anatomy and genomic analyses. Plant and Cell Physiology, v.54, n.2, p. 1-23, dez. 2012.

Page 71: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

69

COMPEAU, P. E C.; PEVZNER, P. A.; GLENN T. How to apply de Bruijn graphs to genome assembly. Nature Biotechnology, v. 29, n. 11, p.987-991, nov. 2011.

CARLSSON, J. Effects of Microsatellite Null Alleles on Assignment Testing. Journal of Heredity, v. 99, n. 6, p. 616-623, jun. 2008.

CUI, L.; WALL, P. K.; LEEBENS-MACK, J. H.; LINDSAY, B. G.; SOLTIS, D. E.; DOYLE, J. J. et al. Widespread genome duplications throughout the history of flowering plants. Genome Research, v. 16, n. 6, p. 738-749, jun. 2006.

CUI, X.; CAO, X. Epigenetic regulation and functional exaptation of transposable elements in higher plants. Current Opinion in Plant Biology, v. 21, p. 83-88, out. 2014.

DA COSTA, I, R.; DORNELAS, M. C.; FORNI-MARTINS, E. R. Nuclear genome size variation in fleshy-fruited Neotropical Myrtaceae. Plant Systematics and Evolution, v. 276, n. 3-4, p. 209-217, out. 2008.

DAVEY, J. W.; HOHENLOHE, P. A.; ETTER, P. D.; BOONE, J. Q.; CATCHEN, J. M.; BLAXTER, M. L. Genome-wide genetic marker discovery and genotyping using next-generation sequencing. Nature Reviews Genetics, v.12, n.7, p.499-510, jul. 2011.

DE ALMEIDA JÚNIOR, E. B; CHAVES, L. J.; SOARES, T. N. Caracterização genética de uma coleção de germoplasma de cagaiteira, uma espécie nativa do cerrado. Bragantia, v. 73, n. 3, p. 246-252, jul. 2014.

DEL FABBRO, C.; SCALABRIN, S.; MORGANTE, M.; GIORG, F. M. An Extensive Evaluation of Read Trimming Effects on Illumina NGS Data Analysis. PLoS ONE, v. 8, n 12, p. 1-13, dez. 2013.

DIAS CORREIA, J. H. R.; DIAS CORREIA, A. A. Funcionalidades dos RNA não codificantes (ncRNA ) e pequenos RNA reguladores , nos mamíferos. REDVET: Revista electrónica de Veterinaria, v. 8, n. 10, 1695-7504, p. 1-22, out. 2007. Disponível em: <http://www.redalyc.org/articulo.oa?id=63612713006> Acesso: 05 set. 2015.

DOYLE, J.J.; DOYLE J.L. Isolation of plant DNA from fresh tissue. Focus, v.12, p.13-15, 1990.

DU, C.; CARONNA, J.; HE, L.; DOONER, H. K. Computational prediction and molecular confirmation of Helitrontransposons in the maize genome. BMC Genomics, v. 9, n. 51, p. 1-10, jan. 2008.

DUARTE, A. R; NAVES, R. R.; SANTOS, S. C.; SERAPHIN, J. C.; FERRI, P. Seasonal influence on the essential oil variability of Eugenia dysenterica. Chemical Society, v. 20, n. 5, p. 967–974, 2009.

DUARTE, A. R. NAVES, R. R.; SANTOS, S. C.; SERAPHIN, J. C.; FERRI, P. Genetic and Environmental Influence on Essential Oil Composition of Eugenia dysenterica. Journal of the Brazilian Chemical Society, São Paulo, v. 21, n. 8, p. 1459-1467, 2010.

Page 72: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

70

EARL, D.; BRADNAM.; JOHN, J. S.; DARLING, A.; LIN, D.; FASS, J; et al. Assemblathon 1: A competitive assessment of de novo short read assembly methods. Genome Research, v. 21, n. 12, p. 2224–2241, dez. 2011.

ELLEGREN, H. MICROSATELLITES : Microsatellites: simple sequences with complex evolution. Nature Reviews Genetics, v. 5, n. 6, p. 435-445, jun. 2004.

EKBLOM, R.; WOLF, J. B. W. A field guide to whole-genome sequencing, assembly and annotation, Evolutionary Application, v. 7, n. 9, p 1026-1042, mai. 2014.

FAWCETT, J. A; MAERE, S.; VAN DE PEER, Y. Plants with double genomes might have had a better chance to survive the Cretaceous-Tertiary extinction event. Proceedings of the National Academy of Sciences of the United States of America, v. 106, n. 14, p. 5737–5742, jan. 2009.

FESCHOTTE, C.; JIANG, N.; WESSLER, S. R. Plant transposable elements: where genetics meets genomics. Nature Reviews Genetics, v. 3, n. 5, p. 329–341, 2002.

FINNEGAN, D. J. Eukaryotic transposable elements and genome evolution. Trends Genetics, v. 5, n. 4, p. 103–107, abr. 1989.

GARRIDO-RAMOS, M. A. Satellite DNA in Plants: More than Just Rubbish. Cytogenetic and Genome Research, jul. 2015.

GEMAYEL, R. et al. Variable tandem repeats accelerate evolution of coding and regulatory sequences. Annual review of genetics, v. 44, p. 445–477, agos. 2010.

GENE ONTOLOGY CONSORTIUM. (2012) The Gene Ontology: enhancements for 2011. Nucleic Acids Research. v. 40, p.559-564, jan 2012.

GRATTAPAGLIA, D. et al. Progress in Myrtaceae genetics and genomics: Eucalyptus as the pivotal genus. Tree Genetics and Genomes, v. 8, p. 463-508, abr. 2012.

GUO, Y. L. Gene family evolution in green plants with emphasis on the origination and evolution of Arabidopsis thaliana genes. Plant Journal, v. 73, n. 6, p. 941–951, jan. 2013.

HAMILTON, J. P.; ROBIN BUELL, C. Advances in plant genome sequencing. The Plant Journal, v. 70, n. 1, p. 177–190, abr. 2012.

HESLOP‐HARRISON, J. S.; SCHWARZACHER, T. Organisation of the plant genome in chromosomes. The Plant Journal, v. 66, n. 1, p. 18-33, mar. 2011.

HUA-VAN, A.; LE ROUZIC, A.; BOUTIN, T. S.; FILEÉ, J.; CAPY, P. The struggle for life of the genome ’ s selfish architects. Biology Direct, v. 6, n. 1, p. 1-29, mar. 2011.

HURST, G. D. D.; WERREN, J. H. The role of selfish genetic elements in eukaryotic evolution. Nature Reviews Genetics, v. 2, n. 8, p. 597-606, ago. 2001.

ILLUMINA. MiSeq System User Guide. Disponível em: >http://support.illumina.com/sequencing/sequencing_instruments/miseq.html> Acesso em: 20 ago. 2015a.

Page 73: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

71

ILLUMINA. Nextera DNA Sample Preparation Guide. Disponível em:< http://support.illumina.com/sequencing/sequencing_kits/nextera_dna_kit.html> Acesso em: 20 ago. 2015b.

JAILLON, O.; AURY, J.; NOEL, B.; POLICRITI, A.; CLEPET, C.; CASAGRANDE, A. et al. The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla. Nature, v. 449, n. 7161, p. 463–467, set. 2007.

JÚNIOR, E. B. DE; CHAVES, L. J.; SOARES, T. N. Caracterização genética de uma coleção de germoplasma de cagaiteira, uma espécie nativa do cerrado. Bragantia, v. 73, n. 3, p. 246–252, jun. 2014.

JURKA, J.; KAPITONOV, K. O.; JURKA, M. V. Repetitive Sequences in Complex Genomes : Structure and Evolution. Annual review of genomics and human genetics, v. 8, p. 1–21, mai. 2007.

KAUL, S; KOO, H. L.; JENKINS, J.; RIZZO, M.; ROONEY, T.; TALLON, L. J. et al. Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature, v. 408, n. 6814, p. 796–815, dez. 2000.

KELLOGG, E. E. A.; BENNETZEN, J. J. L. The evolution of nuclear genome structure in seed plants. American Journal of Botany, v. 91, n. 10, p. 1709–1725, out. 2004.

KOREN, S.; SCHATZ, M. C.; WALENZ, B. P.; MARTINS, J.; HOWARD, J. T.; GANAPATHY, G. et al. Hybrid error correction and de novo assembly of single-molecule sequencing reads. Nature Biotechnology. v. 30 n. 7 p. 693-700 , jul. 2012.

LANGMEAD, B; SALZBERG, S. Fast gapped-read alignment with Bowtie2. Nature Methods, New York, v. 9, n. 4, p. 357-359, mar. 2012.

LEE, S.; KIM, N. Transposable Elements and Genome Size Variations in Plants. Genomics & Informatics, v. 12, n. 3, p. 87–97, ago. 2014.

LERAT, E. Identifying repeats and transposable elements in sequenced genomes : how to find your way through the dense forest of programs. Heredity, v. 104, n. 6, p. 520–533, jun. 2010.

LI, H.; HANDSAKER, B.; WYSOKER, A.; FENNELL, T.; RUAN, J.; HOMER, N.; MARTH, G.; ABECASIS, G.; DURBIN, R. The sequence alignment/map format and SAMtools. Bioinformatics, Oxford, v. 25, n. 16, p. 2078-2079, ago. 2009.

LIFE TECHNOLOGIES. Qubit Fluorometric Quantitation. Disponível em:< https://www.lifetechnologies.com/br/en/home/life-science/laboratory-instruments> Acesso em: 20 set. 2014.

LISCH, D. How important are transposons for plant evolution? Nature Reviews Genetics, v. 14, n. 1, p. 49–61, jan. 2013.

LOURENÇO, R. T. Estrutura genômica de três megabases de DNA genômico" shotgun" de eucalyptus: conteúdo nucleotídico, sequências repetitivas e genes. Dissertação (Mestrado), Universidade Estadual de Campinas, 2004.

Page 74: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

72

MARDIS, E. Next-generation DNA sequencing methods. Annual review of genomics and human genetics, v. 9, p 387-402, jul. 2012.

MARGULIES M.; EGHOLM M.; ALTMAN W.E.; ATTIYA S.; BADER J.S.; BEMBEN, L.A. Genome sequencing in microfabricated high-density picolitre reactors. Nature, v. 437 n. 9 p. 376-381, set. 2005.

MARTIENSSEN, R.; MOAZED D. RNA and heterochromatin assembly. Cold Spring Harbor Perspectives in biology, v. 7; p. 1-19, ago. 2015.

MARTINS, A. M. Sequenciamento de DNA, montagem de novo do genoma e desenvolvimento de marcadores microssatélites, indels e SNPs para uso em análise genética de Brachiaria ruziziensis. 2014. Tese (Doutorado) – Instituto de Ciências Biológicas, Universidade de Brasília, Brasília, jul. 2013.

MARTINEZ, M. Plant protein-coding gene families: Emerging bioinformatics approaches. Trends in Plant Science, v. 16, n. 10, p. 558–567, out. 2011.

MATSUMOTO,; WO. J.; KANAMORI, H.; KATAYOSE, Y.; FUJISAWA, M; NAMIKI, H. et al. The map-based sequence of the rice genome. Nature, v. 436, n. 7052, p. 793–800, agos. 2005.

MEGLÉCZ, E.; PECH, N.; GILLES, A.; DUBUT, V.; HINGAMP, P.; TRILLES, A. QDD version 3.1: a user-friendly computer program for microsatellite selection and primer design revisited: experimental validation of variables determining genotyping success rate. Molecular ecology resources, v. 14, n. 6, p. 1302-1313, nov. 2014.

MEHROTRA, S.; GOYAL, V. Repetitive Sequences in Plant Nuclear DNA: Types, Distribution, Evolution and Function. Genomics, proteomics & bioinformatics, v. 12, n. 4, p. 164–171, ago. 2014.

MICHAEL, T. P.; JACKSON, S. The First 50 Plant Genomes. The Plant Genome, v. 6, n. 2, p. 1-7, ago. 2013.

MORGANTE, M.; HANAFEY, M.; POWELL, W. Microsatellites are preferentially associated with nonrepetitive DNA in plant genomes. Nature genetics, v. 30, n. 2 , p. 194–200, jan. 2002.

MYBURG, A. A.; Grattapaglia, D.; TUSKAN, G. A.; HELLSTEN, U.; HAYES, R. D.; GRIMWOOD, J.; et al. The genome of Eucalyptus grandis. Nature, v. 5010, n. 7505, p. 356–362, jun. 2014.

NOVAES, C. R. D. B. Variação genética quantitativa e molecular em populações Naturais de Eugenia dysenterica DC. Tese (Doutorado) – Escola de Agronomiazucchi, Universidade Federal de Goiás, Goiânia, 2014.

OLIVEIRA, E. J., PÁDUA, J. G., ZUCCHI, M. I., VENCOVSKY, R.; Vieira, M. L. C. Origin, evolution and genome distribution of microsatellites. Genetics and Molecular Biology, v. 29, n. 2, p. 294-307, ago. 2006.

Page 75: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

73

OLIVEIRA, G. A. F.; DANTAS, J. L. L.; OLIVEIRA, E. J. Informativeness of minisatellite and microsatellite markers for genetic analysis in papaya. Genética, v.5, n 143, p. 613-631, out. 2015.

OUBORG, N. J.; PERTOLDI, C.; LOESCHCKE, V.; BIJILSMA, R. K.; HEDRICK, P. W. Conservation genetics in transition to conservation genomics. Trends in genetics, v. 26, n. 4, p. 177-187, abr. 2010.

PEZER Z.; BRAJKOVIC, J; FELICIELLO, I.; UGARKOVIC, D. Satellite DNA-mediated effects on genome regulation. Genome Dynamics, v. 7, p. 153-169, jun. 2012.

PELLICER, J.; FAY, M. F.; LEITCH, I. L. The largest eukaryotic genome of them all? Botanical Journal of the Linnean Society, n. 164, p. 10-15, jul. 2010.

PEZER, Z, BRAJKOVIĆ J, FELICIELLO I, UGARKOVIĆ D. Satellite DNA-mediated effects on genome regulation. Genome Dynamics, v. 7, p. 153–169, jun. 2012.

PLOHL M, MEŠTROVIĆ N, MRAVINAC B. Satellite DNA evolution. Genome Dynamics, vol 7, p. 126–152, jun. 2012).

PHYTOZOME - The plant genomics resource. Disponível:<http://phytozome.jgi.doe.gov/pz/portal.html > Acesso em 10 ago. 2015.

PRAÇA, M. M.; CARVALHO, C. R.; NOVAES, C. R. D. B. Nuclear DNA content of three Eucalyptus species estimated by flow and image cytometry. Australian Journal of Botany, v. 57, n. 6, p. 524-531, nov. 2009.

PROENÇA, C. E. B.; GIBBS, P. E. Reproductive biology of eight sympatric Myrtaceae from central Brazil. New Phytologist, v. 126, p. 343-354, fev. 1994.

QUINLAN, A. R.; HALL, I. M. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics, v. 6, n. 26, p. 841-842, mar. 2010.

RAO, S. R.; TRIVEDI, S.; EMMANUEL, D.; MERITA, K.; HYNNIEWTA. DNA repetitive sequences-types, distribution and function: A review. Journal of Cell and Molecular Biology, v. 7, n. 2, p. 1-11, mai. 2010.

RHO, M.; TANG, H. MGEScan-non-LTR: computational identification and classification of autonomous non-LTR retrotransposons in eukaryotic genomes. Nucleic Acids Research, v. 37, n. 21, p. 1-12, set. 2009.

RIBEIRO, R. A.; RODRIGUES, F. M. Genética da conservação em espécies vegetais do cerrado. Revista de ciências médicas e biológicas, v. 5, n. 3, p. 253-260, set. 2006.

ROCHE. Disponível em: http://www.roche.com.br/> Acesso em 15 dez. 2015.

RODRIGUES, E. B.; COLLEVATTI, R. G.; CHAVES, L. J.; MOREIRA, L. R.; TELLES, M. P. C. Mating system and pollen dispersal in Eugenia dysenterica (Myrtaceae) germplasm collection: tools for conservation and domestication. Genetica, v. 144, n. 2, p. 139-146, fev. 2016.

Page 76: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

74

SATO, S.; TABATA, S.; HIRAKAWA, H.; ASAMIZU, E.; SHIRASAWA, K.; ISOBE, S.; et al. The tomato genome sequence provides insights into fleshy fruit evolution. Nature, v. 485, n. 7400, p. 635–641, mai. 2012.

SAXENA, R. K.; EDWARDS, D.; VARSHNEY, R. K. Structural variation sin plant genomes. Briefings in functional genomics, v. 13. n. 4, p. 296-307, jun. 2014.

SHENDURE, J.; JI, H. Next-generation DNA sequencing. Nature biotechnology, v. 26, n. 10, p. 1135-1145, out. 2008.

SCHATZ, M. C. DELCHER, A. L.; SALZBERG, S. Assembly of large genomes using second-generation sequencing. Genome Research, v. 20, n. 9, p. 1165-1173, set. 2010.

SCHATZ, M. C.; WITKIWSKI J.; MCCOMBIE, W.R. Current challenges in de novo plant genome sequencing and assembly. Genome biology, v. 13, n. 4, p. 1-7, 2012.

SHULAEV, V.; SARGENT, D. J.; CROWHURST, R. N.; MOCKLER, T. C.; FOLKERTS, O.; DELCHER, A. L. et al. The genome of woodland strawberry (Fragaria vesca). Nature genetics, v. 43, n. 2, p. 109-118, fev. 2011.

SIMS, D.; SUDBERY, I.; ILOTT, N. E.; HEGER, A.; PONTING, C. P. Sequencing depth and coverage: key considerations in genomic analyses. Nature Reviews, v. 15, n. 2, fev. 2014.

SCHNABLE, P. S.; WARE, D.; FULTON, R. S.; STEIN, J. C.; WEI, F.; PASTERNAK, S.; et al. The B73 maize genome: complexity, diversity, and dynamics. Science, v. 20, n. 326, p. 1112-1115, nov. 2009.

SILVA, R. S. M.; CHAVES, L. J.; NAVES, R. V. Caracterização de frutos e árvores de Cagaita (Eugenia dysenterica DC.) no sudoeste do estado de Goiás, Brasil. Revista Brasileira de Fruticultura, v. 23, n. 2, p. 330-334, ago. 2001.

SILVA, S. M. M.; SILVA, C. A. G.; FONSECA-BAZZO; Y. M.; MAGALHÃES, P. O.; SILVEIRA, D. Eugenia dysenterica Mart. Ex DC.(cagaita): planta brasileira com potencial terapêutico. Infarma - Ciências Farmacêuticas, v. 27, n. 1, p. 49-95, mar. 2015.

SMIT, A.F.A.; HUBLEY, R.; GREEN, P. RepeatMasker Open-4.0. 2013-2015. Disponível em:<http://www.repeatmasker.org>. Acesso em: 09 jul. 2015a.

SMIT, AFA, HUBLEY, R. RepeatModeler Open-1.0. 2008-2015. Disponível em:<http://www.repeatmasker.org>. Acesso em: 14 jul. 2015b.

SOLTIS, D. E.; VISGER, C. J.; SOLTIS, P. S. The polyploidy revolution then...and now: Stebbins revisited. American Journal of Botany, v. 101, n. 7, p. 1057–1078, jul. 2014.

SOUZA, P. M.; ELIAS, S. T.; SIMEONI, L. A.; DE PAULA, J. E.; GOMES, S. M.; GUERRA, E. N. S. et al. Plants from Brazilian Cerrado with Potent Tyrosinase Inhibitory Activity. Plos one, v. 7, n. 11, p. 1-7, nov. 2012.

STARLINGER, P.; SAEDLER, H. Insertion mutations in microorganisms. Biochimie, v. 54, n. 2, p. 177–185, fev. 1972.

Page 77: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

75

TELLES, M. P. C.; DINIZ-FILHO, J. A. F.; COELHO, A. S.G.; CHAVES, L. J. Autocorrelação espacial das frequências alélicas em subpopulações de cagaiteira (Eugenia desinterica DC, Myrtaceae) no Sudeste de Goiás. Revista Brasileira de Botânica, São Paulo, v. 24, n. 2, p. 145-154, jun. 2001a.

TELLES, M. P. C; SILVA, R. S. M.; CHAVES, L. J.; COELHO, A. S. G.; FILHO, J. A. F. D. Divergência entre subpopulações de cagaiteira (Eugenia dysenterica) em resposta a padrões edáficos e distribuição espacial. Pesquisa Agropecuária Brasileira, Brasília, v. 36, n. 11, nov. 2001b.

TELLES, M. P. C; COELHO, A. S. G.; CHAVES, L. J.; FILHO, J. A. F. D.; VALVA, F. D. Genetic diversity and population structure of Eugenia dysenterica DC. (“cagaiteira” – Myrtaceae) in Central Brazil: Spatial analysis and implications for conservation and management. Conservation Genetics, v. 4, n. 6, p. 685-695, nov. 2003.

TELLES, M. P. C. SILVA, J. B.; RESENDE, L. V.; VIANELLO, R. P.; CHAVES, L. J.; SOARES, T. N.; COLLEVATTI, R. G. Development and characterization of new microsatellites for Eugenia dysenterica DC (Myrtaceae). Genetics and Molecular Research, v. 12, n. 3, p. 3124–3127, FEV. 2013.

TRINDADE, M. DAG; CHAVES, L. J. Genetic structure of natural Eugenia dysenterica DC (Myrtaceae) populations in northeastern Goias, Brazil, accessed by morphological traits and RAPD markers. Genetics and Molecular Biology, v. 28, n. 3, p. 407–413, fev. 2005.

TUSKAN, G. A.; DIFAZIO, S.; JANSSON, S.; BOHLMANN, J.; GRIGORIEV, I.; HELLSTEN, U. et al. The genome of black cottonwood, Populus trichocarpa. Science, v. 313, n. 5793, p. 1596, set. 2006.

VANNESTE, K.; BAELE, G.; MAERE, S.; VAN DE PEER, Y. Analysis of 41 plant genomes supports a wave of successful genome duplications in association with the Cretaceous - Paleogene boundary. Genome Research, v. 24, p. 1334–1347, mai. 2014a.

VANNESTE, K.; MAERE, S.; VAN DE PEER, Y. Tangled up in two: a burst of genome duplications at the end of the Cretaceous and the consequences for plant evolution. Philosophical transactions of the Royal Society of London, v. 369, n. 1648, p. 1-13, jun. 2014b.

VERDE, I.; ABBOTT, A. G.; SCALABRIN, S.; JUNG, S.; SHU, S.; MARRONI, F. et al. The high-quality draft genome of peach (Prunus -persica) identifies unique patterns of genetic diversity, domestication and genome evolution. Nature genetics, v. 45, n. 5, p. 487-496, mai. 2013.

VERGNAUT, G.; DENOEUD, F. Minisatellites: Mutability and Genome Architecture. Genome research, v. 10, n. 7, p. 899-907, jul. 2000.

VILELA, E. C. CARVALHO, T. C.; DUARTE, A. R.; NAVES, R. R.; SANTOS, S C.; SERAPHIN, J. C.; FERRI, P. H. Spatial Structure of Eugenia dysenterica Based on Essential Oil Chemovariations and Implications for Conservation and Management of the Genetic Diversity of its Populations. Journal of the Brazilian Chemical Society, v. 23, n. 10, p. 1776–1782, out. 2012.

Page 78: SEQUENCIAMENTO E CARACTERIZAÇÃO PARCIAL DO GENOMA

76

WICKER, T.; SABOT, F.; HUA-VAN, A.; BENNETZEN, J.; CAPY, P.; CHALHOUB, B.; et al. A unified classification system for eukaryotic transposable elements. Nature Reviews Genetics, v. 8, n. 12, p. 973–982, dez. 2007.

YANDELL, M.; ENCE, D. A beginner’s guide to eukaryotic genome annotation. Nature Reviews Genetics, v. 13, n. 5, p. 329-342, mai. 2012.

YU, J.; HU, S.; WANG, J.; WONG, G. K.; LI, S.; LIU, B.; et al. A Draft Sequence of the Rice Genome (Oryza sativa L. ssp. indica). Science, v. 296, p. 79–92, abr. 2002.

ZHAO, Z. et al. Genome-Wide Analysis of Tandem Repeats in Plants and Green Algae. Genes, Genomes, Genetics, v. 4, n. 1, p. 67–78, nov. 2013.

ZIMIN, A. V.; MARÇAIS, G.; PUIU, D.; ROBERTS, M. The MaSuRCA genome assembler. Bioinformatics, Oxford, v. 29, n. 21, p. 2669-2677, ago. 2013.

YANDELL, M.; ENCE, D. A beginner’s guide to eukaryotic genome annotation. Nature Reviews Genetics, v. 13, n. 5, p. 329-342, mai. 2012.

ZHAO, Z.; GUO, C.; SUTHARZAN, S.; LI, P.; ECHT, C. S.; ZHANG, J.; LIANG, C. Genome-Wide Analysis of Tandem Repeats in Plants and Green Algae. Genes, Genomes, Genetics, v.4, n.1, p. 67-78, jan. 2014.

ZONNEVELD, M. V.; SCHELDEMAN, X.; ESCRIBANO, P.; VIRUEL, M. A.; VAN DAMME, P.; GARCIA, W. Mapping Genetic Diversity of Cherimoya (Annona cherimola Mill.): Application of Spatial Analysis for Conservation and Use of Plant Genetic Resources. Plos one, v. 7, n. 1, p. 1-14, jan. 2012.

ZUCCHI, M.I. Análise da estrutura genética de Eugenia dysenterica DC utilizando marcadores RAPD e SSR. Tese (Doutorado) – Escola Superior de Agricultura Luiz de Queiroz, Universidade de São Paulo, Piracicaba, nov. 2002.

ZUCCHI, M. I; PINHEIRO, J. B.; CHAVES, L. J.; COELHO, A. S. G.; COUTO, M. A.; MORAIS, L. K.; VENKOVSKY, R. Genetic structure and gene flow of Eugenia dysenterica natural populations. Pesquisa Agropecuária Brasileira, Brasília, v. 40, n. 10, p. 975-980, out. 2005.

ZUCCHI, M. I.; PINHEIRO, J. B.; AGUIAR, A. V.; CHAVES, L. J.; COELHO, A. S. G.; VENCOVSKY, R. Padrão espacial de divergência em populações de eugenia dysenterica DC. utilizando marcadores microssatélites. Floresta e Ambiente, v. 11, n. 1, p. 29–38, ago. 2004.