relatório1 (17,75)

17
Unidade curricular: Genómica Funcional e Comparativa Trabalho computacional 1 "High-throughput genome sequencing: from a DNA sequence to a genome annotation" Trabalho realizado por: Aldo Arévalo nº 79319 Leonor nº 79392 Sónia Pereira nº 79300 Mestrado em Biotecnologia

Upload: ricardo-ribeiro

Post on 03-Dec-2015

215 views

Category:

Documents


1 download

DESCRIPTION

relatório

TRANSCRIPT

Unidade curricular:

Genómica Funcional e Comparativa

Trabalho computacional 1

"High-throughput genome sequencing:

from a DNA sequence to a genome annotation"

Trabalho realizado por:

Aldo Arévalo nº 79319

Leonor nº 79392

Sónia Pereira nº 79300

Mestrado em Biotecnologia

Lisboa, 2013

Parte 1

Pergunta 3

R: O tamanho das reads importadas ronda os 200bp (base-pairs) (Figura 1).

Pergunta 4

a) O assembly originou 222 contigs (Figura 2).

b) O tamanho médio dos contigs é de 20 642bp (Figura 2).

1

Figura 1: Print-screen da tabela com o tamanho das reads (Output do CLC Genomics Workbench

software).

Figura 2: Print-screen do relatório do assembly (Output do CLC Genomics Workbench software).

Leonor, 13-10-2013,
Estava um 2 a mais

Pergunta 5

R: O contig selecionado foi o 5, a coverage mais alta é de 46, sendo

encontrada entre os nucleótidos 3975 e 3983 (Figura 3).

Figura 3: Print-screens do

output do assembly do CLC

Genomics Workbench

software. Em cima: destaque

azul na região com maior

coverage; Em baixo: imagens

mais detalhadas das posições com maior coverage.

Pergunta 7

1) Para o nucleotide BLAST foi usado a sequência do contig 23 como query,

pela análise dos resultados foi possível concluir que esta espécie pertence a

Escherichia coli K12 (Figura 4).

2

Figura 4: Resultados do nucleotide BLAST, utilizando a sequência do contig 23 como query.

Leonor, 13-10-2013,
Não seria mais correcto dizer que a espécie mais próxima é E. coli? Até porque há várias estirpes com o mesmo resultado, portanto não podemos assumir que é E. coli K12 =S

2) As proteínas identificadas em cada contig estão apresentadas na Tabela 1,

tal como as posições do genoma de E. coli K12 em que esse contig alinha. As

imagens ilustrativas encontram-se na Figura 5.

Tabela 1: Tabela com três proteínas identificadas em cada contig utilizado, bem como as posições em que cada contig

alinha com o genoma de E. coli K12.

Número do contigPosições de alinhamento com o

genoma de E. coli K12Três proteínas presentes

23 3 765 631 a 3 774 133 YibG, YibH e MtlA

37 3 187 409 a 3 196 184 YqiK, YqiH e GlgS

54 1 470 498 a 1 479 946 YdbC, YnbA e YnbB

55 4 499 494 a 4 507 476 YjgZ, InsG e YjhC

117 279 914 a 289 260 YagA, YagG e YagH

Figura 5: Print-screens da representação gráfica da região do genoma de E. coli K12 em que cada contig estudado

alinha, com a identificação de 3 proteínas em cada contig. A) Destaque (a púrpura) para as proteínas identificadas no

contig 23; B) Destaque (a azul) para as proteínas identificadas no contig 37; C) Destaque (a vermelho) para as

proteínas identificadas no contig 54; D) Destaque (a verde) para as proteínas identificadas no contig 55; E) Destaque (a

preto) para as proteínas identificadas no contig 117.

Pergunta 10

3

Leonor, 13-10-2013,
Again, não devíamos dizer só E. coli?

R: A percentagem de reads que foram mapeadas no genoma de referência foi

de

97,20% e a percentagem de reads que não foram mapeadas no genoma de referência

foi de 2,80% (Figura 6).

Figura 6: Print-screen de parte do relatório do mapeamento das reads no genoma de referência, elaborado com

recurso ao CLC Genomics Workbench software.

Pergunta 11

R: Na Figura 7, dentro do retângulo preto, estão representadas duas posições

que correspondem a "bad base-call" uma vez que apenas numa read se detetou

aquele nucleótido, e que numa grande maioria das reads, tal como no genoma de

referência (NC_010473), não foi detetada a presença de qualquer nucleótido naquela

posição.

Na Figura 8, nos retângulos azuis, estão representados algumas mutações,

uma vez que numa parte das reads foi detetado um dado nucleótido e noutras reads

foi detetado outro, sendo que embora um dos nucleótidos seja mais comum que o

outro no alinhamento das reads, o menos comum é igual ao presente no genoma de

referência. Logo estas

posições podem

corresponder a

mutações que ainda

não se disseminaram

por toda a população.

4

Figura 7: Exemplo de "bad base-calls" ou seja, posições em que apenas em muito poucas reads foi detetada a

presença de um nucleótido que não está presente na grande maioria das reads (Print-screen do mapeamento das

reads no genoma de referência, obtido pelo CLC Genomics Workbench software).

Figura 8: Exemplo de posições em que

ocorrem mutações ou seja, posições em

que em várias reads se deteta num dado

nucleótido (o mesmo que no genoma de

referência), mas que noutras reads (por

vezes a maioria) é detetado outro

nucleótido para a mesma posição (Print-

screen do mapeamento das reads no

genoma de referência, obtido pelo CLC

Genomics Workbench software).

Figura 9: Print-screen da tabela de variantes elaborada no CLC Genomics Workbench software. As linhas realçadas

pelo fundo cinzento representam as consensus de reads escolhidas como exemplo de regiões com mais que uma

variante na estirpe em estudo.

5

a) Uma read que tenha mais que uma variação na estirpe sequenciada revela-

se na tabela pela indecisão do algoritmo em decidir qual é o nucleótido mais comum

para uma dada posição. As duas consensus de reads escolhidas encontram-se

realçadas com um fundo cinzento na Figura 9, na primeira consensus das reads

selecionada deteta-se a presença ou frequency de Timina (T) em 51,5% das reads

(levando à substituição do ácido aspártico presente no resíduo 122 da referência por

um ácido glutâmico) e a presença de Guanina (G) em 48,5% das reads (que mantém o

ácido aspártico no resíduo 122, tal como no genoma de referência); na segunda

escolha a presença de T é observada quer no genoma de referência, quer em 55,3%

das reads (mantendo a sequência de aminoácidos), a presença de G é observada em

44,7% das reads (levando à alteração da serina presente no resíduo 105 da referência

por uma alanina).

b) Um SNP (Single-Nucleotide Polymorphism) que corresponda a uma

substituição sinónima significa que a alteração do nucleótido gerada pela mutação leva

a inserção do mesmo aminoácido na proteína aquando da tradução do RNA

mensageiro ou seja, na consensus das reads isto revela-se pela presença de duas

opções de nucleótidos para uma dada posição do genoma sequenciado sem alteração

de aminoácidos, isto ocorre devido à redundância do código genético. As duas

consensus de reads escolhidas encontram-se realçadas em fundo cinzento na Figura

10, na primeira é observada a presença de uma citosina (C) em 54,5% das reads e de

uma Timina (T) em 45,5% das reads e no genoma de referência; na segunda deteta-

se a presença de uma Adenina (A) em 54,5% das reads e de uma Guanina em 45,5%

das reads e no genoma de referência.

Figura 10: Print-screen da tabela de variantes elaborada no CLC Genomics Workbench software. As linhas realçadas

pelo fundo cinzento representam as consensus de reads escolhidas como exemplo de regiões em que a mutação

detetada não leva a alteração da sequência de aminoácidos na proteína que codifica.

c) Uma substituição não sinónima implica uma diferença na sequência da

proteína codificada pelas duas variações da sequência de nucleótidos ou seja, a

sequência da proteína irá ser diferente para cada variante da sequência de

nucleótidos. As duas consensus de reads escolhidas encontram-se realçadas em

fundo cinzento na Figura 11, na primeira a substituição de um C presente no genoma

6

de referência por um T no genoma em estudo leva à alteração da histidina presente no

resíduo 41 por uma tirosina; na segunda consensus observa-se a substituição de um T

no genoma de referência por um A no genoma em estudo, o que resulta na

substituição da leucina presente no resíduo 80 da proteína por um ácido glutâmico.

.

Figura 11: Print-screen da tabela de variantes elaborada no CLC Genomics Workbench software. As linhas realçadas

pelo fundo cinzento representam as consensus de reads escolhidas como exemplo de regiões em que ocorre uma

mutação não sinónima ou seja, levando a alterações na sequência de aminoácidos.

d) Uma inserção é detetada quando está presente um dado nucleótido na

grande maioria das reads numa dada posição mas que não aparece no genoma de

referência, na tabela as inserções são detetadas pela abertura de uma gap (-) no

genoma de referência, correspondente a um dado nucleótido nas reads do genoma

em estudo (podendo estar em todas as reads, ou só na maioria destas). As duas

consensus de reads escolhidas encontram-se realçadas em fundo cinzento na Figura

12, na primeira consensus ocorreu a inserção de duas citosinas, tendo sido detetadas

em 94,1% das reads, e levando à substituição da valina presente no resíduo 206 por

um codão stop; na segunda detetou-se a inserção da sequência GTTGTGAT em

81,3% das reads, não levando a alterações na proteína uma vez que a inserção

ocorreu numa região não traduzida.

Figura 12: Print-screen da tabela de variantes elaborada no CLC Genomics Workbench software. As linhas realçadas

pelo fundo cinzento representam as consensus de reads escolhidas como exemplo de regiões em que se detetaram

inserções.

7

e) Uma delecção de nucleótidos é detetada quando uma dada posição no

genoma de referência não corresponde a nenhum nucleótido no genoma em estudo,

ou seja, na tabela isto observa-se pela abertura de uma gap (-) no genoma em estudo

com correspondência a uma dada base no genoma de referência. As duas consensus

de reads escolhidas encontram-se realçadas em fundo cinzento na Figura 13, na

primeira consensus foi detetada a deleção de um G no genoma de referência (na

posição 3656223 do mesmo) nas 20 reads correspondentes a esta região, o que

resulta na alteração do resíduo de arginina presente na posição 51 da proteína por um

codão stop; na segunda consensus foi detetada a deleção de um C na posição

3911480 do genoma de referência em todas as 27 reads alinhadas nesta região, no

entanto, neste caso a delecção deu-se numa região não codificante do genoma, logo

não leva à alteração de qualquer aminoácido.

Figura 13: Print-screen da tabela de variantes elaborada no CLC Genomics Workbench software. As linhas realçadas

pelo fundo cinzento representam as consensus de reads escolhidas como exemplo de regiões em que se detetam

deleções.

8

Parte 2

Pergunta 7

R: O algoritmo GeneMarkS previu a presença de 12 genes para a região entre

as bases 30000 e 50000 do scaffold número 150 (Figura 14).

Figura 14: Print-screen do

output da previsão de genes

do algoritmo GeneMarkS.

Pergunta 8

R: Os genes selecionados foram o gene número 3, que corresponde a uma

argininosuccinate lyase de Zygosaccharomyces bailii CLIB 213 (Figura 15) e o gene

número 10 que corresponde a uma Calcineurin-like phosphoesterase também de

Zygosaccharomyces bailii CLIB 213 (Figura 16).

9

Figura 15: Print-screen do output do protein BLAST, utilizando a sequência da proteína codificada pelo 3º gene

previsto pelo GeneMarkS.

Pergunta 9

R: O algoritmo Augustus previu a existência de 10 genes para a região entre as

bases 30000 e 50000 do scaffold 150 (Figura 17), a comparação entre as posições de

inicio e final de cada gene obtidas pelos dois algoritmos usados (GeneMarkS e

Augustus) encontram-se na Tabela 2. As diferenças apresentadas podem ser

justificadas pelo facto do algoritmo GeneMarkS estar otimizado para a previsão de

genes em procariotas (prevendo o codão de iniciação tendo em conta a presença da

sequência de Shine-Dalgarno) e o algoritmo Augustus estar otimizado para prever

genes de eucariotas (tendo em conta regiões promotoras e a possível presença de

intrões), visto que o scaffold que estamos a usar resultou da sequenciação do genoma

de uma levedura (eucarionte) a previsão do Augustus deverá apresentar maior

fidelidade.

Tabela 2: Tabela comparativa das previsões do número e localização de genes realizadas pelos algoritmos

GeneMarkS e Augustus.

Número do gene (Gene

MarkS)

Número do gene

(Augustus)

Posição de início

(GeneMarkS)

Posição de início

(Augustus)

Posição de fim

(GeneMarkS)

Posição de fim

(Augustus)

1 - <3 - 257 -

2 1 1261 1306 2394 2394

3 2 2460 2460 3848 3848

4 3 4056 4056 5711 5711

5 4 5956 5956 7992 7992

6 5 8124 8124 9119 9119

7 - 9114 - 9407 -

8 6 10579 10579 11358 11358

9 7 11411 11411 12997 12997

10 8 14386 14386 16164 16164

11 9 16285 16285 17070 17070

12 10 18020 18050 >19999 20001

10

Figura 16: Print-screen do output do algoritmo Augustus para o décimo gene previsto entre as bases 30000 e 50000 do

scaffold 150.

Pergunta 12

R: O output gráfico da comparação entre a previsão de genes pelos dois

algoritmos (GeneMarkS e Augustus) e também a sua comparação com a anotação

existente nos genomas de Saccharomyces cerevisiae e Zygosaccharomyces rouxii

está presente na Figura 18, devido à inexistência de diferenças entre as previsões dos

dois algoritmos (facto que não conseguimos explicar, porque as previsões presentes

na Tabela 2 apresentam diferenças) foi selecionada outra região do genoma para

responder a esta questão.

Figura 17: Print-screen da comparação gráfica entre os genomas de referência e as previsões de genes dos

algoritmos Augustus e GeneMarkS.

11

A região que foi analisada está presente na Figura 19, correspondendo à

região entre as bases 60000 a 80000 do scaffold 100 do genoma em estudo. Nesta

região foram detetadas algumas diferenças, que se encontram realçadas na Figura 19.

A azul destaca-se um gene anotado no genoma de referência que foi previsto pelo

algoritmo Augustus, mas não pelo algoritmo GeneMarkS, a previsão do Augustus

deverá estar correta, uma vez que este algoritmo está mais adaptado à previsão de

genes em organismos eucariontes e ainda porque que o gene previsto surge no

genoma de referência.

Figura 18: Print-screen da comparação gráfica entre os genomas de referência e as previsões de genes dos

algoritmos Augustus e GeneMarkS, destacando-se as diferenças observadas com retângulos de diferentes cores.

Na Figura 19, destacado a verde, encontra-se um gene indicado no genoma

de referência cujas coordenadas correspondem às previstas pelo algoritmo

GeneMarkS mas divergem das coordenadas previstas pelo algoritmo Augustus. Neste

caso, seria mais seguro confiar no genoma de referência e na previsão do

GeneMarkS, no entanto isto pode induzir em erro pois o GeneMarkS prevê o início do

gene com base na sequência de Shine-Delgarno, podendo também ainda haver erros

na anotação do genoma de referência ou divergências entre os genomas da espécie

de referência e da espécie em estudo.

Na Figura 19, realçado a vermelho, deteta-se um gene que aparece indicado

no genoma de referência com dois exões (região a verde) e um intrão (linha preta que

une as duas regiões a verde) enquanto que nas previsões dos dois algoritmos usados

(GeneMarkS e Augustus) o segundo exão corresponde ao início de um gene distinto.

Nesta situação, a nossa confiança tende para os resultados dos algoritmos, pois o

12

segundo gene pode existir apenas na espécie em estudo ou o segundo exão pode ter

sofrido deleção ou translocações, até porque se o intrão estivesse presente deveria

ser previsto pelo Augustus.

13