relatório1 (17,75)
DESCRIPTION
relatórioTRANSCRIPT
Unidade curricular:
Genómica Funcional e Comparativa
Trabalho computacional 1
"High-throughput genome sequencing:
from a DNA sequence to a genome annotation"
Trabalho realizado por:
Aldo Arévalo nº 79319
Leonor nº 79392
Sónia Pereira nº 79300
Mestrado em Biotecnologia
Lisboa, 2013
Parte 1
Pergunta 3
R: O tamanho das reads importadas ronda os 200bp (base-pairs) (Figura 1).
Pergunta 4
a) O assembly originou 222 contigs (Figura 2).
b) O tamanho médio dos contigs é de 20 642bp (Figura 2).
1
Figura 1: Print-screen da tabela com o tamanho das reads (Output do CLC Genomics Workbench
software).
Figura 2: Print-screen do relatório do assembly (Output do CLC Genomics Workbench software).
Pergunta 5
R: O contig selecionado foi o 5, a coverage mais alta é de 46, sendo
encontrada entre os nucleótidos 3975 e 3983 (Figura 3).
Figura 3: Print-screens do
output do assembly do CLC
Genomics Workbench
software. Em cima: destaque
azul na região com maior
coverage; Em baixo: imagens
mais detalhadas das posições com maior coverage.
Pergunta 7
1) Para o nucleotide BLAST foi usado a sequência do contig 23 como query,
pela análise dos resultados foi possível concluir que esta espécie pertence a
Escherichia coli K12 (Figura 4).
2
Figura 4: Resultados do nucleotide BLAST, utilizando a sequência do contig 23 como query.
2) As proteínas identificadas em cada contig estão apresentadas na Tabela 1,
tal como as posições do genoma de E. coli K12 em que esse contig alinha. As
imagens ilustrativas encontram-se na Figura 5.
Tabela 1: Tabela com três proteínas identificadas em cada contig utilizado, bem como as posições em que cada contig
alinha com o genoma de E. coli K12.
Número do contigPosições de alinhamento com o
genoma de E. coli K12Três proteínas presentes
23 3 765 631 a 3 774 133 YibG, YibH e MtlA
37 3 187 409 a 3 196 184 YqiK, YqiH e GlgS
54 1 470 498 a 1 479 946 YdbC, YnbA e YnbB
55 4 499 494 a 4 507 476 YjgZ, InsG e YjhC
117 279 914 a 289 260 YagA, YagG e YagH
Figura 5: Print-screens da representação gráfica da região do genoma de E. coli K12 em que cada contig estudado
alinha, com a identificação de 3 proteínas em cada contig. A) Destaque (a púrpura) para as proteínas identificadas no
contig 23; B) Destaque (a azul) para as proteínas identificadas no contig 37; C) Destaque (a vermelho) para as
proteínas identificadas no contig 54; D) Destaque (a verde) para as proteínas identificadas no contig 55; E) Destaque (a
preto) para as proteínas identificadas no contig 117.
Pergunta 10
3
R: A percentagem de reads que foram mapeadas no genoma de referência foi
de
97,20% e a percentagem de reads que não foram mapeadas no genoma de referência
foi de 2,80% (Figura 6).
Figura 6: Print-screen de parte do relatório do mapeamento das reads no genoma de referência, elaborado com
recurso ao CLC Genomics Workbench software.
Pergunta 11
R: Na Figura 7, dentro do retângulo preto, estão representadas duas posições
que correspondem a "bad base-call" uma vez que apenas numa read se detetou
aquele nucleótido, e que numa grande maioria das reads, tal como no genoma de
referência (NC_010473), não foi detetada a presença de qualquer nucleótido naquela
posição.
Na Figura 8, nos retângulos azuis, estão representados algumas mutações,
uma vez que numa parte das reads foi detetado um dado nucleótido e noutras reads
foi detetado outro, sendo que embora um dos nucleótidos seja mais comum que o
outro no alinhamento das reads, o menos comum é igual ao presente no genoma de
referência. Logo estas
posições podem
corresponder a
mutações que ainda
não se disseminaram
por toda a população.
4
Figura 7: Exemplo de "bad base-calls" ou seja, posições em que apenas em muito poucas reads foi detetada a
presença de um nucleótido que não está presente na grande maioria das reads (Print-screen do mapeamento das
reads no genoma de referência, obtido pelo CLC Genomics Workbench software).
Figura 8: Exemplo de posições em que
ocorrem mutações ou seja, posições em
que em várias reads se deteta num dado
nucleótido (o mesmo que no genoma de
referência), mas que noutras reads (por
vezes a maioria) é detetado outro
nucleótido para a mesma posição (Print-
screen do mapeamento das reads no
genoma de referência, obtido pelo CLC
Genomics Workbench software).
Figura 9: Print-screen da tabela de variantes elaborada no CLC Genomics Workbench software. As linhas realçadas
pelo fundo cinzento representam as consensus de reads escolhidas como exemplo de regiões com mais que uma
variante na estirpe em estudo.
5
a) Uma read que tenha mais que uma variação na estirpe sequenciada revela-
se na tabela pela indecisão do algoritmo em decidir qual é o nucleótido mais comum
para uma dada posição. As duas consensus de reads escolhidas encontram-se
realçadas com um fundo cinzento na Figura 9, na primeira consensus das reads
selecionada deteta-se a presença ou frequency de Timina (T) em 51,5% das reads
(levando à substituição do ácido aspártico presente no resíduo 122 da referência por
um ácido glutâmico) e a presença de Guanina (G) em 48,5% das reads (que mantém o
ácido aspártico no resíduo 122, tal como no genoma de referência); na segunda
escolha a presença de T é observada quer no genoma de referência, quer em 55,3%
das reads (mantendo a sequência de aminoácidos), a presença de G é observada em
44,7% das reads (levando à alteração da serina presente no resíduo 105 da referência
por uma alanina).
b) Um SNP (Single-Nucleotide Polymorphism) que corresponda a uma
substituição sinónima significa que a alteração do nucleótido gerada pela mutação leva
a inserção do mesmo aminoácido na proteína aquando da tradução do RNA
mensageiro ou seja, na consensus das reads isto revela-se pela presença de duas
opções de nucleótidos para uma dada posição do genoma sequenciado sem alteração
de aminoácidos, isto ocorre devido à redundância do código genético. As duas
consensus de reads escolhidas encontram-se realçadas em fundo cinzento na Figura
10, na primeira é observada a presença de uma citosina (C) em 54,5% das reads e de
uma Timina (T) em 45,5% das reads e no genoma de referência; na segunda deteta-
se a presença de uma Adenina (A) em 54,5% das reads e de uma Guanina em 45,5%
das reads e no genoma de referência.
Figura 10: Print-screen da tabela de variantes elaborada no CLC Genomics Workbench software. As linhas realçadas
pelo fundo cinzento representam as consensus de reads escolhidas como exemplo de regiões em que a mutação
detetada não leva a alteração da sequência de aminoácidos na proteína que codifica.
c) Uma substituição não sinónima implica uma diferença na sequência da
proteína codificada pelas duas variações da sequência de nucleótidos ou seja, a
sequência da proteína irá ser diferente para cada variante da sequência de
nucleótidos. As duas consensus de reads escolhidas encontram-se realçadas em
fundo cinzento na Figura 11, na primeira a substituição de um C presente no genoma
6
de referência por um T no genoma em estudo leva à alteração da histidina presente no
resíduo 41 por uma tirosina; na segunda consensus observa-se a substituição de um T
no genoma de referência por um A no genoma em estudo, o que resulta na
substituição da leucina presente no resíduo 80 da proteína por um ácido glutâmico.
.
Figura 11: Print-screen da tabela de variantes elaborada no CLC Genomics Workbench software. As linhas realçadas
pelo fundo cinzento representam as consensus de reads escolhidas como exemplo de regiões em que ocorre uma
mutação não sinónima ou seja, levando a alterações na sequência de aminoácidos.
d) Uma inserção é detetada quando está presente um dado nucleótido na
grande maioria das reads numa dada posição mas que não aparece no genoma de
referência, na tabela as inserções são detetadas pela abertura de uma gap (-) no
genoma de referência, correspondente a um dado nucleótido nas reads do genoma
em estudo (podendo estar em todas as reads, ou só na maioria destas). As duas
consensus de reads escolhidas encontram-se realçadas em fundo cinzento na Figura
12, na primeira consensus ocorreu a inserção de duas citosinas, tendo sido detetadas
em 94,1% das reads, e levando à substituição da valina presente no resíduo 206 por
um codão stop; na segunda detetou-se a inserção da sequência GTTGTGAT em
81,3% das reads, não levando a alterações na proteína uma vez que a inserção
ocorreu numa região não traduzida.
Figura 12: Print-screen da tabela de variantes elaborada no CLC Genomics Workbench software. As linhas realçadas
pelo fundo cinzento representam as consensus de reads escolhidas como exemplo de regiões em que se detetaram
inserções.
7
e) Uma delecção de nucleótidos é detetada quando uma dada posição no
genoma de referência não corresponde a nenhum nucleótido no genoma em estudo,
ou seja, na tabela isto observa-se pela abertura de uma gap (-) no genoma em estudo
com correspondência a uma dada base no genoma de referência. As duas consensus
de reads escolhidas encontram-se realçadas em fundo cinzento na Figura 13, na
primeira consensus foi detetada a deleção de um G no genoma de referência (na
posição 3656223 do mesmo) nas 20 reads correspondentes a esta região, o que
resulta na alteração do resíduo de arginina presente na posição 51 da proteína por um
codão stop; na segunda consensus foi detetada a deleção de um C na posição
3911480 do genoma de referência em todas as 27 reads alinhadas nesta região, no
entanto, neste caso a delecção deu-se numa região não codificante do genoma, logo
não leva à alteração de qualquer aminoácido.
Figura 13: Print-screen da tabela de variantes elaborada no CLC Genomics Workbench software. As linhas realçadas
pelo fundo cinzento representam as consensus de reads escolhidas como exemplo de regiões em que se detetam
deleções.
8
Parte 2
Pergunta 7
R: O algoritmo GeneMarkS previu a presença de 12 genes para a região entre
as bases 30000 e 50000 do scaffold número 150 (Figura 14).
Figura 14: Print-screen do
output da previsão de genes
do algoritmo GeneMarkS.
Pergunta 8
R: Os genes selecionados foram o gene número 3, que corresponde a uma
argininosuccinate lyase de Zygosaccharomyces bailii CLIB 213 (Figura 15) e o gene
número 10 que corresponde a uma Calcineurin-like phosphoesterase também de
Zygosaccharomyces bailii CLIB 213 (Figura 16).
9
Figura 15: Print-screen do output do protein BLAST, utilizando a sequência da proteína codificada pelo 3º gene
previsto pelo GeneMarkS.
Pergunta 9
R: O algoritmo Augustus previu a existência de 10 genes para a região entre as
bases 30000 e 50000 do scaffold 150 (Figura 17), a comparação entre as posições de
inicio e final de cada gene obtidas pelos dois algoritmos usados (GeneMarkS e
Augustus) encontram-se na Tabela 2. As diferenças apresentadas podem ser
justificadas pelo facto do algoritmo GeneMarkS estar otimizado para a previsão de
genes em procariotas (prevendo o codão de iniciação tendo em conta a presença da
sequência de Shine-Dalgarno) e o algoritmo Augustus estar otimizado para prever
genes de eucariotas (tendo em conta regiões promotoras e a possível presença de
intrões), visto que o scaffold que estamos a usar resultou da sequenciação do genoma
de uma levedura (eucarionte) a previsão do Augustus deverá apresentar maior
fidelidade.
Tabela 2: Tabela comparativa das previsões do número e localização de genes realizadas pelos algoritmos
GeneMarkS e Augustus.
Número do gene (Gene
MarkS)
Número do gene
(Augustus)
Posição de início
(GeneMarkS)
Posição de início
(Augustus)
Posição de fim
(GeneMarkS)
Posição de fim
(Augustus)
1 - <3 - 257 -
2 1 1261 1306 2394 2394
3 2 2460 2460 3848 3848
4 3 4056 4056 5711 5711
5 4 5956 5956 7992 7992
6 5 8124 8124 9119 9119
7 - 9114 - 9407 -
8 6 10579 10579 11358 11358
9 7 11411 11411 12997 12997
10 8 14386 14386 16164 16164
11 9 16285 16285 17070 17070
12 10 18020 18050 >19999 20001
10
Figura 16: Print-screen do output do algoritmo Augustus para o décimo gene previsto entre as bases 30000 e 50000 do
scaffold 150.
Pergunta 12
R: O output gráfico da comparação entre a previsão de genes pelos dois
algoritmos (GeneMarkS e Augustus) e também a sua comparação com a anotação
existente nos genomas de Saccharomyces cerevisiae e Zygosaccharomyces rouxii
está presente na Figura 18, devido à inexistência de diferenças entre as previsões dos
dois algoritmos (facto que não conseguimos explicar, porque as previsões presentes
na Tabela 2 apresentam diferenças) foi selecionada outra região do genoma para
responder a esta questão.
Figura 17: Print-screen da comparação gráfica entre os genomas de referência e as previsões de genes dos
algoritmos Augustus e GeneMarkS.
11
A região que foi analisada está presente na Figura 19, correspondendo à
região entre as bases 60000 a 80000 do scaffold 100 do genoma em estudo. Nesta
região foram detetadas algumas diferenças, que se encontram realçadas na Figura 19.
A azul destaca-se um gene anotado no genoma de referência que foi previsto pelo
algoritmo Augustus, mas não pelo algoritmo GeneMarkS, a previsão do Augustus
deverá estar correta, uma vez que este algoritmo está mais adaptado à previsão de
genes em organismos eucariontes e ainda porque que o gene previsto surge no
genoma de referência.
Figura 18: Print-screen da comparação gráfica entre os genomas de referência e as previsões de genes dos
algoritmos Augustus e GeneMarkS, destacando-se as diferenças observadas com retângulos de diferentes cores.
Na Figura 19, destacado a verde, encontra-se um gene indicado no genoma
de referência cujas coordenadas correspondem às previstas pelo algoritmo
GeneMarkS mas divergem das coordenadas previstas pelo algoritmo Augustus. Neste
caso, seria mais seguro confiar no genoma de referência e na previsão do
GeneMarkS, no entanto isto pode induzir em erro pois o GeneMarkS prevê o início do
gene com base na sequência de Shine-Delgarno, podendo também ainda haver erros
na anotação do genoma de referência ou divergências entre os genomas da espécie
de referência e da espécie em estudo.
Na Figura 19, realçado a vermelho, deteta-se um gene que aparece indicado
no genoma de referência com dois exões (região a verde) e um intrão (linha preta que
une as duas regiões a verde) enquanto que nas previsões dos dois algoritmos usados
(GeneMarkS e Augustus) o segundo exão corresponde ao início de um gene distinto.
Nesta situação, a nossa confiança tende para os resultados dos algoritmos, pois o
12