biotecnologia_05
TRANSCRIPT
-
7/25/2019 BIOTECNOLOGIA_05
1/51
198Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Curso de
Biotecnologia
MDULO V
Ateno:O material deste mdulo est disponvel apenas como parmetro de estudos paraeste Programa de Educao Continuada. proibida qualquer forma de comercializao domesmo. Os crditos do contedo aqui contido so dados aos seus respectivos autoresdescritos nas Referncias Bibliogrficas.
-
7/25/2019 BIOTECNOLOGIA_05
2/51
199Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
MDULO V
Introduo Bioinformtica
6. Introduo
Os mdulos I e II apresentaram uma introduo gentica e biologia
molecular sob um contexto histrico. A curiosidade sobre a transmisso das
caractersticas genticas entre as geraes impulsionou pesquisas
direcionadas na descoberta da molcula de DNA. As informaes iniciais eramentusiasmantes e os estudos prosseguiram para desvendar o papel desta
molcula at a gerao de protenas. Todas estas pesquisas foram
revolucionadas com a tecnologia do DNA recombinante.
A biologia molecular foi e atualmente ainda uma importante
ferramenta que vem permitindo novas descobertas e aplicaes na rea de
biologia e cincias da sade. A busca de novos genes e a divulgao de suas
funes so passos fundamentais para que sejam implantadas aplicaes cadavez mais eficientes da biotecnologia nos mais diversos campos.
Dentro da perspectiva de novas descobertas e de aplicaes benficas
para a humanidade, diversos esforos vm sendo feitos nas reas mas,
como os projetos genoma, transcriptoma e o proteoma. Vrios micro-
organismos procariotos e eucariotos esto sendo sequenciados e estudados,
sendo que um grande nmero de sequncias foi obtido a partir da dcada de
90, perodo que marca o surgimento dos sequenciadores automticos.A exploso que gerou a disposio de um grande nmero de
sequncias de DNA derivadas de projetos genoma exigiu a implantao de
recursos computacionais cada vez mais sofisticados. Esta exigncia se deve
no somente necessidade de armazenamento destas sequncias, como
tambm indispensvel utilizao de mecanismos eficientes que permitam a
interpretao mais rpida e eficiente dos dados obtidos. Dentro deste contexto
na era dos omas surgiu a bioinformtica.
-
7/25/2019 BIOTECNOLOGIA_05
3/51
200Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
A bioinformtica definida como a cincia que permitiu a unio e a
integrao de linhas de conhecimento diferentes, como a engenharia de
softwares, a matemtica, a estatstica, a cincia da computao, a gentica e a
biologia molecular. Para a utilizao das ferramentas disponveis on-line de
bioinformtica, o usurio deve estar familiarizado com os principais conceitos
relacionados gentica e biologia molecular, alm dos correspondentes
computao, incluindo os softwares mais utilizados.
6.1 Banco de Dados
Os bancos de dados representam atualmente um pr-requisito de
suma importncia para a bioinformtica. Ele pode ser definido como uma
coleo de dados inter-relacionados, desenhados de forma a suprir as
necessidades de um grupo especfico de aplicaes e usurios. A sua principal
funo consiste em organizar e estruturar milhares de informaes produzidas
por projetos como o genoma, transcriptoma e proteoma, de forma a facilitar
consultas, atualizaes e delees de dados.A construo de bancos de dados est correlacionada a outros
sistemas computacionais, como por exemplo, o sistema SGBD (Sistema de
Gerenciamento de Banco de Dados). Este est envolvido na construo,
manipulao e administrao do banco de dados solicitados pelo usurio e/ou
por outras aplicaes.
Esto disponveis diversos sistemas de gerenciamento de banco de
dados. A opo por um deles deve considerar as vantagens e as desvantagensde cada um em relao ao objetivo do estudo do pesquisador. Entre eles,
pode-se citar o mysql, um programa gratuito, com acesso veloz aos dados.
Estas caractersticas so os motivos de escolha dos representantes
acadmicos envolvidos com projetos genoma.
A principal desvantagem do sistema a limitao imposta a algumas
de suas ferramentas. Esta desvantagem no ocorre com o postgreSQL, outro
sistema gratuito. A sua desvantagem se baseia na dificuldade de
-
7/25/2019 BIOTECNOLOGIA_05
4/51
201Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
gerenciamento do sistema. A alternativa mais sofisticada inclui o sistema racle
e o Server. Contudo, o uso destes limitado pelo alto custo para a licena, o
que muitas vezes inviabiliza o acesso. A importncia dos bancos de dados na
organizao das informaes produzidas por projetos como o genoma,
transcriptoma e proteoma extremamente importante diante das informaes
geradas. Isto facilita a consulta e a atualizao de dados pelos pesquisadores.
Contudo, este processo somente ser alcanado por bancos de dados que
permitam o livre acesso aos usurios. Por isso, percebe-se a necessidade da
implantao de bancos de dados pblicos.
6.1.1 Bancos de Dados Pblicos
A construo e a disponibilizao de bancos de dados pblicos tm
recebido atualmente grandes investimentos. Isto de suma importncia para
permitir a organizao dos dados e seu acesso on-line, admitindo a troca de
informaes entre a comunidade cientfica. A grande evoluo de projetos
genoma atribuda, entre outros fatores, construo destes tipos de banco.Os bancos de dados podem armazenar diferentes tipos de sequncia,
como as de nucleotdeos, de aminocidos e at mesmo de estruturas
proteicas. Para facilitar a organizao, eles podem ser subdivididos em bancos
de sequncias primrios ou secundrios.
Os bancos de sequncia primrios se referem queles em que a
sequncia de nucleotdeos, aminocidos ou a estrutura proteica foram
armazenas logo aps serem obtidos diretamente do sequenciamento ou de umprocessamento inicial. Isto quer dizer que as sequncias no sofreram anlises
prvias. Logo aps a sua obteno e caracterizao, o pesquisador deve
disponibilizar a sequncia a um destes bancos de dados. Isto constitui uma
exigncia para a publicao de trabalhos que relatam a descoberta ou a
caracterizao de uma nova sequncia ou estrutura.
Entre os principais bancos de dados primrios para a sequncia de
nucleotdeos so: o GenBank, o EBI (European bioinformatics Institute), o
-
7/25/2019 BIOTECNOLOGIA_05
5/51
202Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
DDBJ (DNA Data Bank of Japan); para a sequncia de aminocidos se
destacam o PDB (Protein Data Bank) e o Uniprot. Os dados so apresentados
de forma bastante semelhante entre eles. Apesar de serem bancos de dados
distintos, as informaes so trocadas entre eles diariamente, o que permite a
atualizao dos dados.
Os bancos de dados secundrios so aqueles cuja formao levou em
considerao as informaes depositadas nos bancos de dados primrios. Um
exemplo o SWISS-PROT, que correlaciona as sequncias de protenas j
depositadas com a sua homologia a outras protenas, sugerindo uma funo e
a presena de domnios funcionais.Os bancos de dados ainda podem ser subdivididos de maneira mais
especfica, como os bancos estruturais e funcionais. Por exemplo, os bancos
estruturais tratam da estrutura de protenas. Esta subdiviso consiste em uma
maneira de organizar as diferentes representaes de uma determinada
sequncia.
Dentre os bancos de dados funcionais, um dos mais utilizados o
KEGG (Kyoto Encyclopedia of Genes and Genomes). A partir de sequncias oubuscas por palavra chave so disponibilizados links que permitem a
visualizao de mapas metablicos de organismos que apresentam o genoma
completa ou mesmo parcialmente sequenciado.
6.2 Alinhamento de Sequncias
O alinhamento de sequncias constitui uma das ferramentas maisimportantes da bioinformtica. Este programa permite estabelecer
comparaes entre diferentes sequncias, indicando qual o grau de
similaridade que existe entre elas. Atualmente h vrios tipos de programas
para executar esta tarefa. Eles se encontram disponveis on-line, so de fcil
execuo e no h a necessidade de instal-los. Exemplos deste tipo de
programas so: ClustalW, Multialin, FASTA, Blast 2 etc.
O procedimento que os programas adotam consiste em introduzir
-
7/25/2019 BIOTECNOLOGIA_05
6/51
203Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
espaos (gaps) entre os monmeros de uma ou mais sequncias para que seja
obtido o melhor alinhamento possvel. A confiana a respeito do resultado
determinada pela soma dos pontos que demonstraram pareamento (match),
subtraindo os pontos de gap e de sequncias no pareadas (mismatch). O
alinhamento pode ser obtido para toda a sequncia de interesse ou mesmo
para fragmentos dela e, por isso, ele pode ser classificado em dois tipos: global
ou local.
O alinhamento global corresponde ao processo de anlise de
similaridade de toda a sequncia, de uma extremidade a outra. Isto gera
apenas um nico resultado. Este tipo de alinhamento geralmente utilizadopara determinar regies mais conservadas entre sequncias homlogas. Estas
podem ser definidas como aquelas que apresentam similaridade com uma
relao evolutiva. Neste caso, duas sequncias so ditas homlogas se
derivam de um mesmo ancestral comum. Se no h esta relao, as
sequncias podem at ser similares, mas no so consideradas homlogas.
Um dos programas mais utilizados para o alinhamento global o ClustalW.
Detalhes de como utilizar este programa sero abordados no tpico a estruturaproteica.
O alinhamento local frequentemente utilizado na busca por
sequncias homlogas ou anlogas (ou seja, apresentam funes
semelhantes) a partir da comparao com outras sequncias depositadas em
bancos de dados. O programa mais utilizado com este propsito o BLAST, o
qual ser discutido com mais detalhes adiante.
Muitos programas de bioinformtica esto atualmente disponveis on-line como ferramentas de livre acesso aos usurios. Diversos deles possuem
at mesmo funes semelhantes; contudo, podem apresentar recursos
diferentes ou mesmo apresentaes diferentes. Exemplos so os programas
que fazem a anlise de sequncias proteicas, mas alguns deles so
especializados para protenas eucariotas e, outros, para procariotas.
Os casos que possuem a mesma funo para o mesmo tipo de
organismo, como a anlise de estruturas secundrias de protenas, a
-
7/25/2019 BIOTECNOLOGIA_05
7/51
204Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
apresentao dos dados pode ser diferente. Um exemplo a anlise da
porcentagem de folhas betas, a qual pode estar como um grupo a parte, ou
mesmo incluso em conjunto com estruturas randmicas. As diferenas
apresentadas entre os programas denotam diferentes utilizaes. Isto quer
dizer que, apesar de muitos programas estarem disponveis, a escolha de um
deles depende dos objetivos especficos de cada usurio.
Este mdulo visa introduzir o estudante bioinformtica. Por isso,
algumas das ferramentas de bioinformtica mais utilizadas sero comentadas
sob um contexto, para solucionar e facilitar alguns estudos dentro das diversas
reas de aplicao da biotecnologia.
6.3 A Bioinformtica e os Projetos Genoma e Transcriptoma
A relao dos projetos genoma e transcriptoma com a bioinformtica
vm desde a histria do surgimento da ltima. Atualmente, o sequenciamento
de genomas e a anlise dos transcritos de um grande nmero de micro-
organismos distintos vm sendo realizada por diferentes grupos de pesquisa.Assim, como descrito no mdulo II, a abordagem adotada para o
sequenciamento de genomas consiste em fragmentar o DNA, clon-lo em um
vetor apropriado e sequenci-lo. Estes procedimentos se devem limitao do
tamanho das sequncias que podem ser lidas pelos sequenciadores. Estas
mquinas, at mesmo as mais modernas, conseguem ler somente cerca de
1.000 pb em cada corrida.
As estratgias utilizadas para o sequenciamento de genomas diferementre micro-organismos procariotos e eucariotos. Em procariotos, h a
fragmentao do DNA cromossmico, a digesto enzimtica do mesmo e,
finalmente, a sua clonagem em vetores apropriados. O sequenciamento feito
a partir das extremidades dos fragmentos clonados. Estes fragmentos so
ento analisados quanto presena de sequncias sobrepostas, o que permite
uma primeira montagem da sequncia do genoma inteiro. Contudo, este
procedimento geralmente obtm sequncias incompletas, que apresentam
-
7/25/2019 BIOTECNOLOGIA_05
8/51
205Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
muitos gaps. Por isso, fragmentos maiores so clonados em vetores
apropriados, como BACs. Em seguida, estes segmentos de DNA so ento
sequenciados.
No caso de organismos eucariotos, o procedimento praticamente o
inverso do adotado para o sequenciamento de genomas de procariotos. Aps a
extrao e digesto enzimtica do genoma de eucariotos, os fragmentos so
clonados em vetores que permitem que sries grandes de DNA sejam
clonadas, como os BACs e os YACs. Em seguida, os insertos destes vetores
so fragmentados e clonados em vetores plasmidiais e estas sequncias so
ento sequenciadas. Este procedimento utilizado preferencialmente, poispermite a reconstituio da informao genmica inicial.
Os dados gerados aps o sequenciamento do genoma so ento
analisados. O primeiro passo consiste no uso de um programa capaz de
processar os dados brutos obtidos logo aps o sequenciamento, denominado
base calling.
6.4 Base Calling
O basecalling um programa que permite a leitura dos dados gerados
pelo sequenciador, reconhecendo a sequncia nucleotdica obtida a partir dos
dados brutos da sequncia e, ainda, atribuindo valores de qualidade sobre a
sequncia gerada. Alguns programas podem ser utilizados neste tipo de
processamento, e geralmente, cada sequenciador vem com um determinado
programa. Contudo, um dos mais utilizados com esta finalidade o PHRED.O PHRED um software desenvolvido na Universidade de Washington
e referenciado como o programa padro para o base calling. Inicialmente, ele
reconhece a sequncia de nucleotdeos gerada a partir de determinados
arquivos, como os de cromatogramas de sequenciadores automticos de DNA.
Em seguida, o programa atribui valores de qualidade a cada nucleotdeo
gerado, determinando a preciso do resultado obtido pelo sequenciamento.
Estes valores so importantes, pois determinam a confiabilidade de uma srie
-
7/25/2019 BIOTECNOLOGIA_05
9/51
206Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
obtida, indicando qual deve ser submetida a um novo sequenciamento. Aps o
processamento da sequncia de dados brutos, o passo seguinte consiste na
anlise da sequncia propriamente dita. O passo inicial a busca de
contaminantes na srie obtida ou o mascaramento de vetores.
6.5 Mascaramento de Vetores
O mascaramento de vetores consiste na busca de sequncias
contaminantes presentes no inserto sequenciado. Por contaminao se
entende qualquer srie que no representa uma informao gentica a partirde fontes biolgicas, contendo ento uma ou mais sequncias de origem
exgena. As sequncias contaminantes correspondem quela do vetor aos
quais os fragmentos de DNA foram clonados. Adicionado a isto, ainda so
includos a sequncia de adaptadores e de iniciadores presentes no inserto.
Assim, o mascaramento de vetores inclui a anlise de todas as sries utilizadas
na estratgia de clonagem e que no fazem parte do inserto de interesse.
As sequncias de DNA contaminantes devem ser excludas da anlisedo DNA sequenciado. Apesar de ser um passo da anlise de sequncias
considerado como opcional, h algumas razes que justificam a excluso de
sequncias contaminantes:
I. O tempo de anlises gasto com a sequncia exgena, j que os
resultados podem ser direcionados para a similaridade entre a sequncia de
DNA contaminante com as depositadas em bancos de dados, ao invs da
sequncia de interesse;II. Alinhamentos errneos entre as sequncias, uma vez que o
mesmo vetor pode ser utilizado como a sequncia similar a partir do qual se
iniciar o alinhamento;
III. Concluses errneas sobre o significado biolgico da sequncia,
pois os contaminantes podem gerar erros sobre a funo e relaes
filogenticas;
IV. Atrasos na liberao da sequncia para o banco de dados, pois a
-
7/25/2019 BIOTECNOLOGIA_05
10/51
207Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
contaminao aumenta o tempo necessrio para o processamento da
submisso;
V. Poluio dos bancos de dados pblicos, uma vez que as
sequncias contaminantes podem confundir os diversos tipos de anlises
utilizadas a partir dos bancos de dados.
Diante da importncia da anlise e excluso das sequncias
contaminantes, diversos programas foram desenvolvidos para realizar o
mascaramento destas sequncias. Entre eles, um dos mais utilizados o
Cross_match, que utiliza a comparao de duas sequncias, sendo necessria
a utilizao de um arquivo que contenha as referentes aos vetores que sedeseja mascarar. Aps estabelecer a comparao com o arquivo introduzido e
a sequncia do material amostral, as regies que correspondem ao vetor so
apresentadas com a letra X. Esta alterao impede que as anlises de sries
sejam prejudicadas nos processos posteriores.
Outro programa muito utilizado e de fcil manipulao o VecScreen,
que se encontra disponvel no portal do NCBI. A metodologia adotada por este
programa muito semelhante ao do Cross_match, onde a sequncia a seranalisada ser submetida a um alinhamento local. A busca de similaridade
feita contra o banco de dados de vetores, o UniVec. Deste, foram eliminadas as
sequncias redundantes para criar um banco de dados que contenha somente
uma cpia de cada vetor. O VecScreen age de maneira a categorizar as sries
alinhadas, eliminando as redundantes, e mostra a localizao das sequncias
contaminantes e dos fragmentos suspeitos.
Para utilizar o programa VecScreen, inicialmente o usurio deveacessar a pgina do NCBI. O usurio deve ento optar pelo BLAST, como
demonstrado na Fig. 64.
-
7/25/2019 BIOTECNOLOGIA_05
11/51
208Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 64: Pgina principal do NCBI.
A seta vermelha indica onde o usurio deve clicar (BLAST) para ter acesso ao
programa VecScreen.
A
Figura 65: Pgina do BLAST disponvel no NCBI.
-
7/25/2019 BIOTECNOLOGIA_05
12/51
209Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Ao clicar sobre BLAST, imediatamente a pgina abrir e, ao final dela,
haver o quadro representado na Fig. 65. O usurio encontrar diversas
opes de programas de BLAST especializados. Dentre eles, o VecScreen
(representado em roxo na figura) pode ser utilizado para analisar a sequncia
de interesse quanto presena de contaminantes. O usurio deve escolher a
opo vetor contaminao (VecScreen). Esta escolha permitir a abertura da
pgina (Fig. 66). A sequncia a ser analisada deve ser depositada no quadro
que aparece abaixo da palavra FASTA. A sequncia ento submetida pela
escolha run VecScreen.
Figura 66: Pgina de acesso ao programa VecScreen.
A figura apresenta o quadro onde a sequncia a ser analisada deve ser
depositada (j representada aqui por uma aleatria). Aps este passo, a
anlise prosseguir aps o comando do usurio, que deve clicar sobre Run
VecScreen. O formato FASTA se refere a uma sequncia identificada por
uma terminologia iniciada pelo smbolo >. Isto significa que uma nova srie
est sendo iniciada. A sequncia propriamente dita mencionada neste
-
7/25/2019 BIOTECNOLOGIA_05
13/51
210Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
formato quando no apresenta qualquer espao ou quebra. O resultado obtido
aps a utilizao do programa VecScreen apresentado sob uma forma
grfica, como demonstrado na Fig. 67.
Figura 67: Resultado grfico obtido para a anlise de sequncias contaminantes pelo
programa VecScreen.
O retngulo, que demonstra o nmero de nucleotdeos (no caso, de 1 a
316), representa todo o comprimento da sequncia em anlise. Dentro dele so
representadas, sob diferentes coloraes, as sries com suspeita da presena
de contaminantes. O resultado pode variar de forte (vermelho), moderado
(rosa), fraco (verde) ou simplesmente suspeito (amarelo). O resultado ainda
fornece o nmero de nucleotdeos envolvidos (no caso, est representado ao
final do quadro, mostrando que a sequncia contaminante se d do primeiro ao
257 nucleotdeo dentro dos 316 analisados).
Como demonstrado na Fig. 67, o programa VecScreen apresenta o
resultado em possibilidades de contaminao da srie, variando de forte,
moderada, fraca e mesmo suspeita de ser uma sequncia exgena quela a
ser analisada. Para as anlises seguintes, o ideal excluir qualquer sequncia
que esteja marcada, at mesmo quelas que somente so suspeitas de serem
contaminantes. Aps a identificao e eliminao das sequncias que
correspondem aos vetores de clonagem, o passo seguinte consiste em agrup-
-
7/25/2019 BIOTECNOLOGIA_05
14/51
211Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
las quanto sua similaridade. Este procedimento conhecido como
agrupamento de sequncias.
6.6 Agrupamento de Sequncias
O agrupamento de sequncias consiste na montagem de fragmentos
pequenos de DNA, obtidos aps o sequenciamento, em segmentos maiores, os
contguos (contigs). Este agrupamento pode ser realizado por diferentes
softwares, como o PHRAP, o CAP3, o CONSED e o TIGR Assembler. Os
softwares apresentam objetivos semelhantes. A partir de uma sequncia deDNA de alta qualidade, realiza-se a construo de um segmento contguo,
apresentando ainda dados sobre a qualidade de suas sequncias. Alm disso,
os programas tambm permitem a implementao de estratgias que aceitem
que os usurios aumentem a qualidade da montagem.
As perspectivas com a montagem das sequncias so a de obter um
contguo genmico, no caso de projetos genomas. Quando as anlises se
referem s sequncias de cDNA, espera-se obter um nico contguorepresentando os transcritos processados de cada gene expresso. Esta a
mesma expectativa para outras sequncias, como as clonadas em vetores de
expresso. Neste caso, geralmente cada fita de DNA sequenciada de 2 a 3
vezes. Ao final, faz-se uma montagem do contguo, estratgia que permite at
mesmo aumentar a qualidade da sequncia.
A formao de contguos de cDNAs, utilizando o programa CAP3, est
demonstrado nas Fig. 68. A abertura da pgina representa o acesso ao referidoprograma, o que est representado na Fig. A pgina inicial do programa
fornece um quadro onde a sequncias a serem agrupadas devem ser
depositadas.
-
7/25/2019 BIOTECNOLOGIA_05
15/51
212Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 68: Pgina inicial do programa CAP3 para o agrupamento de sequncias.
A figura mostra um quadro onde as sequncias a serem agrupadas so
depositadas (representado por uma amostra aleatria, denominada A1). Para
proceder s anlises seguintes, o usurio deve clicar sobre a tecla Submit.
Um detalhe que todas as sequncias obtidas devem ser submetidas juntas,
mesmo as referentes ao sequenciamento de fitas diferentes. Para isso, elas
devem ser dispostas com o smbolo > seguido de nomes diferentes para cada
sequncia, como representada na Fig. 69.
-
7/25/2019 BIOTECNOLOGIA_05
16/51
213Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 69: Exemplo de como as sequncias a serem agrupadas devem ser
submetidas ao programa CAP3.
Cada uma deve ser iniciada pelo smbolo > seguidas por nomes
diferentes. Aps submeter s sequncias para a anlise, uma pgina ser
aberta com tpicos disposio da escolha do usurio. Neste caso, deve-se
optar pela formao de contigs (Fig. 70).
>A1
GTACAAAAAAGTTGGGCGCCTCGCCCAAAAGAGTTTGGTTAATAACCTCGTGAGAGGATATGCGAAAGA
TGTTAAGTTTGGTGCTGAGGGTAGGAAAGCAATGCTTGTTGGTGTCAACCTCCTAGCTGATGCTGTATC
TGTAACAATGGGTCCAAAGGGTAGGAATGTCATCATTGAACAATCTTGGGGAAGTCCGAAAATTACCAA
AGATGGAGTCACAGTGGCCAAAGCTATTGACTTGAAAGACAAGTATCACAACCTTGGAGCTAAACTTAT
TCAGGATGTAGCAAATAAAGCCAATGAGGAAGCGGGAGATGGAACTACTTGCGCTACTGTTCTTGCTAG
ATCTATTGCTAAAGAGGGATTCGATAATATTAGCAAGGGTGCAAATGCCGTTGAAATCAGACGTGGAGT
CATGGCTGCTGTTGATATTATCGTGCAAGAGCTTAAAGGTCTCAGCAGGCAGGTTACTACTCCTGAAGA
GATAGCTCAGGTTGCTACAATCTCTGCTAATGGTGATCAAACTATCGGAAATTTGATTTCCGAGGCAAT
GAAGAAGGTGGGCAATAAAGGTGTTATCACGGTCAAGGATGGAAAAACTCTTACGGATGAACTAGAACT
TATTGAGGGAATGATATTTGATCGCGGATATATTTCTCCATATTTTATACACACTTCTAAGGGAGC
>A2
GTACAAAAAAGTTGGGCGCCTCGCCCAAAAGAGTTTGGTTAATAACCTCGTGAGAGGATATGCGAAAGA
TGTTAAGTTTGGTGCTGAGGGTAGGAAAGCAATGCTTGTTGGTGTCAACCTCCTAGCTGATGCTGTATC
TGTAACAATGGGTCCAAAGGGTAGGAATGTCATCATTGAACAATCTTGGGGAAGTCCGAAAATTACCAA
AGATGGAGTCACAGTGGCCAAAGCTATTGACTTGAAAGACAAGTATCACAACCTTGGAGCTAAACTTAT
TCAGGATGTAGCAAATAAAGCCAATGAGGAAGCGGGAGATGGAACTACTTGCGCTACTGTTCTTGCTAG
ATCTATTGCTAAAGAGGGATTCGATAATATTAGCAAGGGTGCAAATGCCGTTGAAATCAGACGTGGAGT
CATGGCTGCTGTTGATATTATCGTGCAAGAGCTTAAAGGTCTCAGCAGGCAGGTTACTACTCCTGAAGA
GATAGCTCAGGTTGCTACAATCTCTGCTAATGGTGATCAAACTATCGGAAATTTGATTTCCGAGGCAAT
GAAGAAGGTGGGCAATAAAGGTGTTATCACGGTCAAGGATGGAAAAACTCTTACGGATGAACTAGAACT
TATTGAGGGAATGATATTTGATCGCGGATATATTTCTCCATATTTTATACACACTTCTAAGGGAGC
-
7/25/2019 BIOTECNOLOGIA_05
17/51
214Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 70: Opes de anlises das sries oferecidas pelo programa CAP3.
Para o agrupamento de sequncias, o usurio deve clicar sobre
Contigs, o que est representado em roxo na figura. O resultado ideal a
apresentao de apenas uma nica srie, demonstrando que apenas um
contguo se formou (Fig. 71). A presena de duas ou mais sequncias implica
na ausncia de similaridade ou mesmo de uma sobreposio adequada para a
formao de um contguo.
-
7/25/2019 BIOTECNOLOGIA_05
18/51
215Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 71: Resultado do agrupamento de sequncias pelo programa CAP3.
A figura representa o agrupamento de sequncias com a formao final
de um nico contguo. Aps a obteno do contguo, o processamento seguinte
consiste na anlise da representatividade da sequncia obtida. Este passo
conhecido como anotao gnica.
6.7 Anotao Gnica
A anotao gnica a identificao da funo e do que cada srie
obtida representa. Este processo frequentemente realizado em trs etapas,
com a anlise de:
I. Sequncias de nucleotdeos;
II. Sequncias proteicas;
III. Processos biolgicos.
-
7/25/2019 BIOTECNOLOGIA_05
19/51
216Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
A primeira etapa de anotao gnica feita utilizando basicamente as
ferramentas de bioinformtica. Diversos programas podem ser utilizados nesta
fase, os quais ajudaro na identificao das sequncias obtidas. Para isso, as
ferramentas de bioinformtica so utilizadas para predizer se h alguma
relao com outras sequncias j depositadas em bancos de dados. As
caractersticas similares permitem agrup-las quanto a sua natureza, como, por
exemplo, se a sequncia representa uma regio gnica, um RNAt, um RNAr,
uma regio no codificadora e repetitiva, ou mesmo se contm alguma
homologia com outra sequncia j conhecida. Neste caso, esta busca de
similaridades pode ser feita pelo BLAST.
6.7.1 Blast
O programa BLAST (Basic Local Alignment Search Tool) realiza um
alinhamento local de sequncias, sendo comumente utilizado na anlise de
similaridades. Ele representa um programa de busca projetado para explorar
todas as bases de dados disponveis de sequncias de DNA ou de protenaspresentes em bancos de dados. A sua implementao mais conhecida
aquela presente no NCBI National Center for Biotechnology e o da
Universidade de Washington, conhecido como WU-BLAST.
O Programa BLAST exposto pelo NCBI representa um conjunto de
servios, os quais podem beneficiar os usurios de diversas maneiras. As
opes aos pesquisadores variam de acordo com o tipo de sequncia inicial a
ser analisada, se de nucleotdeos ou de aminocidos, se o banco de dadosutilizado na busca de nucleotdeos ou de aminocidos, se a pesquisa est
restrita a um determinado micro-organismo. Alm de parmetros relacionados
aos algoritmos de busca. Para melhor exposio das diversidades que o
BLAST oferece para a busca de sequncias, este programa pode ser dividido
em:
I. blastp, o qual utilizado para comparar sequncias de
aminocidos em bancos de dados de protenas;
-
7/25/2019 BIOTECNOLOGIA_05
20/51
217Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
II. blastn, programa formulado para comparar sequncias de
nucleotdeos em bancos de dados de DNA;
III. blastx, para a comparao de uma sequncia de nucleotdeos,
representadas em todas as fases de leitura (ORFs), com bancos de dados de
protenas;
IV. tblastn, utilizado nacomparao de sequncias de protenas com
um banco de dados da srie de nucleotdeos representados em todas as
ORFs;
V. tblastx para comparar as ORFs de uma sequncia de
nucleotdeos com as ORFs de todos os nucleotdeos depositados em umbanco de dados de nucleotdeos.
A subdiviso do BLAST encontrada na pgina est demonstrada na
Fig. 72.
Figura 72: Subdiviso especializada do BLAST disponvel no NCBI.
Os pesquisadores podem optar por uma das subdivises disponveis
nesta pgina, de acordo com o tipo de sequncia inicial a ser analisada e com
o banco de dados utilizado na busca.
-
7/25/2019 BIOTECNOLOGIA_05
21/51
218Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
A anlise de sequncias pelo BLAST pode ser realizada de diversas
maneiras. O primeiro ponto consiste em delimitar o espao da busca, como:
a. O banco de dados a ser utilizado na busca;
b. O organismo especfico.
II. Para que uma determinada sequncia seja submetida busca
de similaridades pelo BLAST, ela deve se apresentar sob
determinados formatos especficos;
III. Formato FASTA;
IV. Por identificadores, que geralmente so cdigos para acessoaos bancos de dados mantidos pelo NCBI como o GenBank;
V. Sequncias puras, que podem ou no ser intercaladas por
caracteres brancos ou numricos.
As buscas de BLAST sero exemplificadas aqui, nesta apostila, pelo
BLASTn, pois um dos programas de alinhamento local mais utilizado pelos
pesquisadores. Para iniciar as buscas de similaridade pelo BLASTn,
inicialmente deve-se clicar sobre a opo de escolha (Fig.73).
Figura 73: Opo pela utilizao do programa BLASTn.
O usurio deve clicar sobre nucleotide blast, local apontado pela seta
-
7/25/2019 BIOTECNOLOGIA_05
22/51
219Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
vermelha na figura. A opo, que no caso especfico foi a anlise de
nucleotdeos pelo alinhamento do mesmo tipo de sequncia depositada no
banco de dados, abre a pgina demonstrada na Fig. 74. Esta pgina inclui
alguns tpicos que permitem que a pesquisa seja refinada em uma direo
especfica.
Figura 74: Pgina de acesso ao programa BLASTn.
O passo seguinte consiste em depositar a sequncia a ser analisada
no quadro indicado pela seta vermelha (Fig. 75).
-
7/25/2019 BIOTECNOLOGIA_05
23/51
220Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 75: Quadro demonstrativo de submisso de uma sequncia pelo BLASTn.
A sequncia de nucleotdeos a ser analisada deve ser depositada no
local apontado pela seta vermelha. Dentro da pgina inicial do BLASTn sooferecidas diferentes opes que permitem ao pesquisador refinar a sua
pesquisa. Inicialmente, pode-se delimitar contra quais organismos se deseja
submeter amostra para a busca de similaridades. A escolha pode limitar a
busca no banco de dados de humanos, de camundongos e de outras
sequncias (Fig. 76).
Figura 76: Delimitao de organismos que devem ser utilizados na busca de
similaridades contra a sequncia de interesse.
-
7/25/2019 BIOTECNOLOGIA_05
24/51
221Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
O mesmo quadro representado na Fig. ainda oferece a oportunidade
de limitar ainda mais a pesquisa dentro das trs opes de organismos, como
exemplificado na Fig. 77.
Figura 77: Refinamento da pesquisa dentro das opes de organismos a serem
utilizados no BLASTn.
No caso da Fig., onde no h uma especificao do organismo a ser
pesquisado, podem-se utilizar as iniciais do nome cientfico do organismo, ou
mesmo de seu txon. Aps esta incluso, alguns nomes de organismos
aparecero, o que pode ser utilizado na busca (Fig. 78).
-
7/25/2019 BIOTECNOLOGIA_05
25/51
222Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 78: Refinamento da pesquisa quando no h um organismo especfico a ser
utilizado na pesquisa.
Quando o pesquisador opta por outros organismos (others) a serem
utilizados na busca de similaridades, a inscrio das iniciais de um organismo
de interesse permite o direcionamento da busca. O BLASTn ainda oferece a
opo de a pesquisa abranger diferentes cenrios, de acordo com o grau de
identidade que o pesquisador deseja incluir na busca. A escolha feita optandopelo megablast, pelo megablast descontnuo ou pelo BLASTn, simplesmente
(Fig. 79).
Figura 79: Opo de busca pelo BLASTn de acordo com o grau de identidade entre
as sequncias utilizadas na busca.
Dentro desta escolha, o BLAST oferece como opo o megablast, o
-
7/25/2019 BIOTECNOLOGIA_05
26/51
223Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
megablast descontnuo e o BLASTn. Para maiores detalhes sobre estas
opes, vide o texto. O megablast realizado a partir do alinhamento com
sequncias que tenham uma relao filogentica muito prxima. Seus
resultados so mais significativos quando o grau de identidade entre as
sequncias superior a 95%. O megablastdescontnuo utiliza um alinhamento
que desconsidera algumas bases no pareadas. mais utilizado quando se
deseja comparar espcies cruzadas. O BLASTn a opo que permite um
alinhamento mais amplo, onde o grau de identidade entre os nucleotdeos no
muito alto.
O BLASTn oferece todas as opes acima expostas como forma derefinar a pesquisa. Apesar disso, algumas so opcionais. Depois de ter feito as
opes, o pesquisador ento deve iniciar a sua pesquisa de alinhamento
global. Para isso, deve-se apertar o boto BLAST (Fig. 80) que se encontra
ao final da pgina.
Figura 80: Comando para iniciar a busca pelo programa BLASTn.
Os resultados obtidos a partir de buscas no BLASTn so representados
em formas grficas, como demonstrado na Fig. 81. A Fig. 81A mostra
graficamente o grau de similaridade, em cores, de toda a sequncia de
nucleotdeos. A Fig. 81B apresenta uma tabela de dados, onde sequncias
similares so representadas pelo seu nmero de acesso ao GenBank, por uma
breve descrio do que ela , e pelo e-value. Este valor mais significativo
quanto menor ele for.
-
7/25/2019 BIOTECNOLOGIA_05
27/51
224Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 81: Resultados grficos do BLASTn. (Fonte:Coelho, 2007).
O BLASTn ainda apresenta os resultados dos alinhamentos,
fornecendo o escore, o grau de identidade e os buracos (gaps) entre as
sequncias alinhadas. O segmento em anlise e a sua similaridade a outras
depositadas no banco de dados apresentada pelo BLASTn, de nucleotdeo a
nucleotdeo (Fig. 82).
-
7/25/2019 BIOTECNOLOGIA_05
28/51
225Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 82: Resultado do alinhamento entre a sequncia de interesse e outra do
banco de dados pelo BLASTn.
As duas sequncias so representadas pelo alinhamento entre cada
nucleotdeo. Os que so idnticos so representados por barras verticais; os
buracos (gaps), por traos (-). Os locais que contm nucleotdeos distintos
so apresentados um abaixo do outro, sem qualquer representao grfica. A
sequncia de nucleotdeos ainda utilizada na busca de outros elementos que
facilitem a caracterizao da sequncia.
No caso de projetos genoma, um dos principais objetivos da primeira
etapa de anotao gnica consiste em montar as regies intergnicas e as no
codificadoras em um mapa do organismo. Alguns programas ainda so teis na
predio de regies gnicas, com a identificao de cdons de incio e de
terminao, alm de possveis ORFs. Outros podem at mesmo relacionar
regies de exons e de introns. Esta ltima abordagem no utilizada para
bibliotecas de cDNA, pois estas j constituem sequncias gnicas.
A segunda etapa da anotao gnica consiste na identificao das
-
7/25/2019 BIOTECNOLOGIA_05
29/51
226Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
protenas codificadas pelas sequncias codificadoras. Nesta fase, o principal
objetivo a caracterizao de protenas correspondentes sequncia de DNA,
no caso do projeto genoma, e dos RNAm expressos sob determinadas
condies, para projetos de transcriptoma. Este perodo tem por objetivo
correlacionar um gene com uma determinada funo, incluindo a anlise da
estrutura proteica (que ser abordada em detalhes mais adiante). Para uma
anlise inicial da funo de uma determinada sequncia, o usurio pode utilizar
o programa BLASTx.
Os passos iniciais para utilizar o programa BLASTx so os mesmos
daqueles feitos para o BLASTn. Inicialmente, clica-se na opo BLASTx, o queabrir a pgina inicial representada na Fig. 83.
Figura 83: Pgina do NCBI que permite selecionar a opo do programa BLASTx.
Esta opo abre a pgina inicial referente ao programa BLASTx (Fig.
84).
-
7/25/2019 BIOTECNOLOGIA_05
30/51
227Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 84: Pgina inicial do programa BLASTx.
Na pgina mostrada na Fig. 84, o usurio deve depositar a sequncia
de nucleotdeo a ser analisada (Fig. 85-1). Nesta mesma pgina, pode-se optar
pelo cdigo gentico a ser utilizado na pesquisa (Fig. 85-2).
-
7/25/2019 BIOTECNOLOGIA_05
31/51
228Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 85: Procedimentos iniciais para a anlise da seqncia nucleotdica pelo
programa BLASTx.
(1) Local onde a sequncia de interesse deve ser depositada; (2) seleo do cdigo
gentico referente ao organismo de anlise.
O BLASTx ainda permite selecionar o tipo de sequncia depositada no
banco de dados contra a qual a srie de interesse deve ser alinhada. As
sequncias no banco de dados esto organizadas pelo seu contedo
informacional ou mesmo pela tcnica de sequenciamento adotada (Fig.). O
ltimo passo clicar no Blast, assim como feito para o BLASTn, permitindo o
alinhamento das sries.
Figura 86: Refinamento do alinhamento pelo BLASTx de acordo com o tipo de sequncias
depositadas no banco de dados.
1
2
11
22
-
7/25/2019 BIOTECNOLOGIA_05
32/51
229Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Os resultados do BLASTx so apresentados sob uma forma grfica
(Fig. 87) e de alinhamentos (Fig. 88), assim como o BLASTn. Contudo, valeressaltar que os resultados se referem ao alinhamento entre aminocidos e no
de nucleotdeos.
Figura 87: Resultado grfico do alinhamento pelo programa BLASTx.
A mesma sequncia de nucleotdeos utilizada para a anlise do BLASTn foi utilizada
para o BLASTx. (Fonte: Coelho, 2007).
-
7/25/2019 BIOTECNOLOGIA_05
33/51
230Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 88: Resultado do alinhamento entre as sequncias de aminocidos pelo
programa BLASTx.
Assim como para o BLASTn, o resultado do alinhamento apresenta o
escore, o grau de identidade e os gaps (representados por - ). Alm disso, o
BLASTx acrescenta no resultado os alinhamentos positivos, os quais
representam a troca de aminocidos que pertencem ao mesmo grupo
bioqumico. As trocas por aminocidos de grupos distintos so representadas
por espaos vazios no alinhamento.
O BLASTx, assim como o BLASTn, realiza uma anlise de similaridade
entre a sequncia de nucleotdeos, correlacionando-a com a sua de
aminocidos entre outras j existentes no banco de dados. Apesar de a anlise
pelo BLASTn gerar uma ideia da funo daquela sequncia especfica, a
predio de funcionalidade pela sequncia de aminocido mais significativa.
-
7/25/2019 BIOTECNOLOGIA_05
34/51
231Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Isto se deve prpria caracterstica do cdigo gentico. Este, como descrito no
Mdulo I, degenerado, o que permite que resultados mais diversificados da
anlise de similaridade sejam obtidos. Por outro lado, assim como exposto nos
mdulos anteriores, a sequncia de aminocidos de uma protena geralmente
mantida durante o processo evolutivo, o que tambm um efeito da
degenerao do cdigo.
Assim, a possibilidade de alteraes de sua estrutura por mutaes
que gerem um produto no funcional protegida. Isto pode ser visualizado ao
comparar os resultados grficos obtidos nas duas anlises, j que a mesma
sequncia foi utilizada em ambas. O que geralmente se observa nas anlisesde BLASTx que os resultados de similaridade mais significativos so aqueles
entre organismos que pertencem mesma famlia e gneros. Isto se deve
relao entre organismos homlogos e que apresentam uma relao
filogentica mais prxima. Por isso, estes organismos so bastante
semelhantes.
A terceira e ltima etapa da anotao gnica consiste na correlao
dos dados genmicos com os processos biolgicos. Isto permite estabelecerum mapa funcional do organismo como, por exemplo, as vias bioqumicas. Esta
a etapa fundamental de projetos como o genoma e o transcriptoma,
correlacionando o metabolismo de um organismo com o seu desenvolvimento e
condies de adaptao a um determinado ambiente. Para isso, h a
necessidade de profissionais especialistas e interdisciplinares. Alm disso, esta
predio deve ser confirmada posteriormente por experimentos que
comprovem a sua funo biolgica.A grande revoluo dos projetos genoma, que permitiram o
sequenciamento dos mais diversos micro-organismos, representa apenas o
ponto inicial da caminhada sua aplicao. A era ps-genmica tem por
finalidade estudar a expresso de genes codificados pelo genoma dos
diferentes micro-organismos, correlacionando-os com a sua funo e
adaptao s determinadas condies nas clulas e tecidos. Este
conhecimento permitir uma maior aplicao sociedade, como a
-
7/25/2019 BIOTECNOLOGIA_05
35/51
232Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
caracterizao de possveis alvos para uma terapia mais eficaz e mais segura.
Para estas anlises, a bioinformtica disponibiliza ferramentas que permitem
predizer a estrutura e a funo de protenas.
6.8 A Bioinformtica e a Anlise da Estrutura Proteica
Outra abordagem da bioinformtica, alm dos projetos genoma e
transcriptoma, incluem o proteoma. Para este tipo de projeto, programas
computacionais fornecem subsdios para a predio de determinadas
estruturas proteicas, como:I. A estrutura primria;
II. A estrutura secundria;
III. A modelagem molecular.
Estas predies utilizam as informaes contidas em bancos de dados,
de forma a comparar a similaridade entre as sequncias e, portanto, predizer
uma determinada funo.
6.8.1 Anlise da Estrutura Primria de Protenas
A anlise da estrutura primria de protenas consiste no estudo da
sequncia de aminocidos traduzida a partir de um RNAm. As anlises da
estrutura primria podem ser abordadas de diversas maneiras e utilizadas em
vrios propsitos, como:I. A anlise das caractersticas fsico-qumicas;
II. Comparao entre as sequncias homlogas;
III. A busca por sinais;
IV. Anlise imunolgica (que ser tratado como um tpico a parte).
Vrios programas podem ser utilizados com este objetivo. Para tanto,
um conjunto de ferramentas de bioinformtica disponveis on-line est presente
-
7/25/2019 BIOTECNOLOGIA_05
36/51
233Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
no NCBI e no portal Expasy (Fig. 89).
Figura 89: Ferramentas para a anlise de protenas apresentadas no portal Expasy.
As anlises das caractersticas fsico-qumicas de uma protena a partir
da sua sequncia de aminocidos podem ser feitas por diversos programas.
Entre eles, um muito utilizado e disponvel no portal Expasy o Compute PI
Mw tool (Fig. 90). Ele informar o peso molecular e o ponto isoeltrico da
protena.
-
7/25/2019 BIOTECNOLOGIA_05
37/51
234Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 90: Pgina de acesso ao programa pI Mw tool.
Outros programas similares ao pI Mw tool tambm so muito
utilizados, como o Protparam. Este fornece os mesmos dados do outro
programa, porm com informaes adicionais (Fig. 91)
-
7/25/2019 BIOTECNOLOGIA_05
38/51
235Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 91: Resultado da anlise de caractersticas fsico-qumicas com o programa Protparam.
A figura demonstra que, alm do peso molecular e do ponto isoeltrico,
este programa fornece dados extras como a composio atmica e de
aminocidos da protena. Alm disso, ele ainda prediz a meia-vida da protena
-
7/25/2019 BIOTECNOLOGIA_05
39/51
236Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
aps a expresso em clulas de mamferos de leveduras e em E. coli e o
coeficiente que estima a estabilidade da protena (dados no demonstrados). A
anlise molecular permitiu aprofundar ainda mais as comparaes entre as
sequencias de diferentes organismos. Observou-se que quanto mais prximo
os organismos esto na escala evolutiva, maior a similaridade em nvel de
nucleotdeos e de aminocidos. Estas so a base de uma cincia, a genmica
comparativa.
As observaes feitas pela genmica comparativa so utilizadas em
estudos da estrutura primria da protena. Um dos pontos iniciais a realizao
de um alinhamento entre as sequncias de aminocidos. Isto pode serrealizado facilmente pelo ClustalW, programa disponvel no portal do Expasy.
Para isso, as sequncias devem ser depositadas na pgina inicial deste
programa (Fig.), assim como demonstrado na Fig. 92.
Figura 92: Pgina do programa ClustalW.
-
7/25/2019 BIOTECNOLOGIA_05
40/51
237Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Ao final da figura est representado o quadro onde as sries a serem
alinhadas devem ser depositadas. Os resultados obtidos no ClustalW (Fig. 93)
demonstram os aminocidos que so idnticos entre as sequncias e os que
sofreram algumas alteraes. As alteraes podem ser de uma modificao
para um aminocido do mesmo grupo ou mesmo de grupos diferentes. Isto
influencia na caracterstica da protena como um todo, pois a troca por
aminocidos semelhantes geralmente no induz uma mudana conformacional
da protena, diminuindo as chances de alterao de funo.
Figura 93: Alinhamento de sequncias homlogas pelo ClustalW.
(*) significa identidade; (:) representa aminocidos semelhantes em tamanho e carga;
(.), aminocidos semelhantes em tamanho ou carga. (Fonte: Coelho, 2007).
-
7/25/2019 BIOTECNOLOGIA_05
41/51
238Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
A importncia da comparao entre sequncias homlogas permitiu
desvendar a funo de muitas protenas. Comparando-se organismos
semelhantes, geralmente se observa que a grande similaridade implica em
funes at mesmo idnticas. Neste sentido, estudos com micro-organismos
patognicos, por exemplo, demonstraram que a similaridade no se restringe
estrutura, mais aos mecanismos de patogenia e de infeco so muito
semelhantes. Esta conservao um dos fenmenos evolutivos que
conservaram caractersticas vantajosas aos organismos.
A estrutura primria ainda fornece detalhes teis na predio da
localizao celular da protena. A bioinformtica oferece subsdios para aanlise da presena de peptdeos sinais e de ancoramento. Estes so
necessrios para a maquinaria celular reconhecer o correto endereamento de
cada protena em especfico, como a sua secreo ao meio ou o ancoramento
membrana celular, respectivamente. Dentre os programas disponveis para
alcanar este objetivo esto o PSORT e TargetP, ambos disponveis no portal
do Expasy.
A estrutura primria fornece aspetos de conhecimento fundamentalpara a funo de uma protena. Contudo, a ao biolgica das protenas
extremamente dependente da sua estrutura terciria. Portanto, os diferentes
graus de conformao encontrados nas protenas tambm so objetos de
estudos, como a estrutura secundria.
6.8.2 Anlise da Estrutura Secundria
A estrutura secundria da protena correlaciona as reas da sequncia
de aminocidos com a possvel existncia de formao de folhas alfa, betas e
loops. H diferentes programas disponveis para a anlise da estrutura
secundria, como o programa Gor disponvel no portal Expasy. Ao abrir a
pgina citada, apresentada a pgina de acesso inicial ao programa (Fig. 94).
-
7/25/2019 BIOTECNOLOGIA_05
42/51
239Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 94: Pgina de acesso ao programa Gorde anlise da estrutura secundria de
protenas.
A pgina de acesso ao programa Gor apresenta um quadro onde a
sequncia de aminocidos a ser analisada deve ser depositada. Para submet-
la pesquisa, o usurio deve clicar em Submit. O resultado apresentado
sob uma forma grfica, sendo que as porcentagens correspondentes a cada
formao em particular, como folhas alfas presentes em toda a estrutura
estudada, tambm esto disponveis (Fig. 95).
-
7/25/2019 BIOTECNOLOGIA_05
43/51
240Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 95: Resultados grficos e em porcentagem da estrutura secundria fornecidos
pelo programa Gor.
Alm da estrutura secundria, a bioinformtica ainda permite realizar a
modelagem molecular da estrutura proteica. Esta funo um mtodo
alternativo, que permite prever as conformaes que a sequncia de
aminocidos assume a partir dos conhecimentos de estereoqumica dos
aminocidos e de estruturas tercirias j resolvidas.
-
7/25/2019 BIOTECNOLOGIA_05
44/51
241Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
6.8.3 Modelagem Molecular
A modelagem molecular pode ser feita com o auxlio de diferentes
programas. A metodologia adotada nestes programas o uso de uma ou mais
referncias a partir da estrutura terciria de protenas homlogas j
conhecidas. Esta abordagem conhecida como modelagem por homologia ou
modelagem comparativa, sendo a que apresenta, atualmente, os melhores
resultados.
O primeiro passo da modelagem comparativa a pesquisa deprotenas homlogas em bancos de dados de estrutura terciria de protenas.
Com esta finalidade, o programa mais utilizado o PDB (Protein Database
Bank). Em seguida, realiza-se o alinhamento entre as sequncias primrias da
protena de interesse e de outras homlogas correspondentes.
A modelagem propriamente dita realizada por programas como o
MOdeller, SWISS-Model e o 3D-PSSM. Estes procuram as estruturas tercirias
que permitam a melhor disposio dos tomos da protena utilizada comomodelo, de forma que atenda s restries estereoqumicas. Esta estrutura
inicial ento verificada por outros softwares quanto s restries
estereoqumicas, como o Procheck.
A modelagem por homologia um processo que exige um ajuste de
parmetros e a verificao dos resultados. Normalmente, so necessrias
vrias repeties at que a estrutura terciria mais adequada seja obtida.
Apesar disso, deve-se lembrar que este processo no perfeito. Mesmo que aestrutura final obtida se apresente de maneira em que todos os parmetros
tenham sido dispostos de maneira adequada, no h garantias de que esteja
correta.
Uma estrutura bastante prxima da que a protena assume in vivopode
ser utilizada para desenvolver outros modelos que auxiliem o pesquisador.
Entretanto, mesmo sendo muito semelhante da estrutura real, pode ocorrer que
os resultados gerados a partir da especulao no sejam aplicveis in vivo.
-
7/25/2019 BIOTECNOLOGIA_05
45/51
242Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Outro programa mais recente de modelagem de protenas o Threading. Este
se baseia na comparao da protena de interesse com modelos descritivos
dos enovelamentos de protenas homlogas. Para isso, utilizada como
parmetro a distncia entre os resduos de aminocidos, a estrutura secundria
de cada fragmento e as caractersticas fsico-qumicas de cada resduo. Esta
tcnica tem gerado resultados satisfatrios.
Um interesse dos usurios deste tipo de ferramenta de bioinformtica
a predio da estrutura terciria a partir da sequncia primria da prpria
protena. J est disponvel este tipo de programa, que se baseia somente na
informao da srie de aminocidos e considera as interaes fsico-qumicasentre a cadeia e com o meio. Entretanto, este tipo de programa no tem
apresentado resultados satisfatrios. Porm, devido ao interesse dos
pesquisadores neste campo, novos investimentos tm sido realizados na rea.
A informao gerada pela modelagem molecular extremamente
valiosa, pois permite identificar stios catalticos envolvidos com a funo
proteica. Alm disso, podem-se guiar pesquisas direcionadas que permitam a
caracterizao de inibidores, ativadores, entre outros, tendo em vista aproduo de frmacos mais eficientes e especficos.
A modelagem molecular de protenas por ferramentas de bioinformtica
uma estratgia cuja implantao recente e tem sido muito til aos
pesquisadores para gerar hipteses. Contudo, a sua eficincia no
totalmente comprovada, sendo necessrias pesquisas biolgicas que
comprovem o que foi predito pela informtica. Isto feito por meio de tcnicas
de realizaes complexas, como a difrao de raios-X.Estas, alm de serem de difcil manipulao, representam um alto
custo, exigindo equipamentos especficos e caros. Alm disso, a dificuldade da
tcnica ainda aumentada por algumas questes biolgicas. O estudo da
estrutura terciria pelas tcnicas biolgicas exige uma grande quantidade de
material purificado, procedimento que nem sempre facilmente executado para
determinadas protenas.
O estudo sobre a estrutura de protenas por ferramentas de
-
7/25/2019 BIOTECNOLOGIA_05
46/51
243Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
bioinformtica uma rea em expanso. Sua utilidade tem sido aplicada na
rea de Imunologia para o desenvolvimento de vacinas, o que se deve
capacidade dos programas computacionais em mapear epitopos.
6.9 Mapeamento de Epitopos
O mapeamento de epitopos a partir de programas de bioinformtica
tem sido testado quanto ao seu potencial no desenvolvimento de novas
vacinas. A justificativa desta metodologia consiste em inserir na composio
vacinal somente as sequncias que sero realmente reconhecidas pelasclulas do sistema imunolgico. Um dos programas gratuitos mais utilizados
para o mapeamento de epitopos o SYFPEITHI, o qual est disponvel no
portal Expasy (Fig. 96). Ele capaz de predizer epitopos de clulas T.
Figura 96: Pgina do programa SYFPEITHI de mapeamento de epitopos.
O programa til para predizer os epitopos de clulas T que se ligam
tanto ao complexo de histocompatibilidade (MHC) I e II. O resultado da anlise
da sequncia apresentado como um conjunto de epitopos potenciais que
podem se ligar aos MHC de escolha (Fig. 97). A probabilidade disto acontecer
-
7/25/2019 BIOTECNOLOGIA_05
47/51
244Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
apresentado por um escore.
Figura 97: Mapeamento de epitopos obtidos pelo programa SYFPEITHI.
Alm de estudos sobre a estrutura de protenas, a bioinformtica ainda
possui outras aplicaes para a biotecnologia. Uma delas o auxlio em
estudos das relaes filogenticas entre os diferentes organismos.
6.10 Mtodos em Filogenia Molecular
A bioinformtica uma ferramenta muito utilizada no estabelecimento
de relaes evolutivas entre os organismos. Estas podem ser formadas a partir
de sequncias de DNA ou mesmo de protenas, reconstituindo as relaes de
parentesco entre as espcies, o que chamado de sistemtica molecular. A
reconstituio ainda pode ser instituda utilizando-se uma escala temporal.
-
7/25/2019 BIOTECNOLOGIA_05
48/51
245Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Neste caso, o processo denominado de filogenia molecular.
As relaes de parentesco so apresentadas sob uma forma grfica,
que denominada rvore filogentica. Estes grficos possuem as mais
diversas aplicaes que facilitam o entendimento das histrias evolutivas, como
o estudo de relaes de parentesco ou at mesmo a origem e a histria
epidemiolgica de organismos patognicos a partir de dados do genoma. Esta
apresentao dos dados muito utilizada em trabalhos da rea biolgica, o
que reflete o seu reconhecimento como uma maneira legtima de apresentar os
dados biolgicos dentro de uma escala evolutiva.
O primeiro passo para a construo da histria evolutiva consiste naescolha de um marcador filogentico. Para isto, deve-se optar por uma
sequncia de DNA ou de protenas homlogas, ou seja, que oferecem uma
ancestralidade comum. Esta escolha est diretamente relacionada com a
confiabilidade da rvore gentica gerada, pois este marcador, que apresenta
uma origem comum, garante que os organismos em anlise apresentam um
ancestral compartilhado.
A simples escolha de sequncias por similaridade, sem que mostremhomologias, um erro que diminui a confiabilidade dos dados gerados. Isto se
deve incluso de sequncias que apresentam histrias evolutivas diferentes.
Uma maneira de aumentar a confiabilidade a incluso de sequncias de
grupos externos, cujas histrias evolutivas sejam conhecidas. Isto representar
os parmetros controles para verificar a preciso da construo obtida.
Aps a seleo da srie a ser utilizada como marcador e da incluso
de sequncias controle, o prximo passo o alinhamento mltiplo dassequncias. Diversos programas podem ser utilizados com esta finalidade,
sendo que um dos mais utilizados com este propsito o Mega 4.0. Contudo,
programas mais simples tambm podem realizar esta tarefa, como o BLAST
(Fig. 98) e o ClustaW. As inferncias das relaes filogenticas podem ento
ser feitas a partir da construo das rvores filogenticas.
-
7/25/2019 BIOTECNOLOGIA_05
49/51
246Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
Figura 98: Representao de uma rvore filogentica obtida com o auxlio do
programa BLASTn.
------------------FIM DO MDULO V-------------------
-
7/25/2019 BIOTECNOLOGIA_05
50/51
247Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.
REFERNCIAS BIBLIOGRFICAS
COELHO, K. S. Isolamento, clonagem e caracterizao molecular do gene
hsp60 de Corynebacterium pseudotuberculosis e sua utilizao na
construo de uma vacina de DNA e de subunidade proteica. Dissertao
(Mestrado em Gentica). Universidade Federal de Minas Gerais, 2007.
GLICK, B. R. & PASTERNAK, J. J. Molecular Biotecnology: Principles &
Appl ications o f Recombinant DNA. [S.I.]: ASM Press, 1994.
GRIFFITHS, A. J. F.; MILLER, J. H.; SUZUKI, D. T.; LEWONTIN, R. C.;
GELBART, W. M. Introduo gentica. 7. ed. So Paulo: Guanabara
Koogan, 2002.
LEWIS, B. Genes VIII. [S.I.]: Pearson Prentice Hall, 2004.
PROSDOCIMI et al. Bioinformtica: Manual do usurio. Biotecnologia,
Cincia e Desenvolvimento. n. 29. p 12-25.
LOODISH, H.; BERCK, A.; ZIPURSKY, S. L. et al. Molecular Cell Bio logy. 4.
ed. [S.I.]: Media Connected, 1999.
YIN, J.; LI, G.; REN, X.; HERRLER, G. Select what you need:A comparat ive
evaluation of the advantages and limitations of frequently used
expression systems for foreign genes. Journal of Biotechnology. v. 127, p
335-347, 2007.
-------------------FIM DO CURSO!---------------------
-
7/25/2019 BIOTECNOLOGIA_05
51/51