biotecnologia_05

Upload: jose-quirino-neto

Post on 24-Feb-2018

223 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/25/2019 BIOTECNOLOGIA_05

    1/51

    198Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Curso de

    Biotecnologia

    MDULO V

    Ateno:O material deste mdulo est disponvel apenas como parmetro de estudos paraeste Programa de Educao Continuada. proibida qualquer forma de comercializao domesmo. Os crditos do contedo aqui contido so dados aos seus respectivos autoresdescritos nas Referncias Bibliogrficas.

  • 7/25/2019 BIOTECNOLOGIA_05

    2/51

    199Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    MDULO V

    Introduo Bioinformtica

    6. Introduo

    Os mdulos I e II apresentaram uma introduo gentica e biologia

    molecular sob um contexto histrico. A curiosidade sobre a transmisso das

    caractersticas genticas entre as geraes impulsionou pesquisas

    direcionadas na descoberta da molcula de DNA. As informaes iniciais eramentusiasmantes e os estudos prosseguiram para desvendar o papel desta

    molcula at a gerao de protenas. Todas estas pesquisas foram

    revolucionadas com a tecnologia do DNA recombinante.

    A biologia molecular foi e atualmente ainda uma importante

    ferramenta que vem permitindo novas descobertas e aplicaes na rea de

    biologia e cincias da sade. A busca de novos genes e a divulgao de suas

    funes so passos fundamentais para que sejam implantadas aplicaes cadavez mais eficientes da biotecnologia nos mais diversos campos.

    Dentro da perspectiva de novas descobertas e de aplicaes benficas

    para a humanidade, diversos esforos vm sendo feitos nas reas mas,

    como os projetos genoma, transcriptoma e o proteoma. Vrios micro-

    organismos procariotos e eucariotos esto sendo sequenciados e estudados,

    sendo que um grande nmero de sequncias foi obtido a partir da dcada de

    90, perodo que marca o surgimento dos sequenciadores automticos.A exploso que gerou a disposio de um grande nmero de

    sequncias de DNA derivadas de projetos genoma exigiu a implantao de

    recursos computacionais cada vez mais sofisticados. Esta exigncia se deve

    no somente necessidade de armazenamento destas sequncias, como

    tambm indispensvel utilizao de mecanismos eficientes que permitam a

    interpretao mais rpida e eficiente dos dados obtidos. Dentro deste contexto

    na era dos omas surgiu a bioinformtica.

  • 7/25/2019 BIOTECNOLOGIA_05

    3/51

    200Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    A bioinformtica definida como a cincia que permitiu a unio e a

    integrao de linhas de conhecimento diferentes, como a engenharia de

    softwares, a matemtica, a estatstica, a cincia da computao, a gentica e a

    biologia molecular. Para a utilizao das ferramentas disponveis on-line de

    bioinformtica, o usurio deve estar familiarizado com os principais conceitos

    relacionados gentica e biologia molecular, alm dos correspondentes

    computao, incluindo os softwares mais utilizados.

    6.1 Banco de Dados

    Os bancos de dados representam atualmente um pr-requisito de

    suma importncia para a bioinformtica. Ele pode ser definido como uma

    coleo de dados inter-relacionados, desenhados de forma a suprir as

    necessidades de um grupo especfico de aplicaes e usurios. A sua principal

    funo consiste em organizar e estruturar milhares de informaes produzidas

    por projetos como o genoma, transcriptoma e proteoma, de forma a facilitar

    consultas, atualizaes e delees de dados.A construo de bancos de dados est correlacionada a outros

    sistemas computacionais, como por exemplo, o sistema SGBD (Sistema de

    Gerenciamento de Banco de Dados). Este est envolvido na construo,

    manipulao e administrao do banco de dados solicitados pelo usurio e/ou

    por outras aplicaes.

    Esto disponveis diversos sistemas de gerenciamento de banco de

    dados. A opo por um deles deve considerar as vantagens e as desvantagensde cada um em relao ao objetivo do estudo do pesquisador. Entre eles,

    pode-se citar o mysql, um programa gratuito, com acesso veloz aos dados.

    Estas caractersticas so os motivos de escolha dos representantes

    acadmicos envolvidos com projetos genoma.

    A principal desvantagem do sistema a limitao imposta a algumas

    de suas ferramentas. Esta desvantagem no ocorre com o postgreSQL, outro

    sistema gratuito. A sua desvantagem se baseia na dificuldade de

  • 7/25/2019 BIOTECNOLOGIA_05

    4/51

    201Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    gerenciamento do sistema. A alternativa mais sofisticada inclui o sistema racle

    e o Server. Contudo, o uso destes limitado pelo alto custo para a licena, o

    que muitas vezes inviabiliza o acesso. A importncia dos bancos de dados na

    organizao das informaes produzidas por projetos como o genoma,

    transcriptoma e proteoma extremamente importante diante das informaes

    geradas. Isto facilita a consulta e a atualizao de dados pelos pesquisadores.

    Contudo, este processo somente ser alcanado por bancos de dados que

    permitam o livre acesso aos usurios. Por isso, percebe-se a necessidade da

    implantao de bancos de dados pblicos.

    6.1.1 Bancos de Dados Pblicos

    A construo e a disponibilizao de bancos de dados pblicos tm

    recebido atualmente grandes investimentos. Isto de suma importncia para

    permitir a organizao dos dados e seu acesso on-line, admitindo a troca de

    informaes entre a comunidade cientfica. A grande evoluo de projetos

    genoma atribuda, entre outros fatores, construo destes tipos de banco.Os bancos de dados podem armazenar diferentes tipos de sequncia,

    como as de nucleotdeos, de aminocidos e at mesmo de estruturas

    proteicas. Para facilitar a organizao, eles podem ser subdivididos em bancos

    de sequncias primrios ou secundrios.

    Os bancos de sequncia primrios se referem queles em que a

    sequncia de nucleotdeos, aminocidos ou a estrutura proteica foram

    armazenas logo aps serem obtidos diretamente do sequenciamento ou de umprocessamento inicial. Isto quer dizer que as sequncias no sofreram anlises

    prvias. Logo aps a sua obteno e caracterizao, o pesquisador deve

    disponibilizar a sequncia a um destes bancos de dados. Isto constitui uma

    exigncia para a publicao de trabalhos que relatam a descoberta ou a

    caracterizao de uma nova sequncia ou estrutura.

    Entre os principais bancos de dados primrios para a sequncia de

    nucleotdeos so: o GenBank, o EBI (European bioinformatics Institute), o

  • 7/25/2019 BIOTECNOLOGIA_05

    5/51

    202Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    DDBJ (DNA Data Bank of Japan); para a sequncia de aminocidos se

    destacam o PDB (Protein Data Bank) e o Uniprot. Os dados so apresentados

    de forma bastante semelhante entre eles. Apesar de serem bancos de dados

    distintos, as informaes so trocadas entre eles diariamente, o que permite a

    atualizao dos dados.

    Os bancos de dados secundrios so aqueles cuja formao levou em

    considerao as informaes depositadas nos bancos de dados primrios. Um

    exemplo o SWISS-PROT, que correlaciona as sequncias de protenas j

    depositadas com a sua homologia a outras protenas, sugerindo uma funo e

    a presena de domnios funcionais.Os bancos de dados ainda podem ser subdivididos de maneira mais

    especfica, como os bancos estruturais e funcionais. Por exemplo, os bancos

    estruturais tratam da estrutura de protenas. Esta subdiviso consiste em uma

    maneira de organizar as diferentes representaes de uma determinada

    sequncia.

    Dentre os bancos de dados funcionais, um dos mais utilizados o

    KEGG (Kyoto Encyclopedia of Genes and Genomes). A partir de sequncias oubuscas por palavra chave so disponibilizados links que permitem a

    visualizao de mapas metablicos de organismos que apresentam o genoma

    completa ou mesmo parcialmente sequenciado.

    6.2 Alinhamento de Sequncias

    O alinhamento de sequncias constitui uma das ferramentas maisimportantes da bioinformtica. Este programa permite estabelecer

    comparaes entre diferentes sequncias, indicando qual o grau de

    similaridade que existe entre elas. Atualmente h vrios tipos de programas

    para executar esta tarefa. Eles se encontram disponveis on-line, so de fcil

    execuo e no h a necessidade de instal-los. Exemplos deste tipo de

    programas so: ClustalW, Multialin, FASTA, Blast 2 etc.

    O procedimento que os programas adotam consiste em introduzir

  • 7/25/2019 BIOTECNOLOGIA_05

    6/51

    203Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    espaos (gaps) entre os monmeros de uma ou mais sequncias para que seja

    obtido o melhor alinhamento possvel. A confiana a respeito do resultado

    determinada pela soma dos pontos que demonstraram pareamento (match),

    subtraindo os pontos de gap e de sequncias no pareadas (mismatch). O

    alinhamento pode ser obtido para toda a sequncia de interesse ou mesmo

    para fragmentos dela e, por isso, ele pode ser classificado em dois tipos: global

    ou local.

    O alinhamento global corresponde ao processo de anlise de

    similaridade de toda a sequncia, de uma extremidade a outra. Isto gera

    apenas um nico resultado. Este tipo de alinhamento geralmente utilizadopara determinar regies mais conservadas entre sequncias homlogas. Estas

    podem ser definidas como aquelas que apresentam similaridade com uma

    relao evolutiva. Neste caso, duas sequncias so ditas homlogas se

    derivam de um mesmo ancestral comum. Se no h esta relao, as

    sequncias podem at ser similares, mas no so consideradas homlogas.

    Um dos programas mais utilizados para o alinhamento global o ClustalW.

    Detalhes de como utilizar este programa sero abordados no tpico a estruturaproteica.

    O alinhamento local frequentemente utilizado na busca por

    sequncias homlogas ou anlogas (ou seja, apresentam funes

    semelhantes) a partir da comparao com outras sequncias depositadas em

    bancos de dados. O programa mais utilizado com este propsito o BLAST, o

    qual ser discutido com mais detalhes adiante.

    Muitos programas de bioinformtica esto atualmente disponveis on-line como ferramentas de livre acesso aos usurios. Diversos deles possuem

    at mesmo funes semelhantes; contudo, podem apresentar recursos

    diferentes ou mesmo apresentaes diferentes. Exemplos so os programas

    que fazem a anlise de sequncias proteicas, mas alguns deles so

    especializados para protenas eucariotas e, outros, para procariotas.

    Os casos que possuem a mesma funo para o mesmo tipo de

    organismo, como a anlise de estruturas secundrias de protenas, a

  • 7/25/2019 BIOTECNOLOGIA_05

    7/51

    204Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    apresentao dos dados pode ser diferente. Um exemplo a anlise da

    porcentagem de folhas betas, a qual pode estar como um grupo a parte, ou

    mesmo incluso em conjunto com estruturas randmicas. As diferenas

    apresentadas entre os programas denotam diferentes utilizaes. Isto quer

    dizer que, apesar de muitos programas estarem disponveis, a escolha de um

    deles depende dos objetivos especficos de cada usurio.

    Este mdulo visa introduzir o estudante bioinformtica. Por isso,

    algumas das ferramentas de bioinformtica mais utilizadas sero comentadas

    sob um contexto, para solucionar e facilitar alguns estudos dentro das diversas

    reas de aplicao da biotecnologia.

    6.3 A Bioinformtica e os Projetos Genoma e Transcriptoma

    A relao dos projetos genoma e transcriptoma com a bioinformtica

    vm desde a histria do surgimento da ltima. Atualmente, o sequenciamento

    de genomas e a anlise dos transcritos de um grande nmero de micro-

    organismos distintos vm sendo realizada por diferentes grupos de pesquisa.Assim, como descrito no mdulo II, a abordagem adotada para o

    sequenciamento de genomas consiste em fragmentar o DNA, clon-lo em um

    vetor apropriado e sequenci-lo. Estes procedimentos se devem limitao do

    tamanho das sequncias que podem ser lidas pelos sequenciadores. Estas

    mquinas, at mesmo as mais modernas, conseguem ler somente cerca de

    1.000 pb em cada corrida.

    As estratgias utilizadas para o sequenciamento de genomas diferementre micro-organismos procariotos e eucariotos. Em procariotos, h a

    fragmentao do DNA cromossmico, a digesto enzimtica do mesmo e,

    finalmente, a sua clonagem em vetores apropriados. O sequenciamento feito

    a partir das extremidades dos fragmentos clonados. Estes fragmentos so

    ento analisados quanto presena de sequncias sobrepostas, o que permite

    uma primeira montagem da sequncia do genoma inteiro. Contudo, este

    procedimento geralmente obtm sequncias incompletas, que apresentam

  • 7/25/2019 BIOTECNOLOGIA_05

    8/51

    205Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    muitos gaps. Por isso, fragmentos maiores so clonados em vetores

    apropriados, como BACs. Em seguida, estes segmentos de DNA so ento

    sequenciados.

    No caso de organismos eucariotos, o procedimento praticamente o

    inverso do adotado para o sequenciamento de genomas de procariotos. Aps a

    extrao e digesto enzimtica do genoma de eucariotos, os fragmentos so

    clonados em vetores que permitem que sries grandes de DNA sejam

    clonadas, como os BACs e os YACs. Em seguida, os insertos destes vetores

    so fragmentados e clonados em vetores plasmidiais e estas sequncias so

    ento sequenciadas. Este procedimento utilizado preferencialmente, poispermite a reconstituio da informao genmica inicial.

    Os dados gerados aps o sequenciamento do genoma so ento

    analisados. O primeiro passo consiste no uso de um programa capaz de

    processar os dados brutos obtidos logo aps o sequenciamento, denominado

    base calling.

    6.4 Base Calling

    O basecalling um programa que permite a leitura dos dados gerados

    pelo sequenciador, reconhecendo a sequncia nucleotdica obtida a partir dos

    dados brutos da sequncia e, ainda, atribuindo valores de qualidade sobre a

    sequncia gerada. Alguns programas podem ser utilizados neste tipo de

    processamento, e geralmente, cada sequenciador vem com um determinado

    programa. Contudo, um dos mais utilizados com esta finalidade o PHRED.O PHRED um software desenvolvido na Universidade de Washington

    e referenciado como o programa padro para o base calling. Inicialmente, ele

    reconhece a sequncia de nucleotdeos gerada a partir de determinados

    arquivos, como os de cromatogramas de sequenciadores automticos de DNA.

    Em seguida, o programa atribui valores de qualidade a cada nucleotdeo

    gerado, determinando a preciso do resultado obtido pelo sequenciamento.

    Estes valores so importantes, pois determinam a confiabilidade de uma srie

  • 7/25/2019 BIOTECNOLOGIA_05

    9/51

    206Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    obtida, indicando qual deve ser submetida a um novo sequenciamento. Aps o

    processamento da sequncia de dados brutos, o passo seguinte consiste na

    anlise da sequncia propriamente dita. O passo inicial a busca de

    contaminantes na srie obtida ou o mascaramento de vetores.

    6.5 Mascaramento de Vetores

    O mascaramento de vetores consiste na busca de sequncias

    contaminantes presentes no inserto sequenciado. Por contaminao se

    entende qualquer srie que no representa uma informao gentica a partirde fontes biolgicas, contendo ento uma ou mais sequncias de origem

    exgena. As sequncias contaminantes correspondem quela do vetor aos

    quais os fragmentos de DNA foram clonados. Adicionado a isto, ainda so

    includos a sequncia de adaptadores e de iniciadores presentes no inserto.

    Assim, o mascaramento de vetores inclui a anlise de todas as sries utilizadas

    na estratgia de clonagem e que no fazem parte do inserto de interesse.

    As sequncias de DNA contaminantes devem ser excludas da anlisedo DNA sequenciado. Apesar de ser um passo da anlise de sequncias

    considerado como opcional, h algumas razes que justificam a excluso de

    sequncias contaminantes:

    I. O tempo de anlises gasto com a sequncia exgena, j que os

    resultados podem ser direcionados para a similaridade entre a sequncia de

    DNA contaminante com as depositadas em bancos de dados, ao invs da

    sequncia de interesse;II. Alinhamentos errneos entre as sequncias, uma vez que o

    mesmo vetor pode ser utilizado como a sequncia similar a partir do qual se

    iniciar o alinhamento;

    III. Concluses errneas sobre o significado biolgico da sequncia,

    pois os contaminantes podem gerar erros sobre a funo e relaes

    filogenticas;

    IV. Atrasos na liberao da sequncia para o banco de dados, pois a

  • 7/25/2019 BIOTECNOLOGIA_05

    10/51

    207Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    contaminao aumenta o tempo necessrio para o processamento da

    submisso;

    V. Poluio dos bancos de dados pblicos, uma vez que as

    sequncias contaminantes podem confundir os diversos tipos de anlises

    utilizadas a partir dos bancos de dados.

    Diante da importncia da anlise e excluso das sequncias

    contaminantes, diversos programas foram desenvolvidos para realizar o

    mascaramento destas sequncias. Entre eles, um dos mais utilizados o

    Cross_match, que utiliza a comparao de duas sequncias, sendo necessria

    a utilizao de um arquivo que contenha as referentes aos vetores que sedeseja mascarar. Aps estabelecer a comparao com o arquivo introduzido e

    a sequncia do material amostral, as regies que correspondem ao vetor so

    apresentadas com a letra X. Esta alterao impede que as anlises de sries

    sejam prejudicadas nos processos posteriores.

    Outro programa muito utilizado e de fcil manipulao o VecScreen,

    que se encontra disponvel no portal do NCBI. A metodologia adotada por este

    programa muito semelhante ao do Cross_match, onde a sequncia a seranalisada ser submetida a um alinhamento local. A busca de similaridade

    feita contra o banco de dados de vetores, o UniVec. Deste, foram eliminadas as

    sequncias redundantes para criar um banco de dados que contenha somente

    uma cpia de cada vetor. O VecScreen age de maneira a categorizar as sries

    alinhadas, eliminando as redundantes, e mostra a localizao das sequncias

    contaminantes e dos fragmentos suspeitos.

    Para utilizar o programa VecScreen, inicialmente o usurio deveacessar a pgina do NCBI. O usurio deve ento optar pelo BLAST, como

    demonstrado na Fig. 64.

  • 7/25/2019 BIOTECNOLOGIA_05

    11/51

    208Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 64: Pgina principal do NCBI.

    A seta vermelha indica onde o usurio deve clicar (BLAST) para ter acesso ao

    programa VecScreen.

    A

    Figura 65: Pgina do BLAST disponvel no NCBI.

  • 7/25/2019 BIOTECNOLOGIA_05

    12/51

    209Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Ao clicar sobre BLAST, imediatamente a pgina abrir e, ao final dela,

    haver o quadro representado na Fig. 65. O usurio encontrar diversas

    opes de programas de BLAST especializados. Dentre eles, o VecScreen

    (representado em roxo na figura) pode ser utilizado para analisar a sequncia

    de interesse quanto presena de contaminantes. O usurio deve escolher a

    opo vetor contaminao (VecScreen). Esta escolha permitir a abertura da

    pgina (Fig. 66). A sequncia a ser analisada deve ser depositada no quadro

    que aparece abaixo da palavra FASTA. A sequncia ento submetida pela

    escolha run VecScreen.

    Figura 66: Pgina de acesso ao programa VecScreen.

    A figura apresenta o quadro onde a sequncia a ser analisada deve ser

    depositada (j representada aqui por uma aleatria). Aps este passo, a

    anlise prosseguir aps o comando do usurio, que deve clicar sobre Run

    VecScreen. O formato FASTA se refere a uma sequncia identificada por

    uma terminologia iniciada pelo smbolo >. Isto significa que uma nova srie

    est sendo iniciada. A sequncia propriamente dita mencionada neste

  • 7/25/2019 BIOTECNOLOGIA_05

    13/51

    210Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    formato quando no apresenta qualquer espao ou quebra. O resultado obtido

    aps a utilizao do programa VecScreen apresentado sob uma forma

    grfica, como demonstrado na Fig. 67.

    Figura 67: Resultado grfico obtido para a anlise de sequncias contaminantes pelo

    programa VecScreen.

    O retngulo, que demonstra o nmero de nucleotdeos (no caso, de 1 a

    316), representa todo o comprimento da sequncia em anlise. Dentro dele so

    representadas, sob diferentes coloraes, as sries com suspeita da presena

    de contaminantes. O resultado pode variar de forte (vermelho), moderado

    (rosa), fraco (verde) ou simplesmente suspeito (amarelo). O resultado ainda

    fornece o nmero de nucleotdeos envolvidos (no caso, est representado ao

    final do quadro, mostrando que a sequncia contaminante se d do primeiro ao

    257 nucleotdeo dentro dos 316 analisados).

    Como demonstrado na Fig. 67, o programa VecScreen apresenta o

    resultado em possibilidades de contaminao da srie, variando de forte,

    moderada, fraca e mesmo suspeita de ser uma sequncia exgena quela a

    ser analisada. Para as anlises seguintes, o ideal excluir qualquer sequncia

    que esteja marcada, at mesmo quelas que somente so suspeitas de serem

    contaminantes. Aps a identificao e eliminao das sequncias que

    correspondem aos vetores de clonagem, o passo seguinte consiste em agrup-

  • 7/25/2019 BIOTECNOLOGIA_05

    14/51

    211Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    las quanto sua similaridade. Este procedimento conhecido como

    agrupamento de sequncias.

    6.6 Agrupamento de Sequncias

    O agrupamento de sequncias consiste na montagem de fragmentos

    pequenos de DNA, obtidos aps o sequenciamento, em segmentos maiores, os

    contguos (contigs). Este agrupamento pode ser realizado por diferentes

    softwares, como o PHRAP, o CAP3, o CONSED e o TIGR Assembler. Os

    softwares apresentam objetivos semelhantes. A partir de uma sequncia deDNA de alta qualidade, realiza-se a construo de um segmento contguo,

    apresentando ainda dados sobre a qualidade de suas sequncias. Alm disso,

    os programas tambm permitem a implementao de estratgias que aceitem

    que os usurios aumentem a qualidade da montagem.

    As perspectivas com a montagem das sequncias so a de obter um

    contguo genmico, no caso de projetos genomas. Quando as anlises se

    referem s sequncias de cDNA, espera-se obter um nico contguorepresentando os transcritos processados de cada gene expresso. Esta a

    mesma expectativa para outras sequncias, como as clonadas em vetores de

    expresso. Neste caso, geralmente cada fita de DNA sequenciada de 2 a 3

    vezes. Ao final, faz-se uma montagem do contguo, estratgia que permite at

    mesmo aumentar a qualidade da sequncia.

    A formao de contguos de cDNAs, utilizando o programa CAP3, est

    demonstrado nas Fig. 68. A abertura da pgina representa o acesso ao referidoprograma, o que est representado na Fig. A pgina inicial do programa

    fornece um quadro onde a sequncias a serem agrupadas devem ser

    depositadas.

  • 7/25/2019 BIOTECNOLOGIA_05

    15/51

    212Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 68: Pgina inicial do programa CAP3 para o agrupamento de sequncias.

    A figura mostra um quadro onde as sequncias a serem agrupadas so

    depositadas (representado por uma amostra aleatria, denominada A1). Para

    proceder s anlises seguintes, o usurio deve clicar sobre a tecla Submit.

    Um detalhe que todas as sequncias obtidas devem ser submetidas juntas,

    mesmo as referentes ao sequenciamento de fitas diferentes. Para isso, elas

    devem ser dispostas com o smbolo > seguido de nomes diferentes para cada

    sequncia, como representada na Fig. 69.

  • 7/25/2019 BIOTECNOLOGIA_05

    16/51

    213Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 69: Exemplo de como as sequncias a serem agrupadas devem ser

    submetidas ao programa CAP3.

    Cada uma deve ser iniciada pelo smbolo > seguidas por nomes

    diferentes. Aps submeter s sequncias para a anlise, uma pgina ser

    aberta com tpicos disposio da escolha do usurio. Neste caso, deve-se

    optar pela formao de contigs (Fig. 70).

    >A1

    GTACAAAAAAGTTGGGCGCCTCGCCCAAAAGAGTTTGGTTAATAACCTCGTGAGAGGATATGCGAAAGA

    TGTTAAGTTTGGTGCTGAGGGTAGGAAAGCAATGCTTGTTGGTGTCAACCTCCTAGCTGATGCTGTATC

    TGTAACAATGGGTCCAAAGGGTAGGAATGTCATCATTGAACAATCTTGGGGAAGTCCGAAAATTACCAA

    AGATGGAGTCACAGTGGCCAAAGCTATTGACTTGAAAGACAAGTATCACAACCTTGGAGCTAAACTTAT

    TCAGGATGTAGCAAATAAAGCCAATGAGGAAGCGGGAGATGGAACTACTTGCGCTACTGTTCTTGCTAG

    ATCTATTGCTAAAGAGGGATTCGATAATATTAGCAAGGGTGCAAATGCCGTTGAAATCAGACGTGGAGT

    CATGGCTGCTGTTGATATTATCGTGCAAGAGCTTAAAGGTCTCAGCAGGCAGGTTACTACTCCTGAAGA

    GATAGCTCAGGTTGCTACAATCTCTGCTAATGGTGATCAAACTATCGGAAATTTGATTTCCGAGGCAAT

    GAAGAAGGTGGGCAATAAAGGTGTTATCACGGTCAAGGATGGAAAAACTCTTACGGATGAACTAGAACT

    TATTGAGGGAATGATATTTGATCGCGGATATATTTCTCCATATTTTATACACACTTCTAAGGGAGC

    >A2

    GTACAAAAAAGTTGGGCGCCTCGCCCAAAAGAGTTTGGTTAATAACCTCGTGAGAGGATATGCGAAAGA

    TGTTAAGTTTGGTGCTGAGGGTAGGAAAGCAATGCTTGTTGGTGTCAACCTCCTAGCTGATGCTGTATC

    TGTAACAATGGGTCCAAAGGGTAGGAATGTCATCATTGAACAATCTTGGGGAAGTCCGAAAATTACCAA

    AGATGGAGTCACAGTGGCCAAAGCTATTGACTTGAAAGACAAGTATCACAACCTTGGAGCTAAACTTAT

    TCAGGATGTAGCAAATAAAGCCAATGAGGAAGCGGGAGATGGAACTACTTGCGCTACTGTTCTTGCTAG

    ATCTATTGCTAAAGAGGGATTCGATAATATTAGCAAGGGTGCAAATGCCGTTGAAATCAGACGTGGAGT

    CATGGCTGCTGTTGATATTATCGTGCAAGAGCTTAAAGGTCTCAGCAGGCAGGTTACTACTCCTGAAGA

    GATAGCTCAGGTTGCTACAATCTCTGCTAATGGTGATCAAACTATCGGAAATTTGATTTCCGAGGCAAT

    GAAGAAGGTGGGCAATAAAGGTGTTATCACGGTCAAGGATGGAAAAACTCTTACGGATGAACTAGAACT

    TATTGAGGGAATGATATTTGATCGCGGATATATTTCTCCATATTTTATACACACTTCTAAGGGAGC

  • 7/25/2019 BIOTECNOLOGIA_05

    17/51

    214Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 70: Opes de anlises das sries oferecidas pelo programa CAP3.

    Para o agrupamento de sequncias, o usurio deve clicar sobre

    Contigs, o que est representado em roxo na figura. O resultado ideal a

    apresentao de apenas uma nica srie, demonstrando que apenas um

    contguo se formou (Fig. 71). A presena de duas ou mais sequncias implica

    na ausncia de similaridade ou mesmo de uma sobreposio adequada para a

    formao de um contguo.

  • 7/25/2019 BIOTECNOLOGIA_05

    18/51

    215Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 71: Resultado do agrupamento de sequncias pelo programa CAP3.

    A figura representa o agrupamento de sequncias com a formao final

    de um nico contguo. Aps a obteno do contguo, o processamento seguinte

    consiste na anlise da representatividade da sequncia obtida. Este passo

    conhecido como anotao gnica.

    6.7 Anotao Gnica

    A anotao gnica a identificao da funo e do que cada srie

    obtida representa. Este processo frequentemente realizado em trs etapas,

    com a anlise de:

    I. Sequncias de nucleotdeos;

    II. Sequncias proteicas;

    III. Processos biolgicos.

  • 7/25/2019 BIOTECNOLOGIA_05

    19/51

    216Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    A primeira etapa de anotao gnica feita utilizando basicamente as

    ferramentas de bioinformtica. Diversos programas podem ser utilizados nesta

    fase, os quais ajudaro na identificao das sequncias obtidas. Para isso, as

    ferramentas de bioinformtica so utilizadas para predizer se h alguma

    relao com outras sequncias j depositadas em bancos de dados. As

    caractersticas similares permitem agrup-las quanto a sua natureza, como, por

    exemplo, se a sequncia representa uma regio gnica, um RNAt, um RNAr,

    uma regio no codificadora e repetitiva, ou mesmo se contm alguma

    homologia com outra sequncia j conhecida. Neste caso, esta busca de

    similaridades pode ser feita pelo BLAST.

    6.7.1 Blast

    O programa BLAST (Basic Local Alignment Search Tool) realiza um

    alinhamento local de sequncias, sendo comumente utilizado na anlise de

    similaridades. Ele representa um programa de busca projetado para explorar

    todas as bases de dados disponveis de sequncias de DNA ou de protenaspresentes em bancos de dados. A sua implementao mais conhecida

    aquela presente no NCBI National Center for Biotechnology e o da

    Universidade de Washington, conhecido como WU-BLAST.

    O Programa BLAST exposto pelo NCBI representa um conjunto de

    servios, os quais podem beneficiar os usurios de diversas maneiras. As

    opes aos pesquisadores variam de acordo com o tipo de sequncia inicial a

    ser analisada, se de nucleotdeos ou de aminocidos, se o banco de dadosutilizado na busca de nucleotdeos ou de aminocidos, se a pesquisa est

    restrita a um determinado micro-organismo. Alm de parmetros relacionados

    aos algoritmos de busca. Para melhor exposio das diversidades que o

    BLAST oferece para a busca de sequncias, este programa pode ser dividido

    em:

    I. blastp, o qual utilizado para comparar sequncias de

    aminocidos em bancos de dados de protenas;

  • 7/25/2019 BIOTECNOLOGIA_05

    20/51

    217Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    II. blastn, programa formulado para comparar sequncias de

    nucleotdeos em bancos de dados de DNA;

    III. blastx, para a comparao de uma sequncia de nucleotdeos,

    representadas em todas as fases de leitura (ORFs), com bancos de dados de

    protenas;

    IV. tblastn, utilizado nacomparao de sequncias de protenas com

    um banco de dados da srie de nucleotdeos representados em todas as

    ORFs;

    V. tblastx para comparar as ORFs de uma sequncia de

    nucleotdeos com as ORFs de todos os nucleotdeos depositados em umbanco de dados de nucleotdeos.

    A subdiviso do BLAST encontrada na pgina est demonstrada na

    Fig. 72.

    Figura 72: Subdiviso especializada do BLAST disponvel no NCBI.

    Os pesquisadores podem optar por uma das subdivises disponveis

    nesta pgina, de acordo com o tipo de sequncia inicial a ser analisada e com

    o banco de dados utilizado na busca.

  • 7/25/2019 BIOTECNOLOGIA_05

    21/51

    218Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    A anlise de sequncias pelo BLAST pode ser realizada de diversas

    maneiras. O primeiro ponto consiste em delimitar o espao da busca, como:

    a. O banco de dados a ser utilizado na busca;

    b. O organismo especfico.

    II. Para que uma determinada sequncia seja submetida busca

    de similaridades pelo BLAST, ela deve se apresentar sob

    determinados formatos especficos;

    III. Formato FASTA;

    IV. Por identificadores, que geralmente so cdigos para acessoaos bancos de dados mantidos pelo NCBI como o GenBank;

    V. Sequncias puras, que podem ou no ser intercaladas por

    caracteres brancos ou numricos.

    As buscas de BLAST sero exemplificadas aqui, nesta apostila, pelo

    BLASTn, pois um dos programas de alinhamento local mais utilizado pelos

    pesquisadores. Para iniciar as buscas de similaridade pelo BLASTn,

    inicialmente deve-se clicar sobre a opo de escolha (Fig.73).

    Figura 73: Opo pela utilizao do programa BLASTn.

    O usurio deve clicar sobre nucleotide blast, local apontado pela seta

  • 7/25/2019 BIOTECNOLOGIA_05

    22/51

    219Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    vermelha na figura. A opo, que no caso especfico foi a anlise de

    nucleotdeos pelo alinhamento do mesmo tipo de sequncia depositada no

    banco de dados, abre a pgina demonstrada na Fig. 74. Esta pgina inclui

    alguns tpicos que permitem que a pesquisa seja refinada em uma direo

    especfica.

    Figura 74: Pgina de acesso ao programa BLASTn.

    O passo seguinte consiste em depositar a sequncia a ser analisada

    no quadro indicado pela seta vermelha (Fig. 75).

  • 7/25/2019 BIOTECNOLOGIA_05

    23/51

    220Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 75: Quadro demonstrativo de submisso de uma sequncia pelo BLASTn.

    A sequncia de nucleotdeos a ser analisada deve ser depositada no

    local apontado pela seta vermelha. Dentro da pgina inicial do BLASTn sooferecidas diferentes opes que permitem ao pesquisador refinar a sua

    pesquisa. Inicialmente, pode-se delimitar contra quais organismos se deseja

    submeter amostra para a busca de similaridades. A escolha pode limitar a

    busca no banco de dados de humanos, de camundongos e de outras

    sequncias (Fig. 76).

    Figura 76: Delimitao de organismos que devem ser utilizados na busca de

    similaridades contra a sequncia de interesse.

  • 7/25/2019 BIOTECNOLOGIA_05

    24/51

    221Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    O mesmo quadro representado na Fig. ainda oferece a oportunidade

    de limitar ainda mais a pesquisa dentro das trs opes de organismos, como

    exemplificado na Fig. 77.

    Figura 77: Refinamento da pesquisa dentro das opes de organismos a serem

    utilizados no BLASTn.

    No caso da Fig., onde no h uma especificao do organismo a ser

    pesquisado, podem-se utilizar as iniciais do nome cientfico do organismo, ou

    mesmo de seu txon. Aps esta incluso, alguns nomes de organismos

    aparecero, o que pode ser utilizado na busca (Fig. 78).

  • 7/25/2019 BIOTECNOLOGIA_05

    25/51

    222Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 78: Refinamento da pesquisa quando no h um organismo especfico a ser

    utilizado na pesquisa.

    Quando o pesquisador opta por outros organismos (others) a serem

    utilizados na busca de similaridades, a inscrio das iniciais de um organismo

    de interesse permite o direcionamento da busca. O BLASTn ainda oferece a

    opo de a pesquisa abranger diferentes cenrios, de acordo com o grau de

    identidade que o pesquisador deseja incluir na busca. A escolha feita optandopelo megablast, pelo megablast descontnuo ou pelo BLASTn, simplesmente

    (Fig. 79).

    Figura 79: Opo de busca pelo BLASTn de acordo com o grau de identidade entre

    as sequncias utilizadas na busca.

    Dentro desta escolha, o BLAST oferece como opo o megablast, o

  • 7/25/2019 BIOTECNOLOGIA_05

    26/51

    223Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    megablast descontnuo e o BLASTn. Para maiores detalhes sobre estas

    opes, vide o texto. O megablast realizado a partir do alinhamento com

    sequncias que tenham uma relao filogentica muito prxima. Seus

    resultados so mais significativos quando o grau de identidade entre as

    sequncias superior a 95%. O megablastdescontnuo utiliza um alinhamento

    que desconsidera algumas bases no pareadas. mais utilizado quando se

    deseja comparar espcies cruzadas. O BLASTn a opo que permite um

    alinhamento mais amplo, onde o grau de identidade entre os nucleotdeos no

    muito alto.

    O BLASTn oferece todas as opes acima expostas como forma derefinar a pesquisa. Apesar disso, algumas so opcionais. Depois de ter feito as

    opes, o pesquisador ento deve iniciar a sua pesquisa de alinhamento

    global. Para isso, deve-se apertar o boto BLAST (Fig. 80) que se encontra

    ao final da pgina.

    Figura 80: Comando para iniciar a busca pelo programa BLASTn.

    Os resultados obtidos a partir de buscas no BLASTn so representados

    em formas grficas, como demonstrado na Fig. 81. A Fig. 81A mostra

    graficamente o grau de similaridade, em cores, de toda a sequncia de

    nucleotdeos. A Fig. 81B apresenta uma tabela de dados, onde sequncias

    similares so representadas pelo seu nmero de acesso ao GenBank, por uma

    breve descrio do que ela , e pelo e-value. Este valor mais significativo

    quanto menor ele for.

  • 7/25/2019 BIOTECNOLOGIA_05

    27/51

    224Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 81: Resultados grficos do BLASTn. (Fonte:Coelho, 2007).

    O BLASTn ainda apresenta os resultados dos alinhamentos,

    fornecendo o escore, o grau de identidade e os buracos (gaps) entre as

    sequncias alinhadas. O segmento em anlise e a sua similaridade a outras

    depositadas no banco de dados apresentada pelo BLASTn, de nucleotdeo a

    nucleotdeo (Fig. 82).

  • 7/25/2019 BIOTECNOLOGIA_05

    28/51

    225Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 82: Resultado do alinhamento entre a sequncia de interesse e outra do

    banco de dados pelo BLASTn.

    As duas sequncias so representadas pelo alinhamento entre cada

    nucleotdeo. Os que so idnticos so representados por barras verticais; os

    buracos (gaps), por traos (-). Os locais que contm nucleotdeos distintos

    so apresentados um abaixo do outro, sem qualquer representao grfica. A

    sequncia de nucleotdeos ainda utilizada na busca de outros elementos que

    facilitem a caracterizao da sequncia.

    No caso de projetos genoma, um dos principais objetivos da primeira

    etapa de anotao gnica consiste em montar as regies intergnicas e as no

    codificadoras em um mapa do organismo. Alguns programas ainda so teis na

    predio de regies gnicas, com a identificao de cdons de incio e de

    terminao, alm de possveis ORFs. Outros podem at mesmo relacionar

    regies de exons e de introns. Esta ltima abordagem no utilizada para

    bibliotecas de cDNA, pois estas j constituem sequncias gnicas.

    A segunda etapa da anotao gnica consiste na identificao das

  • 7/25/2019 BIOTECNOLOGIA_05

    29/51

    226Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    protenas codificadas pelas sequncias codificadoras. Nesta fase, o principal

    objetivo a caracterizao de protenas correspondentes sequncia de DNA,

    no caso do projeto genoma, e dos RNAm expressos sob determinadas

    condies, para projetos de transcriptoma. Este perodo tem por objetivo

    correlacionar um gene com uma determinada funo, incluindo a anlise da

    estrutura proteica (que ser abordada em detalhes mais adiante). Para uma

    anlise inicial da funo de uma determinada sequncia, o usurio pode utilizar

    o programa BLASTx.

    Os passos iniciais para utilizar o programa BLASTx so os mesmos

    daqueles feitos para o BLASTn. Inicialmente, clica-se na opo BLASTx, o queabrir a pgina inicial representada na Fig. 83.

    Figura 83: Pgina do NCBI que permite selecionar a opo do programa BLASTx.

    Esta opo abre a pgina inicial referente ao programa BLASTx (Fig.

    84).

  • 7/25/2019 BIOTECNOLOGIA_05

    30/51

    227Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 84: Pgina inicial do programa BLASTx.

    Na pgina mostrada na Fig. 84, o usurio deve depositar a sequncia

    de nucleotdeo a ser analisada (Fig. 85-1). Nesta mesma pgina, pode-se optar

    pelo cdigo gentico a ser utilizado na pesquisa (Fig. 85-2).

  • 7/25/2019 BIOTECNOLOGIA_05

    31/51

    228Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 85: Procedimentos iniciais para a anlise da seqncia nucleotdica pelo

    programa BLASTx.

    (1) Local onde a sequncia de interesse deve ser depositada; (2) seleo do cdigo

    gentico referente ao organismo de anlise.

    O BLASTx ainda permite selecionar o tipo de sequncia depositada no

    banco de dados contra a qual a srie de interesse deve ser alinhada. As

    sequncias no banco de dados esto organizadas pelo seu contedo

    informacional ou mesmo pela tcnica de sequenciamento adotada (Fig.). O

    ltimo passo clicar no Blast, assim como feito para o BLASTn, permitindo o

    alinhamento das sries.

    Figura 86: Refinamento do alinhamento pelo BLASTx de acordo com o tipo de sequncias

    depositadas no banco de dados.

    1

    2

    11

    22

  • 7/25/2019 BIOTECNOLOGIA_05

    32/51

    229Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Os resultados do BLASTx so apresentados sob uma forma grfica

    (Fig. 87) e de alinhamentos (Fig. 88), assim como o BLASTn. Contudo, valeressaltar que os resultados se referem ao alinhamento entre aminocidos e no

    de nucleotdeos.

    Figura 87: Resultado grfico do alinhamento pelo programa BLASTx.

    A mesma sequncia de nucleotdeos utilizada para a anlise do BLASTn foi utilizada

    para o BLASTx. (Fonte: Coelho, 2007).

  • 7/25/2019 BIOTECNOLOGIA_05

    33/51

    230Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 88: Resultado do alinhamento entre as sequncias de aminocidos pelo

    programa BLASTx.

    Assim como para o BLASTn, o resultado do alinhamento apresenta o

    escore, o grau de identidade e os gaps (representados por - ). Alm disso, o

    BLASTx acrescenta no resultado os alinhamentos positivos, os quais

    representam a troca de aminocidos que pertencem ao mesmo grupo

    bioqumico. As trocas por aminocidos de grupos distintos so representadas

    por espaos vazios no alinhamento.

    O BLASTx, assim como o BLASTn, realiza uma anlise de similaridade

    entre a sequncia de nucleotdeos, correlacionando-a com a sua de

    aminocidos entre outras j existentes no banco de dados. Apesar de a anlise

    pelo BLASTn gerar uma ideia da funo daquela sequncia especfica, a

    predio de funcionalidade pela sequncia de aminocido mais significativa.

  • 7/25/2019 BIOTECNOLOGIA_05

    34/51

    231Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Isto se deve prpria caracterstica do cdigo gentico. Este, como descrito no

    Mdulo I, degenerado, o que permite que resultados mais diversificados da

    anlise de similaridade sejam obtidos. Por outro lado, assim como exposto nos

    mdulos anteriores, a sequncia de aminocidos de uma protena geralmente

    mantida durante o processo evolutivo, o que tambm um efeito da

    degenerao do cdigo.

    Assim, a possibilidade de alteraes de sua estrutura por mutaes

    que gerem um produto no funcional protegida. Isto pode ser visualizado ao

    comparar os resultados grficos obtidos nas duas anlises, j que a mesma

    sequncia foi utilizada em ambas. O que geralmente se observa nas anlisesde BLASTx que os resultados de similaridade mais significativos so aqueles

    entre organismos que pertencem mesma famlia e gneros. Isto se deve

    relao entre organismos homlogos e que apresentam uma relao

    filogentica mais prxima. Por isso, estes organismos so bastante

    semelhantes.

    A terceira e ltima etapa da anotao gnica consiste na correlao

    dos dados genmicos com os processos biolgicos. Isto permite estabelecerum mapa funcional do organismo como, por exemplo, as vias bioqumicas. Esta

    a etapa fundamental de projetos como o genoma e o transcriptoma,

    correlacionando o metabolismo de um organismo com o seu desenvolvimento e

    condies de adaptao a um determinado ambiente. Para isso, h a

    necessidade de profissionais especialistas e interdisciplinares. Alm disso, esta

    predio deve ser confirmada posteriormente por experimentos que

    comprovem a sua funo biolgica.A grande revoluo dos projetos genoma, que permitiram o

    sequenciamento dos mais diversos micro-organismos, representa apenas o

    ponto inicial da caminhada sua aplicao. A era ps-genmica tem por

    finalidade estudar a expresso de genes codificados pelo genoma dos

    diferentes micro-organismos, correlacionando-os com a sua funo e

    adaptao s determinadas condies nas clulas e tecidos. Este

    conhecimento permitir uma maior aplicao sociedade, como a

  • 7/25/2019 BIOTECNOLOGIA_05

    35/51

    232Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    caracterizao de possveis alvos para uma terapia mais eficaz e mais segura.

    Para estas anlises, a bioinformtica disponibiliza ferramentas que permitem

    predizer a estrutura e a funo de protenas.

    6.8 A Bioinformtica e a Anlise da Estrutura Proteica

    Outra abordagem da bioinformtica, alm dos projetos genoma e

    transcriptoma, incluem o proteoma. Para este tipo de projeto, programas

    computacionais fornecem subsdios para a predio de determinadas

    estruturas proteicas, como:I. A estrutura primria;

    II. A estrutura secundria;

    III. A modelagem molecular.

    Estas predies utilizam as informaes contidas em bancos de dados,

    de forma a comparar a similaridade entre as sequncias e, portanto, predizer

    uma determinada funo.

    6.8.1 Anlise da Estrutura Primria de Protenas

    A anlise da estrutura primria de protenas consiste no estudo da

    sequncia de aminocidos traduzida a partir de um RNAm. As anlises da

    estrutura primria podem ser abordadas de diversas maneiras e utilizadas em

    vrios propsitos, como:I. A anlise das caractersticas fsico-qumicas;

    II. Comparao entre as sequncias homlogas;

    III. A busca por sinais;

    IV. Anlise imunolgica (que ser tratado como um tpico a parte).

    Vrios programas podem ser utilizados com este objetivo. Para tanto,

    um conjunto de ferramentas de bioinformtica disponveis on-line est presente

  • 7/25/2019 BIOTECNOLOGIA_05

    36/51

    233Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    no NCBI e no portal Expasy (Fig. 89).

    Figura 89: Ferramentas para a anlise de protenas apresentadas no portal Expasy.

    As anlises das caractersticas fsico-qumicas de uma protena a partir

    da sua sequncia de aminocidos podem ser feitas por diversos programas.

    Entre eles, um muito utilizado e disponvel no portal Expasy o Compute PI

    Mw tool (Fig. 90). Ele informar o peso molecular e o ponto isoeltrico da

    protena.

  • 7/25/2019 BIOTECNOLOGIA_05

    37/51

    234Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 90: Pgina de acesso ao programa pI Mw tool.

    Outros programas similares ao pI Mw tool tambm so muito

    utilizados, como o Protparam. Este fornece os mesmos dados do outro

    programa, porm com informaes adicionais (Fig. 91)

  • 7/25/2019 BIOTECNOLOGIA_05

    38/51

    235Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 91: Resultado da anlise de caractersticas fsico-qumicas com o programa Protparam.

    A figura demonstra que, alm do peso molecular e do ponto isoeltrico,

    este programa fornece dados extras como a composio atmica e de

    aminocidos da protena. Alm disso, ele ainda prediz a meia-vida da protena

  • 7/25/2019 BIOTECNOLOGIA_05

    39/51

    236Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    aps a expresso em clulas de mamferos de leveduras e em E. coli e o

    coeficiente que estima a estabilidade da protena (dados no demonstrados). A

    anlise molecular permitiu aprofundar ainda mais as comparaes entre as

    sequencias de diferentes organismos. Observou-se que quanto mais prximo

    os organismos esto na escala evolutiva, maior a similaridade em nvel de

    nucleotdeos e de aminocidos. Estas so a base de uma cincia, a genmica

    comparativa.

    As observaes feitas pela genmica comparativa so utilizadas em

    estudos da estrutura primria da protena. Um dos pontos iniciais a realizao

    de um alinhamento entre as sequncias de aminocidos. Isto pode serrealizado facilmente pelo ClustalW, programa disponvel no portal do Expasy.

    Para isso, as sequncias devem ser depositadas na pgina inicial deste

    programa (Fig.), assim como demonstrado na Fig. 92.

    Figura 92: Pgina do programa ClustalW.

  • 7/25/2019 BIOTECNOLOGIA_05

    40/51

    237Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Ao final da figura est representado o quadro onde as sries a serem

    alinhadas devem ser depositadas. Os resultados obtidos no ClustalW (Fig. 93)

    demonstram os aminocidos que so idnticos entre as sequncias e os que

    sofreram algumas alteraes. As alteraes podem ser de uma modificao

    para um aminocido do mesmo grupo ou mesmo de grupos diferentes. Isto

    influencia na caracterstica da protena como um todo, pois a troca por

    aminocidos semelhantes geralmente no induz uma mudana conformacional

    da protena, diminuindo as chances de alterao de funo.

    Figura 93: Alinhamento de sequncias homlogas pelo ClustalW.

    (*) significa identidade; (:) representa aminocidos semelhantes em tamanho e carga;

    (.), aminocidos semelhantes em tamanho ou carga. (Fonte: Coelho, 2007).

  • 7/25/2019 BIOTECNOLOGIA_05

    41/51

    238Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    A importncia da comparao entre sequncias homlogas permitiu

    desvendar a funo de muitas protenas. Comparando-se organismos

    semelhantes, geralmente se observa que a grande similaridade implica em

    funes at mesmo idnticas. Neste sentido, estudos com micro-organismos

    patognicos, por exemplo, demonstraram que a similaridade no se restringe

    estrutura, mais aos mecanismos de patogenia e de infeco so muito

    semelhantes. Esta conservao um dos fenmenos evolutivos que

    conservaram caractersticas vantajosas aos organismos.

    A estrutura primria ainda fornece detalhes teis na predio da

    localizao celular da protena. A bioinformtica oferece subsdios para aanlise da presena de peptdeos sinais e de ancoramento. Estes so

    necessrios para a maquinaria celular reconhecer o correto endereamento de

    cada protena em especfico, como a sua secreo ao meio ou o ancoramento

    membrana celular, respectivamente. Dentre os programas disponveis para

    alcanar este objetivo esto o PSORT e TargetP, ambos disponveis no portal

    do Expasy.

    A estrutura primria fornece aspetos de conhecimento fundamentalpara a funo de uma protena. Contudo, a ao biolgica das protenas

    extremamente dependente da sua estrutura terciria. Portanto, os diferentes

    graus de conformao encontrados nas protenas tambm so objetos de

    estudos, como a estrutura secundria.

    6.8.2 Anlise da Estrutura Secundria

    A estrutura secundria da protena correlaciona as reas da sequncia

    de aminocidos com a possvel existncia de formao de folhas alfa, betas e

    loops. H diferentes programas disponveis para a anlise da estrutura

    secundria, como o programa Gor disponvel no portal Expasy. Ao abrir a

    pgina citada, apresentada a pgina de acesso inicial ao programa (Fig. 94).

  • 7/25/2019 BIOTECNOLOGIA_05

    42/51

    239Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 94: Pgina de acesso ao programa Gorde anlise da estrutura secundria de

    protenas.

    A pgina de acesso ao programa Gor apresenta um quadro onde a

    sequncia de aminocidos a ser analisada deve ser depositada. Para submet-

    la pesquisa, o usurio deve clicar em Submit. O resultado apresentado

    sob uma forma grfica, sendo que as porcentagens correspondentes a cada

    formao em particular, como folhas alfas presentes em toda a estrutura

    estudada, tambm esto disponveis (Fig. 95).

  • 7/25/2019 BIOTECNOLOGIA_05

    43/51

    240Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 95: Resultados grficos e em porcentagem da estrutura secundria fornecidos

    pelo programa Gor.

    Alm da estrutura secundria, a bioinformtica ainda permite realizar a

    modelagem molecular da estrutura proteica. Esta funo um mtodo

    alternativo, que permite prever as conformaes que a sequncia de

    aminocidos assume a partir dos conhecimentos de estereoqumica dos

    aminocidos e de estruturas tercirias j resolvidas.

  • 7/25/2019 BIOTECNOLOGIA_05

    44/51

    241Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    6.8.3 Modelagem Molecular

    A modelagem molecular pode ser feita com o auxlio de diferentes

    programas. A metodologia adotada nestes programas o uso de uma ou mais

    referncias a partir da estrutura terciria de protenas homlogas j

    conhecidas. Esta abordagem conhecida como modelagem por homologia ou

    modelagem comparativa, sendo a que apresenta, atualmente, os melhores

    resultados.

    O primeiro passo da modelagem comparativa a pesquisa deprotenas homlogas em bancos de dados de estrutura terciria de protenas.

    Com esta finalidade, o programa mais utilizado o PDB (Protein Database

    Bank). Em seguida, realiza-se o alinhamento entre as sequncias primrias da

    protena de interesse e de outras homlogas correspondentes.

    A modelagem propriamente dita realizada por programas como o

    MOdeller, SWISS-Model e o 3D-PSSM. Estes procuram as estruturas tercirias

    que permitam a melhor disposio dos tomos da protena utilizada comomodelo, de forma que atenda s restries estereoqumicas. Esta estrutura

    inicial ento verificada por outros softwares quanto s restries

    estereoqumicas, como o Procheck.

    A modelagem por homologia um processo que exige um ajuste de

    parmetros e a verificao dos resultados. Normalmente, so necessrias

    vrias repeties at que a estrutura terciria mais adequada seja obtida.

    Apesar disso, deve-se lembrar que este processo no perfeito. Mesmo que aestrutura final obtida se apresente de maneira em que todos os parmetros

    tenham sido dispostos de maneira adequada, no h garantias de que esteja

    correta.

    Uma estrutura bastante prxima da que a protena assume in vivopode

    ser utilizada para desenvolver outros modelos que auxiliem o pesquisador.

    Entretanto, mesmo sendo muito semelhante da estrutura real, pode ocorrer que

    os resultados gerados a partir da especulao no sejam aplicveis in vivo.

  • 7/25/2019 BIOTECNOLOGIA_05

    45/51

    242Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Outro programa mais recente de modelagem de protenas o Threading. Este

    se baseia na comparao da protena de interesse com modelos descritivos

    dos enovelamentos de protenas homlogas. Para isso, utilizada como

    parmetro a distncia entre os resduos de aminocidos, a estrutura secundria

    de cada fragmento e as caractersticas fsico-qumicas de cada resduo. Esta

    tcnica tem gerado resultados satisfatrios.

    Um interesse dos usurios deste tipo de ferramenta de bioinformtica

    a predio da estrutura terciria a partir da sequncia primria da prpria

    protena. J est disponvel este tipo de programa, que se baseia somente na

    informao da srie de aminocidos e considera as interaes fsico-qumicasentre a cadeia e com o meio. Entretanto, este tipo de programa no tem

    apresentado resultados satisfatrios. Porm, devido ao interesse dos

    pesquisadores neste campo, novos investimentos tm sido realizados na rea.

    A informao gerada pela modelagem molecular extremamente

    valiosa, pois permite identificar stios catalticos envolvidos com a funo

    proteica. Alm disso, podem-se guiar pesquisas direcionadas que permitam a

    caracterizao de inibidores, ativadores, entre outros, tendo em vista aproduo de frmacos mais eficientes e especficos.

    A modelagem molecular de protenas por ferramentas de bioinformtica

    uma estratgia cuja implantao recente e tem sido muito til aos

    pesquisadores para gerar hipteses. Contudo, a sua eficincia no

    totalmente comprovada, sendo necessrias pesquisas biolgicas que

    comprovem o que foi predito pela informtica. Isto feito por meio de tcnicas

    de realizaes complexas, como a difrao de raios-X.Estas, alm de serem de difcil manipulao, representam um alto

    custo, exigindo equipamentos especficos e caros. Alm disso, a dificuldade da

    tcnica ainda aumentada por algumas questes biolgicas. O estudo da

    estrutura terciria pelas tcnicas biolgicas exige uma grande quantidade de

    material purificado, procedimento que nem sempre facilmente executado para

    determinadas protenas.

    O estudo sobre a estrutura de protenas por ferramentas de

  • 7/25/2019 BIOTECNOLOGIA_05

    46/51

    243Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    bioinformtica uma rea em expanso. Sua utilidade tem sido aplicada na

    rea de Imunologia para o desenvolvimento de vacinas, o que se deve

    capacidade dos programas computacionais em mapear epitopos.

    6.9 Mapeamento de Epitopos

    O mapeamento de epitopos a partir de programas de bioinformtica

    tem sido testado quanto ao seu potencial no desenvolvimento de novas

    vacinas. A justificativa desta metodologia consiste em inserir na composio

    vacinal somente as sequncias que sero realmente reconhecidas pelasclulas do sistema imunolgico. Um dos programas gratuitos mais utilizados

    para o mapeamento de epitopos o SYFPEITHI, o qual est disponvel no

    portal Expasy (Fig. 96). Ele capaz de predizer epitopos de clulas T.

    Figura 96: Pgina do programa SYFPEITHI de mapeamento de epitopos.

    O programa til para predizer os epitopos de clulas T que se ligam

    tanto ao complexo de histocompatibilidade (MHC) I e II. O resultado da anlise

    da sequncia apresentado como um conjunto de epitopos potenciais que

    podem se ligar aos MHC de escolha (Fig. 97). A probabilidade disto acontecer

  • 7/25/2019 BIOTECNOLOGIA_05

    47/51

    244Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    apresentado por um escore.

    Figura 97: Mapeamento de epitopos obtidos pelo programa SYFPEITHI.

    Alm de estudos sobre a estrutura de protenas, a bioinformtica ainda

    possui outras aplicaes para a biotecnologia. Uma delas o auxlio em

    estudos das relaes filogenticas entre os diferentes organismos.

    6.10 Mtodos em Filogenia Molecular

    A bioinformtica uma ferramenta muito utilizada no estabelecimento

    de relaes evolutivas entre os organismos. Estas podem ser formadas a partir

    de sequncias de DNA ou mesmo de protenas, reconstituindo as relaes de

    parentesco entre as espcies, o que chamado de sistemtica molecular. A

    reconstituio ainda pode ser instituda utilizando-se uma escala temporal.

  • 7/25/2019 BIOTECNOLOGIA_05

    48/51

    245Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Neste caso, o processo denominado de filogenia molecular.

    As relaes de parentesco so apresentadas sob uma forma grfica,

    que denominada rvore filogentica. Estes grficos possuem as mais

    diversas aplicaes que facilitam o entendimento das histrias evolutivas, como

    o estudo de relaes de parentesco ou at mesmo a origem e a histria

    epidemiolgica de organismos patognicos a partir de dados do genoma. Esta

    apresentao dos dados muito utilizada em trabalhos da rea biolgica, o

    que reflete o seu reconhecimento como uma maneira legtima de apresentar os

    dados biolgicos dentro de uma escala evolutiva.

    O primeiro passo para a construo da histria evolutiva consiste naescolha de um marcador filogentico. Para isto, deve-se optar por uma

    sequncia de DNA ou de protenas homlogas, ou seja, que oferecem uma

    ancestralidade comum. Esta escolha est diretamente relacionada com a

    confiabilidade da rvore gentica gerada, pois este marcador, que apresenta

    uma origem comum, garante que os organismos em anlise apresentam um

    ancestral compartilhado.

    A simples escolha de sequncias por similaridade, sem que mostremhomologias, um erro que diminui a confiabilidade dos dados gerados. Isto se

    deve incluso de sequncias que apresentam histrias evolutivas diferentes.

    Uma maneira de aumentar a confiabilidade a incluso de sequncias de

    grupos externos, cujas histrias evolutivas sejam conhecidas. Isto representar

    os parmetros controles para verificar a preciso da construo obtida.

    Aps a seleo da srie a ser utilizada como marcador e da incluso

    de sequncias controle, o prximo passo o alinhamento mltiplo dassequncias. Diversos programas podem ser utilizados com esta finalidade,

    sendo que um dos mais utilizados com este propsito o Mega 4.0. Contudo,

    programas mais simples tambm podem realizar esta tarefa, como o BLAST

    (Fig. 98) e o ClustaW. As inferncias das relaes filogenticas podem ento

    ser feitas a partir da construo das rvores filogenticas.

  • 7/25/2019 BIOTECNOLOGIA_05

    49/51

    246Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    Figura 98: Representao de uma rvore filogentica obtida com o auxlio do

    programa BLASTn.

    ------------------FIM DO MDULO V-------------------

  • 7/25/2019 BIOTECNOLOGIA_05

    50/51

    247Este material deve ser utilizado apenas como parmetro de estudo deste Programa. Os crditos deste contedo so dados aos seus respectivos autores.

    REFERNCIAS BIBLIOGRFICAS

    COELHO, K. S. Isolamento, clonagem e caracterizao molecular do gene

    hsp60 de Corynebacterium pseudotuberculosis e sua utilizao na

    construo de uma vacina de DNA e de subunidade proteica. Dissertao

    (Mestrado em Gentica). Universidade Federal de Minas Gerais, 2007.

    GLICK, B. R. & PASTERNAK, J. J. Molecular Biotecnology: Principles &

    Appl ications o f Recombinant DNA. [S.I.]: ASM Press, 1994.

    GRIFFITHS, A. J. F.; MILLER, J. H.; SUZUKI, D. T.; LEWONTIN, R. C.;

    GELBART, W. M. Introduo gentica. 7. ed. So Paulo: Guanabara

    Koogan, 2002.

    LEWIS, B. Genes VIII. [S.I.]: Pearson Prentice Hall, 2004.

    PROSDOCIMI et al. Bioinformtica: Manual do usurio. Biotecnologia,

    Cincia e Desenvolvimento. n. 29. p 12-25.

    LOODISH, H.; BERCK, A.; ZIPURSKY, S. L. et al. Molecular Cell Bio logy. 4.

    ed. [S.I.]: Media Connected, 1999.

    YIN, J.; LI, G.; REN, X.; HERRLER, G. Select what you need:A comparat ive

    evaluation of the advantages and limitations of frequently used

    expression systems for foreign genes. Journal of Biotechnology. v. 127, p

    335-347, 2007.

    -------------------FIM DO CURSO!---------------------

  • 7/25/2019 BIOTECNOLOGIA_05

    51/51