uma introdução à bioinformática através da análise de algumas ferramentas de software livre

Download Uma introdução à Bioinformática através da análise de algumas ferramentas de software livre

If you can't read please download the document

Upload: arl-ufla

Post on 07-Mar-2016

229 views

Category:

Documents


4 download

DESCRIPTION

Uma introdução à Bioinformática através da análise de algumas ferramentas de software livre ou de código aberto utilizadas para o estudo de alinhamento de seqüências Monografias do Curso de Pos-graduacao em Administracao de Redes Linux - ARL - Ufla

TRANSCRIPT

  • Eduardo Campos dos Santos

    Uma introduo Bioinformtica atravs da anlise de algumas ferramentasde software livre ou de cdigo aberto utilizadas para o estudo de alinhamento

    de seqncias

    Monograa apresentada ao Departamento deCincia da Computao da Universidade Federal deLavras e FAEPE como requisito para obteno dottulo de Especialista em Administrao em RedesLinux

    OrientadorProf. MSc. Joaquim Quinteiro Ucha

    LavrasMinas Gerais - Brasil

    2004

  • Eduardo Campos dos Santos

    Uma introduo Bioinformtica atravs da anlise de algumas ferramentasde software livre ou de cdigo aberto utilizadas para o estudo de alinhamento

    de seqncias

    Monograa apresentada ao Departamento deCincia da Computao da Universidade Federal deLavras e FAEPE como requisito para obteno dottulo de Especialista em Administrao em RedesLinux

    Aprovada em 18 de setembro de 2004

    Prof. MSc Fernando Cortez Sica

    Prof. DSc Jos Monserrat Neto

    Prof. MSc. Joaquim Quinteiro Ucha(Orientador)

    LavrasMinas Gerais - Brasil

  • Sumrio

    1 Introduo 1

    2 Fundamentos de Biologia Celular e Biologia Molecular 32.1 DNA e RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 Genes, DNA genmico, cDNA, cromossomos e genoma . . . . . 42.3 Protenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.4 O cdigo gentico . . . . . . . . . . . . . . . . . . . . . . . . . . 92.5 O eyeless e a aniridia . . . . . . . . . . . . . . . . . . . . . . . . 112.6 Alinhamento de seqncias, similaridade, identidade e homologia 12

    3 Bancos de dados biolgicos pblicos 17

    4 BLAST - Basic Local Alignment Tool 27

    5 ClustalW e ClustalX 375.1 Obtendo e instalando o ClustalW e o ClustalX . . . . . . . . . . . 385.2 Sobre a licena do ClustalW/ClustalX . . . . . . . . . . . . . . . 405.3 Alinhamento Mltiplo no ClustalW . . . . . . . . . . . . . . . . 42

    6 O TEXshade 536.1 Requisitos para o sistema . . . . . . . . . . . . . . . . . . . . . . 586.2 Obtendo e instalando o TEXshade . . . . . . . . . . . . . . . . . . 586.3 Analisando os arquivos do pacote . . . . . . . . . . . . . . . . . 596.4 Gerando o arquivo de documentao . . . . . . . . . . . . . . . . 606.5 Tipos de arquivos reconhecidos pelo TEXshade . . . . . . . . . . 626.6 Utilizando o TEXshade . . . . . . . . . . . . . . . . . . . . . . . 64

    7 Concluso 69

    v

  • vi

  • Lista de Figuras

    2.1 Exemplos de trechos de seqncias de DNA e protena . . . . . . 92.2 Um alinhamento hipottico . . . . . . . . . . . . . . . . . . . . . 13

    3.1 Consulta por Drosophila eyeless aniridia no Entrez . . . . . . . 193.2 Mapa genmico da Drosla no MapViewer do NCBI . . . . . . . 203.3 Informaes sobre o gene ey . . . . . . . . . . . . . . . . . . . . 213.4 Resduos aceitos pelo NCBI: nucleotdeos em formato FASTA. . . 223.5 Resduos aceitos pelo NCBI: aminocidos em formato FASTA. . . 233.6 Seqncia do gene ey da drosla no formato FASTA. . . . . . . 233.7 Seqncia do gene ey da drosla no formato GenBank. . . . . . 243.8 Seqncia do gene ey da drosla no formato GenBank - Parte2 . 25

    4.1 NCBI: Comparando o eyeless com o aniridia no BLAST. . . . . . 294.2 Swiss-Prot: Comparando o eyeless com o aniridia no BLAST. . . 304.3 Resultado da comparao entre o gene eyeless com o gene aniridia. 314.4 Resultado da comparao entre o gene eyeless com o gene aniridia. 324.5 Contedo do arquivo ncbi.tar.gz descompactado. . . . . . . . . . 334.6 Contedo do sub-diretrio network. . . . . . . . . . . . . . . . . 334.7 Contedo do sub-diretrio network/wwwblast. . . . . . . . . . . . 34

    5.1 O alinhamento de cinco protenas no ClustalW. . . . . . . . . . . 385.2 O alinhamento de protenas no ClustalX . . . . . . . . . . . . . . 395.3 Instalao dos programas ClustalX/ClustalW e dependncias. . . . 405.4 Licena do ClustalW no pacote distribudo pela Debian - parte 1. . 405.5 Licena do ClustalW no pacote distribudo pela Debian - parte 2. . 415.6 Licena do ClustalW no pacote distribudo pela Debian - parte 3. . 425.7 Exemplo de arquivo de entrada para o ClustalW. . . . . . . . . . . 44

    6.1 TEXshade - Exemplo com modo: identical. . . . . . . . . . . . . . 556.2 TEXshade - modo identical e parmetro allmatchspecial . . . . . . 56

    vii

  • 6.3 TEXshade - modo functional e o tipo hydropathy . . . . . . . . . . 576.4 TEXshade - modo similar : allmatchspecial : hydropathy . . . . . 586.5 Incio do arquivo de exemplo AQPDNA.MSF . . . . . . . . . . . . 626.6 Exemplo de um arquivo MSF com seqncias comentadas. . . . . 636.7 Incio do arquivo de exemplo AQP2spec.ALN . . . . . . . . . . . 646.8 Exemplo de um arquivo mnimo a ser usado com o TEXshade. . . 656.9 Cdigo que gerou o resultado exibido na Figura 6.3. . . . . . . . . 666.10 Cdigo que gerou o resultado exibido na Figura 6.4. . . . . . . . . 66

    viii

  • Lista de Tabelas

    2.1 Nucleotdeos e aminocidos naturais . . . . . . . . . . . . . . . . 72.2 Abreviatura dos aminocidos naturais . . . . . . . . . . . . . . . 82.3 Cdigo gentico . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    5.1 Formatos de entrada e seus caracteres iniciais . . . . . . . . . . . 44

    6.1 Arquivos gerados ao executar o arquivo texshade.ins . . . . . . . 60

    ix

  • x

  • A todos aqueles que, de alguma forma, trabalham pelo bem social e pelaliberdade na transmisso do conhecimento.

    xi

  • xii

  • Agradecimentos

    Aos meus pais, Marcos e Nely, pela formao e educao que mepropiciaram. minha amada esposa, Rejanni. Que suportou meus momentos denervosismo e ambivalncia e apoiou-me nos momentos de angstiana minha rdua jornada at chegar concluso deste trabalho.Ao Sr. Hugo Camargo Pdua: patro, amigo e patrocinador. A con-cluso deste curso no teria sido possvel sem seu apoio e compreen-o.

    Ao meu orientador, por toda sua ateno e pacincia. E tambm porsuas valiosas dicas. Muito obrigado Joaquim.

    xiii

  • xiv

  • Resumo

    Neste trabalho, uma introduo Bioinformtica desenvolvida atra-vs da anlise de algumas das ferramentas de software mais usadas noestudo de alinhamento de seqncias. Os conceitos biolgicos fun-damentais so introduzidos, formando a base necessria para se com-preender como agem alguns algoritmos e como se pode desenvolveroutros que atendam mais diretamente s necessidades do pesquisador.A licena de algumas ferramentas so analisadas ilustram a diferenaentre os conceitos (e suas implicaes) de software livre e de cdigo-aberto.

    xv

  • Captulo 1

    Introduo

    Neste trabalho, apresenta-se o uso de ferramentas livres ou de cdigo aberto emplataforma GNU/Linux no estudo do mais fundamental problema de Bioinform-tica: o estudo de alinhamento de seqncias. Neste captulo, apresenta-se dadosjusticativos para uma abordagem sobre software livre e GNU/Linux em um es-tudo relacionado com Bioinformtica.

    A preferncia por plataformas Unix e compatveis e o uso das ferramentas desoftware livre na Bioinformtica j so bastante consagrados entre os pesquisado-res da rea. Como aspectos motivadores pela escolha de uma plataforma Unix-compatvel no estudo de tpicos em Bioinformtica, [Gibas & Jambeck (2001)]apontam no apenas o alto grau de conabilidade e desempenho dessa plataforma.Eles lembram tambm que possvel encontrar uma grande quantidade de fer-ramentas de software de excelente qualidade e popularidade no meio cientco,compatveis com o UNIX. Isso se deve ao fato do Unix ser usado extensivamenteem universidades, onde comum o desenvolvimento de software para anlise dedados cientcos. Nas palavras desses autores:

    Os pesquisadores de Biologia Computacional e de Bioinformticatm ainda maior probabilidade de ter desenvolvido software paraUnix, porque at meados da dcada de 90 as nicas estaes de tra-balho capazes de visualizar os dados de estruturas de protenas emtempo real eram mquinas Silicon Graphics e Sun Unix.

    A opo por uma plataforma GNU/Linux torna-se ento uma escolha imediatadado o tempo de amadurecimento e de conquistas dessa plataforma. Anal, so

    1

  • mais de dez anos de grande desenvolvimento e excelentes resultados. Tem-se umaconabilidade comparvel com a do Unix, mas disponvel para mquinas maismodestas e a um custo imbatvel, devido gratuidade do GNU/Linux.

    [Gibas & Jambeck (2001)] apresentam trs motivos para utilizar e defendera plataforma GNU/Linux: custo-benefcio - com a disponibilidade do Linux, oUnix passa a ser barato; melhor utilizao dos recursos computacionais - PCsantigos e considerados obsoletos por usurios do Windows tornam-se estaesde trabalho surpreendentemente flexveis e teis; grande nmero de ferramentas -h uma rica biblioteca de ferramentas disponveis para Biologia Computacionale para a pesquisa em geral.

    O contedo do texto foi distribudo da seguinte forma:Captulo 1: Introduo, em que se apresenta a justicativa para o desenvolvi-

    mento deste trabalho.Captulo 2: So introduzidos, metodicamente, os fundamentos sobre Biologia

    Celular e Biologia Molecular necessrios para a discusso sobre as ferramentasanalisadas nos captulos seguintes.

    Captulo 3: Apresenta-se alguns bancos de dados pblicos que contm dadose artigos biolgicos. Informaes sobre formatos de arquivos aceitos por essesrepositrios so citadas em caracter introdutrio sobre o processo de disponibili-zao colaborativa de dados de pesquisas.

    Captulo 4: Analisa-se o BLAST (Basic Local Alignment Tool), um conjuntode ferramentas para alinhamento de seqncias. Quanto forma de utilizaoanalisou-se especialmente a ferramenta blast2 sequence usada na comparao deduas seqncias fornecidas pelo prprio usurio. Alm disso, a estrutura de dire-trios do arquivo compactado que contm os fontes do pacote foi analisada breve-mente.

    Captulo 5: O uso do ClustalW descrito detalhadamente atravs da execu-o de um alinhamento mltiplo de cinco seqncias. A ferramenta ClustalX queprov uma interface grca para a utilizao do ClustalW citada brevemente eutilizada para o alinhamento das mesmas cinco seqncias.

    Captulo 6: O TEXshade apresentado como um poderoso recurso para aformatao nal dos resultados obtidos com as ferramentas de alinhamento. evidenciado sua capacidade em fornecer uma excelente qualidade grca alm deuma grande exibilidade ao pesquisador.

    Concluso: Os tpicos desenvolvidos so sintetizados e a mensagem nal dapretenso deste trabalho enfatizada.

    2

  • Captulo 2

    Fundamentos de Biologia Celulare Biologia Molecular

    2.1 DNA e RNA

    As informaes genticas so armazenadas nos cidos nuclicos - o cido desoxir-ribonuclico (DNA) e o cido ribonuclico (RNA). O DNA encontrado principal-mente no ncleo da clula. Mais especicamente nos cromossomos. O RNA, porsua vez, encontrado principalmente no citoplasma, e em pouca escala tambmnos cromossomos.

    A descoberta de que na molcula de DNA onde se encontram as informaesgenticas j serve como incentivo ao estudo do cdigo gentico. importanteainda destacar que as informaes contidas no DNA podem ser representadas emuma estrutura relativamente simples.

    Os cidos nuclicos so formados por uma ou duas cadeias (ou tas) de ele-mentos estruturais denominados nucleotdeos. Dessa forma, molculas de DNA eRNA so classicadas como polmeros. Um polmero uma molcula compostade pequenos elementos (os monmeros) que se repetem em sua estrutura. No casode molculas de DNA e RNA, os monmeros so os nucleotdeos.

    A simplicidade da estrutura de molculas de DNA e RNA se constitui pelopequeno nmero de nucleotdeos distintos - so apenas quatro, seja para DNA oupara RNA.

    Cada nucleotdeo constitudo por uma base nitrogenada, uma mol-cula de acar e um grupamento de fosfato. H dois tipos de acar

    3

  • nos cidos nuclicos: desoxiribose no DNA e ribose no RNA. As ba-ses nitrogenadas so as primidinas: citosina (c), timina (t) e uracila(u) e as purinas: adenina (a) e guanina (g). O DNA contm a, c, ge t, enquanto o RNA contm u em vez de t. Em ambos DNA e RNA,os nucleotdeos esto ligados formando uma longa cadeia polinucle-otdica. Essa cadeia formada por ligaes entre o grupo fosfato decarbono 5 de um nucleotdeo e o carbono 3 do acar do nucleotdeoadjacente [Oliveira].

    As seqncias de nucleotdeos de molculas de DNA e RNA podem ser re-presentadas atravs de longas cadeias de letras. Essas letras esto contidas emum conjunto de quatro letras: a, c, g, t para molculas de DNA e a, c, g, u paramolculas de RNA. Apesar da simplicidade no que se refere ao nmero de letraspossveis, as cadeias tendem a ser bastante complexas por serem extremamentelongas. Mesmo para microorganismos a menssagem longa, tipicamente 106 ca-racteres. [Lesk (2002)]

    Na realidade, o DNA composto por duas seqncias de aminocidos entre-laadas. Mas isso no representa um fator complicador sua estrutura, uma vezque os nucleotdeos se ligam de maneiras especcas: a s pode fazer par com t, eg s pode fazer par com c. exatamente essa caracterstica que garante o sucessoda replicao.

    Quando uma clula se divide para formar duas novas clulas-filhas, oDNA replicado desenrolando as duas fitas e usando cada fita comoum modelo para criar a sua imagem qumica espelhada, ou fita com-plementar [Gibas & Jambeck (2001)].

    Molculas de RNA, em geral, apresentam uma nica ta de nucleotdeos quepode assumir uma grande variedade de conformaes espaciais.

    2.2 Genes, DNA genmico, cDNA, cromossomos e genomaGenes so trechos de uma molcula de DNA que contm as informaes que de-terminam as caractersticas de uma espcie como um todo e de cada indivduo emsi. [Alberts et al. (1999)] caput [Oliveira e Inoue (2002)].

    4

  • Existem trs tipos de genes: os genes codificadores de protena, que constituem-se em modelos para gerar molculas de protena; os genes especicadores de RNAe; os genes no transcritos, que so regies do DNA genmico que possuem al-gum propsito funcional, mas no alcanam esse propsito, sendo transcritos ouconvertidos para criar outra molcula. [Gibas & Jambeck (2001)]

    O termo DNA genmico refere-se ao gene completo. Isso serve para diferen-ciar do chamado DNA complementar que refere-se ao gene sem as partes que noso codicantes - os ntrons. As partes codicantes so denominadas xons. Essadiviso aplica-se somente aos organismos eucariontes (organismos cujas clulaspossuem ncleos). Nos organismos procariontes (organismos cujas clulas nopossuem ncleos), a regio codicante se estende de forma ininterrupta.

    Um cromossomo uma molcula muito longa de DNA que contm muitosgenes. E o conjunto completo dos cromossomos de uma clula denominadogenoma.

    2.3 ProtenasAs protenas so as molculas responsveis pela maior parte das estruturas e dasatividades dos organismos. Outros elementos importantes nos organismos, queno so protenas, so tratados por intermdio de enzimas, que, por sua vez, soprotenas. A importncia das protenas para os organismos evidenciada pela pr-pria origem etmolgica da palavra: o sueco Berzelius (1779-1848) criou o conceitoprotena baseado na palavra de origem grega proteios, que significa primeiro, oude principal importncia [Annimo]. A importncia do estudo de alinhamentosde seqncias proticas ressaltada por [Altschul et al. (1990)]:

    Observa-se que genes ou protenas com seqncias similares tm grandechance de possurem funes similares. As primeiras informaespara determinao da funo de um gene, cuja seqncia foi recente-mente obtida, quase sempre so obtidas pela busca de similaridadesentre a nova seqncia e seqncias de protenas ou famlias de pro-tenas conhecidas.

    Molculas de DNA so, em primeira aproximao, uniformes. Protenas, noentanto, mostram uma grande variedade de conformaes tridimensionais. Isto necessrio para garantir a grande diversidade de suas caractersticas funcionais e

    5

  • estruturais [Lesk (2002)]. a estrutura tridimensional de uma protena que denesuas funes.

    A seqncia dos aminocidos de uma protena dita sua estrutura tridimensio-nal. O paradigma que se estabelece, portanto :

    A seqncia do DNA determina a seqncia da protena;

    A seqncia da protena determina sua estrutura;

    A estrutura da protena determina sua funo.

    Assim como o DNA e o RNA, as molculas de protenas tambm so polme-ros. Mas no caso das protenas, os elementos fundamentais - os aminocidos, somais diversicados em relao aos nucleotdeos. A Tabela 2.1 apresenta os nu-cleotdeos (que constiuem o DNA e o RNA) e os aminocidos (que constituem asprotenas). Na tabela, os aminocidos aparecem classicados como polares, apo-lares e eletricamente carregados. Outras classicaes dos aminocidos podem serteis. Por exemplo, pode-se classicar os aminocidos conforme suas funes nosseres humanos, denotando quais so essenciais e quais so no-essenciais.

    6

  • Tabela 2.1: Nucleotdeos e aminocidos naturais

    Os quatro nucleotdeos presentes em molculas de DNAa adenina c citosina g guanina t timinaOs quatro nucleotdeos presentes em molculas de RNAa adenina c citosina g guanina u uracilaOs vinte aminocidos naturais presentes em molculas de ProtenasAminocidos apolaresG glicina A alanina P prolina V valinaI isoleucina L leucina F fenilalanina M metionina

    Aminocidos polaresS serina C cistena T treonina N asparaginaQ glutamina H histidina Y tirosina W triptofano

    Aminocidos eltricamente carregadosD cido asprtico E cido glutmico K lisina R arginina

    A seqncia dos aminocidos em uma molcula de protena constituem a cha-mada estrutura primria da protena. essa estrutura que dene a forma e a funoda protena. As interaes moleculares entre aminocidos geram uma cadeia pro-tica denominada estrutura secundria e algumas vezes, uma estrutura terciria[Oliveira e Inoue (2002)]

    A determinao das estruturas tridimensionais das protenas permite realizarpesquisas mais direcionadas no sentido de encontrar inibidores, ativadores enzi-mticos e outros ligantes que permitam a produo de frmacos mais eficientes eespecficos: o almejado Desenvolvimento Racional de Frmocos (Rational DrugDesign) [Prosdocimi et tal (2003)]. Uma infeliz realidade relacionada a isso ocaso do HIV. Como os vrus so organismos mais simples, mais fcil encontrar-mos mutaes relevantes nesses organismos do que em outros organismos maiscomplexos, sobretudo em vrus que se reproduzem muito rapidamente.

    Sobre isso, [Leme (2002)] arma que a rpida taxa de reproduo do HIV esua inerente variabilidade gentica conduziram identificao de muitas varian-tes do vrus, que apresentam suscetibilidades diversas s drogas ARVs. O HIVapresenta uma grande quantidade de variaes e mesmo simples alteraes pro-duzem sensibilidades diferentes s drogas. [Leme (2002)] cita um exemplo: natranscriptase reversa, uma mudana na posio 65, de AAA para AGA, provoca

    7

  • Tabela 2.2: Abreviatura dos aminocidos naturais

    G glicina - glycine (Gly) A alanina - alanine (Ala)P prolina - proline (Pro) V valina - valine (Val)I isoleucina - isoleucine (Iso) L leucina - leucine - (Leu)F fenilalanina - phenylalanine (Phe) M metionina - methionine (Met)S serina - serine (Ser) C cistena - cysteine (Cys)T treonina - threonine (Thr) N asparagina - asparagine (Asn)Q glutamina - glutamine (Gln) H histidina - histidine (His)Y tirosina - tyrosine (Tyr) W triptofano - tryptophan (Try)D cido asprtico - aspartic acid (Asp) E cido glutmico - glutamic acid (Glu)K lisina - lysine (Lys) R arginina - arginine (Arg)

    uma alterao na protena produzida - lisina para arginina - ocasionando resis-tncia droga DDI.

    comum adotar a conveno de escrever nucleotdeos em letras minsculas eaminocidos em letras maisculas. Isso bom para evitar confuses: por exemplo,nessa conveno, atg representaria a seqncia de nucleotdeos adenina-timina-guanina, enquanto que ATG representaria a seqncia de aminocidos alanina-treonina-glicina. Entretanto, nem todos os autores seguem essa conveno, comono caso do exemplo anterior de [Leme (2002)].

    Uma outra conveno que tambm comumente utilizada: os nomes dos ami-nocidos so freqentemente abreviados usando as primeiras trs letras do nomedo aminocido no idioma ingls com apenas a primeira letra maiscula. Por exem-plo, Gly para glycine. As excees ocorrem para os aminocidos: asparagina, glu-tamina e triptofano que so representados por Asn, Gln e Trp, respectivamente. Oraro aminocido selenocistena representado por Sec, na representao que usatrs letras, e por U, na representao usa uma nica letra. A Tabela 2.2 relacionacada aminocido com seus respectivos nome e abreviatura em ingls.

    Portanto, uma seqncia de protenas tambm pode ser representada por umacadeia de caracteres. Nessa representao, cada aminocido da seqncia repre-sentado por uma letra ou por um conjunto formado por trs letras, sendo apenasa primeira maiscula. A representao dos aminocidos por letras nicas geral-mente preferida por fornecer uma vizualizao mais simples e por requerer menordispndio computacional.

    Mesmo quando os nucleotdeos de um DNA so representados em letras mais-culas, facil perceber que uma dada seqncia refere-se a um DNA. Isso se devepela simplicidade de sua estrutura no que se refere aos diferentes caracteres que

    8

  • aparecem na representao da seqncia - cadeias que representam molculas deDNA contm apenas as letras A, C , G e T ; cadeias que representam molculasde RNA so constitudas usando-se apenas as letras A, C , G e U ; por m, repre-sentaes de protenas contm uma maior variedade de letras. A Figura 2.1 ilustraexemplos reais de regies de seqncias de uma molcula DNA e de uma molculade protena.

    GAGCTGGCCGCCCCGTCACTATTCCGGATCTTGGTACCCCAC CTCTCT TAGCGAA ATACCCA TCTCAT CGGCTCCCAATATCGCATCCGTTACGGCGTATGCATCAGGACCT TCACTT GCTCACT CACTGAG TCCACC CAACGACATCGAAAGCCTGGCCAGTATCGGTCACCAGAGAAACT GCCCCG T

    MATFQEFIQQNEDRDGVRFSWNVWPSSRLEATRMVVPVASLF TPLKER PDLPPIQ YEPVLCS RATCRA VLNPLCQVDYRAKLWACNFCYQRNQFPPTYAGISEVNQPAELLP QFSTIE YVVQRGP QMPLNFL YVVDTC MEDDDLQALKESLQMSLSLL

    Figura 2.1: Exemplos de trechos de seqncias de DNA e protena

    2.4 O cdigo genticoO assunto tratado nesta seo, disperta uma discusso sobre opnies divergentes.Alguns autores ainda escrevem e se fundamentam no chamado cdigo genticouniversal. O caracter fundamental do conceito to marcante que torna-se difcilpara alguns pesquisadores descartarem sua validade.

    O cdigo gentico pode ser representado por uma tabela que permite rotulartodas as possveis trades formadas com os quatro nucleotdeos presentes em mo-lculas de RNA.

    O princpio do cdigo gentico arma que, na sntese das protenas, a seqn-cia de trs nucleotdeos do RNA formam um determinado aminocido. A cadatrade de nucleotdeos corresponde um dado aminocido. Alguns aminocidospodem ser constitudos pela combinao de diferentes trades, mas cada trade es-pecica um nico aminocido.

    Opinies de especialistas divergem quanto universalidade dessa correspon-dncia. [Oliveira] arma que essa correspondncia universal para todos os or-ganismos vivos. [Gibas & Jambeck (2001)] tambm defendem essa idia e apre-sentam uma tabela da correspondncia universal.

    Por sua vez, [Brown (2002)], apresenta uma seo que dene exatamente ooposto, como se mostra evidente pelo prprio ttulo da seo - The genetic codeis not universal. O autor encerra a discusso sobre a no-universalidade do c-

    9

  • digo gentico com a armao de que o cdigo dito universal, aplica-se sim auma grande variedade de genes de uma grande variedade de organismos, mas quedesvios so possveis.

    Uma base concreta sobre a contestao quanto no-universalidade do cdigogentico apresentada no portal Biologia na Web1:

    O fato de ser possvel traduzir genes de um organismo em outro, p.ex., genes humanos, em E. coli, sugeria que o cdigo padro (..) erauniversal. Todavia, o estudo de diferentes seqncias de DNA a partirdos anos 80 revelaram algumas divergncias em relao ao padro.

    P. ex., em mitocndrias de mamferos o cdon para a Met iniciadorapode ser AUG ou AUA (Ile no padro); UGA especifica Trp e noterminao; AGA e AGG especificam terminao e no Arg. Nasmitocndrias de plantas, fungos, Drosfila e protozorias, tambmocorrem variaes em relao ao padro. Nos protozorios ciliados,os cdons UAA e UAG, ao invs de especificarem parada, codificamGln. Alm disto, foi relatado em Candida spp (Santos et al, 1997), eu-cariotos unicelulares, a existncia de cdons polissmicos, isto , umcdon codificando mais de um aminocido. No caso citado, CUG co-difica tanto Leu como Ser, denotando ambigidade e nos remetendo asseguintes questes: 1) em Candida, as alteres no Cdigo Genticoainda no estariam completamente estabelecidas, ou 2) a ambigui-dade CUG seria vantajosa, permitindo rpida adaptao a desafiosambientais, devendo ser mantida como tal.

    Estas so algumas das evidncias de que o cdigo gentico padro,se bem que amplamente utilizado, no universal.2

    Hinegardner e Engelberg3 , desde 1963, tambm j se mostravam contrrios aesse princpio simplista sobre a evoluo das espcies.

    A correspondncia entre as trades de nucleotdeos e seus respectivos amino-cido, compe o que chamado de cdigo gentico. Esse conceito talvez possa seraplicado a organismos de uma mesma espcie.

    1http://www.biologianaweb.com/2http://www.biologianaweb.com/Livro2/C8/universal.html3[hinegardner & Engelberg (1963)] e [hinegardner & Engelberg (1963)]

    10

  • Tabela 2.3: Cdigo gentico - responsvel pela sntese das protenas

    Base 2Base 1 U C A G Base 3

    Phe Ser Tyr Cys UPhe Ser Tyr Cys C

    U Leu Ser STOP STOP ALeu Ser STOP Trp GLeu Pro His Arg ULeu Pro His Arg C

    C Leu Pro Gln Arg ALeu Pro Gln Arg GIle Thr Asn Ser UIle Thr Asn Ser C

    A Ile Thr Lys Arg AMet4 Thr Lys Arg GVal Ala Asp Gly UVal Ala Asp Gly C

    G Val Ala Glu Gly AVal Ala Glu Gly G

    Cada trade tambm chamada de cdon e cada seqncia de cdons quecodica um polipeptdeo denominada cistron [Oliveira].

    O cdigo gentico universal, que o responsvel pela sntese das protenas, apresentado na Tabela 2.3.

    2.5 O eyeless e a aniridia - Um exemplo para justificativado estudo de comparao entre seqncias

    A mosca-das-frutas (Drosophila melanogaster) muito estudada como modelo napesquisa sobre a evoluo de animais. Por isso, seus genes so bastante conheci-dos. Ela tem um gene denominado eyeless que, se for retirado do genoma (por m-todos de Biologia molecular), resulta em mocas-das-frutas sem olhos. evidente,portanto, que o gene eyeless tem uma funo importante no desenvolvimento doolho.

    O ser humano apresenta um gene denominado aniridia que tambm parece

    11

  • ter papel fundamental no desenvolvimento de olhos. Essa deduo comeou ase formar a partir da observao, citada por [Gibas & Jambeck (2001)], de queos seres humanos que no tm esse (ou em quem esse gene sofreu uma mutaosuficiente para que o produto protico parasse de funcionar corretamente), osolhos se desenvolvem sem ris.

    A mentalidade dedutiva dos cientistas os levaram a fazer o seguinte questio-namento: e se inserirmos o gene aniridia em uma Drosophila sem olhos (sem oeyeless)? Bom. . . o que acontece que a aniridia promove a produo de olhosnormais na Drosophila. Nas palavras de [Gibas & Jambeck (2001)]:

    uma coincindncia interessante. Poderia haver alguma similari-dade em como o eyeless e a aniridia funcionam, apesar de mos-cas e seres humanos serem organismos extremamente diferentes? Pos-sivelmente. Para saber como o eyeless e a aniridia funcionam,juntos, possvel comparar suas seqncias. Entretanto, precisolembrar sempre que os genes interagem reciprocamente de maneiracomplexa. preciso uma experimentao cuidadosa para obter umaresposta mais definitiva.

    2.6 Alinhamento de seqncias, similaridade, identidadee homologia

    Uma vez representadas as seqncias de nucleotdeos ou de aminocidos de duasmolculas, pode-se ento compar-las em busca de similaridades em suas estrutu-ras. Essa comparao permite inferir sobre as propriedades de uma determinadamolcula baseando-se em propriedades conhecidas da outra. Ao processo de com-parao entre seqncias, denomina-se alinhamento de seqncias. No alinha-mento de duas seqncias, diferentes eventos so realizados sobre os monmerosde uma dada seqncia buscando-se obter uma maior similaridade entre as duas. AFigura 2.2 ilustra um alinhamento entre duas seqncias hipotticas. Uma rpidainspeo visual, j indica a existncia de certa similaridade entre as duas seqn-cias. Na primeira aproximao, realizou-se apenas algumas translaes de regiesda seqncia. Na segunda aproximao, alm das translaes, efetuou-se tambmuma inverso das posies de dois caracteres. As translaes foram indicadas comum trao e os locais onde os caracteres no coincidiram foram marcados comum X.

    12

  • Seq.1: G A G C T G G C C G C G C G T C ASeq.2: G A C T G A C C G C G C G C T C A A

    Ali.1: G A G C T G G C C G C G C C G T C AG A C T G X C C G C X C X X T C A A

    Ali.2: G A G C T G G C C G C G C C G T C AG A C T G X C C G C X C C G T C A A

    |_|

    Figura 2.2: Um alinhamento hipottico

    importante destacar que a interpretao dos resultados de um dado alinha-mento fundamental para garantir interpretaes coerentes com os fundamentosda Biologia. Boa parte da pesquisa em Bioinformtica consiste em procurar obteralgoritmos que sejam capazes de tratar as seqncias de caracteres de forma a for-necer resultados cada vez mais precisos biologicamente e reduzir cada vez mais anecessidade de interferncia do pesquisador.

    A comparao de seqncias permite inferir sobre possveis mutaes. Compara-se genomas de organismos de espcies distintas, supondo provveis eventos quelevaram mutao de uma espcie para a outra. Dentre os possveis eventos, pode-se citar a inverso de uma seqncia de genes ou a substituio de alguns genes.A esses eventos deve-se atribuir valores que representem suas probabilidades deocorrncia. Essas probabilidades so traduzidas atravs do conceito de distnciaentre genes.

    Para cada tipo de evento existe a denio de uma distncia entre os ge-nes [Walter (1999)]. Assim, ao realizar uma inverso na ordem e na orientaodos genes numa determinada poro do genoma, o evento realizado denominadoreverso e computado a distncia de reverso. O evento denominado transpo-sio consiste em mover uma poro de uma regio para outra dentro do genomae a distncia relacionada chama-se distncia de transposio. Quando se moveos blocos de genes de um local para outro dentro do genoma, e se inverte a ordeme a orientao dos genes, diz-se que se realizou uma transverso e a distncia a chamada distncia de transverso. Por m, existe tambm a translocao, e arespectiva distncia de translocao, que se referem troca de pores entre doiscromossomos diferentes dentro do genoma.

    De forma genrica, alinhar duas seqncias encontrar uma corres-

    13

  • pondncia entre bases similares. Para o alinhamento so utilizadasmutaes puntuais nos genes tais como substituies, remoes e in-seres de bases. A distncia computada associando custos a estasoperaes, e procurando pela composio menos cara dentre as quetransformam uma seqncia na outra [Walter (1999)].

    A premissa de se buscar o menor custo possvel no rearranjo justicado pelahiptese da parsimnia. Neste princpio, assume-se que a Natureza, no processoevolutivo, sempre segue o caminho que exige o menor nmero possvel de trans-formaes. Assim, ao se tentar estudar as possveis mutaes, deve-se optar poruma srie de eventos mnimos.

    A hiptese da parsimmia pode ser contestada e tal contestao pode sersubmetida experimentao. Ainda que no concretize-se como uma Lei, suasuposio permite estabelecer uma linha para pesquisas logenticas.

    A estrutura do DNA determina os mecanismos para a auto-replicao e para atranslao dos genes em protenas. Portanto, o estudo de alinhamento de seqn-cias, permite pesquisas variadas no campo da Biologia: pesquisas sobre a evoluode organismos; pesquisas voltadas para o combate de novos vrus a partir de outrosj conhecidos; pesquisas voltadas para a obteno de novos frmacos a partir desimilaridades entre seqncias de diferentes protenas; dentre outras.

    Quanto sua amplitude de aplicao sobre a seqncia, um alinhamento podeser classicado como alinhamento global ou alinhamento local. Quando o ali-nhamento realizado tomando-se toda a seqncia, ele chamado de alinhamentoglobal. Quando o alinhamento realizado em fragmentos de uma seqncia, ele chamado de alinhamento local. A escolha pelo tipo de alinhamento mais apropri-ado depende da nalidade desejada.

    O alinhamento global til para comparar duas seqncias hom-logas. Mas quando as duas seqncias apenas possuem certos do-mnios em comum, ou quando necessrio comparar uma seqnciacom todas as entradas de uma base de dados, est-se mais interessadonos melhores alinhamentos locais entre duas subseqncias [Rocha].

    Duas seqncias so homlogas, quando elas derivam de um mesmo ancestral[Prosdocimi et tal (2003)]. importante destacar que homologia e similaridade

    14

  • so dois conceitos distintos. Segundo [Prosdocimi et tal (2003)], o alinhamentoindica o grau de similaridade entre seqncias, j a homologia uma hiptese decunho evolutivo.

    Importante tambm destacar que o alinhamento indica apenas o grau de si-milaridade entre as seqncias pesquisadas e que um mal alinhamento no implicaem seqncias no-homlogas. Com efeito, [Pearson (2001)] compara a seqnciae a estrutura de trs protenas: bovine chymotrypsin, S. griseus trypsin e S. griseusprotease A. As trs protenas apresentam uma estrutura tridimensional bastantesimilar. As duas primeiras apresentam grande similaridade em suas seqncias,enquanto que a terceira seqncia no apresenta uma similaridade signicante.Assim, conclui [Pearson (2001)], protenas homlogas no apresentam necessari-amente seqncias com uma similaridade estatisticamente signicante, ou mesmodetectvel.

    Quando mais que duas seqncias so alinhadas, o processo chamado ali-nhamento mltiplo. Tcnicas de alinhamento mltiplo so aplicadas principal-mente a seqncias proticas [Gibas & Jambeck (2001)].

    Exemplo de programas que utilizam o alinhamento global so o ClustalW eo Multialin. O algoritmo do BLAST realiza o alinhamento local. O alinhamentoglobal usado geralmente para determinar regies mais conservadas de seqn-cias homlogas. J o alinhamento local , geralmente utilizado na procura porseqncias homlogas ou anlogas [Prosdocimi et tal (2003)].

    15

  • 16

  • Captulo 3

    Bancos de dados biolgicospblicos

    O armazenamento de informaes e dados cientcos, sobretudo quando em escalamundial, precisa ser cuidadosamente organizado de forma a evitar duplicidades eelevadas redundncias. Deve-se ainda buscar padres que possibilitem a concen-trao de informaes sem que os prprios padres tornem-se limitadores no pro-cesso do desenvolvimento cientco. Assim, importante que os padres sejamcuidadosamente projetados de forma a permitir uma maior exibilidade para seajustar ao desenvolvimento futuro e tambm importante, por vezes, abandonarum padro substituindo-o por outro mais exvel e melhor dotado de recursos.

    Em Bioinformtica, existem diversos bancos de dados pblicos de peridicoscientcos e de resultados de pesquisas. Uma vez que a principal ferramenta depesquisa em Biologia computacional o prprio computador, a disponibilizaode dados de pesquisas atravs do prprio meio computacional faz com que a utili-zao destes dados possa ser aproveitada com extrema facilidade.

    Em geral, os dados disponveis em repositrios pblicos podem ser usados li-vremente para ns no-comerciais, como explicitado, por exemplo, pelo Copyrightdo Swiss-Prot1.

    This Swiss-Prot entry is copyright. It is produced through a collaborationbetween the Swiss Institute of Bioinformatics and the EMBL outstation- the European Bioinformatics Institute. There are no restrictionson its use by non-profit institutions as long as its content is in no

    1http://www.expasy.ch/sprot/

    17

  • way modified and this statement is not removed. Usage by and forcommercial entities requires a license agreement. (See http://www.isb-sib.ch/announce/ or send an email to licenseisb-sib.ch)

    A principal instituio de compartilhamento de informaes e dados biol-gicos , sem sombra de dvidas, o NCBI (National Center for BiotechnologyInformation), sendo citado em praticamente todos (seno em todos) os cursos elivros de Bioinformtica. O NCBI est estabelecido nos Estados Unidos, existedesde 1988, criando bancos de dados, conduzindo pesquisas em Biologia Compu-tacional, desenvolvendo ferramentas de software para anlise de dados genmicos,e disseminando informaes biomdicas [NCBI]. O NCBI2 uma diviso da Bi-blioteca Nacional de Medicina dos Estados Unidos (NLM - National Library ofMedicine) no Instituto Nacional da Sade (NIH - National Institutes of Health).

    O Entrez3 um recurso do NCBI que procura centralizar consultas nos di-versos repositrios do Centro de Informaes. Ao submeter uma consulta, essa realizada tanto nos bancos de dados de artigos cientcos e livros online comotambm nos bancos de dados biolgicos, como o banco de dados de nucleotdeos(GenBank) e o banco de dados de seqncias proticas.

    Dentre as publicaes disponveis, existe uma separao entre arquivos dispo-nibilizados integral e gratuitamente e, outros, com apenas o abstract disponvellivremente. Nesse ltimo caso, pode-se obter o restante do contedo por e-mailmediante o pagamento de alguma taxa.

    A Figura 3.1 mostra o resultado da consulta por Drosophila eyeless aniridia.A quantidade de registros para cada tipo de dado informada ao lado do respectivoitem. Se mais de uma palavra passada, ocorre uma busca pela ocorrncia de todosos termos.

    O item PubMed do Entrez traz apenas citaes e resumos (abstracts). Maso item PubMed Central traz artigos completos disponveis gratuitamente. Os ar-tigos so apresentados em uma formatao padro com ilustraes de excelenteresoluo. As ilustraes podem ser visualizadas em verses maiores. O leitorpode ainda optar pela visualizao da imagem na mesma janela ou em outra ja-nela. Alm disso, cada artigo contm links para outros artigos citados, bem comopara outros artigos que o citaram, facilitando bastante o processo de pesquisa bi-bliogrca, que geralmente antecede as pesquisas em um novo projeto cientco.

    O item Genome contm as seqncias de genomas completos relativos pes-quisa efetuada. Este item leva ao NCBI MapViewer, que mostra, em forma pict-

    2http://www.ncbi.nlm.nih.gov/)3http://www.ncbi.nlm.nih.gov/Entrez/index.html

    18

  • Figura 3.1: Consulta por Drosophila eyeless aniridia no Entrez

    rica, um mapa gentico completo, destacando regies relativa aos seus genes. Apartir desse mapa, possvel ampliar determinada regio do mapa, ou selecionarum gene especco.

    A Figura 3.2 mostra o mapa genmico da Drosla. Ao clicar no link refe-rente ao gene ey obteve-se as informaes especcas sobre esse gene conformeilustrado na Figura 3.3. O pesquisador pode ainda visualizar ou mesmo efetuarum download da seqncia que desejar, clicando em Download View SequenceEvidence. No download ou na visualizao, pode-se optar pelo formato FASTAou pelo formato GenBank.

    19

  • Figura 3.2: Mapa genmico da Drosfila no MapViewer do NCBI

    20

  • Figura 3.3: Informaes sobre o gene ey

    21

  • Uma seqncia no formato FASTA inicia com uma linha de comentrio se-guida da seqncia em si nas linhas subsequentes. A linha de comentrio ini-ciada com o caracter >. Logo aps o caracter marcador de comentrio >, comum encontrar-se gi referente a GenBank Identifier. O NCBI recomenda queas linhas da seqncia tenham no mximo 80 caracteres4 . O conhecimento dessasrecomendaes importante ao submeter uma nova seqncia ao NCBI ou a outrorepositrio pblico que aceite seqncias no formato FASTA.

    As seqncias submetidas ao NCBI devem estar representadas no padro IUB/IU-PAC para aminocidos e nucleotdeos, com as seguintes excees: letras minscu-las so aceitas e so convertidas para maisculas; um hfen ou travesso pode serusado para representar uma lacuna (gap) de comprimento indeterminado.

    Pode-se ainda usar a letra N para representar um nucleotdeo residual desco-nhecido.

    A Figura 3.4 apresenta todos os resduos permitidos em seqncias de nucleo-tdeos.

    A --> adenosine M --> A C (amino)C --> cytidine S --> G C (strong)G --> guanine W --> A T (weak)T --> thymidine B --> G T CU --> uridine D --> G A TR --> G A (purine) H --> A C TY --> T C (pyrimidine) V --> G C AK --> G T (keto) N --> A G C T (any)

    - gap of indeterminate length

    Figura 3.4: Resduos aceitos pelo NCBI em seqncias de nucleotdeos no formato FASTA.

    Em seqncias de aminocidos, U e * so aceitveis e a letra X pode ser usadapara representar resduos de aminocidos desconhecidos. Os resduos aceitos emarquivos no formato FASTA no NCBI pelos programas que tratam seqncias deaminocidos (BLASTP, BLASTX e TBLASTN)5 esto apresentados na Figura3.5.

    4http://www.ncbi.nlm.nih.gov/BLAST/fasta.shtml5Os programas que compem o pacote BLAST esto relacionados em um captulo prprio.

    22

  • A alanine P prolineB aspartate or asparagine Q glutamineC cystine R arginineD aspartate S serineE glutamate T threonineF phenylalanine U selenocysteineG glycine V valineH histidine W tryptophanI isoleucine Y tyrosineK lysine Z glutamate or glutamineL leucine X anyM methionine * translation stopN asparagine - gap of indeterminate length

    Figura 3.5: Resduos aceitos pelo NCBI em seqncias de aminocidos no formato FASTA.

    A Figura 3.6 mostra a seqncia do gene ey da drosla no formato FASTA. AsFiguras 3.7 e 3.8 mostram a anotao da mesma seqncia no formato GenBank. Oformato GenBank traz mais informaes alm da seqncia em si, que aparece nonal. Dentre as variadas informaes, tem-se, por exemplo, diversos artigos rela-cionados, indicando-se autores, local de publicao (ou Unpublished quando aindano publicado), comentrios sobre o artigo, quando houver etc. O conhecimentodo formato GenBank importante no apenas para a anlise de um arquivo nesseformato. importante tambm para se construir algoritmos que extraiam e com-parem determinadas informaes em vrios arquivos, automatizando e agilizandouma tarefa rotineira que seria muito desgastante, caso executada manualmente.

    >ref|NC_004353.1|:734034-734222 Drosophila melanogaster chromosome 4,complete sequenceGAGCTGGCCGCCCCGTCACTATTCCGGATCTTGGTACCCCAC CTCTCT TAGCGAA ATACCCA TCTCAT CGGCTCCCAATATCGCATCCGTTACGGCGTATGCATCAGGACCT TCACTT GCTCACT CACTGAG TCCACC CAACGACATCGAAAGCCTGGCCAGTATCGGTCACCAGAGAAACT GCCCCG T

    Figura 3.6: Seqncia do gene ey da drosfila no formato FASTA. A primeira linha foi truncada naadaptao para a impresso.

    23

  • LOCUS NC_004353 189 bp DNA linear INV 19-APR-2004DEFINITION Drosophila melanogaster chromosome 4, complete sequence.ACCESSION NC_004353 REGION: 734034..734222VERSION NC_004353.1 GI:24638835KEYWORDS .SOURCE Drosophila melanogaster (fruit fly)ORGANISM Drosophila melanogaster

    Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta;Pterygota; Neoptera; Endopterygota; Diptera; Brachycera;Muscomorpha;Ephydroidea; Drosophilidae; Drosophila.

    REFERENCE 1 (bases 1 to 189)AUTHORS Kaminker,J.S., Bergman,C.M., Kronmiller,B., Carlson,J.,

    Svirskas,R., Patel,S., Frise,E., Wheeler,D.A., Lewis,S.E.,Rubin,G.M., Ashburner,M. and Celniker,S.E.

    TITLE The transposable elements of the Drosophila melanogastereuchromatin: a genomics perspective

    JOURNAL Genome Biol. 3 (12), RESEARCH0084 (2002)MEDLINE 22426070PUBMED 12537573............................................ ....... ....... ....

    ............................................ ....... ....... ....

    REFERENCE 6 (bases 1 to 189)AUTHORS .CONSRTM FlyBaseTITLE Direct SubmissionJOURNAL Submitted (06-SEP-2002) University of California Berkeley,

    539 LifeSciences Addition, Berkeley, CA 94720, USA

    REFERENCE 7 (bases 1 to 189)AUTHORS Adams,M.D., Celniker,S.E., Gibbs,R.A., Rubin,G.M. and

    Venter,C.J.TITLE Direct SubmissionJOURNAL Submitted (21-MAR-2000) Celera Genomics, 45 West Gude

    Drive, Rockville, MD 20850, USACOMMENT PROVISIONAL REFSEQ: This record has not yet been subject

    to finalNCBI review. The reference sequence was derived fromAE014135.COMPLETENESS: full length.

    FEATURES Location/Qualifierssource 1..189

    /organism="Drosophila melanogaster"/mol_type="genomic DNA"/db_xref="taxon:7227"/chromosome="4"

    Figura 3.7: Parte da seqncia do gene ey da drosfila no formato GenBank. Modificada na adap-tao para a impresso.

    24

  • gene 189/gene="ey"/locus_tag="CG1464"/note="eyeless; synonyms: Ey, eye, EYEL, Pax6, CG1464,DPax-6, l(4)33, l(4)102CDh, l(4)102CDr"/map="102D6-102E1"/db_xref="FLYBASE:FBgn0005558"/db_xref="GeneID:43812"

    mRNA 1..>189/gene="ey"/locus_tag="CG1464"/product="CG1464-RB"/transcript_id="NM_166789.1"/db_xref="GI:24638703"/db_xref="FLYBASE:FBgn0005558"/db_xref="GeneID:43812"

    CDS 1..>189/gene="ey"/locus_tag="CG1464"/codon_start=1/protein_id="NP_524628.2"/db_xref="GI:24638702"/db_xref="FLYBASE:FBgn0005558"/db_xref="GeneID:43812"

    CDS 1..>189/gene="ey"/locus_tag="CG1464"/codon_start=1/protein_id="NP_726607.1"/db_xref="GI:24638704"/db_xref="FLYBASE:FBgn0005558"/db_xref="GeneID:43812"

    ORIGIN1 gagctggccg ccccgtcact attccggatc ttggtacccc acctctctta gcgaaatacc

    61 catctcatcg gctcccaata tcgcatccgt tacggcgtat gcatcaggac cttcacttgc121 tcactcactg agtccaccca acgacatcga aagcctggcc agtatcggtc accagagaaa181 ctgccccgt

    //

    Figura 3.8: Continuao da seqncia do gene ey da drosfila no formato GenBank. Modificada naadaptao para a impresso.

    25

  • 26

  • Captulo 4

    BLAST - Basic Local AlignmentTool

    O volume de dados contidos nos repositrios pblicos enorme e continua cres-cendo. impressindvel, portanto, que haja alguma ferramenta que facilite o pro-cesso de comparao de uma nova seqncia com as seqncias j conhecidas.

    Dentre as ferramentas existentes destaca-se o BLAST (Basic Local AlignmentTool), que a ferramenta mais popular de comparao de seqncias de DNAcom os bancos de dados genmicos [Santos & Queiroga (2003)].

    Por ser uma ferramenta livre para uso no-comercial, pode-se encontrar di-ferentes implementaes do BLAST. A mais conhecida a NCBI-BLAST doNational Center for Biotechnology Information. Outra muito conhecida a WU-BLAST1 da Universidade de Washington [Higa (2001)]. Uma comparao entreos parmetros das verses WU e NCBI do BLAST pode ser vista no site do WU-BLAST2.

    Um centro de pesquisa, ou mesmo algum pesquisador, pode optar por imple-mentar localmente o BLAST. Mas isso no uma prtica comum. Neste captulo, aimplementao o NCBI-BLAST foi escolhida. A utilizao do BLAST ilustradaem um alinhamento dos genes eyeless e aniridia. Alm disso, parte da estruturade diretrios e de alguns cdigos-fontes analisada.

    O BLAST constitudo na verdade de uma srie de programas. Segundo[Higa (2001)], so eles:

    blastp, para comparao de seqncias de aminocidos em bancos de dadosde protenas;

    1http://blast.wustl.edu/blast/2http://blast.wustl.edu/blast/cparms.html

    27

  • blastn, para comparao de seqncias de nucleotdeos em bancos de dadosde DNA;

    blastx, para comparao de uma seqncia de nucletotdeo transladada emtodos os ORFs (Open Reading Frames) com bancos de dados de protenas;

    tblastn, para comparao de seqncia de protena com um banco de dadosde seqncias de nucleotdeos dinamicamente transladados em todos os seusORFs e;

    tblastx, para comparar os ORFs de uma seqncia de nucleotdeos com osORFs de todos os nucleotdeos em um banco de dados de nucleotdeos.

    O pacote dos cdigos-fontes contm tambm alguns arquivos que servem ape-nas para fornecer uma interface mais amigvel ao pesquisador. O sub-diretriowwwblast traz, por exemplo, rotinas CGI (Common Gateway Interface) e arqui-vos HTML para prover a o acesso ao BLAST via browser.

    Como exemplo de utilizao do BLAST, simulou-se aqui uma pesquisa decomparao entre os genes eyeless e aniridia em busca de similaridades signi-cantes.

    Para comparar duas seqncias especcas com o BLAST no NCBI, deve-se utilizar a interface prpria para comparao de duas seqncias3 . A Figura4.1 mostra a pgina do Blast 2 sequences do NCBI. Na gura, j se v as duasseqncias lanadas pelo pesquisador - foram utilizadas as seqncias dos genes:eyeless e aniridia.

    A Figura 4.2 mostra uma pgina equivalente disponibilizada no Swiss-Prot4.Trata-se de uma implementao escrita em Perl. As seqncias do eyeless e doaniridia tambm foram alinhadas atravs do Swiss-Prot para efeitos de compara-o do comportamento das duas ferramentas. Foi necessrio retirar as linhas decomentrio para inserir as seqncias como seqncias fornecidas pelo usurio.

    Foram utilizados os mesmo parmetros nos dois portais (NCBI e Swiss-Prot).Os resultados foram bastante similares. A Figura 4.3 mostra o resultado obtidono NCBI e a Figura 4.4 exibe o resultado obtido com pelo Swiss-Prot. No NCBI,as similaridades so demarcadas atravs de uma linha entre as duas linhas refe-rentes s duas seqncias submetidas para o alinhamento. Para cada similaridadeencontrada ocorre a impresso da letra referente ao monmero. Nos resultadosfornecidos atravs do Swiss-Prot, as similaridades so apontadas atravs de umaterceira linha, abaixo das duas seqncias alinhadas, onde aparece um * (asterisco)para cada similaridade encontrada.

    3http://www.ncbi.nlm.nih.gov/blast/bl2seq/bl2.html4http://us.expasy.org/tools/sim-prot.html

    28

  • Figura 4.1: Comparando as seqncias do gene eyeless com o gene aniridia no BLAST atravs doportal do NCBI.

    29

  • Figura 4.2: Comparando as seqncias do gene eyeless com o gene aniridia no BLAST atravs doportal do Swiss-Prot.

    30

  • Figura 4.3: Resultado da comparao entre o gene eyeless com o gene aniridia.

    31

  • Figura 4.4: Resultado da comparao entre o gene eyeless com o gene aniridia.

    32

  • Para efetuar uma breve anlise da estrutura do BLAST, obteve-se o pacotecom os cdigos-fontes das ferramentas do NCBI - ncbi-tools. Esse pacote estdisponvel no servidor FTP5 do NCBI via FTP annimo. O pacote est disponvelno arquivo ncbi.tar.gz .

    As ferramentas esto escritas em linguagem C. E cada arquivo .c ou .h apre-senta uma descrio de sua funo, bem como um relatrio completo de suas revi-ses.

    A maior parte do cdigo-fonte das ferramentas est localizada no subdiretriotools - tanto os headers como os arquivos principais. A Figura 4.5 ilustra aestrutura de diretrios do pacote descompactado. A Figura 4.6 exibe o contedodo sub-diretrio network .

    $ls -Faccess/ build/ corelib/ gif/ READMEalgo/ build.me* ctools/ include/ README.htmapi/ build.me64* data/ lib/ regexp/asn/ cdromlib/ ddv/ link/ sequin/asnlib/ checkout.date demo/ make/ tools/asnstat/ cn3d/ desktop/ network/ util/bin/ config/ doc/ object/ VERSIONbiostruc/ connect/ errmsg/ platform/ vibrant/

    Figura 4.5: Contedo do arquivo ncbi.tar.gz descompactado.

    apple/ entrez/ medarch/ nsdemocl/ spell/ vibnet/blast3/ id1arch/ netmanag/ pcnfs/ suggest/ wwwblast/encrypt/ id2arch/ nsclilib/ socks/ taxon1/

    Figura 4.6: Contedo do sub-diretrio network.

    Os arquivos que disponibilizam a interface Web para o acesso ferramentaesto localizados no sub-diretrio network/wwwblas t . A Figura 4.7 exibe ocontedo deste sub-diretrio.

    5ftp://ftp.ncbi.nih.gov/

    33

  • blast.cgi* megablast_cs.html rpsblast_cs.htmlblast_cs.cgi* megablast.html rpsblast.htmlblast_cs.html ncbi_blast.rc rpsblast.logblast.html psiblast.cgi* rpsblast.rcblast.rc psiblast_cs.cgi* Src/config_setup.pl psiblast_cs.html wblast2.cgi*data/ psiblast.html wblast2_cs.cgi*db/ psiblast.log wblast2_cs.htmldiscontiguous.html psiblast.rc wblast2.htmldocs/ readme.html wwwblast.logimages/ README.rpsindex.html readme.txt

    Figura 4.7: Contedo do sub-diretrio network/wwwblast.

    No sub-diretrio network/wwwblast encontra-se tanto os arquivos HTMLcomo os arquivos CGI (Common Gateway Interface). A pgina padro, denidapelo arquivo index.html , exibe apenas os links para os diversos programas:

    * Regular BLAST without client-server support* Regular BLAST with client-server support* PSI/PHI BLAST without client-server support* PSI/PHI BLAST with client-server support* Mega BLAST without client-server support* Mega BLAST with client-server support* RPS BLAST without client-server support* RPS BLAST with client-server support* BLAST 2 sequences without client-server support* BLAST 2 sequences with client-server support* Readme file

    O arquivo blast.html exibe a interface Web para acesso ao BLAST con-tendo um formulrio HTML bastante simplicado. O acesso ao BLAST feito viaCGI pelo arquivo blast.cgi :

    A pgina inicial para submeter uma seqncia para alinhamento atravs doBLAST o arquivo blast.html .

    34

  • A pgina referente ao Blast 2 sequences, utilizada no experimento do alinha-mento do eyeless e aniridia, denida pelo arquivo wblast2.html . Este, porsua vez, utiliza o arquivo de CGI wblast2.cgi .

    Blast 2 Sequences

    At mesmo o contedo do Entrez est disponvel no pacote. Os respectivosarquivos encontram-se no sub-diretrio network/entrez/ cl ien t .

    $ls network/entrez/client/ -F

    netentr.asn netentr.h netlib.h objneten.cnetentr.c netlib.c netpriv.h objneten.h

    As matrizes BLOSUM e PAM, que so utilizadas no processo de alinhamento,conforme a congurao do usurio, esto localizadas no sub-diretrio data .

    $ more data/BLOSUM62# Matrix made by matblas from blosum62.iij# * column uses minimum score# BLOSUM Clustered Scoring Matrix in 1/2 Bit Units# Blocks Database = /data/blocks_5.0/blocks.dat# Cluster Percentage: >= 62# Entropy = 0.6979, Expected = -0.5209

    A R N D C Q E G H I L K M F P S T W Y V B Z X *A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4

    35

  • V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

    A licena, segundo a qual as ferramentas do NCBI so disponibilizadas, apa-rece logo no incio de todos os arquivos.

    * ========================================== ======= ====== ======= ======= ===

    *

    * PUBLIC DOMAIN NOTICE* National Center for Biotechnology Information*

    * This software/database is a "United States Government Work" under the* terms of the United States Copyright Act. It was written as part of* the authors offical duties as a United States Government employee and* thus cannot be copyrighted. This software/database is freely available* to the public for use. The National Library of Medicine and the U.S.* Government have not placed any restriction on its use or reproduction.*

    * Although all reasonable efforts have been taken to ensure the accuracy* and reliability of the software and data, the NLM and the U.S.* Government do not and cannot warrant the performance or results that* may be obtained by using this software or data. The NLM and the U.S.* Government disclaim all warranties, express or implied, including* warranties of performance, merchantability or fitness for any particular* purpose.*

    * Please cite the author in any work or product based on this material.*

    * ========================================== ======= ====== ======= ======= ===*/

    Dados sobre o cdigo, tais como autor, data de criao, verso da reviso edescrio ou funo do programa, tambm esto sempre presentes.* File Name: $RCSfile: wwwblast.c,v $*

    * Author: Sergei Shavirin*

    * Initial Creation Date: 03/15/2000*

    * $Revision: 1.13 $*

    * File Description:* Standalone WWW Blast CGI program.

    36

  • Captulo 5

    ClustalW e ClustalX

    O ClustalW a verso Web de um dos programas de alinhamento mltiplo maisutilizados (Clustal) [Prosdocimi et tal (2003)]. O ClustalX nada mais do queuma interface grca (X Window) para o ClustalW.

    A Figura 5.1 mostra o alinhamento de cinco seqncias proticas obtido como ClustalW, executado localmente. As seqncias utilizadas representam um casoreal de estudo de seqncias de protenas repressoras de imunidade. Todos osprocedimentos empregados esto apresentados ao longo da presente seo desdea obteno das seqncias em um banco de dados pblicos at a obteno do ali-nhamento. A Figura 5.2 mostra o mesmo alinhamento obtido com o ClustalXexecutado localmente. Foi utilizado o mesmo arquivo de entrada usado para oalinhamento com o ClustalW.

    37

  • CLUSTAL W (1.82) multiple sequence alignment

    sp|P13772|IMMF_BPPH1 --LDGKKLGALIKDKRKEKHLKQTEMAKALGMSRTYLSDIEN GRsp|P06153|RPC_BPPH1 -----MTVGQRIKAIRKERKLTQVQLAEKANLSRSYLADIER DRsp|P06966|DICA_ECOLI METKNLTIGERIRYRRKNLKHTQRSLAKALKISHVSVSQWER GDsp|P03035|RPC2_BPP22 --MNTQLMGERIRARRKKLKIRQAALGKMVGVSNVAISQWER SEsp|P04132|RPC_BPP2 ---MSNTISEKIVLMRKSEYLSRQQLADLTGVPYGTLSYYES GR

    . :. * **. : :.. :. :: * .

    sp|P13772|IMMF_BPPH1 LDLNVLKMTEIQVVEE-GGYDR-------------------- --sp|P06153|RPC_BPPH1 IQVSAIVGEETLIKEEQAEYNS-------------------- --sp|P06966|DICA_ECOLI CSPTWILFGDEDKQPTPPVEKP-------------------- --sp|P03035|RPC2_BPP22 CSPDYLLKGDLSQTNVAYHSRHEPRGSYPLISWVSAGQWMEA VEsp|P04132|RPC_BPP2 FTKYTLWFMTNQIAPEFGQIAP-------------------- --

    :

    sp|P13772|IMMF_BPPH1 -------------AAG---TCRRQAL---------------- --sp|P06153|RPC_BPPH1 -------------KEEKDIAKRMEEIRKDLEKSDGLSFSGEP MSsp|P06966|DICA_ECOLI -------------VALSPKELELLELFNALPESEQDTQLAEM R-sp|P03035|RPC2_BPP22 CSEDSFWLDVQGDSMTAPAGLSIPEGMIILVDPEVEPRNGKL VVsp|P04132|RPC_BPP2 -------------------ALAHFGQ-NETTSPHSGQKTG-- --

    .. ..

    sp|P13772|IMMF_BPPH1 --------------------------------------sp|P06153|RPC_BPPH1 QTQRINKKYTPKKYRNDDQE------------------sp|P06966|DICA_ECOLI ARQRTNKR------------------------------sp|P03035|RPC2_BPP22 DAGRKFLKPLNPQYPMIEINGNCKIIGVVVDAKLANLPsp|P04132|RPC_BPP2 --------------------------------------

    Figura 5.1: O alinhamento de cinco protenas no ClustalW.

    Alternativamente, o ClustalW pode ser utilizado via internet atravs de algunssites que disponibilizam a ferramenta mediante uma interface Web. Mas o pro-cesso de obteno, instalao e utilizao local das ferramentas bastante simples.E isso que passa a ser descrito neste captulo.

    5.1 Obtendo e instalando o ClustalW e o ClustalXO ClustalW e o ClustalX podem ser obtidos facilmente na internet em diferentesformatos binrios (.deb, .rpm, tar.gz etc.)1. Pode-se optar tambm por obter ocdigo fonte e compilar o pacote.

    1Pacotes Debian, por exemplo, podem ser obtidos em:http://packages.qa.debian.org/c/clustalw-mpi.html

    38

  • Figura 5.2: O alinhamento de protenas no ClustalX

    A instalao do ClustalX requer o ClustalW alm de outros pacotes NCBI.Por isso, a instalao do ClustalX normalmente j traz junto o ClustalW. Comefeito, isso se mostrou verdadeiro tanto na verso ocial em formato tar.gz comotambm na verso do projeto Debian. A Figura 5.3 ilustra a instalao do pacoteclustalx via apt-get .

    # apt-get install clustalxLendo Lista de Pacotes... ProntoConstruindo rvore de Dependncias... ProntoOs pacotes extra a seguir sero instalados:clustalw libncbi6 libvibrant6 ncbi-data ncbi-tools6 vibrant6

    Suggested packages:seaview

    Os NOVOS pacotes a seguir sero instalados:clustalw clustalx libncbi6 libvibrant6 ncbi-data ncbi-tools6vibrant6

    0 pacotes atualizados, 7 novos instalados, 0 a serem removidos e422 no atualizados.

    precis fazer o download de 5752kB de arquivos.Depois de desempacotar, 16,9MB adicionais de espao em disco serousados.Quer continuar? [S/n]

    39

  • Figura 5.3: Instalao dos programas ClustalX/ClustalW e dependncias.

    5.2 Sobre a licena do ClustalW/ClustalX

    Apesar de serem programas de cdigo aberto, o ClustalW e o ClustalX no seenquadram como software livre. A licena segundo a qual so disponibilizadosapresenta uma restrio: para poder distribuir uma verso alterada do programa preciso requerer autorizao dos autores. importante salientar que isso valetambm para os pacotes derivados do ClustalW e ClustalX distribudos pela De-bian2. As Figuras 5.4, 5.5 e 5.6 ilustram a licena contida no pacote distribudopela Debian.

    This package was debianized by Andreas Tille on

    Sat, 27 Oct 2001 22:16:53 +0200

    It was downloaded from:

    ftp://ftp-igbmc.u-strasbg.fr/pub/ClustalX / andftp://ftp-igbmc.u-strasbg.fr/pub/ClustalW /

    while the source was merged to one common upstream source(see README.Debian)

    Authors:

    Toby Gibson Julie Thompson Des Higgins

    Copyright:

    Non-free. You cannot distribute it at will.Licence included here:

    Figura 5.4: Licena do ClustalW no pacote distribudo pela Debian - parte 1.

    2http://packages.debian.org/unstable/science/

    40

  • **********************

    LICENCE FOR CLUSTAL W**********************

    Clustal W (hereafter "the program") is copyright (c) 1994-1998by Julie D. Thompson, Desmond G. Higgins and Toby J. Gibson.

    Permission is granted to copy, distribute and use the programprovided no fee is charged for it and provided that this copyrightand licence notice is not removed or altered.

    The full source code of the program is provided free. You should notdistribute a modified version of the program without obtaining thepermission of the authors. You must keep the original copyright andlicence notice. You must also document clearly the modifications youhave made. You must make clear that this is not the original version.

    Commercial distributors of Clustal W are requested to contact theClustal W authors in order to take out a non-exclusive licence. Seethe README file included with Clustal W for a rationale.

    You should understand that this software is provided as-is. The authorsmake no claims towards its suitability for any purpose and acceptabsolutely no liability for any damages the program may cause. Use atyour own risk.

    * End of licence

    Figura 5.5: Licena do ClustalW no pacote distribudo pela Debian - parte 2.

    41

  • Special authorization for Debian:

    From: "Toby Gibson" Date: Thu, 17 Dec 1998 14:37:02 +0100To: Stephane Bortzmeyer Subject: Re: Fwd: clustalw_1.7-4_i386.changes REJECTED

    Hi Stephane,

    Now that we have thought about it, I dont think we can meet yourstricter free criterion. There are already several companies whobundle Clustal W in sequence analysis packages and so are effectivelyselling it. They have paid for non-exclusive licences even thoughanyone can get the program for free: but they must have a multiplealignment engine, so we might as well earn some money which we canput toward further development.

    I think the main thing is to allow the distribution at all by Debian.We seem to have reached this point.

    Please do include this licence in the Debian package and I hope therelease can go smoothly from now on.

    Figura 5.6: Licena do ClustalW no pacote distribudo pela Debian - parte 3.

    5.3 Alinhamento Mltiplo no ClustalW

    O uso do ClustalW em um problema de alinhamento mltiplo apresentado nessaseo, seguindo um exerccio proposto por [Tekaia (1996)]. Neste exerccio, dife-rentes protenas repressoras so comparadas pela tcnica de alinhamento mltiplo.As seqncias alinhadas foram:

    dica_ecoli

    immf_bpph1

    rpc_bpph1

    rpc_bpp2

    rpc2_bpp22

    42

  • As seqncias foram obtidas no SwissProt3. Passos para obteno das seqn-cias no formato FASTA atravs do SwissProt:

    1. Utilizar a ferramenta de busca do prprio SwissProt. Procurar por dica_ecoli.

    2. No nal da pgina sobre a protena pesquisada, o pesquisador encontra umlink entitulado # in FASTA format, onde # o Primary accession number.

    3. Surgir uma janela contendo apenas a seqncia requisitada em formatoFASTA. Salvar a seqncia em um arquivo e repetir o processo para as de-mais seqncias.

    A metodologia empregada aqui na obteno das seqncias propostas diferedaquela descrita por [Tekaia (1996)], mas os dados obtidos so exatamente os mes-mos, fato constatado com a utilizao do comando diff .

    Para submeter seqncias ao ClustalW, deve-se preparar um arquivo, textocontendo as seqncias em um dos formatos vlidos [Tekaia (1996)]. Todas asseqncias devem estar contidas no mesmo arquivo uma aps a outra. A Figura5.7 ilustra um exemplo de arquivo de entrada com seqncias no formato FASTA.O arquivo foi gerado a partir das seqncias obtidas na consulta ao SwissProt.

    Nas verses anteriores verso 1.7 do ClustalW, j eram aceitos seis formatosde arquivos de entrada: FASTA (Pearson), NBRF/PIR, EMBL/Swiss Prot, GDE,CLUSTAL, GCG/ MSF. Na verso 1.7, foi acrescentado o suporte ao formato RSF,usado pela verso 9 do GCG.

    A descrio de cada um dos formatos vlidos para as seqncias de entradafoge ao escopo deste trabalho. Sua citao feita aqui para destacar a importnciado conhecimento desses formatos por parte do pesquisador.

    Para cada um dos formatos, existe uma determinao quanto ao primeiro carac-ter ou palavra que deve aparecer no arquivo. A Tabela 5.1 apresenta as deniespara cada tipo de formato. Na verso original do ClustalW, arquivos no formatoGCG/MSF tinham que ser iniciados com a palavra PILEUP. A partir da verso1.7, o arquivo pode ser iniciado por: PILEUP, !!AA_MULTIPLE_ALIGNMENT,!!NA_MULTIPLE_ALIGNMENT ou ainda pelos caracteres MSF. Neste ltimocaso, deve-se ter os caracteres .. (dois pontos seguidos) no nal da linha.

    No necessrio explicitar ao ClustalW (ou ao ClustalX) qual o formato doarquivo de entrada. O prprio programa identica isso de acordo com os carac-teres iniciais do arquivo. Todas as seqncias no arquivo devem estar no mesmoformato.

    Tambm no necessrio explicitar o tipo de seqncias: cidos nuclicos(DNA/RNA) ou aminocidos (protenas). O prprio programa identica isso.

    3http://us.expasy.org/

    43

  • Tabela 5.1: Formatos de entrada possveis para o ClustalW e os repectivos caracteres iniciais.

    Formato de arquivo Caracter ou string inicialFASTA >NBRF >P1; ou >D1;EMBL/SWISS IDGDE protein %GDE nucleotide #CLUSTAL CLUSTALGCG/MSF PILEUP ou

    !!AA_MULTIPLE_ALIGNMENT ou!!NA_MULTIPLE_ALIGNMENT ouMSF (finalizando a primeira linha com ..)

    >sp|P06966|DICA_ECOLI HTH-type transcriptional regulator dicA (RepreMETKNLTIGERIRYRRKNLKHTQRSLAKALKISHVSVSQWERGDSE PTGKNLF ALSKVL QCSPTWILFGDEDKQPTPPVEKPVALSPKELELLELFNALPESEQDT QLAEMRA RVKNFN KLFEELLKARQRTNKR>sp|P13772|IMMF_BPPH1 ImmF control region 10 kDa protein - BacteriopLDGKKLGALIKDKRKEKHLKQTEMAKALGMSRTYLSDIENGRYLPS TKTLSRI AILINL DLNVLKMTEIQVVEEGGYDRAAGTCRRQAL>sp|P06153|RPC_BPPH1 Immunity repressor protein - Bacteriophage phi-MTVGQRIKAIRKERKLTQVQLAEKANLSRSYLADIERDRYNPSLST LEAVAGA LGIQVS AIVGEETLIKEEQAEYNSKEEKDIAKRMEEIRKDLEKSDGLSFSGEP MSQEAVE SLMEAM EHIVRQTQRINKKYTPKKYRNDDQE>sp|P04132|RPC_BPP2 Repressor protein C - Bacteriophage P2.MSNTISEKIVLMRKSEYLSRQQLADLTGVPYGTLSYYESGRSTPPT DVMMNIL QTPQFT KYTLWFMTNQIAPEFGQIAPALAHFGQNETTSPHSGQKTG>sp|P03035|RPC2_BPP22 Repressor protein C2 - Bacteriophage P22, *MNTQLMGERIRARRKKLKIRQAALGKMVGVSNVAISQWERSETEPN GENLLAL SKALQC SPDYLLKGDLSQTNVAYHSRHEPRGSYPLISWVSAGQWMEAVEPYHK RAIENWH DTTVDC SEDSFWLDVQGDSMTAPAGLSIPEGMIILVDPEVEPRNGKLVVAKLE GENEATF KKLVMD AGRKFLKPLNPQYPMIEINGNCKIIGVVVDAKLANLP

    Figura 5.7: Exemplo de arquivo de entrada para o ClustalW. Algumas linhas foram truncadas parafins de impresso.

    44

  • Seguindo com a execuo do exerccio proposto por [Tekaia (1996)], o pro-grama ClustalW foi iniciado.

    $ clustalw

    ******************************************* ******* ****** ******

    ******** CLUSTAL W (1.82) Multiple Sequence Alignments *************************************************** ******* ****** ******

    1. Sequence Input From Disc2. Multiple Alignments3. Profile / Structure Alignments4. Phylogenetic trees

    S. Execute a system commandH. HELPX. EXIT (leave program)

    Your choice: 1

    Inicialmente, escolhe-se a opo 1 para explicitar o arquivo de entrada, previ-amente preparado.

    Sequences should all be in 1 file.

    7 formats accepted:NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF, RSF.

    Enter the name of the sequence file: repr.pep

    O programa pede o nome do arquivo de entrada com as seqncias, repr.pep ,no exemplo.

    Sequence format is PearsonSequences assumed to be PROTEIN

    Sequence 1: dica_ecoli 135 aaSequence 2: immf_bpph1 89 aaSequence 3: rpc_bpph1 144 aaSequence 4: rpc_bpp2 99 aaSequence 5: rpc2_bpp22 216 aa

    ******************************************* ******* ****** ******

    45

  • ******** CLUSTAL W (1.82) Multiple Sequence Alignments *************************************************** ******* ****** ******

    1. Sequence Input From Disc2. Multiple Alignments3. Profile / Structure Alignments4. Phylogenetic trees

    S. Execute a system commandH. HELPX. EXIT (leave program)

    Your choice: 2

    O formato do arquivo de entrada identicado pelo prprio programa e o ta-manho de cada seqncia calculado. O menu principal volta a aparecer. Agoraque as seqncias j foram lidas, pode-se optar pelo alinhamento mltiplo das mes-mas (opo 2 do menu principal). Surge o submenu relacionado com alinhamentomltiplo.

    ****** MULTIPLE ALIGNMENT MENU ******

    1. Do complete multiple alignment now (Slow/Accurate)2. Produce guide tree file only3. Do alignment using old guide tree file

    4. Toggle Slow/Fast pairwise alignments = SLOW

    5. Pairwise alignment parameters6. Multiple alignment parameters

    7. Reset gaps before alignment? = OFF8. Toggle screen display = ON9. Output format options

    S. Execute a system commandH. HELPor press [RETURN] to go back to main menu

    Your choice:

    Antes de proceder com o alinhamento, interessante vericar os parmetrosque sero usados. Para tratar disso, necessrio antes um breve comentrio so-bre como o alinhamento mltiplo realizado pelo programa. O algoritmo do

    46

  • ClustalW produz inicialmente um alinhamento par-a-par entre as seqncias. Apartir da, o programa gera um arquivo com dados sobre a rvore logentica comas seqncias envolvidas. Analisando a logentica do conjunto de seqncias,o algoritmo realiza automaticamente o alinhamento mltiplo. Os parmetros usa-dos no alinhamento par-a-par podem ser congurados atravs da opo 5 do menuMULTIPLE ALIGNMENT. E os parmetros usados no alinhamento mltiplo pro-priamente dito, podem ser visualizados e alterados atravs da opo 6 do menuMULTIPLE ALIGNMENT. O sub-menu PAIRWISE ALIGNMENT PARAMETERSque apresenta as conguraes para os alinhamentos par-a-par exibido da se-guinte forma:

    ********* PAIRWISE ALIGNMENT PARAMETERS *********

    Slow/Accurate alignments:

    1. Gap Open Penalty :10.002. Gap Extension Penalty :0.103. Protein weight matrix :Gonnet series4. DNA weight matrix :IUB

    Fast/Approximate alignments:

    5. Gap penalty :36. K-tuple (word) size :17. No. of top diagonals :58. Window size :5

    9. Toggle Slow/Fast pairwise alignments = SLOW

    H. HELP

    Enter number (or [RETURN] to exit):

    O sub-menu MULTIPLE ALIGNMENT PARAMETERS que apresenta as con-guraes para o alinhamento mltiplo exibido da seguinte forma:

    ********* MULTIPLE ALIGNMENT PARAMETERS *********

    1. Gap Opening Penalty :10.002. Gap Extension Penalty :0.203. Delay divergent sequences :30 %

    4. DNA Transitions Weight :0.50

    5. Protein weight matrix :Gonnet series

    47

  • 6. DNA weight matrix :IUB7. Use negative matrix :OFF

    8. Protein Gap Parameters

    H. HELP

    Enter number (or [RETURN] to exit):

    Neste momento, interessante observar que a verso do ClustalW utilizadaaqui, verso 1.8, apresenta algumas diferenas em relao verso 1.4 do pro-grama, utilizada por [Tekaia (1996)]. Alm de apresentar alguns parmetros eopes a mais, a verso 1.8 traz alguns valores padres diferentes da verso 1.4.

    Assim, para que o resultado obtido no exemplo proposto que mais prximodo resultado apresentado por [Tekaia (1996)], deve-se observar atentamente cadaparmetro que foi utilizado pelo autor.

    A exata compreeno do signicado de cada parmetro fundamental para osucesso da pesquisa. Quanto operacionalizao, a congurao dos parmetrosse mostra bastante intuitiva.

    A escolha do formato de sada desejado denida atravs da opo 9 (Outputformat options) do menu MULTIPLE ALIGNMENT MENU. possvel optar pormais de um formato de sada.

    ****** MULTIPLE ALIGNMENT MENU ******

    1. Do complete multiple alignment now (Slow/Accurate)2. Produce guide tree file only3. Do alignment using old guide tree file

    4. Toggle Slow/Fast pairwise alignments = SLOW

    5. Pairwise alignment parameters6. Multiple alignment parameters

    7. Reset gaps before alignment? = OFF8. Toggle screen display = ON9. Output format options

    S. Execute a system commandH. HELPor press [RETURN] to go back to main menu

    Your choice: 9

    48

  • ********* Format of Alignment Output *********

    1. Toggle CLUSTAL format output = ON2. Toggle NBRF/PIR format output = OFF3. Toggle GCG/MSF format output = ON4. Toggle PHYLIP format output = OFF5. Toggle NEXUS format output = OFF6. Toggle GDE format output = OFF

    7. Toggle GDE output case = LOWER8. Toggle CLUSTALW sequence numbers = OFF9. Toggle output order = ALIGNED

    0. Create alignment output file(s) now?

    T. Toggle parameter output = OFF

    H. HELP

    Enter number (or [RETURN] to exit):

    Aps denir todos os parmetros desejados, pode-se iniciar o alinhamentoatravs da opo 1 (Do complete multiple alignment now) do menu MULTIPLEALIGNMENT MENU.

    ****** MULTIPLE ALIGNMENT MENU ******

    1. Do complete multiple alignment now (Slow/Accurate)2. Produce guide tree file only3. Do alignment using old guide tree file

    4. Toggle Slow/Fast pairwise alignments = SLOW

    5. Pairwise alignment parameters6. Multiple alignment parameters

    7. Reset gaps before alignment? = OFF8. Toggle screen display = ON9. Output format options

    S. Execute a system commandH. HELPor press [RETURN] to go back to main menu

    Your choice: 1

    O programa pede ento para que o usurio fornea um nome para cada arquivode sada. Alm de um arquivo para cada formato ativado no menu Format of

    49

  • Alignment Output, tambm criado um arquivo .dnd com as informaes para aconstruo da rvore gentica.

    O alinhamento par-a-par realizado e suas respectivas pontuaes calculadas.A partir dessas pontuaes, o programa constri o arquivo .dnd e inicia o alinha-mento mltiplo.

    Enter a name for the CLUSTAL output file [repr.aln]:Enter a name for the GCG/MSF output file [repr.msf]:

    Enter name for new GUIDE TREE file [repr.dnd]:

    Start of Pairwise alignmentsAligning...Sequences (1:2) Aligned. Score: 17Sequences (1:3) Aligned. Score: 21Sequences (1:4) Aligned. Score: 16Sequences (1:5) Aligned. Score: 27Sequences (2:3) Aligned. Score: 29Sequences (2:4) Aligned. Score: 19Sequences (2:5) Aligned. Score: 15Sequences (3:4) Aligned. Score: 12Sequences (3:5) Aligned. Score: 11Sequences (4:5) Aligned. Score: 11Guide tree file created: [repr.dnd]Start of Multiple AlignmentThere are 4 groupsAligning...Group 1: DelayedGroup 2: DelayedGroup 3: DelayedGroup 4: DelayedSequence:3 Score:563Sequence:1 Score:887Sequence:5 Score:1063Sequence:4 Score:360Alignment Score 449

    A ordem em que as seqncias so exibidas nos arquivos de alinhamento, de-nida pelo parmetro Toggle output order do menu Format of Alignment Output.Aqui, optou-se por imprimir as seqncias na ordem em que as seqncias foramalinhadas segundo o guia para a rvore no arquivo .dnd. Essa a opo padro daverso 1.8 do ClustalW. Ela faz com que as seqncias sejam agrupadas conformeseu grau de relacionamento. No tutorial de [Tekaia (1996)], as seqncias foramimpressas no arquivo de sada na mesma ordem que aparecem no arquivo de en-trada. Essa alternativa selecionada escolhendo-se o valor INPUT FILE para oparmetro Toggle output order do menu Format of Alignment Output.

    50

  • Consensus length = 218CLUSTAL-Alignment file created [repr.aln]GCG/MSF-Alignment file created [repr.msf]

    CLUSTAL W (1.82) multiple sequence alignment

    immf_bpph1 --LDGKKLGALIKDKRKEKHLKQTEMAKALGMSRTYLSDIE NGRYLPS TKTLSRI AILINrpc_bpph1 -----MTVGQRIKAIRKERKLTQVQLAEKANLSRSYLADIE RDRYNPS LSTLEAV AGALGdica_ecoli METKNLTIGERIRYRRKNLKHTQRSLAKALKISHVSVSQWE RGDSEPT GKNLFAL SKVLQrpc2_bpp22 --MNTQLMGERIRARRKKLKIRQAALGKMVGVSNVAISQWE RSETEPN GENLLAL SKALQrpc_bpp2 ---MSNTISEKIVLMRKSEYLSRQQLADLTGVPYGTLSYYE SGRSTPP TDVMMNI LQTPQ

    . :. * **. : :.. :. :: * . * . : :

    immf_bpph1 LDLNVLKMTEIQVVEE-GGYDR------------------- ------- ------- -----rpc_bpph1 IQVSAIVGEETLIKEEQAEYNS------------------- ------- ------- -----dica_ecoli CSPTWILFGDEDKQPTPPVEKP------------------- ------- ------- -----rpc2_bpp22 CSPDYLLKGDLSQTNVAYHSRHEPRGSYPLISWVSAGQWME AVEPYHK RAIENWH DTTVDrpc_bpp2 FTKYTLWFMTNQIAPEFGQIAP------------------- ------- ------- -----

    :

    immf_bpph1 -------------AAG---TCRRQAL--------------- ------- ------- -----rpc_bpph1 -------------KEEKDIAKRMEEIRKDLEKSDGLSFSGE PMSQEAV ESLMEAM EHIVRdica_ecoli -------------VALSPKELELLELFNALPESEQDTQLAE MR--ARV KNFNKLF EELLKrpc2_bpp22 CSEDSFWLDVQGDSMTAPAGLSIPEGMIILVDPEVEPRNGK LVVAKLE GENEATF KKLVMrpc_bpp2 -------------------ALAHFGQ-NETTSPHSGQKTG- ------- ------- -----

    Press [RETURN] to continue or X to stop:

    fcil compreender a estrutura do arquivo .dnd e compreender a ordem se-guida no alinhamento. Basta uma rpida inspeo do contedo do arquivo. Pri-meiramente, ocorre o alinhamento dos pares:

    dica_ecoli:rpc2_bpp22 e immf_bpph1:rpc_bpph1.

    Em seguida ocorre o alinhamento mltiplo entre os dois alinhamentos j obti-dos e a seqncia que restou (rpc_bpp2).

    A ordem da impresso, para a opo output order = ALIGNED, segue emordem crescente dos fatores referentes aos alinhamentos dos pares (0.05245 e0.06317) cando a seqncia sem par por ltimo.

    # contedo do arquivo repr.dnd:

    ((dica_ecoli:0.33467,rpc2_bpp22:0.39125):0. 06317,(immf_bpph1:0.33596,rpc_bpph1:0.37191):0.0 5245,rpc_bpp2:0.43751

    );

    51

  • Sobre a metodologia empregada pelo ClustalW no alinhamento de seqncias,[Gibas & Jambeck (2001)] explicam: a heurstica usada no ClustalW se baseia naanlise filogentica.

    Ainda sobre a estratgia empregada no ClustalW, [Gibas & Jambeck (2001)]armam que ela produz alinhamentos razoveis em diversas condies. Entre-tanto, os autores enfatizam que tal estratgia no a prova de falhas, podendo apre-sentar resultados imprecisos no alinhamento e na anlise logentica de seqn-cias fracamente relacionadas. Apesar disso, o alinhamento par-a-par de seqn-cias por meio de programao dinmica muito preciso para seqncias forte-mente relacionadas, independentemente da matriz de pontuao ou dos valores depenalidades que sejam usados. Quanto ao caso de seqncias fracamente relacio-nadas, vale destacar ainda que a preciso do alinhamento par-a-par, empregado noClustalW, aumenta na medida em que se utiliza um nmero maior de seqncias.

    Como j armado, existem diversos parmetros envolvidos no alinhamentomltiplo de seqncias. importante que o pesquisador tenha uma boa compre-eno sobre matrizes de pontuao, valores de penalidade, pers etc. No ClustalW,os parmetros so denidos a partir de dois sub-menus: alm do Multiple Alignment(Alinhamentos Mltiplos), descrito brevemente nessa seo, existe o Profile StructureAlignment (Alinhamentos da estrutura dos pers). No ClustalX, os parmetros sodenidos a partir do menu suspenso Alignment (Alinhamento).

    52

  • Captulo 6

    O TEXshade

    O preparo de artigos apresentando resultados de alinhamento de seqncias cons-titue, geralmente, uma tarefa que pode ser dividida em duas partes. A primeira composta das rotinas de estudo das seqncias e obteno dos possveis ali-nhamentos. A segunda refere-se ao tratamento dos dados obtidos, ou seja, dosalinhamentos obtidos, de forma a obter uma boa impresso grca.

    O ClustalX, analisado no Captlo anterior, tem uma opo no menu File paragerar um arquivo de sada PostScript. Mas esse recurso no mostra a mesma e-xibilidade encontrada com a utilizao do TEXshade. Por exemplo, o resultado impresso em um arquivo PS parte e deve ser inserido no documento posteri-ormente. J com o TEXshade, a marcao do alinhamento gerada pelo prprioLATEX e pode, portanto, ser gerada pelo cdigo-fonte do prprio documento quecontm o relatrio, dissertao etc.

    Aliando o enorme poder de construco de macros, a grande exibilidade parautilizao de cores e o alto grau de qualidade grca do LATEX, Eric Beitz cons-truiu uma poderosa ferramenta, baseada unicamente em recursos do LATEX, comomacros e arquivos de estilo. Ele denominou esta ferramenta de TEXshade e a dis-ponibilizou segundo a GPL.

    O TEXshade um programa para criao de imagens de alinhamento de seqn-cias com qualidade grfica profissional.[Gibas & Jambeck (2001)]

    A ferramenta deve receber seqncias alinhadas como dados de entrada. Essasseqncias devem estar contidas em um nico arquivo texto. Esse arquivo podeapresentar-se em trs diferentes formatos: FASTA, MSF e ALN.

    O usurio pode construir diferentes sadas utilizando pers pr-denidos oucriando pers personalizados. O usurio tem ainda total liberdate na denio dascores de marcao de caractersticas do alinhamento.

    Para um dado alinhamento, possvel fazer marcaes diversas, conforme o

    53

  • interesse da pesquisa em andamento. possvel marcar apenas os resduos idnti-cos, ou ainda destacar especialmente os resduos idnticos que aparecem em todasas seqncias alinhadas. Se o pesquisador desejar, pode tambm optar por umamarcao que identique resduos proticos de acordo com suas funcionalidades:cidos; bases; polares; aromticos etc. O TEXshade permite ainda marcar regiesdo alinhamento, utilizar estruturas secundrias em arquivos nos formatos DSSP,STRIDE ou PHD, e muitos outros recursos.

    A ferramenta possui quatro modos de marcao pr-denidos: identical; si-milar; diverse e; functional. As Figuras 6.1, 6.2, 6.3 e 6.4 foram inseridas nessaseo para ilustrar algumas das possibilidades do TEXshade.

    54

  • 1 A T G G C C A G C G A A A T C A A G A A G A A G C AQP1nuc.SEQ1 A T G T G . . . . G G A A C T C A G . . . . . . . AQP2nuc.SEQ1 A T G . . . . . . . . A A C C . . . . . . . . G T AQP3nuc.SEQ1 A T G A G T G A C G G A G C T G C A G C G A G G C AQP4nuc.SEQ1 A T G A A A A A . G G A G G T G T G . . . . . . . AQP5nuc.SEQ

    ! ! ! * * ! * * * * * consensus

    26 . . . . . . . . . . . . . . . . . T C T T C T . . AQP1nuc.SEQ15 . . . . . . . . . . . . . . . . . . A T C C A T . AQP2nuc.SEQ10 T G C G G G G . A G A T G . . . . . C T C C . . . AQP3nuc.SEQ26 G G T G G G G T A A G T G T G G A C C T C C C T G AQP4nuc.SEQ18 . . . . . . . . . . . . . . . . . . C T C C C T . AQP5nuc.SEQ

    * ! * ! * consensus

    32 . . . . . . G G A G G G C . . T G T G G T G G C T AQP1nuc.SEQ21 . . . . . . . . . . . . . . . . . . . . . . . . . AQP2nuc.SEQ26 . . . . . . . . . . . A C A T C C . . . . . G C T AQP3nuc.SEQ51 C A G C A G A G A G A G C A T C A T G G T G G C T AQP4nuc.SEQ24 . . . . . . . . . . . . . . . . . . . . . . . . . AQP5nuc.SEQ

    * * * * consensus

    49 . . . . . G A G T T C C T G G C C A T G A . C C C AQP1nuc.SEQ21 . . . . . . . . . . . . . . . . . . . . A G C C T AQP2nuc.SEQ35 A C C G G . . . . . . C T G . . . . . . . . . C T AQP3nuc.SEQ76 T T C A A A G G C G T C T G G A C T C A A G C C T AQP4nuc.SEQ24 . . . . . . . . . . . . . . . . . . . . T G C C T AQP5nuc.SEQ

    * * * * * * ! * consensus

    68 T C T T C G . . . . . . . . . . . . . . AQP1nuc.SEQ26 T C T C C C G A G C A G T G C T G G C T AQP2nuc.SEQ45 T C G C C A . . . . G G C T C T G G C G AQP3nuc.SEQ101 T C T G G A A G G C G G T C A C A G C A AQP4nuc.SEQ29 T C T T C A A G G C G G T G T T C G C A AQP5nuc.SEQ

    ! ! * * * * * * * * * * * consensus

    Figura 6.1: Exemplo com modo: identical. O arquivo de entrada foi o arquivo de exemploAQPDNA.MSF que acompanha o pacote.

    55

  • 1 A T G G C C A G C G A A A T C A A G A A G A A G C AQP1nuc.SEQ1 A T G T G . . . . G G A A C T C A G . . . . . . . AQP2nuc.SEQ1 A T G . . . . . . . . A A C C . . . . . . . . G T AQP3nuc.SEQ1 A T G A G T G A C G G A G C T G C A G C G A G G C AQP4nuc.SEQ1 A T G A A A A A . G G A G G T G T G . . . . . . . AQP5nuc.SEQ

    ! ! ! * * ! * * * * * consensus

    26 . . . . . . . . . . . . . . . . . T C T T C T . . AQP1nuc.SEQ15 . . . . . . . . . . . . . . . . . . A T C C A T . AQP2nuc.SEQ10 T G C G G G G . A G A T G . . . . . C T C C . . . AQP3nuc.SEQ26 G G T G G G G T A A G T G T G G A C C T C C C T G AQP4nuc.SEQ18 . . . . . . . . . . . . . . . . . . C T C C C T . AQP5nuc.SEQ

    * ! * ! * consensus

    32 . . . . . . G G A G G G C . . T G T G G T G G C T AQP1nuc.SEQ21 . . . . . . . . . . . . . . . . . . . . . . . . . AQP2nuc.SEQ26 . . . . . . . . . . . A C A T C C . . . . . G C T AQP3nuc.SEQ51 C A G C A G A G A G A G C A T C A T G G T G G C T AQP4nuc.SEQ24 . . . . . . . . . . . . . . . . . . . . . . . . . AQP5nuc.SEQ

    * * * * consensus

    49 . . . . . G A G T T C C T G G C C A T G A . C C C AQP1nuc.SEQ21 . . . . . . . . . . . . . . . . . . . . A G C C T AQP2nuc.SEQ35 A C C G G . . . . . . C T G . . . . . . . . . C T AQP3nuc.SEQ76 T T C A A A G G C G T C T G G A C T C A A G C C T AQP4nuc.SEQ24 . . . . . . . . . . . . . . . . . . . . T G C C T AQP5nuc.SEQ

    * * * * * * ! * consensus

    68 T C T T C G . . . . . . . . . . . . . . AQP1nuc.SEQ26 T C T C C C G A G C A G T G C T G G C T AQP2nuc.SEQ45 T C G C C A . . . . G G C T C T G G C G AQP3nuc.SEQ101 T C T G G A A G G C G G T C A C A G C A AQP4nuc.SEQ29 T C T T C A A G G C G G T G T T C G C A AQP5nuc.SEQ

    ! ! * * * * * * * * * * * consensus

    X non conservedX conservedX all match

    Figura 6.2: Exemplo com modo: identical e o parmetro allmatchspecial para marcar com umacor especial a ocorrncia de resduos idnticos em todas as seqncias utilizadas no alinhamento. Oarquivo de entrada foi o arquivo de exemplo AQPDNA.MSF que acompanha o pacote.

    56

  • 1 M A S . . . . . . . . . . . . . . . . . . . . . . AQP1.PRO1 M W . . . . . . . . . . . . . . . . . . . . . . . AQP2.PRO1 M . . . . . . . . . N R C G . . . . . E M L H I R AQP3.PRO1 M S D G A A A R R W G K C G P P C S R E S I M V A AQP4.PRO1 M K . . . . . . . . . . . . . . . . . . . . . . . AQP5.PRO

    4 . . E I K K K L F W R A V V A E F L A M T L F V F AQP1.PRO3 . . E L R S I A F S R A V L A E F L A T L L F V F AQP2.PRO12 Y R . . . . . . L L R Q A L A E C L G T L I L V M AQP3.PRO26 F K G V W T Q A F W K A V T A E F L A M L I F V L AQP4.PRO3 . K E V C S L A F F K A V F A E F L A T L I F V F AQP5.PRO

    27 I S I G S A L G F N Y P L E R N Q T L V Q D N V K AQP1.PRO26 F G L G S A L Q W A . . . S S . . . . P P S V L Q AQP2.PRO31 F G C G S V A Q V V L S R G T H G G F . . . . L T AQP3.PRO51 L S V G S T I N W G . . . G S E N P L P V D M V L AQP4.PRO27 F G L G S A L K W P . . . S A . . . . L P T I L Q AQP5.PRO

    52 V S L A F G L S I A T L A Q S V G H I S G A H S N AQP1.PRO44 I A V A F G L G I G I L V Q A L G H V S G A H I N AQP2.PRO52 I N L A F G F A V T L A I L V A G Q V S G A H L N AQP3.PRO73 I S L C F G L S I A T M V Q C F G H I S G G H I N AQP4.PRO45 I S I A F G L A I G T L A Q A L G P V S G G H I N AQP5.PRO

    77 P A V T L G L L L S C Q I S I L R A V M AQP1.PRO69 P A V T V A C L V G C H V S F L R A A F AQP2.PRO77 P A V T F A M C F L A R E P W I K L P I AQP3.PRO97 P A V T V A M V C T R K I S I A K S V F AQP4.PRO70 P A I T L A L L I G N Q I S L L R A V F AQP5.PRO

    X acidic ()X basic (+)X polar unchargedX hydrophobic nonpolar

    Figura 6.3: Exemplo com modo: functional e o tipo hydropathy. O arquivo de entrada foi o arquivode exemplo AQPpro.MSF que acompanha o pacote.

    57

  • AQP1.PROAQP