bio informatica

14
12 Biotecnologia CiŒncia & Desenvolvimento - n” 29 Pesquisa Um guia bÆsico e amplo sobre os diversos aspectos dessa nova ciŒncia BioinformÆtica: Manual do UsuÆrio Ilustraıes cedidas pelos autores Figura 1: O Dogma Central da Biologia Molecular Francisco Prosdocimi Mestrando em GenØtica e Especialista em BioinformÆtica Universidade Federal de Minas Gerais [email protected] Gustavo Coutinho Cerqueira Bacharel em CiŒncia da Computaªo e Especialista em BioinformÆtica Universidade Federal de Minas Gerais [email protected] Eliseu Binneck Doutor em CiŒncia e Tecnologia de Sementes e Especialista em BioinformÆtica Embrapa Soja [email protected] AcÆcia Fernandes Silva Mestre em Agronomia e Especialista em BioinformÆtica Empresa Pernambucana de Pesquisa AgropecuÆria [email protected] Adriana Neves dos Reis Bacharel em InformÆtica e Especialista em BioinformÆtica Universidade do Vale do Rio dos Sinos [email protected] Ana Carolina Martins Junqueira Mestre em GenØtica e Biologia Molecular e Especialista em BioinformÆtica Universidade de Campinas [email protected] Ana Ceclia Feio dos Santos Mestranda em GenØtica e Biologia Molecular e Especialista em BioinformÆtica Universidade Federal do ParÆ [email protected] Antnio Nhani Jœnior Doutor em Bioqumica e Especialista em BioinformÆtica Universidade Estadual Paulista [email protected] Charles I. Wust Mestrando em CiŒncias da Computa- ªo e Especialista em BioinformÆtica Universidade Federal de Santa Catarina [email protected] Fernando Camargo Filho Mestrando em Biotecnologia Vegetal e Especialista em BioinformÆtica Universidade de Ribeirªo preto [email protected] Jayme Loureno Kessedjian Analista de sistemas e Especialista em BioinformÆtica Embrapa Agrobiologia [email protected] Jorge H. Petretski Prof. Associado e Especialista em BioinformÆtica Universidade Estadual do Norte Fluminense [email protected] Luiz Paulo Camargo Analista de Sistemas e Especialista em BioinformÆtica Universidade de Ribeirªo Preto [email protected] Ricardo de Godoi Mattos Ferreira Bacharel em CiŒncias Biolgicas e Especia- lista em BioinformÆtica Universidade de Sªo Paulo [email protected] Roceli P. Lima Mestrando em InformÆtica e Especialista em BioinformÆtica Universidade do Amazonas [email protected] Rodrigo Matheus Pereira Mestrando em Microbiologia e Especialista em BioinformÆtica Universidade Estadual Paulista [email protected] Slvia Jardim Mestre em Farmacologia e Especialista em BioinformÆtica Embrapa Milho e Sorgo [email protected] Vanderson de Souza Sampaio Mestrando em GenØtica e Biologia Molecular e Especialista em BioinformÆtica Universidade Federal do ParÆ [email protected] `urea V. Folgueras-Flatschart Doutora em Microbiologia e Especialista em BioinformÆtica Universidade Federal de Minas Gerais [email protected] INTRODU˙ˆO Do incio atØ meados do sØculo passado os geneticistas e qumicos se questionaram sobre a natureza qumica do material genØtico. Das pes- quisas desenvolvidas, surgiu a conclusªo de que o DNA era a molØcula que armazenava a infor- maªo genØtica e, em 1953, sua estrutura qu- mica foi desvendada no clÆssico trabalho de Watson e Crick. Com a posterior descoberta do cdigo genØtico e do fluxo da informaªo biol- gica, dos Æcidos nuclØicos para as protenas, tais polmeros passaram a constituir os principais objetos de estudo de uma nova ciŒncia, a Biolo- gia Molecular. Logo surgiram mØtodos de se- qüenciamento desses polmeros, principalmente do DNA, que permitiam a investigaªo de suas seqüŒncias monomØricas constituintes. Desde entªo, mais de 18 bilhıes dessas seqüŒncias jÆ foram produzidas e estªo disponveis nos ban- cos de dados pœblicos. Na segunda metade da dØcada de 90, com o surgimento dos seqüenciadores automÆticos de DNA, houve uma explosªo na quantidade de seqüŒncias a serem armazenadas, exigindo recur- sos computacionais cada vez mais eficientes. AlØm do armazenamento ocorria, paralelamente, a ne- cessidade de anÆlise desses dados, o que tornava indispensÆvel a utilizaªo de plataformas compu- tacionais eficientes para a interpretaªo dos resul- tados obtidos. Assim nascia a bioinformÆtica. Essa nova ciŒn- cia envolveria a uniªo de diversas linhas de conhe- cimento a engenharia de softwares, a matemÆ- tica, a estatstica, a ciŒncia da computaªo e a biologia molecular. Os primeiros projetos na Ærea eram compostos por profissionais de diferentes

Upload: maycon7899

Post on 04-Aug-2015

44 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: Bio Informatica

12 Biotecnologia Ciência & Desenvolvimento - nº 29

Pesquisa

Um guia básico e amplo sobre os diversos aspectos dessa nova ciência

Bioinformática:Manual do Usuário

Ilustrações cedidas pelos autores

Figura 1: O Dogma Central daBiologiaMolecular

Francisco ProsdocimiMestrando emGenética e Especialistaem Bioinformá[email protected]

Gustavo CoutinhoCerqueiraBacharel emCiência da Computação eEspecialista em Bioinformá[email protected]

Eliseu BinneckDoutor em Ciência e Tecnologia deSementes e Especialista emBioinformáticaEmbrapa [email protected]

Acácia Fernandes SilvaMestre em Agronomia e Especialistaem BioinformáticaEmpresaPernambucanadePesquisaAgropecuá[email protected]

Adriana Neves dos ReisBacharel em Informática e Especialistaem BioinformáticaUniversidade do Vale do Rio dos [email protected]

Ana Carolina MartinsJunqueiraMestre emGenética e BiologiaMoleculareEspecialistaemBioinformáticaUniversidade de [email protected]

Ana Cecília Feio dos SantosMestranda emGenética e BiologiaMoleculareEspecialistaemBioinformáticaUniversidade Federal doPará[email protected]

Antônio Nhani JúniorDoutor em Bioquímica e Especialistaem Bioinformá[email protected]

Charles I. WustMestrando em Ciências da Computa-ção e Especialista em BioinformáticaUniversidade Federal de [email protected]

Fernando Camargo FilhoMestrando em Biotecnologia Vegetal eEspecialista em BioinformáticaUniversidade de Ribeirão [email protected]

Jayme Lourenço KessedjianAnalista de sistemas e Especialista emBioinformáticaEmbrapa [email protected]

Jorge H. PetretskiProf. Associado e Especialista emBioinformáticaUniversidade Estadual [email protected]

Luiz Paulo CamargoAnalista de Sistemas e Especialista emBioinformáticaUniversidade de Ribeirão [email protected]

Ricardo de Godoi MattosFerreiraBacharel emCiênciasBiológicas e Especia-lista em BioinformáticaUniversidadedeSã[email protected]

Roceli P. LimaMestrando em Informática e Especialistaem BioinformáticaUniversidade do [email protected]

Rodrigo Matheus PereiraMestrando emMicrobiologia e Especialistaem Bioinformá[email protected]

Sílvia JardimMestre emFarmacologia e Especialista emBioinformáticaEmbrapa Milho e [email protected]

Vanderson de Souza SampaioMestrando emGenética e BiologiaMoleculareEspecialistaemBioinformáticaUniversidade Federal doPará[email protected]

Áurea V. Folgueras-FlatschartDoutora emMicrobiologia e Especialistaem Bioinformá[email protected]

INTRODUÇÃO

Do início até meados do século passado osgeneticistas e químicos se questionaram sobre anatureza química domaterial genético. Das pes-quisas desenvolvidas, surgiu a conclusãodequeo DNA era a molécula que armazenava a infor-mação genética e, em 1953, sua estrutura quí-mica foi desvendada no clássico trabalho deWatson e Crick. Com a posterior descoberta docódigo genético e do fluxo da informação bioló-gica, dos ácidos nucléicos para as proteínas, taispolímeros passarama constituir os principaisobjetos de estudo de uma nova ciência, a Biolo-giaMolecular. Logo surgirammétodos de se-qüenciamentodesses polímeros, principalmentedo DNA, que permitiam a investigação de suasseqüênciasmonoméricas constituintes.Desdeentão, mais de 18 bilhões dessas seqüências jáforamproduzidas e estão disponíveis nos ban-cos dedadospúblicos.

Na segunda metade da década de 90, com osurgimento dos seqüenciadores automáticos deDNA, houve uma explosão na quantidade deseqüências a seremarmazenadas, exigindo recur-soscomputacionais cadavezmaiseficientes.Alémdo armazenamento ocorria, paralelamente, a ne-cessidade de análise desses dados, o que tornavaindispensável a utilizaçãodeplataformas compu-tacionais eficientespara a interpretaçãodos resul-tadosobtidos.

Assimnascia abioinformática. Essanova ciên-ciaenvolveria auniãodediversas linhasdeconhe-cimento � a engenharia de softwares, a matemá-tica, a estatística, a ciência da computação e abiologiamolecular.Osprimeiros projetos na áreaeram compostos por profissionais de diferentes

Page 2: Bio Informatica

Biotecnologia Ciência & Desenvolvimento - nº 29 13

áreas da biologia e informática epercebia-se uma certa dificuldadede comunicação: enquantoobiólo-go procurava uma solução que le-vasseemconsideraçãoas incertezase erros que ocorrem na prática, ocientista da computação procuravauma solução eficiente para umpro-blemabemdefinido.Assim, surgiuanecessidade de um novo profissio-nal, que entendesse bem ambas asáreas e fizesse a ponte entre elas: oBioinformata. Esse profissional de-veria ter o conhecimento suficientepara saberquais eramosproblemasbiológicos reais e quais seriam asopções viáveis dedesenvolvimentoe abordagem computacional dosproblemas emquestão.

Dado o sucesso e a importânciaque alcançaram os projetos Geno-ma e seus desmembramentos, obioinformata temsidoumprofissio-nal requisitado e raro. No exterior,podemser encontradospelomenos122cursosde formaçãoembioinfor-mática, em sua grandemaioria cen-tradosnaAméricadoNorteeEuropa(http://linkage. rockefeller.edu/wli/bioinfocourse/).NoBrasil, entretan-to, até o início deste ano, não existi-am cursos que formassem tais pro-fissionais especializados. Políticascientíficas governamentais têmpro-curado incentivara formaçãodegru-pos de pesquisa e de pessoal nessaárea, financiandoprojetos e criandocursos depós-graduação. Em2002,foi implantado o primeiro Curso deEspecialização (pós-graduação latosensu) do LNCC (http://www.lncc.br/~biologia) - do qual forma-mos a segunda turma. Ainda nesteano foi autorizada pela CAPES acriaçãodedois cursosdedoutoradoem Bioinformática, um na USP eoutro na UFMG (http://www.capes.gov.br/).

Parece-nos que cada vez mais abioinformáticavaisernecessáriaparaa análise de dados embiologiamo-lecular e, nesse sentido, o presenteartigo foi escrito com o intuito deconter as informaçõesmais relevan-tes para quem deseja começar atrabalhar na área. Assim, tentamosapresentar os principais conceitosrelacionadosàbiologiaeàcomputa-ção, os softwaresmais utilizados, os

sitesmais freqüentados e asprincipaisáreas de interesse.

Sistemasoperacionais

O sistema operacional (SO) é oprincipal programa de um computa-dor. Ele é responsável pelo gerencia-mento da memória, pelo acesso aosdiscos e também intermedeia todoacesso aos componentes físicos damáquina(hardware).

Os SOs mais conhecidos e utiliza-dossãoaquelesbaseadosnoWindows,Unix e MacOS. Muitas das aplicaçõesutilizadas embioinformática são com-piladas e distribuídas para a execuçãoem plataformas derivadas do Unix,portanto o conhecimento desse siste-maoperacional édegrande importân-ciapara aquelesquedesejamaprofun-dar-se na área. Apreferência por siste-masbaseadosemUnixdeve-se ao fatode que tais sistemas são normalmentemais confiáveis, gerenciam melhor otrabalho comgrandes quantidades dedadosequealgumasdesuasvariantes,comooLinux,possuemcódigoabertoedistribuiçõesgratuitas.

Linguagens de programação

Umprofissionalembioinformática,além de saber utilizar os programasproduzidosporoutrosprogramadores,deve também ser capaz de desenvol-ver programas aplicativos para lidarcom os mais diversos problemas en-contrados durante a análise de dadosembiologiamolecular. Paradesenvol-ver, portanto, tais programas, o bioin-formata deve ter conhecimento sobrealgum tipo de linguagem de progra-mação.

As Linguagensdeprogramação fo-ram criadas para facilitar a especifica-çãode tarefas a umcomputador. Exis-temmilharesde linguagensdeprogra-mação e cada uma delas possui umconjuntodecomandosespecíficosquecriamesta interfacehomem-máquina.Das linguagens de programaçãomaisutilizadas,podemoscitar:basic,pascal,C, C++, java, cobol e fortran. Entretan-to, a linguagem mais utilizada pelosbioinformatas é, sem sombra de dúvi-da, o PERL.

O PERL (Practical Extract andRe-port Language) é uma linguagem de

programação, simples e muito rica,alémdedisponível gratuitamente. Foicriada por Larry Wall, originalmentepara produzir relatórios de informa-ções de erros, que a disponibilizou naInternet no espírito freeware, pensan-doquealguémpudesseachá-laútil.Aolongo dos anos esta linguagem con-quistoumilhares de adeptos e, atravésde várias colaborações recebidas paraseu aprimoramento, o PERL é hojeconceituado como uma linguagemsofisticada, que possui como pontoforte amanipulaçãode texto,masque,alémdisso,possui todasas característi-cas de uma linguagem de alto-nívelgenérica. Éessagrande facilidadeparaa manipulação de texto que fez doPERL a linguagem mais utilizada notratamentodedadosde seqüências deDNA e proteínas.

OPERLpode ter suas funcionalida-des acrescidas através de módulos,que são distribuídos gratuitamente.Existem módulos para uma gama deaplicações, desdemétodosestatísticosclássicos, aplicações gráficas em 3D,até acesso a internet via programaçãoPERL. O site CPAN (ComprehensivePerl Archive Network � http://www.cpan.org) éoprincipalpontodedistri-buiçãodemódulos e de suas respecti-vas documentações. Alguns destesmódulos são especialmente dirigidospara aplicações em Bioinformática,destacando-se os módulos bioperl ebiographics,queapresentamferramen-tas bastanteúteis para asmais diversasaplicações nesta área.

Umaboa interconectividade combancos de dados é outra característi-ca desejada em uma linguagem deprogramação.A linguagemPERLatende muito bem a esta demandaatravés da biblioteca PERL-DBI, umconjunto demódulos que forneceuma interface consistente para solu-ções de integração com bancos dedados.

Bancos de dados

Emconseqüência da grandequantidade de informações de se-qüências de nucleotídeos e de ami-noácidosque sãoproduzidas atual-mente, principalmente em projetosGenoma, TranscriptomaeProteoma,o uso dos bancos de dados vem as-

Page 3: Bio Informatica

14 Biotecnologia Ciência & Desenvolvimento - nº 29

sumindouma importância crescentenabioinformática.

Um banco de dados pode serconsideradoumacoleçãodedadosinter-relacionados,projetadoparasuprir as necessidades de um grupoespecífico de aplicações e usuários.Um banco de dados organiza e es-trutura as informações demodo afacilitar consultas, atualizações ede-leções de dados.

A grandemaioria dos bancos dedados é atrelado a um sistema deno-minado SGBD (Sistema de Gerencia-mento de Banco de Dados). Estesistema é responsável por intermedi-ar os processos de construção,mani-pulação e administração dobanco dedados solicitadospelosusuáriosouporoutras aplicações.

Existem vários sistemas de geren-ciamento de banco de dados, sendoque cada sistema possui seus prós econtras. Omysql é um sistema muitoutilizadopela comunidadeacadêmicae em projetos genoma por ser gratui-to, possuir código aberto e acessoveloz aos dados,mas apresenta certaslimitações em suas ferramentas. OpostgreSQL também é um SGBD gra-tuito, com ferramentasmuitopodero-sas, entretanto não é muito utilizadopela dificuldadeno seugerenciamen-to.Os SGBD�sOraclee SQLServer sãorobustos e sofisticados,masdevidoaoalto custo de suas licenças possuemseuuso limitadoàsgrandes empresas.

Bancos de dados públicosembioinformática

O investimento contínuo na cons-trução de bancos de dados públicos éum dos grandes motivos do sucessodos projetos genoma e, em especial,doProjetogenomaHumano.Devidoàmagnitudedoconjuntodedadospro-duzidos torna-se fundamental a orga-nização desses dados em bancos quepermitamacessoon-line.

Os bancos de dados envolvendoseqüências de nucleotídeos, de ami-noácidos ou estruturas de proteínaspodemser classificados embancosdeseqüências primários e secundários.Osprimeiros são formadospeladepo-sição direta de seqüências de nucleo-tídeos, aminoácidosouestruturaspro-téicas, sem qualquer processamento

BOX1 - Exemplo de programa PERL para obter a fita reversa-complementar a partir de uma seqüência de DNA desejada.

#!/usr/bin/perl# Seqüência que se deseja utilizar$meuDNA= �TTCCGAGCCAATTGTATCAGTTGCCAATAG�;# Inverte a ordem da seqüência de DNA$RevCom = reverse $meuDNA;# Troca as bases produzindo a fita complementar$RevCom =~ tr/ACGT/TGCA/;print �Minha seqüência invertida é: \n $RevCom�;

A primeira linha é obrigatória e diz ao programa o caminho onde seencontra o interpretador PERL para que o programa possa achá-lo na horade sua execução. As linhas seguintes que se iniciam com o sinal de �#�representam linhas de comentário. As variáveis em PERL são sempreseguidas do sinal de �$� e não precisam ser declaradas, cabe aoprogramador saber como e em que contexto devem ser utilizadas. Oscomandos terminam sempre com ponto-e-vírgula e o sinal de �=~� estárelacionado àutilizaçãodeumaexpressão regular.

BOX2 - Principais Sistemas de Gerenciamento de Bancos de dados

MySQLhttp://www.mysql.orgAcesso livre para download do gerenciador MySQL, como também a váriasferramentasdeconexãocomo:DBI, Java,ODBCeetc.Apresentadocumentaçãocompleta.PostgreSQLhttp://www.pgsql.com/Acesso livre para download do gerenciador PostgreSQL, como tambémalgumas ferramentas. Apresenta documentação completa.ORACLEhttp://www.oracle.comInformações comerciais sobre obancodedados.MicrosoftSQLServerhttp://www.microsoft.com/sql/Informações comerciais sobre obancodedados.

BOX3 - Bancos de Dados mais utilizados em bioinformática

Genbankhttp://www.ncbi.nlm.nih.gov/Banco de dados americano de seqüências de DNA e proteínas.EBIhttp://www.ebi.ac.uk/Banco de dados europeu de seqüências de DNA.DDBJhttp://www.ddbj.nig.ac.jp/Banco de dados japonês de seqüências de DNA.PDBhttp://www.rcsb.org/pdbArmazenaestruturas tridimensionais resolvidasdeproteínas.GDBhttp://gdbwww.gdb.org/Banco de dados oficial do projeto genoma humano.TIGRDatabaseshttp://www.tigr.org/tdb/Banco com informações de genomas de vários organismos diferentes.PIRhttp://www-nbrf.georgetown.edu/Bancodeproteínas anotadas.SWISS-PROThttp://www.expasy.ch/spro/Armazena seqüências de proteínas e suas respectivas característicasmoleculares, anotadomanualmente por uma equipe de especialistas.INTERPROhttp://www.ebi.ac.uk/interpro/Bancode dados de famílias, domínios e assinaturas de proteínas.KEGGhttp://www.genome.ad.jp/kegg/Banco comdados de seqüências de genomas de vários organismos diferen-tes e informações relacionadas às suas viasmetabólicas.

Page 4: Bio Informatica

Biotecnologia Ciência & Desenvolvimento - nº 29 15

ou análise. Os principais bancos dedadosprimários sãooGenBank, oEBI(European Bioinformatics Institute),o DDBJ (DNA Data Bank of Japan) eo PDB (Protein Data Bank). Os trêsprimeiros bancos são membros doINSDC (International Nucleotide Se-quenceDatabaseColaboration)ecadaumdessescentrospossibilita a submis-são individual de seqüências deDNA.Eles trocam informações entre si diari-amente, de modo que todos os trêspossuem informações atualizadas detodas as seqüências deDNAdeposita-das em todo o mundo. Apesar disso,cada centro apresenta seus dados deforma particular, apesar de bastantesemelhante. Atualmente amaioria dasrevistas exige que as seqüências iden-tificadaspelos laboratórios sejamsub-metidas a um destes bancos antesmesmodapublicação do artigo.

Os bancos de dados secundários,como o PIR (Protein Information Re-source)ouoSWISS-PROT, sãoaquelesque derivam dos primários, ou seja,foram formados usando as informa-ções depositadas nos bancos primári-os. Por exemplo, o SWISS-PROTéumbanco de dados onde as informaçõessobre seqüências de proteínas foramanotadas e associadas à informaçõessobrefunção,domíniosfuncionais,pro-teínas homólogas e outros.

Os bancos de seqüências tambémpodemser classificados comobancosestruturais ou funcionais. Os bancosestruturais mantêm dados relativos àestrutura de proteínas. Embora a se-qüência de nucleotídeos, a seqüênciade aminoácidos e a estruturadeprote-ína sejam formas diferentes de repre-sentar o produto de um dado gene,esses aspectos apresentam informa-ções diferentes e são tratadospor pro-jetos diferentes, que resultamemban-cos específicos.

Dos bancos funcionais, o KEGG(Kyoto Encyclopedia of Genes andGenomes) é um dos mais utilizados.Disponibiliza links para mapas meta-bólicos de organismos com genomacompletamente ou parcialmente se-qüenciados apartir de seqüências edebusca atravéspalavras-chave.

Comocrescentenúmerodedadosbiológicos que vem sendo gerados,vários bancos de dados têm surgido eanualmente a revista Nucleic Acids

Figura 2 � Alinhamento de duas seqüências de proteínas

Research(http://www3.oup.co.uk/nar/database/)publicauma listaatualizadacomaclassificaçãode todososbancosdedadosbiológicosdisponíveis.

Alinhamento de seqüênciasOalinhamentode seqüênciaspos-

sui uma diversidade de aplicações nabioinformática,sendoconsideradaumadasoperaçõesmais importantes destaárea.Estemétododecomparaçãopro-curadeterminarograude similaridadeentre duas ou mais seqüências, ou asimilaridade entre fragmentos destasseqüências. No caso de mais de duasseqüências oprocesso édenominadoalinhamentomúltiplo.

É bom lembrar que similaridade ehomologia sãoconceitosdiferentes.Oalinhamento indica o graude similari-dadeentre seqüências, já a homologiaé uma hipótese de cunho evolutivo, enãopossui gradação: duas seqüênciassão homólogas caso derivem de umancestral comumou, casoesta hipóte-se não se comprove, simplesmentenãosãohomólogas.

Existemvários programasde com-putador que realizam esta tarefa e agrandemaioria deles pode ser utiliza-do on-line, sem a necessidade de ins-talação. Comoexemplo temosospro-gramas: ClustalW, Multialin, FASTA,BLAST 2 sequences, etc.

Oprocesso consiste em introduzirespaços (gaps) entre os monômerosde uma ou mais seqüências a fim deobter omelhor alinhamento possível.A qualidade de um alinhamento édeterminada pela soma dos pontosobtidos por cada unidade pareada(match) menos as penalidades pelaintrodução de gaps e posições nãopareadas (mismatch).

Matrizesdesubstituição

Matrizes de substituição são umaalternativa aos valores fixos depontu-ação paramatches emismatches. Es-

Figura 3. Parte de uma matriz desubstituição BLOSUM62, utilizadaem alinhamentos de seqüências deproteínas. As letras representam osaminoácidos e os números indicamos pontos a serem contabilizados naocorrência de match (diagonalprincipal) ou mismatch

tas matrizes indicam os diferentes va-lores a seremcontabilizadospara cadapar deunidades.

Asmatrizesdesubstituiçãosãonor-malmente utilizadas no alinhamentode seqüênciasprotéicas.Assimovalorde cada uma de suas células indica achance da ocorrência da substituiçãocorrespondente ao par de aminoáci-dos destemismatch.

As matrizes de substituição maisutilizadas são aquelas pertencentes àsfamílias de matrizes PAM (Point Ac-ceptedMutation) eBLOSUM.AmatrizPAM1 foi construída atravésda análisedemutações entre proteínas homólo-gas com 1% de divergência (1% dosaminoácidos diferentes). As outrasmatrizes, PAM50, PAM100, PAM250são extrapolações damatriz PAM1.Asmatrizes BLOSUM foram construídastendo como base os alinhamentos dobanco demotivos BLOCKS. Umama-triz BLOSUM62 é definida através daanálisedas substituiçõesnas seqüênci-as de BLOCKS que possuem menos

Page 5: Bio Informatica

16 Biotecnologia Ciência & Desenvolvimento - nº 29

que62%de similaridade.As seqüênci-as que ultrapassam este limite sãomescladas, e participam da definiçãoda matriz como se fossem uma únicaseqüência.

Alinhamento global e local

Quantoàregiãoanalisada,oalinha-mentode seqüênciaspodesergrossei-ramente classificado em dois tipos, oalinhamento global e o alinhamentolocal. No alinhamento global, as se-qüênciasenvolvidasdevemseralinha-das de um extremo ao outro, dandoorigem a apenas um resultado. Já noalinhamento local, procura-se alinharapenas as regiões mais conservadas,independente da localização relativadecada regiãoemsuaseqüência.Con-sequentemente, este alinhamento temcomo resultado uma ou mais regiõesconservadas entre as seqüências.

Oalinhamento global é freqüente-mente utilizado para determinar regi-ões mais conservadas de seqüênciashomólogas. Exemplo de programasqueutilizamestealinhamentosãoClus-talWeMultialin.Oalinhamento local égeralmente utilizado na procura porseqüências homólogas ou análogas(funcionalmente semelhantes) embancodedados.Oalgoritmoutilizadopelo programa BLAST (Basic LocalAlignment Search Tool) realiza estetipode alinhamento.

Figura 4: Exemplos de alinhamento global e local. No alinhamentoglobal as seqüências são alinhadas do início ao fim, já noalinhamento local alinha-se as subseqüências conservadas

BOX4-Softwaresmaisutilizadosparaoalinhamentodeseqüências

ClustalWhttp://www.ebi.ac.uk/clustalw/index.htmlVersãowebdeumdosprogramasde alinhamentomúltiplomais utilizados(Clustal). Fornece ao usuário uma grande quantidade de parâmetros e desaídas diferentes. Possui interface gráfica ondeos alinhamentospodemservisualizados de forma agradável e alterados.Multialinhttp://prodes.toulouse.inra.fr/multalin/multalin.htmlProgramade alinhamentomúltiplo bastante conhecido. Fácil e rápido.Fastahttp://www.ebi.ac.uk/fasta33/Precursor dosprogramasdealinhamento.Promove serviço de busca em banco de dados de ácidos nucléicos eproteínas.BLAST,BLAST2sequenceshttp://www.ncbi.nlm.nih.gov/BLAST/BLAST é o programa de alinhamento mais utilizado no mundo. Realiza abuscapor seqüências homólogas embancodedadosde ácidosnucléicos eproteínas.OprogramaBLAST2sequencesconsistenoalgoritmoBLASTparaalinhamentodeduas seqüências.

Projetos genoma e transcriptoma

Grande parte dos bioinformatasmodernos trabalha comdadosdepro-jetos genoma ou transcriptoma. Emprojetos genoma adota-se a aborda-gemde fragmentar todo o genoma deumorganismoempequenos pedaçose de seqüenciar tais pedaços, utilizan-do programas computacionais paramontá-los e reconstituir a informaçãogenômica inicial. Essaestratégiaéado-tadaprincipalmentedevidoà restriçãodo tamanho da seqüência que podeser lidanos seqüenciadores.Mesmoosmaismodernos conseguem ler apenascerca de 1000 pares de base em cada

corrida.Emprojetos genomasdeprocario-

tos, normalmente realiza-se a quebradoDNAinteirodoorganismodesejadoem fragmentos pequenos (através datécnica de shotgun) que são clonadosem vetores plasmidiais que serão se-qüenciados em suas extremidades.Após uma primeira etapa de monta-gemdesse genoma, fragmentosmaio-res são clonados em cosmídeos e se-qüenciados. Essa segunda etapa é im-portantepara amontagemdogenomacompleto do organismo, já que a pri-meira normalmente produz uma se-qüência incompleta, apresentandoal-guns buracos de seqüência (gaps).

Já em projetos genomas de orga-nismos eucariotos, que possuem fre-qüentemente uma enorme quantida-de de DNA, normalmente prefere-seadotar uma técnica conhecida comoshotgun hierárquico. Nessa técnica, oDNA inteiro doorganismoéprimeira-mente inserido emgrandes vetores declonagem,comocromossomosartifici-ais de bactérias (BACs) ou de levedu-ras (YACs). Depois então é realizadoum shotgun desses grandes fragmen-tos dos vetores, gerando fragmentosmenores que são agora clonados emvetores plasmidiais para o sequencia-mento. Portanto, tais projetos consis-tem de duas etapas, a montagem decada um dos grandes fragmentos clo-nadosnosBACseYACseamontagemfinal que reunirá as seqüências com-pletas dos BACs e YACs montadospara a reconstituição da informaçãogenômica inicial.

Page 6: Bio Informatica

Biotecnologia Ciência & Desenvolvimento - nº 29 17

Figura 5. a) Na estratégia de shotgun, todo o DNA genômico de umorganismo é fragmentado em pequenos pedaços (1), que são clonadosem vetores de pequeno porte, como plasmídeos, para o posterior se-qüenciamento. b) Na estratégia de shotgun hierárquico, normalmenteutilizada para grandes genomas, realizam-se dois passos. (1) Primei-ramente fragmenta-se o genoma em grandes pedaços, que são clona-dos em vetores de grande porte, como BACs ou YACs. (2) Posterior-mente realiza-se uma segunda etapa de shotgun, onde as seqüênciascontidas nesses vetores são fragmentadas em pequenos pedaços e clo-nadas em vetores de pequeno porte, que serão sequenciados

Muitas vezes, ao invés de ser reali-zado o seqüenciamento genômico deum organismo eucarioto, prefere-serealizar o seqüenciamento sódas regi-ões gênicas, utilizando informaçõesoriundasdeRNAmensageiro (mRNA).Dessa formaérealizadaumabibliotecade cDNA, representando o conjuntode mRNAs de uma célula, que sãoclonados em vetores plasmidiais. Osinsertos de cDNA presentes em taisvetores são então seqüenciados apar-tir de suas extremidades 5� ou 3�,produzindopequenas seqüênciasqueirão representar pedaços dos genesexpressosnomomentodaextraçãodomRNA da célula em questão. Essespedaços seqüenciados representametiquetas degenes expressos, ouESTs(ExpressedSequenceTags) e umaaná-lise dos genes expressos é uma abor-dagem bastante utilizada na tentativade entender o funcionamento dome-tabolismo dos mais diversos organis-mos.Comoexemplo,noBrasil aborda-gens transcriptômicas já foramutiliza-dasem largaescalanoprojetodacana-de-açúcar e vêm sendo utilizados emorganismos parasitas, como é o casodos projetos de seqüenciamento deESTs de SchistosomamansoniemSãoPaulo e emMinas Gerais.

Como já foi mencionado anterior-mente, normalmente adota-se a estra-tégia de seqüenciamento genômico

em organismos cujo genoma é peque-no e que contém baixa quantidade deseqüências repetitivas. Entretanto, aestratégia de seqüenciamentodo trans-criptoma, ouaproduçãodeESTs, nãoéutilizada apenas quando o genoma doorganismoémuitogrande.Essaestraté-gia é importante tambémparaestudarodesenvolvimentodosorganismos, pro-duzindobibliotecas de diferentes fasesdedesenvolvimentoeobservandoquaisgenes são expressos em cada momen-to. Tal abordagem tambémé importan-te para estudarmos como ocorre a ex-pressão diferencial de genes em dife-rentesórgãosdeummesmoorganismo,para que possamos entender a funçãodesses órgãos ou como eles realizamfunçõesconhecidas. Portantopodemosdizer que as estratégias de seqüencia-mento de genomas e transcriptomassão complementares e ambas devemser realizadas, quando possível, paraque possamos obter informações rele-vantes sobre os organismos que esta-mosestudando.

Base calling

Os dados brutos provenientes doseqüenciadordeDNAsãonormalmentesubmetidos diretamente a algum pro-grama de base calling. O base callingconsiste no processo de leitura dos da-dos do seqüenciador e identificaçãodaseqüência de DNA gerada, atribuindo

ainda um valor de qualidade para cadaposição nucleotídica identificada. Nor-malmente cada seqüenciador apresentaumprogramadebasecallingassociado.Entretanto, o programa mais utilizadonessa etapa é o PHRED.

O PHRED reconhece dados de se-qüências a partir de arquivos SCF (Stan-dard Chomatogram Format), arquivosdecromatogramadosanalisadoresauto-máticosdeDNAABIearquivosMegaBA-CE ESD. Este software reconhece a se-qüência de nucleotídeos a partir do ar-quivodedadosbrutosdo seqüenciador,atribui valores de qualidade às basesconstituintesdaseqüêncianucleotídicaegera arquivos de saída contendo infor-mações sobre o basecall eos valores dequalidade.O valor de qualidade das se-qüênciasanalisadaspodeserencontradonos arquivos FASTA e PHD.

De acordo comEwing etal (1998) asatribuiçõessegurasdevaloresàs seqüên-cias nucleotídicas são proporcionadaspela implantação de um algoritmo quetem como base os métodos de AnálisedeFourier.Oalgoritmoanalisa asquatrobases e prediz a provável região centraldospicoseasdistâncias relativasentreospicos da seqüência de DNA. O valor dequalidadeatribuídoacadabaseéobtidopela fórmula a seguir, que calcula aprobabilidadedeerronobasecall, ondeoPeéaprobabilidadedeumabaseestarerrada.

PHRED Quality = -10 log (Pe)

Aspontuações inseridasnosarquivosde saída do PHRED representam a pro-babilidade logarítmicanegativaemesca-la de erro de um base call; portanto,quanto maior o valor de qualidade doPHRED, menor a probabilidade de terocorridoumerro. Sócomoexemplo,umvalordePHRED20paraumadetermina-daposiçãonucleotídica significaqueelaapresenta uma chance em 100 de estarerrada. Já um valor de PHRED 30 signi-fica que determinada base apresentauma chance em 1000 de ter havido umerro no base calling. Esses valores sãoimportantes para determinar se uma re-giãoprecisa ser resseqüenciada.

Mascaramento de vetores

A estratégia freqüentemente adota-da após a realização do base calling é a

Page 7: Bio Informatica

18 Biotecnologia Ciência & Desenvolvimento - nº 29

procurapor regiõesde contaminantesna seqüênciaproduzida. Regiões con-taminantes são partes da seqüênciaobtidaquenão representamoDNAouo cDNA que se deseja analisar. Taisregiões representam, normalmente,partes dos vetores de clonagem ondeas seqüências de interesse foram inse-ridasoupedaçosdeDNAadaptadoresutilizados durante a construção dasbibliotecas. Como essas regiões nãorepresentam as seqüências que sedeseja analisar, elas devem ser retira-dasoumascaradasporumprograma.Eaqui, o programa mais utilizado é oCross_match. Esse é, na verdade, umprogramapara a comparação de duasseqüências e é preciso utilizar comoentrada um arquivo apresentando aseqüência dos vetores que se desejamascarar. O que o Cross_match faz écomparar a seqüência desejada comoarquivo de seqüências de vetores e,ondeoprogramaencontrar similarida-deentreas seqüências, ele irámascarar(acrescentando letras X) a seqüênciadeentrada.Assim,osnucleotídeosdasseqüênciasdeentrada similares a regi-ões de vetores de clonagem serãoalteradosparaXenão atrapalharãoosprocessosposteriores de análise com-putacional.

Agrupamento de seqüências

Após a geração de arquivos semcontaminantes, contendoa identifica-çãodasbaseseaqualidade, todasessasinformações são repassadas a um sof-twaredemontagemcomooPHRAP,oCAP3ouoTIGRAssembler.O softwa-remaisutilizadonessaetapa,oPHRAP(Phragment Assembly Program) é oprograma responsável pela leitura dasinformações do basecall emontagemdos pequenos fragmentos de DNAseqüenciadosemseqüênciasmaiores,os contíguos (contigs). Este programapossui diversos pontos chaves para aobtençãoderesultado final satisfatório,como: construção de seqüência docontíguo através de um mosaico departes das seqüências com alta quali-dade; utilização de informações daqualidade dos dados computados in-ternamente e de implementações fei-tas pelos usuários para aumentar aqualidadedamontagem;apresentaex-tensivas informações sobre a monta-

gem realizada (incluindo valores dequalidadesparaa seqüênciadoscontí-guos). Emprojetos genomaespera-seobter, na saídadoPHRAP, a seqüênciamontadadocontíguogenômico. Jáemprojetos trancriptoma esperamos ob-ter as seqüências de cada dos genesexpressos após a execução deste sof-tware de montagem.

Avisualizaçãoeediçãodasseqüên-cias geradas após a montagem sãorealizadas normalmente através doprogramaPhrapviewouConsed.

Figura 6: Interface do programa Consed

BOX5-Programasmaisutilizadosemprojetosgenomaetranscriptoma

PHREDhttp://www.phrap.orgSoftware para a realização do base calling e a produção do cromatogramaprocessado.CROSS-MATCHhttp://www.phrap.orgSoftware para a comparação entre duas seqüências de DNA. Normalmenteutilizadopara omascaramentode regiões representando vetores em seqüên-cias genômicas ou de cDNA. Distribuído juntamente com o PHRAP.PHRAPhttp://www.phrap.orgSoftware mais utilizado para a realização do agrupamento de seqüências(clustering analysis) e montagem de contíguos genômicos.CAP3http://genome.cs.mtu.edu/cap/cap3.htmlSoftware utilizado para o agrupamento de seqüências e montagem decontíguos genômicos. Utiliza umalgoritmodiferente doPHRAP.CONSEDhttp://www.phrap.orgSoftwaremaisutilizadoparaavisualizaçãodos resultadosobtidospor softwaresdeagrupamentodeseqüências.Permiteaediçãodasbases seqüenciadas, alémdediversos outros recursos.

O processo de anotação gênica

Uma vez obtidos os dados doseqüenciamento dasmoléculas deDNAé preciso saber o que representa cadaumadas seqüênciasnucleotídicasprodu-zidas.Aanotaçãoconsiste simplesmenteno processo de identificação dessas se-qüências. Emprojetos genoma, estepro-cesso normalmente é realizado em trêsetapas: anotação de seqüências denucleotídeos, de seqüências protéicas edeprocessosbiológicos.

Page 8: Bio Informatica

Biotecnologia Ciência & Desenvolvimento - nº 29 19

Figura 7: Etapas da anotação em projetos genoma e as perguntas quese deseja responder em cada uma delas

Apartir da anotaçãode seqüênciasnucleotídicasprocura-se,primeiramen-te, identificar anaturezadeumadeter-minada seqüência. Devemos desco-brir se tal seqüência está inserida emuma região gênica, se representa umamolécula de RNA transportador ouRNAribossômico, sepertenceaalgumtipo de região repetitiva já descrita ouseapresenta algummarcadorgenéticoconhecidoemseu interior.Oprincipalobjetivo dessa etapa é construir ummapadogenomadoorganismo, posi-cionandocadaumdospossíveisgenese caracterizando as regiões não-gêni-cas. Nesta fase, alguns programas depredição gênica são usados para alocalização depossíveis genes nas se-qüências de DNA. A procura por ele-mentos comoocódonde iniciaçãodeproteínas (a trinca de nucleotídeosATG)e códonsde terminaçãonames-ma fase de leitura são utilizados poralguns desses programas. O tamanhodelimitado por esta janela de leitura éfreqüentemente utilizadopara definiruma determinada região como sendogênica ou não. Alguns outros progra-mas sãocapazesde identificar, depen-dendo do genoma analisado, regiõesgênicas codificadoras (éxons) e nãocodificadoras (íntrons). Alguns exem-plos são oGenomeScan e oGenScan.Em projetos de trancriptômica, ondese utiliza a abordagem de seqüencia-mento de ESTs, essa etapa não érealizada, uma vez que todas as se-qüências produzidas se restringem aregiões gênicas.

Mapeados os genes, a etapa se-guinte consiste em identificar quaisproteínas são codificadas, enisso con-siste o processo de anotação das se-qüências protéicas. Nessa etapa, pro-cura-semontarumcatálogodosgenespresentesnoorganismoestudado,dan-do-lhes nomes e associando-os a pro-váveis funções. No caso de projetosgenoma, deseja-se identificar onúme-ro total degenespresentesnoorganis-

mo seqüenciado, já que há informaçãoda seqüência de DNA de todo o geno-ma. Já em projetos transcriptoma, atarefa consiste em identificar os genesexpressosnoorganismoemumadeter-minada condição. Apesar de não sercapaz de identificar todos os genes deumdeterminadoorganismo,osprojetosde transcriptômica podem permitir aidentificação de genes expressos emdiferentes tecidos e fases de desenvol-vimento, alémdepermitir a observaçãodaqueles que apresentam variantes desplicing. Portanto,nessaetapadaanota-ção, o principal objetivo é identificar ecaracterizar cadaumadasproteínas co-dificadas pelos mRNAs presentes noorganismo estudado em determinadacondição.

A parte mais interessante e desafia-dora dosprocessos de anotaçãogênicaé relacionar, finalmente, a genômicacomos processos biológicos, e essa é aetapadeanotaçãodosprocessosbioló-

gicos. Essa etapa é comum a projetosgenomae transcriptoma. Identificadosos genes, devemos agora tentar relaci-oná-losdemodoaobtermosummapafuncionaldoorganismoestudado.Nes-se pontodeve-se identificar quais viasbioquímicas estão completas ou in-completas no organismo e quais viasalternativas ele possui. Aqui é funda-mental a participação de biólogos es-pecialistas emdiversas áreas para quese possa descobrir como ometabolis-modoorganismopode influenciar seumodo de vida e seu comportamento.Esse é o momento onde é possívellevantar várias hipóteses que relacio-nemo funcionamentodosorganismoscomseusdadosgenômicos.Taishipó-teses devem ser testadas experimen-talmente, por pesquisadores que tra-balhemcomoorganismoestudado.

Como é realizada a anotação

Até aqui foi mostrado o que énormalmente feito em um processode anotação gênica. Vejamos agoracomo tal processoé realizado. LincolnSteindefiniumuitobemcomoaconte-ce a sociologia dos projetos de anota-ção gênica. Ele dividiu o processo deanotação de genomas em três etapas:a fábrica, o museu e a festa.

BOX6 � Principais softwares utilizados durante a anotação gênica

RepeatMaskerhttp://repeatmasker.genome.washington.edu/Utilizado para a identificação e omascaramento de regiões repetitivasfreqüentemente encontradas em genomas.Genscanhttp://genes.mit.edu/GENSCAN.htmlUtilizado para a predição de genes em genomas eucarióticos. Seu método depredição é baseado em cadeias escondidas deMarkov.tRNAscan-SEhttp://www.genetics.wustl.edu/eddy/tRNAscan-SE/Utilizado para encontrar genes de tRNA em uma seqüência genômica.BLASThttp://www.ncbi.nlm.nih.gov/BLASTUtilizadopara encontrar similaridades entre seqüências denucleotídeos eproteínas contra bancos de dados com grande número de seqüências dosmais diversos organismos. É umdosprincipais programas utilizados naidentificaçãodos genes.Interprohttp://www.ebi.ac.uk/interproUtilizadopara realizar buscas contra diferentes bancos dedados dedomíniose famílias de proteínas. Integra os serviços do Pfam, PRINTS, ProDom,PROSITE, SMART, TIGRFAMs e SWISS-PROT.GeneOntologyhttp://www.geneontology.orgConsórcio destinado a produzir umvocabulário comuma ser aplicado para aclassificação dos genes presentes em organismos eucarióticos. Cada gene éclassificado em três níveis: funçãomolecular, processos celulares elocalizaçãocelular.

Page 9: Bio Informatica

20 Biotecnologia Ciência & Desenvolvimento - nº 29

Na primeira etapa trabalham ape-nas as ferramentas de bioinformática,funcionando em larga escala, comoumafábrica.Assim,as seqüênciasobti-daspassamporumagrandediversida-dedeprogramas,quedevemajudarosanotadoresa identificá-laseagrupá-laspara a próxima fase.

A segunda etapa necessita de es-pecialistas que observem os dadosobtidos na primeira etapa pelas ferra-mentas automáticas eque, comocura-dores de um museu, identifiquem asseqüências de acordo com critériospré-definidos.

Após a identificação dos genes, éfeita a anotação dos processos. Nessemomento deve-se promover a intera-ção entre vários anotadores, bioinfor-matas ebiólogosespecialistas emdife-rentes áreas enoorganismoestudado.Nessa festa deve-se discutir como asinformaçõesobtidasnas etapas anteri-ores podem estar relacionadas com abiologia doorganismoemquestão.

A era pós-genômica

Umadas característicasmais fasci-nantes da explosão, ocorrida nos últi-mos 10 anos, de projetos e consórciosdestinados a compor o genoma com-pletodosmaisdiversosorganismos, foio estabelecimento de abordagens etecnologias que permitiram um estilo�linha-de-montagem�naobtenção,emtemposcadavezmais curtos, dequan-tidades �industriais� de seqüências deácidos nucleicos (DNAeRNA). Agoracomeçamosaenfrentaroproblemadeinterpretar e adicionar significado aessas seqüências. Temos agora que, apartir dos bancos dedados existentes,processarecorrelacionarosdadosbru-tos transformando-oseminformaçãoeapartir desta informaçãogerar conhe-cimento, que é a informação testadaexperimentalmente.Nofinal, estanovaetapa promete ser uma jornada, pro-vavelmente sem fim, através das pro-teínas, suas estruturas e funções, viasmetabólicase interaçõescelulares.Estamudança do foco de atenção, dos áci-dos nucleicos para as proteínas, temsido utilizada para batizar esta novaetapa da pesquisa biológica em largaescalacomo�EraPós-Genômica�.Con-tudo, trata-se apenas de mais umaetapa e, certamente, não aúltimapara

que os frutos dos programas de se-qüenciamento de genomas possamser colhidos. Etapas estas que foramprevistas pelo Projeto do GenomaHumano. Das cinco metas a serematingidas, o estudo da expressão deproteínas e a obtenção de mapas deinteraçãoproteína-proteínaocupamosegundoe terceiro estágios, dos quaisseesperaomaior impactoeconômico,levandoàdescoberta denovasdrogase reduzindo o seu tempo de entradanomercado.

Resumidamente,naEraPós-Genô-mica procura-se estudar a expressãodos genes codificados pelo genomados organismos, tecidos, células oucompartimentos celulares em deter-minadas condições fisiológicas (porexemplo, uma doença, uma situaçãode estresse ou ainda a administraçãode uma droga). Tentando entender aresposta a essas condições, são alvosdeestudos: a ativaçãoou repressãodedeterminados genes, a indução demudanças no estado pós-traducionaldasproteínasequalquerprocessoqueresulte na modificação do número e/ou da composição das proteínas exis-tentes.

Análise da Expressão Gênica

Lembrando do dogma central dabiologia (DNA→mRNA→Proteína),é facil perceberquepodemosavaliar aexpressãogênica atravésdaanálisedetranscritos (mRNA).

Emorganismoseucariotos, a facili-dadede isolamentodosmRNAs (usan-dooligonucleotídeospoli-T para cap-turar os mRNAs pela cauda poli-A), apossibilidadeda transcrição reversadomRNA para cDNA (usando a técnicade RT-PCR) e o domínio das técnicasde seqüenciamento emmassa de cD-NAs tornarampossível a análise quali-tativa e quantitativa, em larga escala,dos genes transcritos em organismos,tecidos e células. Desta forma, nosprojetos Transcriptoma, como já co-mentado, é feito o seqüenciamentoparcial de cDNAs representativos dapopulação de mRNA de maneira apermitir a identificação de diferentestranscritos (pela comparação das se-qüências do cDNA) e sua abundânciana população (pelo número de vezesem que cada transcrito é seqüencia-

do). As técnicasmais usadas são as deESTs e SAGE (Serial Analysis of GeneExpression).Nestaúltima técnica,maisrecente, são gerados e seqüenciadosconcatâmeros de fragmentos de cD-NAs com apenas 10 ou 17 nucleotíde-os de cada mensageiro, respectiva-mentedenominadosSAGEtagseSAGElong tags.

DNA chips e Microarrays

Uma outra forma de análise detranscritos, que permite a busca detranscritos de genes específicos napopulaçãodosmRNAsexpressos, usao já conhecidoprincípiodahibridaçãodeDNAasondasmoleculares.Asmaisnovas versões da técnica são os DNAchips eosmicroarrays, quepermitema análise simultânea da expressão demilhares de genes. Nestas duas técni-cas, respectivamente,oligonucleotíde-osou fragmentosdecDNAconhecidossão ligados a uma lâmina de vidro e,em cada experimento de hibridação,osmRNAsdedois tipos celulares dife-rentes ou de células em duas condi-ções patológicas ou tratamentos sãoanalisados. As duas populações demRNAs são amplificadas e marcadascomdiferentes corantes fluorescentes(cianinas ou Cys), um verde e outrovermelho. Ao hibridarem com cadagene (oligo ou cDNA) aplicado sobrea lâmina de vidro, a cor verde ouvermelha de cada ponto (ou spot)indicaráqueessegeneestá sendomaistranscrito em um tipo ou condiçãocelular doquenooutro. A cor amarelaindicará que o gene é transcrito igual-mente em ambos os tipos ou condi-ções celulares. Alémdisso, amaior oumenor intensidadedecadacor indicarámaioroumenornível deexpressãodogene.

A enorme quantidade de dadosgeradanosexperimentosdeDNAchipsemicroarrays são analisados por sof-twares específicos que envolvemmétodosde inferência estatística.Umaetapa bastante importante na fase deanálise dos resultados é a que chama-mos de normalização. Usando comoreferência os spots de genes controles(sabidamente expressos ou reprimi-dosnos tecidosoucélulas estudados),o que se busca é, basicamente, retirardosvaloresdecada spota influênciade

Page 10: Bio Informatica

Biotecnologia Ciência & Desenvolvimento - nº 29 21

manchas espúrias (background) e devariações do processo de hibridação.Desta forma, apósanormalização, tor-na-se possível a comparação de spotsde uma mesma lâmina ou de experi-mentosdiferentes. Emumaetapapos-terior, programasde clusteringprocu-ram identificar e agrupar os spots su-per-expressos, reprimidosouquenãotemexpressão alteradanos tecidos oucélulasanalisadas.Apesardosmétodosde análise empregados, a falta de re-produtibilidadedos resultados aindaéumaqueixabastantecomum.Ousodemaior númerode réplicas de cada spote/ouabuscademétodosde inferênciaestatística mais adequados parecemser úteis para a validaçãodestes resul-tados.

Mais recentemente, comnovas téc-nicas para isolamento de mRNA deprocariotos, projetos de ESTs e demicroarray também têm sido desen-volvidosparaestesorganismos.Váriosgrupos de pesquisa em todo o Brasilestão iniciando projetos nesta área.Apenas como exemplo, entre os vári-osprojetosbrasileirosnestaárea temoso projeto Cooperation for Analysis ofGene Expression (CAGE) (http://bioinfo.iq.usp.br/ehttp://www.vision.ime.usp.br/~cage/) e oProjetoGeno-ma Raízes da Embrapa Soja (http://www.cnpab.embrapa.br/pesquisas/gp.html).

Projetos Proteoma

Um problema que surge com aabordagem descrita acima, de avalia-ção da expressão gênica a partir daanálise dos mRNAs transcritos, é quenemsempreaquantidadedeummRNAreflete a quantidade da proteína cor-respondente expressa na célula e, as-sim, não podemos relacionar direta-mente essa proteína a uma funçãonascélulas.Por isto,umaoutraabordagem,embora muito mais trabalhosa, temsido usada para avaliar a expressãogênica: a análisedasproteínas expres-sas. Esta �contrapartida protéica� dogenomaéconhecida comoproteoma.Por permitir relacionar diretamente aumaproteínadeterminada função,estaabordagem constitui um instrumentoparticularmente poderoso para eluci-darosmecanismoscelulares relaciona-

BOX7 � Exemplos de Projetos Transcriptoma:

Procuram avaliar quais são os genes expressos, e quanto deles é expresso,a partir do seqüenciamento parcial dosmRNAs transcritos.Dadosobtidospela técnicadeSAGEpodemser consultadosnapáginahttp://www.ncbi.nlm.nih.gov/SAGE/. JánobancodbESTestãodepositadasESTsdediversosProjetosTranscriptomadesenvolvidos em todoomundo (http://www.ncbi.nlm.nih.gov/dbEST/).Mais informações sobre DNA Chips eMicroarraysNestas técnicas, a verificação da expressão de genes específicos é feita emexperimentos de hibridação em lâminas de vidro contendo milhares defragmentos de DNA.Na página http://cmgm.stanford.edu/pbrown/, do pioneiro da técnica demicroarray,Dr. PatrickBrown,hámais explicações, um forumdediscussãoe bancos de dados demicroarrays. Na página http://ihome.cuhk.edu.hk/~b400559/array.html há informações sobre os equipamentes necessários,uma tabeladecomparaçãodosprogramasdeanálisemaisusados,noçõesdeestatística aplicadas amicroarrays, sugestões de bibliografia, etc.Programa gratuíto para análise demicroarraysScanAlyse: escrito porMichael Eisen, o programa pode ser obtido gratuita-mente napágina http://rana.lbl.gov/EisenSoftware.htm.Assinandoum ter-mo de compromisso, o autor permite, inclusive, o acesso ao código-fonte.

dos ao desenvolvimento de doenças,ao mecanismo de funcionamento decompostos químicos (por exemplo,fármacos) e identificar novos alvosterapeuticos.

As bases experimentais daproteô-mica não são novas e pertencem aoarsenal �clássico� da bioquímica, mashouve, nos últimos anos, um saltoqualitativo e quantitativo sem prece-dentes.Esse salto foi resultadodegran-des investimentos privados na buscade abordagensmais agressivas e rápi-das no isolamento, identificação e ca-racterização de proteínas, no mesmoestilo �industrial� que caracterizou aera genômica.O isolamentodeprote-ínas em grande número, inicialmenterepousavanas técnicaseletroforéticas,comoaeletroforesemonoebi-dimen-sional em géis de poliacrilamida. Em-bora tais técnicas certamente semprevenhama ter umpapel importante emqualquer laboratório de proteômica,nota-se hoje uma tendência cada vezmaior nousoda cromatografia líquidadealtaeficiência, comousodecolunascapilares, no desempenho desta tare-fa.A identificaçãoecaracterizaçãodasproteínasdependedeumconjuntodetecnologias (com certeza as que mais

sofreram incrementonodesempenho)envolvendo a espectrometria de mas-sa, a ressonância magnética nuclear,alémde recursos computacionais paraaarmazenagem,análise e compartilha-mento dos diversos tipos de dadosgeradosporestas tecnologias (imagensdegéisbidimensionais, sequênciaspro-téicas, estruturas protéicas, espectrosde massa, etc.).

Nos últimos anos a espectrometriademassa, emconjunto comacromato-grafia líquidadealtaperformance, vemse tornando a abordagem preferidapara identificarecaracterizarproteínas,devido essencialmente a três motivos.O primeiro é o desenvolvimento denovosmétodospara ionizaçãodepro-teínas e peptídeos, especialmente oMALDI e o ESI (Matrix-Assisted LaserDessorption-IonizationeElectroSprayIonization). O segundo é o desenvol-vimentode recursosdabioinformática,permitindo a análise de dados obtidospor espectrometria demassas emban-cos genômicos ede sequências protéi-cas. Eo terceiro éque a espectrometriademassas fornece informaçãodetalha-da de modificações pós-traducionais,emparticular as fosforilações e glicosi-lações.

Page 11: Bio Informatica

22 Biotecnologia Ciência & Desenvolvimento - nº 29

BOX8 � MALDI e ESI

MALDI - Matrix-Assisted Laser Desorption-IonizationUmaamostra deproteína oupeptídeo émisturada comum largo excesso deumamatriz, formadaporumasubstânciaqueabsorvenoultra-violeta, epostapara secar. Um laser comumcomprimento de onda que seja absorvido pelamatriz, em um compartimento sob vácuo, incide sobre a amostra seca efragmentos ionizadosda amostra são carreadospela vaporizaçãodamatriz ecapturados por um campo elétrico do analisador demassas.ESI - ElectroSpray IonizationUmvoltagemaplicada emuma fina agulha contendo uma solução protéica,gera uma névoa de pequenas gotículas da solução, contendo pequenonúmero de moléculas protéicas. A redução das gotículas por evaporaçãoacaba colocando em fase gasosa as proteínas ionizadas. Elas são entãocapturadas pelo analisador de massas. A grande vantagem desta técnica épermitir oacoplamentodiretodeumsistemacromatográficodealtaeficiênciaao espectrômetro demassas, possibilitando a análise em fluxo contínuo demisturas protéicas complexas.

No Brasil, apenas agora começa-mos a montar grupos de pesquisanesta área. Merecem destaque as re-desdeproteômicaemSãoPaulo, sedi-ada no Laboratório Nacional de LuzSíncrotron (http://www.lnls.br/), enoRiode Janeiro (http://www.faperj.br/interna. phtml?obj_id=219).

As técnicas experimentais expos-tas acima, alémdeofereceremrespos-tas à curiosidadehumana, constituemformas inovadoras napesquisa para ocombate de problemas globais comodiabetes, câncer, hemofilia, etc... Naprática, independentemente do nú-

BOX9 - Links interessantes

Eletroforese bi-dimensional em géis de poliacrilamida (PAGE-2D)http://us.expasy.org/ch2d/protocols/http://www.aber.ac.uk/parasitology/Proteome/Tut_2D.htmlCromatografia líquida de alta eficiência, com o uso de colunascapilares (HPLC)http://www.ionsource.com/tutorial/chromatography/rphplc.htmhttp://www.ionsource.com/tutorial/capillary/introduction.htmEspectrometria deMassas (MS)http://ms.mc.vanderbilt.edu/tutorials/ms/ms.htmSoftware gratuíto para análise de PAGE-2D - MelanieDesenvolvidonoSwissProt, estádisponíveldiretamentenapáginadoSwissProt, http://www.expasy.org/ ou num link na página http://www.science.gmu.edu/ ~ntongvic/Bioinformatics/software.html, que dáacesso amuitos outros programas debioinformática.

mero de proteínas codificadas pelogenoma da espécie humana (o queainda hoje é discutido), é previsívelque em alguns anos possamos co-nhecer de 4000 a 10000 proteínas-alvo, sobre as quais medicamentospoderão agir. Para termos uma idéiada grandeza destes números, todo o

arsenal terapêuticoqueconhecemoshoje atua sobre apenas 500 delas. Onúmero de drogas disponíveis hojenosEUA,derivadasdestasnovas tec-nologias, chegoua103noanopassa-do (21 delas foram aprovadas em2000).

Modelagemmolecular

Aindaneste sentido, procurandoassociar proteínas a suas funções, abioinformáticapodeedeverá trazer,nas próximasdécadas, suasmaiorescontribuições àbiologia.Oconheci-mento da estrutura terciária de umaproteína constitui uma informaçãovaliosa para determinação de suafunção,poispodepermitir a identifi-caçãodedomíniosconhecidos,comosítios catalíticos, sítios de modifica-ção alostérica e outros.

Além disso, tendo as estruturastridimensionais das proteínas deter-minadas, podemos então realizarpesquisasmais direcionadasno sen-tidodeencontrar inibidores, ativado-res enzimáticos eoutros ligantesquepermitam a produção de fármacosmais eficientes eespecíficos: o alme-jado Desenvolvimento Racional deFármacos (RationalDrugDesign).

Atualmente a abordagem maiseficaznadeterminarçãodaestruturaterciáriadeproteínaséaquelaque seutiliza de técnicas experimentaiscomoNMR (RessonânciaMagnéticaNuclear) e cristalografiapordifraçãode raios-X. Dezenas de milhares deprotéinas tiveramsuasestruturas ter-ciáriasconhecidasatravésdestesmé-todos e têm fornecido dados para odesenvolvimento de programas demodelagem e para a modelagempor homologia. Entretanto osméto-dos experimentais são, frequente-mente,procedimentosdispendiosose de difícil execução. Além disso,existem limitações técnicas quedifi-cultamadeterminaçãodeváriaspro-teínas. A obtenção de cada proteínapura é um desses fatores limitantes.Outro fator é a dificuldade de crista-lizaçãodasproteínas, etapanecessá-ria para a determinaçãode estruturapor difração de raios-X. Este é umproblema comum em proteínas demembrana ou glicosiladas. Mesmousandorobôsparaaceleraroproces-so experimental, estas e outras difi-culdades fazem com que a determi-nação de novas estruturas protéicasnãoconsigaacompanhar avelocida-de de obtenção de dados dos proje-tos genoma.

Page 12: Bio Informatica

Biotecnologia Ciência & Desenvolvimento - nº 29 23

Figura 8: Estrutura terciária equaternária daDeoxi-hemoglobinahumanaobtidapor Difração de Raios X edepositada no PDB. Amolécula é um tetrâmero,composta por 4 cadeias, eligada a 4 átomos de ferro

A modelagem molecular é ummétodo alternativo, não experimental,que permite, com base nos conheci-mentos da estereoquímica dos amino-ácidos e nas informaçoes adquiridasdas estruturas terciárias já resolvidas,prever a conformação de proteínas apartir da seqüência primária dos ami-noácidos.

Uma das formas de se realizar amodelagem de proteínas é utilizarcomo referência uma ou mais protéi-nas homólogas e de estrutura terciáriajá conhecida. Este tipo de modelagemé conhecido como modelagem porhomologia ou modelagem comparati-va, e, por enquanto, é a abordagemque obtém melhores resultados. Oprimeiro passo do processo é a pequi-sa de proteínas homólogas em bancosde dados de estruturas terciárias deproteínas. O PDB (Protein DatabaseBank) é o mais utilizado para este fim.A seguir, deve ser realizado o alinha-mento das seqüências de aminoácidosdas protéinas homólogas e a proteína-alvo (o programa Clustal, citado ante-riormente no artigo, pode ser usado). Amodelagem, propriamente dita, é rea-lizada através de softwares como oModeller, SWISS-MODEL, 3D-PSSM,dentre outros. Esses programas nor-malmente procuram encontrar a estru-tura terciária que melhor se aproximeda disposição dos átomos das proteí-nas utilizadas comomodelo, e aomes-mo tempo atenda às restrições este-

reoquímicas. Após a definição de umaestrutura candidada, esta pode ser ava-liada através de outros softwares deverificação de restrições estereoquími-cas, como o programa Procheck.

A modelagem por homologia é umprocesso iterativo de ajuste de parâ-metros e verificação dos resultados.Normalmente é necessário que o pro-cesso seja repetido várias vezes atéque uma estrutura terciária adequadaseja obtida. Além disso, a modelagemde proteínas, como um todo, é umatécnica heurística: mesmo que a estru-tura obtida concorde perfeitamentecom todas as restrições impostas, nãohá garantias de que esteja correta.Deve-se lembrar que uma estruturabastante semelhante à real pode ser osuficiente para formulação de novashipóteses e atingir as expectativas dousuário desta técnica.

Uma abordagem recente, que pos-sui um crescente números de adeptose acumula bons resultados, é a mode-lagem através de threading de prote-ína. Esta técnica é baseada na compa-ração da proteína em questão commodelos descritivos dos enovelamen-tos de proteínas homólogas. Nessesmodelos sãodescritas: a distância entre

os resíduosde aminoácidos, a estruturasecundária de cada fragmento e ascaracterísticas fisico-químicas de cadaresíduo.

Entretanto, um grande desejo dosque trabalham com proteínas é o de-senvolvimento deprogramas realmen-te eficientes para a modelagem abinitio, ou seja, que sejam capazes depredizer a estrutura terciária de umaproteína, tendo como informação ape-nas a seqüênciados resíduosdeamino-ácidos e suas interações fisico-quími-cas, entre si e com o meio. Programasassim existem hoje mas têm muito amelhorar para que possamos confiarunicamente no seu resultado.

No geral, a modelagem de proteí-nas através de programas de computa-dor é um campo de pesquisa recentee aindanãogerou softwares de eficiên-cia comprovada. Para estimular o de-senvolvimento de programas de mo-lelagem molecular de proteínas, foicriado um evento para a avaliaçãodesses softwares denominado CASP(Critical Assesment of Structural Pre-diction). A cada dois anos este eventoreúneosmais conhecidos pesquisado-res desta área, que são desafiados esuas diferentes metodologias avalia-

BOX10 � Programas e sites relacionados commodelagem e estrutu-ras de proteínas

PDBhttp://www.rcsb.org/pdb/Mais famoso e completo banco de dados de estrutura de proteínas.Proteinexplorerhttp://molvis.sdsc.edu/protexpl/Programaderivado doRasMol para a visualização de estruturas de proteínas.SWISS-PDBviewerhttp://www.expasy.org/spdbv/Programa para a visualização e análise da estrutura de várias proteínas aomesmo tempo. Permite a realização de mutações de aminoácidos, altera-ções em pontes de hidrogênio, ângulos de torção e distâncias entre átomos.Modellerhttp://guitar.rockefeller.edu/modellerUm dos programas mais utilizados para a modelagem de proteínas porhomologia.SWISS-MODELhttp://www.expasy.org/swissmodPrograma via web para a modelagem de proteínas por homologia.PROCHECKhttp://www.biochem.ucl.ac.uk/~roman/procheck/procheck.htmlPrograma que checa a qualidade estereoquímica de uma estrutura de prote-ína, gerando análises gráficas sobre a geometria espacial da proteína, resí-duopor resíduo.Librahttp://www.ddbj.nig.ac.jp/E-mail/libra/LIBRA_I.htmlPrograma on-line que utiliza threadingpara encontrar uma seqüência deresíduos de aminoácidos quemelhor se adequem a uma estrutura terciáriaconhecida e vice-versa.CASPhttp://predictioncenter.llnl.gov/Center.htmlCritical Assesment of Structural Prediction. Competição que avalia ossoftwares de predição de estrutura de proteínas.

Page 13: Bio Informatica

24 Biotecnologia Ciência & Desenvolvimento - nº 29

das. Nesta competição cada grupo re-cebe seqüências de proteínas tiveramsua estrutura resolvida experimental-mente por NMR e/ou cristalografia pordifração de raios X, mas que ainda nãoforam publicadas. Vence o grupo queconseguir prever ab initio, com maiorexatidão, a estrutura do maior númeroproteínas. Apesar dos esforços, atéhoje não houve 100% de acerto.

Métodos emfilogenética molecular

Umadas aplicaçõesmais antigas dabioinformática é a de desenvolvimen-to de programas que, a partir dasseqüências deDNAou de proteínas dediferentes organismos, sejam capazesde reconstruir a relação de parentescoentre as espécies, o que chamamos desistemática molecular, ou de recons-truir o parentesco entre as espéciesassociando essas informações a umaescala temporal, o que chamamos defilogenia molecular. A representaçãográfica desses resultados é feita naforma de árvores filogenéticas.

Atualmente, árvores filogenéticassão extremamente comuns em artigosque abordam assuntos de biologiamolecular, refletindo o reconhecimen-to de que estas árvores representamuma maneira legítima de entender osprocessos biológicos e a evolução dosmais diversos caracteres. Estes estudose as ferramentas criadas para este fimtêm aplicações tão diversas como pro-curar entender a origem do homemoureconstituir a história epidemiológicada AIDS a partir de dados do genomado vírus HIV.

Para realizar inferências a respeitodas relações de parentesco entre orga-nismos, tomando comobase seqüênci-as de DNA ou proteínas, o primeiropasso é identificar seqüências de inte-resse que apresentem ancestralidadecomum, ou seja, que sejam homólo-gas. Para isto, muitas vezes estas se-qüências são escolhidaspor similarida-denos grandesbancosdedadosdispo-níveis na rede, sem que tenhamos,sobre elas, dados das funções bioquí-micas e biológicas que possam confir-mar sua homologia. Por isso, é impor-tante ressaltar que, ao fazermos umareconstrução filogenética, a escolha deseqüências homólogas é fundamentalpara gerar uma árvore confiável, poissó assim teremos certeza de que esta-

remos comparando um mesmo marca-dor que apresenta similaridades entrevários organismos a partir de uma ori-gem comum, garantindo que eles com-partilhamummesmoancestral.Quandonão se comparam caracteres homólo-gos, pode-se incidir no erro de conside-rar similaridades sem origem comum e,portanto, com histórias evolutivas dife-rentes. Uma das formas de avaliar estaescolhaé incluir nas análises, seqüênciasde grupos externos (organismos comhistoria evolutiva conhecida em relaçãoao grupo em estudo), que funcionamcomo controles no processo de recons-trução de parentescos.

Uma vez selecionadas as seqüênciashomólogas dos organismos de interessee de grupos externos, será necessáriorealizar o alinhamento múltiplo entreelas e então gerar árvores filogenéticasa partir de métodos de distância ou decaracteres discretos (máxima parcimô-nia ou máxima verossimilhança) parapodermos realizar a inferência filogené-tica desejada. Para tanto, os seguintesmétodos são freqüentemente utilizadospelos softwares:

Métodos de Distância

Funcionam basicamente em doispassos, sendo que o primeiro deles é aredução das variações entre seqüênciasalinhadas a valores de distância dispos-tos em uma matriz. No segundo passo,estes valores sãoutilizadosna reconstru-ção filogenética. Um dos métodos dedistância mais comuns é a chamadadistância p, que expressa o número desítios variáveis entre duas seqüênciascom relação ao total de sítios compara-dos. Além deste, existem também mui-tos outrosmodelos evolutivos utilizadospara o cálculo de distâncias genéticas,comoo Jukes-Cantor, Kimura 2 parâme-tros, Tajima e Nei e Tamura 3 parâme-tros. Na reconstrução filogenética, osalgoritmosmais utilizados sãooUPGMA(Unweighted Pair Group Method withArithmetic means) e o Neighbor-joi-ning, que realizamuma série de cálculoscom amatriz de distância gerada a partirdo alinhamento para estimar a árvorefilogenética.

Máxima Parsimônia (MP)

Este método baseia-se na teoria deque a melhor hipótese para explicar umprocesso é aquela que requer o menor

número de passos. Para a análise filoge-nética, isto significa que a árvore quepossuir ummenor númerodemudanças(substituições) para explicar os dadosdoalinhamento é a mais próxima da real.Na MP não há a fase de cálculo dedistância, sendo que as árvores são cal-culadas diretamente dos dados do ali-nhamento. Entretanto, estametodologiarequer muitomais tempo quando se usaa busca exaustiva de árvores, uma vezque o computador precisa reconstruirtodas as árvores possíveis para �esco-lher� aquelas com um número mínimode mudanças, que são chamadas deárvoresmaisparcimoniosas. Para contor-nar este problema do tempo, existemtambém algoritmos heurísticos de re-construção filogenética, mas é precisolembrar que, nestes casos, a árvore finalpode ser subótima.

Máxima Verossimilhança (MV)

Este método baseia-se na reconstru-ção filogenética através da busca porumaárvore quemaximize aprobabilida-dedos dados observados.Neste sentido,o método de MV calcula as probabilida-des associadas a diferentes topologias ecada uma delas com as variações nostamanhos dos ramos, considerando omodelo evolutivo escolhido. Portanto,encontrar a árvore mais verossímil en-volve não somente a análise das topolo-gias possíveis, mas também das varia-ções de comprimento de ramos paracada topologia. Destemodo, o empregode algoritmos heurísticos pode auxiliarenormemente na busca pela árvore ide-al, já que o tempo computacional au-menta de acordo com o número deespécies e de parâmetros consideradosna análise.

A cada vez que um programa defilogenia molecular é rodado para geraruma árvore sobre o conjunto de dadosescolhidos, o resultadopode ser diferen-te. Por isso, para validar uma árvorefilogenética, o que se faz é rodar repeti-das vezes o programa escolhido e, esta-tisticamente, testar cada ramopara esco-lher um a um aqueles commaior proba-bilidade de ocorrência para a composi-ção final da árvore. Ométodo estatísticomais usado nessas análises é o chamadobootstrap.

O bootstrap funciona gerando con-juntos modificados de dados, obtidosaleatoriamente a partir dos dados doalinhamento. Para cada conjunto aleató-

Page 14: Bio Informatica

Biotecnologia Ciência & Desenvolvimento - nº 29 25

BOX11 - Programas mais utilizados na análise filogenéticaClustal

Programapara o alinhamentomúltiplo de seqüênciasAcessoon line - http://www.ebi.ac.uk/clustalw/Downloaddo clustal X para diversas plataformas - http://inn-prot.weizmann.ac.il/software/ClustalX.htmlPAUP 4.0 (Phylogenetic Analysis Using Parsimony and other methods) -http://paup.csit.fsu.edu/Análises filogenéticas utilizandométodosdedistância,máximaparcimôniaemáximaverossimilhançaPHYLIP (Phylogeny Inference Package) � inferências filogenéticashttp://evolution.genetics.washington.edu/phylip.htmlMEGA (Molecular EvolutionaryGenomeAnalysis) - http://www.megasoftware.net/Inferências filogenéticas commétodos de distância e parcimônia.Downloadgratuito.Treeviewhttp://taxonomy.zoology.gla.ac.uk/rod/treeviewSoftware gratuito para edição gráfica e impressão de árvores filogenéticas

rio de dados obtidos é estimada umaárvore. As novas árvores, geradas apartir dos conjuntos modificados dosdados de entrada, são comparadas.Cada um dos ramos da árvore finalrecebe então um valor de probabilida-de, que é obtido do número de novasárvores onde esse ramoocorreudividi-do pelo número total de novas árvoresestimadas. Probabilidades altas indi-cam que, mesmo com algumas altera-ções, os dados suportam o ramo aoqual essa probabilidade se refere eprobabilidades baixas significam que,com a amostra analisada, não se podeter certeza de que determinado ramoseja correto.

CONSIDERAÇÕES FINAIS

Tentamos abordar nesse artigo osprincipais tópicos desenvolvidos embioinformática. Este artigo não preten-de esgotar cada um dos assuntos abor-dados,mas imaginamosqueos leitoresinteressados poderão encontrar maisinformações e trilhar seupróprio cami-nho visitando os links e observando asreferências sugeridas.

Agradecimentos

Sendo este trabalho fruto do apren-dizado obtido no II Curso de Especia-lização em Bioinformática, realizadode agosto a novembro de 2002 emPetrópolis - RJ, os autores gostariamdeagradecer principalmente ao CNPq

pelo suporte financeiro concedidoparaa realização do curso e ao LNCC (Labo-ratório Nacional de Computação Cien-tífica) por sediar este evento, em es-pecial à coordenadora do curso, AnaTerezaVasconcelos.Agradecemos tam-bém a todos os nossos professores:Darcy de Almeida, Richard Garratt,Glaucius Oliva, Patricia Palagi, MarieAnne Van Sluys, Cláudia Russo, Ana-maria Camargo, Helena Brentani, San-dro de Souza, Jorge de Souza, LuizGonzaga, Frank Alarcon, FernandaRaupp, Daniele Quintella, Helio Bar-bosa,AlexandrePlastino,Dorival Leão,MarcosGrivet, SimoneMartins e a todoo pessoal do Laboratório de Bioinfor-mática do LNCC.

Agradecemos também a nossosorientadores e às instituições e órgãosde financiamentonacionais e estaduaispelo apoio dado a cadaumdenósparaaparticipaçãonoCursodeEspecializa-ção em Bioinformática do LNCC.

REFERÊNCIAS BIBLIOGRÁFICAS

1. Altschul SF et al. Gapped BLASTand PSI-BLAST: a new generati-on of protein database searchprograms. Nucleic Acids Res 25:3389-3402. 1997.

2. Baxevanis AD, Ouellette BFF. Bio-informatics: A practical guideto the analysis of genes andproteins. Ed. Wiley-interscience.2nd ed. 2001. 470p.

3. Clote P, Backofen R. Computatio-

nal Molecular Biology: An in-troduction. John Wiley & Sons,LTD. 2000. 286p.

4. Ewing B, Green P. Base-calling ofautomated sequencer tracesusing phred. II. Error probabi-lities. Genome Res 8:186-94. 1998.

5. Frishman D et al. Comprehensive,comprehensible, distributedand intelligent databases: cur-rent status. Bioinformatics Revi-ew, 14, 551-561. 1998.

6. Huang X, Madan A. CAP3: A DNASequence Assembly Program.Genome Biol 9: 868-877. 1999.

7. Hunt SP, Livesey FJ. Functionalgenomics. Oxford UniversityPress. 2000. 253p.

8. Matioli RM. Biologia Molecular eEvolução. Ed. Ribeirão Preto: Ho-los, 2001. 202 p.

9. Nei M, Kumar S. Molecular evolu-tion and phylogenetics. 1 Ed.New York: Oxford, 2000. 333 p.

10. Lander ES et al. Initial sequen-cing and analysis of the humangenome. Nature 409:860-921.2001.

11. Li WH, Graur D. Fundamentalsof molecular evolution. 2. Ed.Sunderland: Sinauer Associates,2000.480p.

12. Prosdocimi F et al. Clustering ofSchistosoma mansoni mRNAsequences and analysis of themost transcribed genes: impli-cations in metabolism and bio-logy of different developmen-tal stages.Mem Inst OswaldoCruz97: 61-69. 2002.

13. Schena M. Microarray Analysis.Ed. John Wiley & Sons. 2002.

14. Setubal JC, Meidanis J. Introducti-on to Computational MolecularBiology. Brooks Cole PublishingCompany. 1997. 296p.

15. Stein L. Genome annotation:from sequence to biology. NatReviews 2: 493-505. 2001.

16. Strohman R. Five stages of theHuman Genome Project. Nat. Bio-technol 17, 112. 1999.

17. Schwartz RL. Learning Perl. Ed.O�Reilly & Associates, Inc. 1993.247p.

18. Tisdall JD. Beginning Perl forBioinformatics. Ed. O�Reilly &Associates, Inc. 2001. 368p.

19. Venter JC et al. The sequence ofthe human genome. Science29:1304-51. 2001.