introdução a bioinformática - tese
TRANSCRIPT
-
8/19/2019 Introdução a Bioinformática - Tese
1/163
UNIVERSIDADE FEDERAL DE GOIÁS
ESCOLA DE ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO
INTRODUÇÃO A BIOINFORMÁTICA
Weslley Francisco Machado de NapoliOrientador: Prof. Dr. Marco Antônio Assfalk de Oliveira
Goiânia – 2003
-
8/19/2019 Introdução a Bioinformática - Tese
2/163
WESLLEY FRANCISCO MACHADO DE NAPOLI
INTRODUÇÃO A BIOINFORMÁTICA
Projeto Final apresentado ao Curso de Engenharia deComputação da Escola de Engenharia Elétrica e deComputação da Universidade Federal de Goiás, paraobtenção de Graduação em Engenharia de Computação.Área de concentração: Bioinformática.Orientador: Prof. Marco Antônio Assfalk de Oliveira
Goiânia – 2003
-
8/19/2019 Introdução a Bioinformática - Tese
3/163
WESLLEY FRANCISCO MACHADO DE NAPOLI
INTRODUÇÃO A BIOINFORMÁTICA
Dissertação defendida e aprovada em 25 de março de2003, pela banca examinadora constituída pelos professores.
____________________________________Prof. Dr. Marco Antônio Assfalk de Oliveira
____________________________________
Prof. M.Sc. Carlos Galvão Pinheiro Jr.
____________________________________Prof. Dr. Gelson da Cruz Júnior
-
8/19/2019 Introdução a Bioinformática - Tese
4/163
Aos meus pais, pelo carinho comque acompanharam e orientarama minha trajetória.
-
8/19/2019 Introdução a Bioinformática - Tese
5/163
Agradecimentos
À minha grande amiga RosângelaThais por ter colaborado em todos os
momentos durante a Elaboração do meuProjeto Final.
Ao meu orientador e a UFG por teremaceitado a minha decisão de mudar de projeto faltando apenas três semanas para aapresentação.
Ao meu antigo parceiro de ProjetoFinal que aceitou a divisão sem traumas esem desentendimentos.
-
8/19/2019 Introdução a Bioinformática - Tese
6/163
Todo conhecimento científico nos ajuda acompreender os fenômenos da natureza, adesvendar os mistérios da vida e do Universo.Um novo conhecimento científico nos dá poderes. Esses poderes, quando utilizados deforma responsável, normalmente servem para o
“bem”. Caso contrário, se utilizados sem se ponderar suas conseqüências, podem acabarcausando o “mal”. Se quisermos evitar situaçõesde abuso de um novo poder, como o mau uso daenergia nuclear (bombas atômicas), devemos usarcom responsabilidade os novos poderes adquiridoscom o conhecimento do genoma humano.
Lygia da Veiga Pereira
-
8/19/2019 Introdução a Bioinformática - Tese
7/163
SUMÁRIO
RESUMO.......................................................................................................................................... 10
ABSTRACT...................................................................................................................................... 11
INTRODUÇÃO ................................................................................................................................ 12
1 – CONCEITOS DA BIOLOGIA ............................................................................................ 151.1 – GENOMA ............................................................................................................................ 161.2 – DNA: A RECEITA BIOLÓGICA ....................................................................................... 18
1.2.1 – Replicação de dna................................................................................................................. 191.2.2 – Transcrição de dna................................................................................................................ 201.3 – PROTEÍNAS........................................................................................................................ 211.4 – CROMOSSOMOS ............................................................................................................... 231.5 – HEREDITARIEDADE ........................................................................................................ 241.6 – GENES E ALELOS ............................................................................................................. 251.7 – DIVERSIDADE GENÉTICA .............................................................................................. 271.8 – GENES E MEIO AMBIENTE............................................................................................. 28
2 – PROJETO GENOMA HUMANO ....................................................................................... 292.1 – OBJETIVOS DO GENOMA HUMANO ............................................................................ 292.2 – ORGANIZAÇÃO DO GENOMA HUMANO .................................................................... 31
2.2.1 – Identificando genes a partir do rna ....................................................................................... 312.2.2 – O que já foi identificado na seqüência completa do genoma humano ................................. 322.2.3 – Diferenças entre genomas .................................................................................................... 332.2.4 – O próximo desafio: determinar a função gênica................................................................... 342.2.5 – O proteoma humano ............................................................................................................. 342.3 – O PROJETO GENOMA HUMANO NO BRASIL.............................................................. 34
3 – INFORMÁTICA: UMA FERRAMENTA INDISPENSÁVEL .......................................... 363.1 – A INFLUÊNCIA DA COMPUTAÇÃO NA BIOLOGIA ................................................... 363.2 – RÓTULOS NAS SEQÜÊNCIAS DE GENES..................................................................... 383.3 – BIOINFORMÁTICA – APENAS A CRIAÇÃO DE BANCO DE DADOS?..................... 383.4 – A PRIMEIRA ERA DA INFORMAÇÃO EM BIOLOGIA ................................................ 39
3.5 – DESAFIOS DA BIOLOGIA PARA A COMPUTAÇÃO ................................................... 413.6 – UMA NOVA ABORDAGEM DA COLETA DE DADOS................................................. 413.7 – QUE PERGUNTAS A BIOINFORMÁTICA PODE RESPONDER ? ............................... 42
4 – MODELAGEM DE SISTEMAS BIOLÓGICOS ............................................................... 444.1 – REPRESENTAÇÃO UNIDIMENSIONAL DE MOLÉCULAS......................................... 444.2 – MÉTODOS COMPUTACIONAIS...................................................................................... 454.3 – ETAPAS DE UM EXPERIMENTO EM BIOLOGIA COMPUTACIONAL ..................... 49
5 – PESQUISA BIOLÓGICA NA WEB ................................................................................... 515.1 – UTILIZAÇÃO DOS MECANISMOS DE PESQUISA....................................................... 515.2 – LOCALIZAÇÃO DE ARTIGOS CIENTÍFICOS................................................................ 52
-
8/19/2019 Introdução a Bioinformática - Tese
8/163
5.3 – OS BANCOS DE DADOS BIOLÓGICOS PÚBLICOS ..................................................... 525.4 – HISTÓRICO......................................................................................................................... 545.5 – DADOS DE SEQÜÊNCIAS DE DNA, RNA E PROTEÍNAS ........................................... 54
5.6 – DADOS DE EXPRESSÃO GÊNICA.................................................................................. 555.7 – PESQUISA E DEPÓSITO EM BANCOS DE DADOS BIOLÓGICOS............................. 56
6 – ANÁLISE DE SEQÜÊNCIAS, ALINHAMENTO PAR-A-PAR E PESQUISA EMBANCOS DE DADOS......................................................................................................... 59
6.1 – COMPOSIÇÃO DO DNA E RNA ...................................................................................... 606.2 – WATSON E CRICK DESCOBREM A ESTRUTURA DO DNA ...................................... 616.3 – DESENVOLVIMENTO DOS MÉTODOS DE SEQÜENCIAMENTO DO DNA............. 626.4 – A COMPOSIÇÃO QUÍMICA DAS PROTEÍNAS ............................................................. 636.5 – MECANISMOS DA EVOLUÇÃO MOLECULAR............................................................ 636.6 – DETECÇÃO DE PADRÕES E LOCALIZADORES DE GENE NO DNA ....................... 646.7 – PREDIÇÃO DA LOCALIZAÇÃO DE GENES.................................................................. 65
6.8 – DETECÇÃO DE ESTRUTURAS........................................................................................ 666.9 – TRADUÇÃO DE DNA........................................................................................................ 666.10 – COMPARAÇÃO DE PARES DE SEQÜÊNCIAS.............................................................. 686.11 – SOFTWARES DE PESQUISA EM BANCOS DE DADOS BIOLÓGICOS ..................... 736.11.1– Alinhamento local usando blast ........................................................................................... 736.11.2– Alinhamento local com fasta ................................................................................................ 74
7 – ALINHAMENTO MÚLTIPLO DE SEQÜÊNCIAS, .......................................................... 767.1 – EVOLUÇÃO........................................................................................................................ 767.2 – ALINHAMENTO DE VÁRIAS SEQÜÊNCIAS ................................................................ 787.3 – ANÁLISE FILOGENÉTICA............................................................................................... 817.3.1 – Árvores filogenéticas com base nas distâncias entre pares .................................................. 83
7.3.2 – Árvores filogenéticas baseadas na junção de vizinhos......................................................... 847.3.3 – Árvores filogenéticas baseadas em parcimônia máxima...................................................... 847.3.4 – Árvores filogenéticas baseadas na estimativa de probabilidade máxima ............................. 857.3.5 – Software para análise filogenética........................................................................................ 867.4 – PERFIS E PADRÕES .......................................................................................................... 877.4.1 – Bancos de dados de padrões................................................................................................. 887.4.2 – Construção e uso dos próprios perfis.................................................................................... 90
8 – VISUALIZAÇÃO DE ESTRUTURAS DE PROTEÍNA .................................................... 958.1 – A QUÍMICA DAS PROTEÍNAS......................................................................................... 968.1.1 – De unidimensional a tridimensional..................................................................................... 968.2 – FORÇAS INTERATÔMICAS E ESTRUTURA DE PROTEÍNAS.................................. 101
8.2.1 – Interações covalentes.......................................................................................................... 1018.2.2 – Pontes de hidrogênio .......................................................................................................... 1028.2.3 – Interações hidrofóbicas e hidrofílicas................................................................................. 1038.2.4 – Interações carga-carga, carga-dipolo e dipolo-dipolo ........................................................ 1058.2.5 – Forças de Vander Waals..................................................................................................... 1068.2.6 – Forças repulsivas ................................................................................................................ 1068.2.7 – Força relativa de forças interatômicas................................................................................ 1068.3 – VISUALIZAÇÃO DA ESTRUTURA............................................................................... 1088.4 – CLASSIFICAÇÃO DA ESTRUTURA ............................................................................. 1098.4.1 – Estrutura Secundária a partir de coordenadas ................................................................... 1108.4.2 – Representação Gráfica da Topologia.................................................................................. 110
-
8/19/2019 Introdução a Bioinformática - Tese
9/163
8.5 – ALINHAMENTO ESTRUTURAL ................................................................................... 1118.6 – ANÁLISE DA ESTRUTURA............................................................................................ 1138.6.1 – Análise da qualidade da estrutura....................................................................................... 113
8.7 – ACESSIBILIDADE DE SOLVENTES E INTERAÇÕES................................................ 1148.8 – COMPUTAÇÃO DE PROPRIEDADES FÍSICO-QUÍMICAS ........................................ 1168.8.1 – Eletrostática macromolecular ............................................................................................. 1168.8.1.1 – Visualização de Superfícies Moleculares com Propriedades Mapeadas.......................... 1178.9 – OTIMIZAÇÃO DA ESTRUTURA ................................................................................... 1178.9.1 – Papel da Informática na Otimização................................................................................... 1188.10 – FERRAMENTAS E TÉCNICAS DA ESTRUTURA MOLECULAR.............................. 119
9 – PREDIÇÃO DA ESTRUTURA E FUNÇÃO PROTÉICAS ............................................................1229.1 – DETERMINAÇÃO DE ESTRUTURAS DE PROTEÍNAS.............................................. 1229.1.1 – Resolução de estruturas protéicas pela cristalografia de raios-x ........................................ 1239.1.2 – Dissolução de estruturas pela espectroscopia por rnm ....................................................... 124
9.2 – PREDIÇÃO DE ESTRUTURAS DE PROTEÍNAS.......................................................... 1259.2.1 – CASP: a busca pelo cálice sagrado .................................................................................... 1269.3 – DE TRIDIMENSIONAL A UNIDIMENSIONAL............................................................ 1279.4 – DETECÇÃO DE CARACTERÍSTICAS NAS SEQÜÊNCIAS PROTÉICAS ................. 1289.5 – PREDIÇÃO DA ESTRUTURA SECUNDÁRIA.............................................................. 1299.5.1 – Métodos híbridos e métodos baseados em alinhamento..................................................... 1299.5.2 – Métodos de predição de seqüência única ........................................................................... 1319.5.3 – Avaliação da exatidão da predição..................................................................................... 1319.5.4 – Predições em uso................................................................................................................ 1329.5.5 – Predição da hélice transmembrana ..................................................................................... 1329.5.6 – Encadeamento .................................................................................................................... 1339.6 – PREDIÇÃO DA ESTRUTURA TRIDIMENSIONAL...................................................... 134
9.6.1 – Modelagem por homologia ................................................................................................ 1349.7 – REUNINDO TUDO: UM PROJETO DE MODELAGEM PROTÉICA........................... 1379.7.1 – Predição da estrutura secundária com base na seqüência................................................... 138
10 – FERRAMENTAS PARA GENÔMICA E PROTEÔMICA .............................................. 14010.1 – DO SEQÜENCIAMENTO DOS GENES AO SEQÜENCIAMENTO DOS GENOMAS14110.2 – MONTAGEM DE SEQÜÊNCIAS .................................................................................... 14610.3 – ACESSO ÀS INFORMAÇÕES SOBRE GENOMA NA WEB........................................ 14810.4 – ANOTAÇÃO E ANÁLISE DAS SEQÜÊNCIAS DE GENOMAS COMPLETOS.......... 15110.4.1 – Anotação de Genoma ........................................................................................................ 15110.4.2 – Comparação de Genoma ................................................................................................... 15210.5 – MICROARRAYS DE DNA: TECNOLOGIAS EMERGENTES EM GENÔMICA
FUNCIONAL..................................................................................................................... 15310.6 – PROTEÔMICA.................................................................................................................. 15410.7 – BANCOS DE DADOS DE VIAS BIOQUÍMICAS .......................................................... 15710.8 – MODELAGEM CINÉTICA E FISIOLÓGICA................................................................. 158
CONCLUSÃO ................................................................................................................................ 161
REFERÊNCIAS BIBLIOGRÁFICAS............................................................................................ 162
-
8/19/2019 Introdução a Bioinformática - Tese
10/163
RESUMO
A pesquisa biológica está sendo modificada drasticamente pela inserção nomundo atual de uma rede de comunicação cada vez mais globalizada – a Web e decomputadores cada vez mais potentes. A ciência biológica está seguindo uma tendênciamundial de quebra de paradigmas. Seguindo essa linha de pensamento, não podemos deixarde ressaltar o surgimento da bioinformática que consiste em uma disciplina científica emrápido desenvolvimento que trata da aplicação de métodos computacionais e analíticos a problemas biológicos. Envolve aspectos multidisciplinares resultando da união dasseguintes ciências: ciência da computação, a matemática e a biologia molecular. Neste momento, estamos completando o projeto mais audacioso jamais proposto pelahumanidade: determinar a seqüência do genoma humano, conhecer a receita que a natureza
desenvolveu e aperfeiçoou durante milhões de anos e que ela segue para criar uma pessoa.Os conhecimentos da biologia humana gerados por esse projeto nos ajudarão a responderaquelas perguntas e, assim, revolucionarão a vida de cada um de nós.
-
8/19/2019 Introdução a Bioinformática - Tese
11/163
ABSTRACT
Recent computational resources and tools, such as the global information-sharing network known as the Internet, and ever more powerful personal computers, haveincreasingly enhanced biology research.Bioinformatics is a recent and increasingly relevant field of research, involving theapplication of computational and analytical methods to biology problems, thus having amultidisciplinary nature: from computer science and mathematics to molecular and cell biology.The Human Genome Project is a well-known example of bioinformatics. The sequencingand identification of the role of genes is however not limited to the human genome but isalso being applied, with considerable scientific and commercial success, to the geneticmaterial of other being, such as commercial crops and pathological bioagents.This essay provides a broad overview of the current state of bioinformatics, with a briefintroduction to genetic research concepts and, given the essay’s target audience - computerengineering professionals and students, with a more detailed description of relevantcomputational methods.
-
8/19/2019 Introdução a Bioinformática - Tese
12/163
INTRODUÇÃO
A pesquisa biológica está sendo modificada drasticamente pela inserção no
mundo atual de uma rede de comunicação cada vez mais globalizada – a Web e de
computadores cada vez mais potentes. A ciência biológica está seguindo uma tendência
mundial de quebra de paradigmas. Podemos dizer que há muitos anos a biologia teórica e
computacional existe em um segundo plano da ciência biológica. Mas de poucos anos para
cá, a aplicação de computadores à análise de dados genômicos começou a mudar este
paradigma. Em um passado recente, as pesquisas que eram iniciadas em laboratório,
começam agora no computador, quando os cientistas pesquisam os bancos de dados em
busca de informações que possam sugerir novas hipóteses.
A partir dos anos 80, os computadores pessoais, cada vez mais acessíveis a
todos os profissionais, transformaram-se de novidades caras com pouco poder real de
computação em máquinas poderosas como os supercomputadores de décadas atrás. As
máquinas tomaram o lugar do equipamento de laboratório no controle e na coleta de dados.Os bancos de dados são um meio de armazenar informações mais eficientes do que outras
formas de registro não eletrônicas. Além da sua utilidade para armazenar, analisar e
visualizar os dados, os computadores são dispositivos úteis para entender qualquer sistema
que possa ser descrito de forma matemática, dando origem a disciplinas como a
bioinformática que é um ramo da biologia computacional.
A bioinformática consiste em uma disciplina científica em rápido
desenvolvimento que trata da aplicação de métodos computacionais e analíticos a
problemas biológicos. Envolve aspectos multidisciplinares resultando da união das
seguintes ciências: ciência da computação, a matemática e a biologia molecular. Em vez de
trabalhar com tubos de ensaio no laboratório, tenta extrair informações do genoma humano
por meio de métodos computacionais de comparação de seqüências.
Biologia + informática = bioinformática
-
8/19/2019 Introdução a Bioinformática - Tese
13/163
13
Nos últimos anos, é cada vez mais comum o armazenamento de dados
biológicos em bancos de dados públicos. Atualmente, é de vital importância para um
pesquisador manter-se atualizado com as informações necessárias da área utilizando-se de
ferramentas computacionais.
“A bioinformática é, antes de qualquer coisa, uma ciência
biológica. Freqüentemente, trata-se menos de desenvolver perfeitamente algoritmos
elegantes do que responder a perguntas práticas. Os especialistas em bioinformática (ou
bioinformatas) são criadores das ferramentas e é fundamental que eles entendam os
problemas biológicos tanto quanto as soluções computacionais para que produzam
ferramentas úteis.”1
A pesquisa em bioinformática e biologia computacional engloba desde a
abstração das propriedades de um sistema biológico em um modelo matemático ou físico,
até a implementação de novos algoritmos para análise de dados ou, ainda, o
desenvolvimento de banco de dados e ferramentas de Web para acessá-los.
Esse trabalho é uma introdução de alguns dos assuntos mais importantes da
bioinformática. Apresentamos técnicas computacionais padronizadas para localizar
informações em bancos de dados de seqüências biológicas, genomas e estruturas
moleculares. Examinamos maneiras de usar o computador como uma ferramenta para
organizar dados, pensar sistematicamente sobre processos de análise de dados e começar a
pensar sobre a automação do tratamento de dados. Além de abordar conceitos fundamentais
de biologia molecular.
Definimos uma estrutura em que os capítulos são independentes , de forma que pode ser lido do início ao fim ou salteado.
Nos dois primeiros capítulos, discutiremos alguns conceitos sobre Biologia
Molecular, Projeto Genoma dentre outros.
1 GIBA,Cyntia. Desenvolvendo Bioinformática: Ferramentas de software para aplicação em biologia / CyntiaGibas & Per Jambeck; tradução Milarepa Ltda. Rio de Janeiro: Campus, 2001. 423 p. Tradução de:Developing bioinformatics computer skills.
-
8/19/2019 Introdução a Bioinformática - Tese
14/163
14
No terceiro capítulo, abordaremos a utilização da informática em pesquisas
científicas, mais especificamente a biologia molecular.
Nos capítulos quatro a dez, vamos descrever algumas técnicas computacionais
utilizadas na bioinformática.
E para encerrar, discutiremos no capítulo dez, algumas aplicações e
perspectivas futuras em relação ao Projeto Genoma.
-
8/19/2019 Introdução a Bioinformática - Tese
15/163
1 – CONCEITOS DA BIOLOGIA
Vamos começar observando o produto final do nosso estudo: o ser humano.
Observe seu corpo, começando por algo simples, como suas mãos. Perceba o formato dos
dedos, a capacidade de flexioná-los, de controlar a força da flexão, de segurar objetos.
Mesmo em uma época de grande desenvolvimento tecnológico, é extremamente complexo
simular movimentos humanos através de robôs. Ainda estamos longe de chegar a perfeição.
Cada estrutura do nosso corpo, cada função que ele exerce, desde coordenar as
pernas para andar até bombear o sangue por nossas artérias e veias mantendo o corpo
oxigenado, é extremamente sofisticada. E cada um de nós faz tudo isso sem nem sequer
pensar no assunto.
Mais fascinante ainda é lembrarmos de que cada um de nós começou como uma
única célula, resultado da fusão de um óvulo da nossa mãe com um espermatozóide do
nosso pai. Essa única célula se dividiu em duas, as duas em quatro, as quatro em oito, e
assim por diante. Essas células, no início idênticas, a partir de um certo ponto começaram ase diferenciar, ou seja, passaram a desenvolver características diferentes umas das outras.
Assim, umas viraram células de sangue, outras de músculo, outras de sistema nervoso, cada
uma assumindo uma identidade e função próprias. Pois imagine só a complexidade de um
ser humano: trilhões de células formando ossos, músculos, pele, gordura, os órgãos, os
membros, e por aí vai. E todas essas estruturas ligadas umas às outras, interagindo de
formas extremamente específicas e reguladas para o funcionamento de uma pessoa.
Mas tomo isso acontece? Quem é o maestro que está regendo essa fascinante
orquestra? É o genoma, nossa receita, que foi constituído no momento da fecundação,
dentro daquela primeira célula que um dia fomos. A cada divisão, o genoma é fielmente
copiado para cada uma das células-filhas. Assim, essa receita vai sendo lida e executada por
cada uma das nossas células não só durante o desenvolvimento, mas durante toda a nossa
vida.
-
8/19/2019 Introdução a Bioinformática - Tese
16/163
16
1.1 – GENOMA
A seqüência completa de DNA que codifica um ser vivo é chamada de genoma.
Assim como uma receita é composta de diversas instruções, nosso genoma também é
composto de milhares de comandos, que chamamos de genes. Cada um dos 30 mil a 40 mil
genes que se estima compor nosso genoma é uma instrução específica para a formação e o
funcionamento de um ser humano.
Os genes regulam todas as nossas características: altura, cor da pele, cor dos
olhos, quantidade de cabelo, tamanho do nariz, distribuição de gordura no corpo, formato
do rosto, capacidade respiratória, cardíaca, etc. Da mesma forma que uma receita é um
conjunto de instruções, nosso genoma é esse conjunto de genes. Um gene é uma seção
pequena e definida da seqüência genômica inteira, e cada gene tem um propósito específico
exclusivo. Existem três tipos de genes:
– Genes codificadores de proteínas: são modelos para gerar moléculas
chamadas proteínas.
– Genes especificadores de RNA: são modelos para as máquinas químicas,
mas os blocos criadores das máquinas de RNA são diferentes dos que
compõem a proteína.
– Genes não transcritos: são regiões do DNA genômico que possuem algum
propósito funcional, mas não alcançam esse propósito, sendo transcritos ou
convertidos para criar outra molécula.
Aliás, cada ser vivo tem seu próprio genoma. Os seres mais simples, como bactérias e outros organismos unicelulares, têm uma receita pequena, composta de poucas
instruções, de poucos genes. Afinal de contas, esses organismos não têm muitas outras
atividades além de crescer e reproduzir, funções relativamente pouco elaboradas para uma
célula. O menor genoma que se conhece é o da bactéria Mycoplasma genitalium, composto
de aproximadamente 500 genes.
-
8/19/2019 Introdução a Bioinformática - Tese
17/163
17
Conjuntos específicos de genes, de instruções, modulam cada uma das nossas
características e funções fisiológicas. Por exemplo, quando sangramos, para o sangue coagular é
preciso que seja executada uma série de instruções que são formadas por um conjunto de pelo
menos dez genes no nosso genoma. Já nosso sistema auditivo é bem mais sofisticado,
necessitando da interação de mais de 200 genes para seu funcionamento normal.
Mutações
Pequenas variações em cada um dos nossos genes dão origem a grande
diversidade de tipos humanos -pessoas saudáveis, mas cada uma diferente da outra. Já erros
em certos genes causam diferentes tipos de mau funcionamento, de doenças na pessoa.Esses erros são chamados de mutações.
Veja o exemplo do gene F9, uma das instruções necessárias para a coagulação
do sangue. Pessoas que possuem erros nesse gene, falha nesse comando, têm dificuldade de
coagulação, fazendo que até pequenos ferimentos se tornem hemorragias. Essa doença,
causada por mutações no gene F9, chama-se hemofilia.
Já o gene ADA é um dos comandos para o funcionamento correto do sistemaimunológico. Pessoas com mutações nesse gene, defeitos nessa instrução, não desenvolvem
seu sistema imune e assim são muito suscetíveis a infecções, tendo que viver isoladas em
ambientes esterilizados.
As mutações, as modificações na receita de um indivíduo de uma espécie,
podem fazer com que ele tenha uma doença ou uma malformação. Mas podem também dar-
lhe uma nova característica que, se conferir alguma vantagem de sobrevivência e
reprodução sobre os seus companheiros, será passada para seus descendentes. O acúmulo
dessas "mutações vantajosas" eventualmente dará origem a indivíduos tão diferentes dos
originais que eles constituirão uma nova espécie. Ou seja, a evolução das espécies se dá por
meio das mutações e da seleção natural.
Atualmente são conhecidas mais de 800 doenças causadas por mutações em
algum dos nossos milhares de genes. São as chamadas doenças genéticas.
-
8/19/2019 Introdução a Bioinformática - Tese
18/163
18
1.2 – DNA: A RECEITA BIOLÓGICA
Nosso genoma é composto de um elemento químico chamado DNA (ácido
desoxirribonucléico). O DNA encontra-se no núcleo das células e até a década de 1920 sabia-se
muito pouco sobre a composição e a função desse material. Somente vinte anos depois foi
finalmente demonstrado que o DNA contém instruções que determinam as características do ser
vivo e que é ele que transmite essas instruções de geração a geração.
E como essa informação está escrita no DNA? Da mesma forma que uma receita é
uma seqüência das 25 letras do nosso alfabeto repetidas de forma organizada várias vezes, o
DNA pode ser visto como uma fita composta por quatro elementos básicos repetidos: A
(adenina), C (citosina), G (guanina) e T(timina). Ou seja, a receita de um ser humano está escrita
com um alfabeto de quatro letras. Na linguagem bioquímica, essas "letras" são chamadas bases
do DNA. Nosso genoma é composto de bilhões dessas bases organizadas em uma seqüência
muito específica e que em conjunto são a receita de um ser humano.
E os genes nisso tudo? Ora, se um gene é uma instrução dessa receita, cada gene é
composto por uma seqüência específica de bases de DNA. O gene ADA, necessário para o
funcionamento do sistema imunológico, possui quase 37 mil letras, ou 37 mil bases. Já o gene F9
é composto de 200 mil bases, e assim por diante para cada gene no nosso genoma.
O dogma central da Biologia Molecular estabelece: “o DNA atua como um modelo
para se replicar, ele também é transcrito no RNA, e o RNA é convertido em proteína.“2
A informação genética, que é utilizada pelo organismo individual por meio de
processos de transcrição e tradução, é conservada e passada para os descendentes por meio
do processo de replicação.
O DNA genômico contém todas as informações vitais de um ser vivo e pode
conter íntrons, regiões repetidas e outras características. A seqüência de DNA
2 GIBA,Cyntia. Desenvolvendo Bioinformática: Ferramentas de software para aplicação em biologia / CyntiaGibas & Per Jambeck; tradução Milarepa Ltda. Rio de Janeiro: Campus, 2001. 423 p. Tradução de:Developing bioinformatics computer skills.
-
8/19/2019 Introdução a Bioinformática - Tese
19/163
19
“unidimensional” em si não faz nada bioquimicamente; ela é só informação que é lida pelo
sistema de síntese da proteína da célula.
O DNA é um polímero linear composto de unidades químicas individuais
chamadas nucleotídeos ou bases. Os quatro nucleotídeos que compõem as seqüências de
DNA dos seres vivos são adenina, guanina, citosina e timina – designados pelas letras
A, G, C e T, respectivamente. A ordem dos nucleotídeos na seqüência de DNA linear
contém as instruções que criam um organismo. Essas instruções são lidas em processos
chamados de replicação, transcrição e tradução.
1.2.1 – REPLICAÇÃO DE DNA
O DNA possui propriedades especiais fornecidas pela estrutura incomum
de suas células. Essas propriedades permitem que as informações armazenadas sejam
preservadas e passadas de uma célula a outra. Duas moléculas de DNA formam uma
estrutura de dupla hélice, enroscadas uma na outra num padrão regular ao longo de
todo o comprimento. As metades da dupla hélice são mantidas juntas por ligações
entre os nucleotídeos em cada filamento (ou fita). Os nucleotídeos também se ligamde maneiras específicas: A só pode fazer par com T, e G só pode fazer par com C.
Cada um desses pares chama-se par de bases, e o comprimento de uma seqüência de
DNA geralmente é descrito em pares de bases (ou pb), quilobases (1.000 pb),
megabases (1 milhão pb) etc.
Cada fita na dupla hélice de DNA é uma “imagem química espelhada” da outra.
Se houver um A em uma fita, sempre haverá um T em oposição ao outro. Se houver um C
em uma fita, o seu par será sempre um G.
Quando uma célula se divide para formar duas novas células - filhas, o DNA
é replicado desenrolando as duas fitas da dupla hélice e usando cada fita como um
modelo para criar a sua imagem química espelhada, ou Fita complementar. Esse
processo está sendo ilustrado na Figura 1-1.
-
8/19/2019 Introdução a Bioinformática - Tese
20/163
20
Figura 1.1 – Esquema de uma molécula de DNA sendo replicada
Fonte: Desenvolvendo Bioinformática, p. 23.
1.2.2 – TRANSCRIÇÃO DE DNA
O DNA não atua somente como um modelo para fazer cópias de si mesmo, mas
também como modelo para uma molécula que possui o nome de ácido ribonucléico (RNA). A
figura 1-2 ilustra o processo pelo qual o DNA é transcrito que se chama transcrição. O RNA é
uma molécula polimérica composta de unidades químicas individuais, porém, a espinha dorsal
química que mantém essas unidades juntas é um pouco diferente da espinha dorsal química do
DNA, permitindo ao RNA existir tanto na forma de fita única como em dupla hélice. Essas
moléculas de fita única ainda formam pares de bases entre diferentes partes da cadeia, causando
a dobra do RNA em estruturas tridimensionais. As unidades químicas individuais do RNA são
designadas pelas letras A, C, G e U (uracila, que substitui a timina).
Figura 1.2 – Esquema do DNA sendo transcrito em RNAFonte: Desenvolvendo Bioinformática, p. 24.
-
8/19/2019 Introdução a Bioinformática - Tese
21/163
21
Existem três tipos principais de moléculas de RNA:
1 – RNA mensageiro (mRNA): são transcritas do RNA dos genes e levam informações
do genoma para o ribossomo, a maquinaria de síntese protéica da célula;
2 – RNA de transferência (tRNA): são moléculas de RNA não traduzidas que
transportam aminoácidos, os blocos de construção das proteínas, para os
ribossomos;
3 – RNA ribossômico (rRNA): são os componentes de RNA não traduzido dos
ribossomos, que são complexos de proteína e RNA. Os rRNA estão envolvidos na
fixação das moléculas de mRNA e na catálise de algumas etapas no processo de
tradução.Alguns vírus também usam o RNA como seu material genético.
1.3 – PROTEÍNAS
O que existe na célula além do núcleo? Bem, as células podem ser divididas em
duas regiões. A primeira é o núcleo, onde está armazenado e protegido o nosso genoma e
onde, de acordo com a necessidade da célula, são feitas cópias de certas instruções a serem
executadas – onde genes são copiados em RNAs. A segunda região é o chamado
citoplasma. Ele pode ser comparado a uma grande cozinha, onde a receita vai ser lida e
executada. No citoplasma da célula se encontram diferentes estruturas que são responsáveis
por ler o RNA e executar a informação contida nele. Mas que tipo de informação existe em
cada gene? O que são na prática as "instruções" contidas em cada gene? Se os genes não
são nada mais que informação, quem está de fato "fazendo" alguma coisa nas células?
As proteínas são os personagens principais na formação de um ser vivo. Elas
dirigem a construção de todas as estruturas que compõem as células, e algumas proteínas
constituem elas mesmas outras partes das células e, logo, do organismo (os cabelos e unhas,
por exemplo, consistem basicamente em proteína); outras são responsáveis por mediar os
milhões de reações bioquímicas que acontecem no organismo humano.
As proteínas são responsáveis por fazer a digestão dos alimentos no estômago, da
insulina que metaboliza açúcares, dos hormônios que iniciam a puberdade, da queratina que forma
cabelos e unhas e do colágeno presente nos ossos. Todas essas moléculas são exemplos de proteínas.
-
8/19/2019 Introdução a Bioinformática - Tese
22/163
22
Assim, no citoplasma da célula, cada RNA, cada cópia de um gene, é traduzido
em uma proteína. A tradução do mRNA em proteína é a etapa final na colocação das
informações contidas no genoma em funcionamento na célula.
As proteínas são polímeros lineares criados de um conjunto de pequenas
moléculas denominadas aminoácidos. Ao contrário do DNA, a seqüência química de uma
proteína possui uma estrutura físico – química, bem como, um conteúdo informativo.
“Cada um dos vinte aminoácidos encontrados com mais freqüência nas proteínas temuma natureza química diferente, determinada por sua cadeia lateral – um grupo químico que varia deaminoácido para aminoácido. A seqüência química da proteína chama – se estrutura primária, mas a
maneira pela qual a seqüência se dobra para formar uma molécula compacta é tão importante para afunção da proteína como é sua estrutura primária. Os elementos das estruturas secundária e terciáriaque compõem a dobra final da proteína podem juntar partes distantes da seqüência química da proteína para formar sítios funcionais.”3
Figura 1.3 – O Código GenéticoFonte: Desenvolvendo Bioinformática, p. 26.
Como é ilustrado na figura 1-3, o código genético converte DNA em proteína.
Ele utiliza três bases de DNA (chamadas códon) para codificar cada aminoácido em uma
3 GIBA,Cyntia. Desenvolvendo Bioinformática: Ferramentas de software para aplicação em biologia / CyntiaGibas & Per Jambeck; tradução Milarepa Ltda. Rio de Janeiro: Campus, 2001. 423 p. Tradução de:Developing bioinformatics computer skills.
-
8/19/2019 Introdução a Bioinformática - Tese
23/163
23
seqüência de proteína. Alguns códons são redundantes, outros têm a função de informar ao
mecanismo de tradução da célula para parar de converter uma molécula de mRNA. A
figura 1-4 mostra como o RNA é convertido em proteína.
Figura 1.4 – Esquema do RNA sendo convertido em proteínaFonte: Desenvolvendo Bioinformática, p. 26.
DNA x Proteínas
O DNA e as proteínas são moléculas tridimensionais complexas, compostas de
milhões de átomos ligados. Entretanto, tanto o DNA quanto às proteínas são polímeros,
cadeias de unidades químicas repetitivas (monômeros) com um núcleo comum que asmantém juntas.
No DNA, quatro monômeros de ácidos nucléicos (A,T,C e G) são usados com
mais freqüência para criar a cadeia de polímero. Nas proteínas, 20 monômeros de
aminoácidos são usados. Em uma cadeia de DNA, os monômeros podem ocorrer em
qualquer ordem, e a ordem em que eles ocorrem determina o que o DNA faz. Em uma
proteína, os aminoácidos podem ocorrer em qualquer ordem, e a sua ordem determina o
dobramento e a função da proteína.
1.4 – CROMOSSOMOS
Da mesma forma que toda a informação contida em uma enciclopédia é dividida em
vários volumes, também nossa informação genética está dividida em pedaços: os cromossomos.
Estes não são nada mais que "fascículos" da imensa enciclopédia que é nosso genoma. Cada
cromossomo é um pedaço de DNA composto de 40 a 250 milhões de bases A, C, G e T.
-
8/19/2019 Introdução a Bioinformática - Tese
24/163
24
Os cromossomos humanos são numerados de 1 a 22, além de um cromossomo
chamado X e outro chamado Y. No que diz respeito a ordem de execução de cada gene na
formação de uma pessoa, a numeração dos cromossomos é completamente arbitrária. A
receita não "começa" no cromossomo 1, continua no 2, e assim por diante até o 22. A
numeração é correspondente ao tamanho dos cromossomos é 1 para o maior e 22 o menor.
Os cromossomos X e Y recebem esses nomes especiais porque estão envolvidos na
determinação do sexo. Mais especificamente, no cromossomo Y estão as instruções que vão
determinar o sexo masculino do embrião.
1.5 – HEREDITARIEDADETemos duas versões de cada instrução, de cada gene. Como os genes estão
organizados nos cromossomos, nosso genoma é composto de dois de cada cromossomo – um par
de cromossomos 1, um par do 2, do 3, e assim por diante. E os cromossomos sexuais X e Y
formam também um par: um genoma contendo o par formado de dois cromossomos X dá origem
a uma menina; aquele contendo o par formado de um X e um Y gera um menino.
Cada célula do nosso corpo contém um genoma completo em seu núcleo, um par de
cada um dos cromossomos. Mas existe uma exceção: as células germinativas, isto é, os óvulos e os
espermatozóides. Essas células têm uma função muito especial: são as únicas células designadas à
reprodução, à transmissão dos nossos genes à geração seguinte.
Então que parte do genoma as células germinativas contêm? Eles possuem somente
uma unidade de cada cromossomo e por isso são chamadas células haplóides. Quando essas duas
células haplóides, contendo somente um de cada cromossomo, se fundem na fecundação, elas
formam uma célula diplóide contendo um novo genoma, inédito, composto agora de duas unidades
de cada cromossomo. A partir dessa primeira célula serão derivados todos os trilhões de células que
compõem um indivíduo adulto, cada uma delas contendo um genoma completo. Veja a figura 1-5.
É dessa forma que a natureza cria diversidade entre as pessoas, misturando as receitas do pai e da
mãe para gerar descendentes com genomas diferentes, com características distintas.
Algumas mais parecidas com as do pai, outras com as da mãe, e outras ainda que não
conseguimos reconhecer em nenhum dos dois, mas que estavam lá escondidas em seu genoma.
-
8/19/2019 Introdução a Bioinformática - Tese
25/163
25
Figura 1.5 –A “mistura” dos genomas paterno e materno formando indivíduos diferentes.Fonte: Seqüenciaram o Genoma Humano... e Agora? p. 25.
Mas para que duas versões de cada gene, uma do pai e outra da mãe? Estima-se
que cada um de nós possua aproximadamente dez genes com uma das duas versões mutadas.
Se não tivéssemos a outra versão normal, qualquer uma dessas mutações poderia causar uma
doença genética grave ou até a morte. Ou seja, se uma versão de uma instrução está defeituosa,
podemos contar com a outra versão da mesma instrução para executar a receita. E, assim, essa
aparente redundância do genoma nos protege de mutações em vários genes.
Mas qual é então a versão seguida na execução da receita? As duas, mas, dependendo
da natureza de cada uma das versões, o efeito de uma domina ou complementa o efeito da outra.
Exemplo: cor dos olhos. Apesar de essa característica ser determinada por vários
genes agindo em conjunto, vamos simplificar e imaginar que o gene A é o responsável pela cor
dos olhos e que existam duas versões levemente diferentes desse gene: a versão (A) diz "olhos
escuros" e a versão (a) diz "olhos claros". Pois bem, se recebemos um (A) do pai e outro (A) da
mãe, temos olhos escuros; (a) do pai e (a) da mãe, olhos claros. Até aí tudo bem, as instruçõesmaterna e paterna eram idênticas. Mas e quando recebemos (A) de um e (a) de outro? Neste
caso específico, a instrução "olhos escuros" prevalece.
1.6 – GENES E ALELOS
Recapitulando: no nosso genoma possuímos duas versões de cada um dos nossos
mi1hares de genes, uma que é herdada da mãe e a outra do pai. Para cada gene, as duas versões
-
8/19/2019 Introdução a Bioinformática - Tese
26/163
26
podem ser idênticas (AA, aa) ou levemente diferentes (Aa). E, dependendo da natureza da
proteína produzida por esse gene, uma ou outra versão prevalecerá na manifestação da
característica específica determinada pelo gene. Pois bem, como no exemplo do gene "A" da
cor de olho, provavelmente da última vez que você ouviu falar de genética, para cada gene
existia somente duas opções: os famosos "azão" (A) e "azinho" (a). Da mesma forma que existe
um espectro contínuo de variações entre "claro" e "escuro", existem várias versões de cada um
dos nossos genes - (A), (a), (a1), (a2), (a3) etc.
Essas versões de um mesmo gene são chamadas alelos do gene. Assim, existem
pessoas com (A)(A), com (a)(a), com (a1)(a3), com (a2)(a), enfim, com todas as
combinações possíveis dos alelos do gene “A", dando origem a olhos pretos, marrons, cor
de mel, verdes etc. E da mesma forma para cada um dos milhares de genes em nosso
genoma. Observe a família representada na figura 1-6. Tente acompanhar a segregação dos
alelos dos quatro genes de pais para filhos entre as várias gerações.
Figura 1.6 – Segregação dos alelos de quatro genes em uma família
Fonte: Seqüenciaram o Genoma Humano... e Agora? p. 28.
-
8/19/2019 Introdução a Bioinformática - Tese
27/163
27
1.7 – DIVERSIDADE GENÉTICA
Essas pequenas variações em cada um dos nossos genes é que geram a fabulosa
diversidade encontrada na nossa espécie. Faça este exercício: imagine que temos três genes,
cada um com quatro versões, alelos, diferentes (figura 1-7). Com esse genoma imaginário
de somente três genes e relativamente pouca variação dentro de cada um, seria possível
existir aproximadamente quinhentas pessoas geneticamente distintas.
Figura 1.7 – Combinação de 3 genes, cada um Com 4 alelos diferentes
Fonte: Seqüenciaram o Genoma Humano... e Agora? p. 29.
Fica também claro como é improvável existir duas pessoas geneticamente
idênticas, mesmo sendo irmãos. A única exceção são os gêmeos univitelinos. Eles são
gerados a partir do mesmo óvulo e do mesmo espermatozóide que, em vez de darem origem
a um único embrião, dão origem a dois e só por isso possuem exatamente os mesmos
genes.
Teste de DNA
Eles se baseiam exatamente no que foi explicado anteriormente: nos (A), (a), (a1),
(a2), (a3); (B), (b), (b1), (b2), (b3); (C), (c), (c1), (c2), (c3), e assim por diante. Cada pessoa
possui dois alelos, duas versões, de cada gene, uma vinda da mãe e outra do pai, certo?
Os testes de paternidade comparam de 5 a 15 genes dos envolvidos: filho, mãe
e suposto pai. Para cada um desses genes, o alelo presente no filho que não foi herdado da
mãe deve ter sido herdado de seu pai verdadeiro, certo? Logo, deve estar presente no
-
8/19/2019 Introdução a Bioinformática - Tese
28/163
28
suposto pai caso este seja de fato o pai da criança. Se para algum desses genes o alelo do
filho que não veio da mãe não estiver presente no suposto pai, poderemos excluir a
possibilidade de esse homem ser o pai da criança.
Na verdade a coisa não é tão simples assim. Esses testes trabalham
basicamente com probabilidades, calculando o evento mais provável: a criança ter
determinada combinação de alelos por acaso ou por ser filha do suposto pai. Veja o
exemplo da figura 1-6: se o teste de paternidade levasse em consideração somente os
genes A e B, chegaria à conclusão de que aquele homem é o pai da criança, certo? Porém,
nesse caso, isso foi uma coincidência. Se a análise fosse estendida a mais genes, no caso
os genes C e D, o teste excluiria aquele indivíduo como pai. Assim, quanto maior o
número de genes examinados, e quanto maior o número de alelos diferentes para cada
um desses genes, mais preciso será o teste.
Esses dois fatores combinados fazem com que o teste de paternidade possa
dizer que é 1 milhão de vezes mais provável a criança ter aqueles alelos porque é filha
daquele suposto pai do que simplesmente por sorte.
1.8 – GENES E MEIO AMBIENTE
Muitas das nossas características são influenciadas pelo meio ambiente.
Um exemplo bem óbvio é a cor da pele. Como disse, irmãos gêmeos idênticos,
ou univitelinos, possuem genomas absolutamente idênticos, logo possuem exatamente os
mesmos genes determinantes de cor de pele. No entanto, dependendo do estilo de vida de
cada um, eles terão características diferentes.
-
8/19/2019 Introdução a Bioinformática - Tese
29/163
29
2 – PROJETO GENOMA HUMANO
Nos últimos 60 anos, tivemos um grande aprendizado sobre a biologia humana.
Descobrimos onde a natureza esconde os segredos da vida: no nosso genoma. Esse imenso
programa está escrito na forma de DNA no núcleo de nossas células. O que é o Projeto
Genoma Humano e quais são seus objetivos?
Desde que nos entendemos por “gente”, nossa espécie vem tentando compreender
como funciona o corpo humano. Isso foi iniciado há séculos essencialmente por anatomistas que
observavam e descreviam cada uma das partes externas e, mais tarde, quando deixou de ser heresia
examinar cadáveres humanos, as estruturas internas do corpo humano. O exame de indivíduos com
diferentes doenças possibilitou um melhor entendimento das diversas funções biológicas.
2.1 – OBJETIVOS DO GENOMA HUMANO
Nesse contexto, o genoma humano tem o objetivo de complementar as
estratégias de compreensão da biologia humana com a obtenção do manual de instruções,
do genoma de um ser humano. Sabemos que a receita está dentro do núcleo de nossas
células: vamos então recuperá-la, lê-la e decifrá-la.
Em 1988, a Human Genome Organization (Organização do Genoma Humano,
HUGO) foi fundada por cientistas norte-americanos para coordenar os esforços de
seqüenciamento do genoma humano internacionalmente. Essa grande ousadia foi
formalmente proposta ao Congresso dos Estados Unidos em 1990 como um plano de 15 anos
a ser executado por um consórcio de pesquisadores : o Projeto Genoma Humano (PGH).
Objetivos específicos do PGH:
– Identificar os estimados 50 mil a 100 mil genes no genoma humano;
– Determinar a seqüência completa do DNA humano;
– Colocar toda essa informação em bancos de dados para acesso público;
– Desenvolver instrumentos para análise desses dados;
-
8/19/2019 Introdução a Bioinformática - Tese
30/163
30
– Discutir as questões éticas, legais e sociais que surgiram a partir do projeto;
– Realizar análises similares em organismos-modelo.
Os métodos bioquímicos existentes não permitiam a manipulação de tamanhos
de DNA tão grandes quanto o contido em um cromossomo, muito menos o seqüenciamento
de moléculas desse tamanho. A receita teria que ser lida por partes.
O consórcio público decidiu dividir a tarefa de seqüenciamento entre diferentes
grupos, ficando cada um responsável por analisar um cromossomo específico. Assim, o
genoma foi fragmentado em vários pedaços de milhões de letras. Primeiramente estes foramordenados para se saber que pedaço do genoma vem de qual cromossomo. A partir daí, foram
distribuídos por vários grupos de pesquisa para serem ainda mais fragmentados e assim
poderem ser seqüenciados. À medida que as seqüências ficaram prontas, elas foram
organizadas de acordo com a ordem previamente estabelecida dos pedaços dentro do genoma.
Em 1998 o prazo inicial de 15 anos foi reavaliado, e a HUGO propôs o término
do seqüenciamento do genoma humano para 2003. Ainda em 1998, a empresa americana
Celera Genomics Corporation, liderada por um cientista chamado Creg Venter, declarou
que seqüenciaria o genoma humano em três anos, terminando a tarefa antes do consórcio
público. Essa empresa decidiu adotar uma estratégia alternativa para o seqüenciamento:
picotar o genoma todo em fragmentos pequenos e sobrepostos, e seqüenciá-los
desordenadamente. Isso geraria milhões de seqüências curtas, com 500 a 1.000 letras. Para
montar o enorme quebra-cabeça definindo qual pedaço vem antes de qual foi utilizado um
supercomputador – foi exatamente essa incrível capacidade de computação que permitiu a
Celera seqüenciar o genoma dessa forma, chamada shotgun. Essa estratégia foi recebida commuito ceticismo pela comunidade científica, porém a empresa demonstrou sua eficácia
primeiro seqüenciando o genoma da Drosophila melanogaster , com 137 milhões de letras, e
em seguida o genoma humano em um tempo menor que o consórcio público.
Enfim, a batalha entre a comunidade científica e a empresa Celera continua. Até
agora, essa competição deu uma sacudida no consórcio público, que vinha trabalhando de
forma um pouco acadêmica demais. Sob a ameaça de perder a liderança para a Celera, a
-
8/19/2019 Introdução a Bioinformática - Tese
31/163
31
HUGO teve que assumir um ritmo mais frenético de trabalho, diminuindo o prazo do término
do seqüenciamento para o final do ano 2000.
Dessa forma, por enquanto quem mais lucrou com a corrida foi a comunidade
científica mundial. E, no final, as duas estratégias acabaram sendo complementares.
Buracos na seqüência gerada por um grupo foram completados pela seqüência gerada pelo
outro, e assim foi determinada a seqüência completa do genoma humano. Em fevereiro de
2001, o consórcio público divulgou seus dados na revista Nature (v. 409, p. 860), enquanto
a empresa Celera Genomics publicou os seus na revista Science (v. 291, p. 1.304).
Na verdade, ao contrário do consórcio público, a Celera não colocou todos os seus dados
à disposição, como é de praxe um grupo fazer ao publicar um artigo em revistas científicas como a
Science. Quem quiser ter acesso à informação completa gerada pela empresa deverá pagar por isso.
Na figura 2-1 está um trecho do nosso genoma – parte da seqüência do cromossomo 15.
Figura 2.1 – Seqüência parcial do cromossomo 15.Fonte: Seqüenciaram o Genoma Humano... e Agora? p. 38.
2.2 – ORGANIZAÇÃO DO GENOMA HUMANO
Para se ter uma idéia da complexidade desse problema, somente 5% de todo o nosso
genoma são, de fato, compostos por genes. Enquanto que os outros 95% são desconhecidos.
2.2.1 – IDENTIFICANDO GENES A PARTIR DO RNA
Outra estratégia para identificação de genes no genoma é utilizar a própria
natureza. Você está lembrado do RNA, da cópia do gene que é levada para a célula? Ora, a
-
8/19/2019 Introdução a Bioinformática - Tese
32/163
32
célula só é capaz de fazer cópias de cada um dos nossos genes porque ela sabe identificar,
naquele emaranhado de letras, as que compõem cada gene. Ao fazer o RNA, ela copia somente
a informação que interessa, somente as letras que formam o gene. Assim, urna grande parte do
trabalho do PGH é dedicada ao seqüenciamento de RNAs, gerando o que chamamos de
seqüências expressas, instruções limpas. Comparando a seqüência do genoma todo com as
seqüências dos RNAs, podemos identificar dentro do genoma de onde os RNAs foram
copiados. Ou seja, podemos identificar no genoma os genes que geraram os RNAs.
Mas, se podemos seqüenciar somente os 5% que interessam, os RNAs, por que
seqüenciar o DNA inteiro?
Primeiro vamos lembrar que os RNAs correspondem somente aos genes que
estão ligados em uma célula, às instruções que estão sendo executadas. E esse conjunto de
genes ligados varia muito de acordo com o período de desenvolvimento do embrião e com
o tipo de célula . Uma célula do sistema nervoso tem uma forma e exerce funções muito
diferentes das de uma célula do coração. Assim, podemos intuir que o conjunto de genes
que está ligado a uma função do corpo humano é diferente do conjunto ligado a outra
função. Essa diferença se reflete nos tipos de RNAs que encontramos nessas células.
Se estudarmos as seqüências expressas, os RNAs, de um tipo de célula, teremos
acesso à somente parte dos genes do genoma – àqueles que estão ligados nesse tipo celular.
Mas, se nos limitarmos a esse tipo de análise, correremos o risco de não detectar genes que
se expressam em ocasiões muito especiais, ou em tipos celulares raros.
Se seqüenciarmos somente os RNAs, nunca obteremos as seqüências dos
promotores dos genes. Ou seja, conhecemos muito pouco da linguagem do DNA para já ir
descartando informação.
2.2.2 – O QUE JÁ FOI IDENTIFICADO NA SEQÜÊNCIA COMPLETA DO GENOMA
HUMANO
A primeira análise da seqüência completa do genoma publicada em fevereiro de
2001 revelou algumas surpresas. A maior delas é relativa ao número de genes contido no
-
8/19/2019 Introdução a Bioinformática - Tese
33/163
33
nosso genoma. Estimava-se algo entre 50 mil e 100 mil genes. Pois bem, com a seqüência
toda em mãos, parece que nossa receita tem somente de 30 mil a 40 mil genes.
A complexidade do ser humano não está refletida no número de genes que sua
receita possui. Porém, aparentemente nossos genes são mais versáteis que os daquelas
outras espécies: em média, cada gene humano é capaz de fazer três proteínas diferentes.
Assim, a informação contida no nosso genoma parece estar compactada em 35 mil genes
que produzem de 100 mil a 150 mil proteínas distintas.
A seqüência do genoma humano carrega inúmeras informações. Ela fala daevolução da nossa espécie, de como genes de bactérias, leveduras, vermes e moscas foram
reorganizados para a elaboração da receita de um ser humano. Encontramos no nosso genoma
genes muito parecidos com genes dessas espécies bem menos complexas. A seqüência fala
também das diferenças entre mulheres e homens e das diferenças entre cada um de nós.
2.2.3 – DIFERENÇAS ENTRE GENOMAS
Um código genético difere do outro em apenas 0,1%, ou seja, um em cada milACGTs do genoma humano é diferente em cada pessoa. A essas diferenças de uma base, ou de um
nucleotídeo (outro nome das bases do DNA), deu-se o nome de SNP (Single Nucleotide
Polymorphism, ou polimorfismomo de um único nucleotídeo).Eles são basicamente diferenças de
uma letra em certas partes do genoma de cada um. Veja na figura 2-2 um exemplo de SNPs dentro
de um gene. Naquela região do genoma, uma pessoa pode ter um T enquanto outra pode ter um G.
Ao longo do genoma humano foram identificados até agora 1,4 milhão dessas variações.
Figura 2.2 – Variações na seqüência de DNA: Alelos E SNPSFonte: Seqüenciaram o Genoma Humano... e Agora? p. 46.
-
8/19/2019 Introdução a Bioinformática - Tese
34/163
34
2.2.4 – O PRÓXIMO DESAFIO: DETERMINAR A FUNÇÃO GÊNICA
A informação mais valiosa dentro do nosso genoma estará disponível daqui a
muito pouco tempo: a coleção de 30 mil a 50 mil (ainda nem sabemos o número exato)
genes que compõem nossa receita.
Mas atenção: como já vimos, DNA é só informação. Os genes são
informações de como fazer uma proteína. Quem vai construir o ser humano são as
proteínas. Passamos tanto tempo estudando o DNA justamente para começar a
entendê-las. Ou seja, a partir da seqüência de cada um dos genes humanos, poderemos começar a estudar cada uma das proteínas que esses genes codificam
para entendermos a função delas.
2.2.5 – O PROTEOMA HUMANO
Está lançado o maior desafio da "era pós-genoma": entender função gênica (ou
função do produto gênico, da proteína). O conjunto dos milhares de proteínas codificadas
pelo genoma é chamado de proteoma.
A determinação do proteoma humano é comparável à elaboração da tabela
periódica de elementos no final do século XIX. Da mesma forma que toda a matéria do
mundo é composta por combinações daqueles 112 elementos, a idéia é que no futuro
cientistas sejam capazes de explicar todos os fenômenos fisiológicos humanos a partir
do nosso genoma/proteoma.
2.3 – O PROJETO GENOMA HUMANO NO BRASIL
Em nosso país, diversos centros de pesquisa se dedicam à pesquisa da
biologia humana. Entre eles, gostaria de destacar dois intensamente envolvidos em
pesquisas diretamente relacionadas ao Projeto Genoma Humano.
-
8/19/2019 Introdução a Bioinformática - Tese
35/163
35
Projeto Brasileiro Genoma do Câncer
Em uma parceria entre a Fapesp (Fundação de Amparo à Pesquisa do Estado de
São Paulo) e o LICR do Brasil ( Ludwig Institute for Cancer Research), foi criado o
Fapesp/LICRHuman CancerGenome Project (Projeto Genoma Humano do Câncer). Esse
projeto envolveu 32 grupos de pesquisa do Estado de São Paulo e visou identificar
seqüências expressas em diferentes tumores, identificar genes envolvidos em diferentes
tipos de cânceres.
Mas como eles conseguiram seqüenciar especificamente esses genes? Aestratégia foi a seguinte: foram isolados RNAs de vários tumores, ou seja, aquelas cópias
dos genes que estavam ativos nos tumores, das instruções que estavam sendo executadas.
Em vez do genoma inteiro, somente esses RNAs foram seqüenciados, dando-nos uma
noção de quais genes são responsáveis pelas características de células cancerosas.
O Projeto Genoma Humano Brasileiro foi capaz de gerar uma grande
quantidade de seqüências de genes humanos, tendo grande impacto internacional.
Centro de Estudos do Genoma Humano
Em setembro de 2000 foi inaugurado o Centro de Estudos do Genoma Humano
(CEGH), no Instituto de Biociências da Universidade de São Paulo O CEGH é atualmente
o maior centro de genética humana da América Latina e nele são estudadas várias doenças
genéticas. Entre elas estão as distrofias musculares; a síndrome do X-frágil e outras formas
de retardo mental; alterações craniofaciais, como o lábio leporino; e alguns tipos de surdez.
A pesquisa realizada no CEGH, além de contribuir para o melhor conhecimento
daquelas doenças, reverte para a sociedade na forma de diagnóstico e aconselhamento genético.
Além disso, esse grupo investe intensamente em educação/ divulgação
científica, oferecendo cursos de genética humana e biologia molecular para os mais
diversos públicos, de professores do ensino médio a médicos já formados que desejam (e
devem) se atualizar nesse tema.
-
8/19/2019 Introdução a Bioinformática - Tese
36/163
36
3 – INFORMÁTICA: UMA FERRAMENTA INDISPENSÁVEL
Podemos definir a biologia como o estudo dos seres vivos. O avanço da tecnologia
tornou a coleta de dados mais rápida que sua interpretação. Há grandes volumes de dados de
seqüência de DNA ao alcance de todos. Algumas perguntas direcionam as pesquisas dos biólogos:
– Como descobrir quais partes do DNA controlam os vários processos
químicos da vida?
– Como prever a função e a aparência de uma proteína com base no
conhecimento da sua seqüência?
“A Biologia Computacional é uma área interdisciplinar e consiste no
desenvolvimento de modelos quantitativos para explicar fenômenos biológicos.”4
Através da bioinformática, que é um ramo da biologia computacional, podemos interpretar
as informações com a finalidade de entender o estudo dos seres vivos. A grande badalação em torno do
mapeamento do genoma humano tornou o termo “bioinformática” uma expressão da moda. Muitos
consideram esse fato benéfico porque mais apoio e investimentos foram conseguidos. O ditado popular
prevaleceu: “a propaganda é a alma do negócio”. Outros já não consideram o fato positivo já que o
termo “bioinformática” teve seu significado deturpado sendo utilizado em várias situações.
Os pesquisadores na área são originalmente de muitos campos , incluindo matemática,
ciência da computação e lingüística. As ciências biológicas tratam do específico até o geral. O
oferecimento de algoritmos, bancos de dados, interfaces de usuários e ferramentas estatísticas faz a
bioinformática possibilitar a realização de tarefa trabalhosas, como comparar seqüências de DNA e
gerar resultados potencialmente significativos.
3.1 – A INFLUÊNCIA DA COMPUTAÇÃO NA BIOLOGIA
DNA, RNA e proteínas armazenam informações sobre função e hereditariedade do
organismo. Todas são cadeias lineares compostas de pequenas moléculas. Essas macromoléculas
4 http://www.inf.unisinos.br/~lbbc/
-
8/19/2019 Introdução a Bioinformática - Tese
37/163
37
são reunidas com base em um alfabeto fixo de produtos químicos simples: o DNA é composto de
quatro desoxirribonucleotídeos (adenina, timina, citosina e guanina), o RNA é composto de
quatro ribonucleotídeos (adenina, uracila, citosina e guanina), e as proteínas são compostas de
vinte aminoácidos. Como essas macromoléculas são cadeias lineares de componentes definidos,
podem ser representadas por seqüências de símbolos que serão comparadas para localizar
semelhanças que sugerem uma relação das moléculas pela forma ou função.
Figura 3.1 –Formulário para efetuar uma pesquisa com o Blast nos bancos de dados de nucleotídeos no NCBIFonte: Desenvolvendo Bioinformática, p. 6.
A Web possibilita que um único banco de dados público de seqüências de genoma
ofereça serviços por meio de interface uniforme com uma comunidade mundial de usuários. Comum programa mundial de computador, chamado fsBLAST, um biólogo molecular pode comparar
uma seqüência de DNA desconhecida com a coleção pública completa de seqüências públicas.
Assim como o BLASTA podemos citar também a existência do FASTA. A figura 3-1 mostra um
formulário padrão para o envio de dados ao NCBI ( National Center for Biotechnology
Information) para uma pesquisa com o BLAST.
-
8/19/2019 Introdução a Bioinformática - Tese
38/163
38
3.2 – RÓTULOS NAS SEQÜÊNCIAS DE GENES
É interessante observar que a seqüência biológica (DNA ou proteína) tem
uma função química, mas ao ser reduzida a um código de uma única letra, também
funciona como um rótulo exclusivo, quase como um código de barras. O rótulo da
seqüência pode ser aplicado a um gene, seu produto, sua função, sua ação no
metabolismo celular, etc. O usuário que está buscando informações relacionadas a um
determinado gene pode usar a comparação rápida das seqüências de pares de base para
acessar todas as informações vinculadas a esse rótulo da seqüência. Os rótulos contêm
padrões biologicamente significativos que permitem fazer comparações de rótulos
diferentes, conectar informações e fazer inferências. Portanto, os rótulos não apenas
conectam todas as informações sobre um gene, como também ajudam os usuários a
conectarem as informações sobre genes que são ligeira ou drasticamente diferentes na
seqüência.
As seqüências biológicas são relacionadas por evolução, logo, uma
combinação parcial de padrões entre dois rótulos de seqüência é um achadosignificativo. O BLAST diferencia-se da simples busca por palavra-chave por sua
capacidade de detectar combinações parciais em toda a extensão da seqüência da
proteína.
3.3 – BIOINFORMÁTICA – APENAS A CRIAÇÃO DE BANCO DE DADOS?
Atualmente, procedimentos que fazem parte da bioinformática –
comparação de seqüências, pesquisa em bancos de dados, análise de seqüências – são
bem mais complexos do que apenas projetar e preencher banco de dados. A figura 3-2
mostra como a ciência quantitativa interage com a biologia em todos os níveis, desde
a análise de dados de seqüências e da estrutura protéica, até a modelagem metabólica,
a análise quantitativa das populações e a ecologia.
-
8/19/2019 Introdução a Bioinformática - Tese
39/163
39
Figura 3.2 – Como a tecnologia interage com a biologiaFonte: Desenvolvendo Bioinformática, p. 9.
A pesquisa em bioinformática abrange desde a representação matemática de
características de um sistema biológico até a implementação de novos algoritmos paraanálise de dados e o desenvolvimento de bancos de dados e das ferramentas de Web para
acessá-los.
3.4 – A PRIMEIRA ERA DA INFORMAÇÃO EM BIOLOGIA
No trabalho dos biólogos antigos, que catalogaram e compararam as espécies
de seres vivos, está as raízes do conceito de evolução. Hoje, ainda estão sendo descobertas
novas formas de vida e fósseis de formas extintas de vida .
“Em meados do século 16, Otto Brunfels publicou o primeiro trabalho modernoimportante descrevendo as espécies de plantas, o Herbarium vitae eicones. Como oseuropeus viajavam cada vez mais pelo mundo, o número de espécies catalogadas aumentou,e os jardins botânicos e herbários foram estabelecidos. No tempo de Teofrasto, aluno deAristóteles, havia 500 tipos de plantas catalogadas. Em 1623, Casper bauhin observara 6mil tipos de plantas.Pouco depois, John Ray introduziu o conceito de espécies distintas deanimais e plantas, e desenvolveu diretrizes baseadas nas características anatômicas para
-
8/19/2019 Introdução a Bioinformática - Tese
40/163
40
distinguir conclusivamente as espécies. Na terceira década do século 18, Carolus linnaeuscatalogou 18 mil espécies de plantas e cerca de 4 mil espécies de animais, e estabeleceu os princípios do sistema de nomenclatura da taxonomia moderna, baseada em reinos, classes,gêneros e espécies. No fim do século 18, o barão Cuvier relacionou cerca de 50 milespécies de plantas.”5
Uma taxionomia moderna dos milhões de espécies da Terra é de memorização
muito complicada. Felizmente, os computadores fornecem agora uma maneira de manter e
acessar a taxonomia das espécies. O projeto Árvore da Vida (Tree of Life) da Universidade
do Arizona e o banco de dados de taxonomia do NCNI são dois exemplos de projetos on-
line. A figura 3-3 mostra uma maneira esquemática de classificar as espécies conhecidacomo “árvore da vida”.
Figura 3.3 – A “árvore da vida” representa o sistema de nomenclatura que classifica as espécies.Fonte: Desenvolvendo Bioinformática, p. 6.
5 GIBA,Cyntia. Desenvolvendo Bioinformática: Ferramentas de software para aplicação em biologia / CyntiaGibas & Per Jambeck; tradução Milarepa Ltda. Rio de Janeiro: Campus, 2001. 423 p. Tradução de:Developing bioinformatics computer skills.
-
8/19/2019 Introdução a Bioinformática - Tese
41/163
41
3.5 – DESAFIOS DA BIOLOGIA PARA A COMPUTAÇÃO
Podemos dizer que o objetivo da biologia, na era dos projetos genoma, é
desenvolver um conhecimento solidificado de como os seres vivos são formados com base
no genoma que os codifica.
Quebrar o código do genoma é uma tarefa muito complexa. No nível mais
simples, ainda é difícil identificar os genes desconhecidos pela análise de computador
da seqüência genômica. Ainda não se obteve êxito na predição ou modelagem de
como a cadeia de aminoácidos se dobra atingindo a estrutura específica de uma proteína funcional.
Gerenciar os bancos de seqüências genômicas está se tornando uma tarefa
muito complicada, já que os dados estão crescendo em ritmo exponencial. Os dados
biológicos são muito complexos e interligados.
Finalmente, cada gene no genoma não é uma entidade independente. Vários genes
interagem para formar vias bioquímicas, que também alimentam outras vias. A bioquímicasofre influência do ambiente externo, da interação com patogenias e de outros estímulos.
3.6 – UMA NOVA ABORDAGEM DA COLETA DE DADOS
A bioquímica é uma ciência empírica. Dependendo do interesse do especialista,
a seqüência ou estrutura é determinada, ou as características de um único produto gênico
por vez são analisadas. A maneira como um caminho ou uma proteína interage com outros
componentes pode facilmente permanecer um mistério, devido ao fato de que a necessidade
de realizar um experimento não é comunicada aos outros cientistas.
A Internet mudou a maneira como os cientistas compartilham os dados e
possibilitou que um depósito central de informações atendesse totalmente a uma
comunidade de pesquisa.
-
8/19/2019 Introdução a Bioinformática - Tese
42/163
42
Nos anos 90, o foco central de atuação dos cientis tas foi tentar reproduzir
o seqüenciamento de todo o DNA do genoma humano. Enormes seqüências de
dados, dos quais se conhece a localização de apenas alguns poucos genes
importantes, foram e ainda estão sendo geradas. Usando técnicas de processamento
de imagem, mapas de genomas inteiros podem agora ser gerados mais rapidamente
do que com as técnicas de mapeamento químico, mas mesmo com essa tecnologia, o
mapeamento completo e detalhado dos dados genômicos que estão sendo produzidos
pode levar anos.
Computação paralela é um conceito que existe há muito tempo. Umaabordagem paralela está agora em andamento na biologia molecular experimental
usando tecnologias como o microarray de DNA. Essa tecnologia permite que os
pesquisadores conduzam milhares de experimentos de expressão gênica
simultaneamente em um pequeno chip. Os experimentos paralelos miniaturizados
exigem suporte computacional para a coleção e a análise de dados. Exigem também a
publicação eletrônica, porque as informações em grandes conjuntos de dados talvez
sejam interessantes para outra pessoa.
A crescente automação da biologia molecular experimental e a aplicação da
tecnologia da informação nas ciências biológicas conduzem a uma mudança fundamental
na maneira como a pesquisa biológica é realizada. Além da pesquisa empírica e do estudo
detalhado de um único gene por vez, estamos agora catalogando todos os dados
disponíveis, fazendo mapas completos para os quais podemos retornar e marcar os pontos
de interesse. A tendência é no sentido de armazenar dados biológicos brutos de todos os
tipos em bancos de dados públicos, com acesso aberto pela comunidade de pesquisa. Emvez de fazer pesquisa preliminar no laboratório, os cientistas vão aos bancos de dados
primeiro para economizar tempo e recurso.
3.7 – QUE PERGUNTAS A BIOINFORMÁTICA PODE RESPONDER ?
“A bioinformática aborda as questões humanas que vêm sendo trabalhadas na
biologia aplicada. Como curar doenças? Como prevenir infecções? Como produzir
-
8/19/2019 Introdução a Bioinformática - Tese
43/163
43
alimento suficiente para a humanidade toda? As empresas no ramo de desenvolvimento de
remédios, produtos químicos para agricultura, plantas híbridas, plásticos e outros derivados
de petróleo, e as abordagens biológicas da recuperação ambiental, entre outras, estão
desenvolvendo novas divisões da bioinformática para fornecer novas metas e ajudar a
substituir os recursos naturais escassos.”6
Atualmente, os objetivos implícitos da biologia molecular são:
– Ler os genomas completos de todos os seres vivos;
– Identificar cada gene;
– Combinar cada gene com a proteína que ele codifica;
– Determinar a estrutura e a função de cada proteína.
A habilidade de manipular os seres vivos com precisão e exatidão está
implícita.
6 GIBA,Cyntia. Desenvolvendo Bioinformática: Ferramentas de software para aplicação em biologia / CyntiaGibas & Per Jambeck; tradução Milarepa Ltda. Rio de Janeiro: Campus, 2001. 423 p. Tradução de:Developing bioinformatics computer skills.
-
8/19/2019 Introdução a Bioinformática - Tese
44/163
4 – MODELAGEM DE SISTEMAS BIOLÓGICOS
Um dos mais importantes exercícios da ciência é a modelagem, ou seja, fazer
uma representação mais simples de um sistema complexo. Um modelo ajuda a visualizar
melhor certas características de um sistema que seriam difíceis de estudar usando
abordagens quantitativas. As ferramentas da bioinformática contam com a habilidade dos
pesquisadores para extrair parâmetros relevantes de um sistema biológico, descrevem
quantitativamente os parâmetros e, em seguida, desenvolvem métodos computacionais que
usam esses parâmetros para prever o seu comportamento.
Um dos principais benefícios do uso de ferramentas computacionais em biologia
é a facilidade de selecionar antecipadamente as metas para a realização dos experimentos.
Para o pesquisador atento ao desenvolvimento dos métodos da bioinformática, a
descoberta de regras e propriedades gerais dos dados é a categoria de problemas mais
interessante que pode ser tratada usando um computador. Os pesquisadores encontram
propriedades interessantes e úteis em tudo, desde os padrões de seqüência até a separaçãode átomos em estruturas moleculares, e têm aplicado essas descobertas para produzir
ferramentas como localizadores de genes, ferramentas de predição de estrutura secundária,
métodos de perfil e ferramentas de modelagem por homologia.
Os especialistas em tecnologia da informação estão desenvolvendo atualmente
as estruturas dos bancos de dados e as ferramentas de consulta para tudo que se possa
imaginar, desde dados de expressão gênica até interações moleculares.
4.1 – REPRESENTAÇÃO UNIDIMENSIONAL DE MOLÉCULAS
Na realidade, o DNA e as proteínas são moléculas tridimensionais complexas,
compostas de milhões de átomos ligados. Entretanto, tanto o DNA quanto às proteínas são
polímeros, cadeias de unidades químicas repetitivas (monômeros) com um núcleo comum
-
8/19/2019 Introdução a Bioinformática - Tese
45/163
45
que as mantém juntas. Cada unidade química em um polímero tem dois subconjuntos de
átomos: um subconjunto de átomos que não varia de monômero para monômero, que
compõe o núcleo do polímero, e um subconjunto de átomos que varia de monômero para
monômero.
Não muito tempo depois que a natureza química do DNA e das proteínas foi
entendida, os pesquisadores reconheceram que era conveniente representá-la por seqüências
de letras soltas. Em vez de representar cada ácido nucléico em uma seqüência de DNA
como uma entidade química detalhada, eles puderam ser representados simplesmente como
A,T,C e G. Portanto, um pequeno pedaço de DNA que contém milhares de átomosindividuais pode ser representado por uma seqüência de poucas centenas de letras.
Fazer esta abstração não só economiza o espaço de armazenamento e fornece
uma maneira conveniente de compartilhar as informações de seqüência, como representa
corretamente a natureza de uma molécula exclusiva, e ignora níveis de detalhes
experimentalmente incessíveis.
A abstração do ácido nucléico e das seqüências de proteínas em seqüência decaracteres unidimensionais é uma das estratégias de modelagem mais produtivas em
biologia molecular computacional, e a análise de seqüências de caracteres ( string ) 7 é uma
área de pesquisa antiga em ciência da computação. Há algoritmos bem estabelecidos em
ciência da computação para descobrir combinações exatas e inexatas em pares de string.
Esses algoritmos são aplicados para descobrir combinações entre seqüências biológicas e
para pesquisa em um banco de dados de seqüências usando uma seqüência de consulta.
4.2 – MÉTODOS COMPUTACIONAIS
A quantidade e o tipo de dados que podem ser reunidos na biologia molecular
está crescendo muito, e a tendência de armazenar esses dados em bancos públicos está
ultrapassando os limites das seqüências genômicas.
7 Uma seqüência de caracteres (string) é uma seqüência sem quebras. Um caractere é uma única letraescolhida de um conjunto de letras definidas, que pode ser um código binário (seqüência de zeros e uns) ouum alfabeto alfabético e numérico mais complicado, que pode ser digitado em um teclado de computador.
-
8/19/2019 Introdução a Bioinformática - Tese
46/163
46
Apresentaremos uma visão geral sobre alguns métodos computacionais para
tratar os tipos de dados que são compartilhados atualmente em bancos de dados públicos.
1. Uso de banco de dados públicos e formato de dados
A pesquisa bibliográfica não é mais uma questão de procurar referências
em um índice impresso. Há bancos de dados centrais que coletam as
informações de referências de maneira que você possa pesquisar inúmeros
artigos de uma só vez.
2. Alinhamento e busca de seqüência
A pesquisa baseada em seqüência é uma habilidade importante dos
biólogos. A identificação de seqüências homólogas fornece uma base para
a análise filogenética e para reconhecimento de padrões nas seqüências. A
pesquisa pode ser feita on-line por meio de formulário na Web.
3. Predição de genes
Um dos métodos para tentar detectar sinais significativos em seqüências
de DNA não caracterizadas. Até recentemente, os genes já eram
caracterizados antes de serem depositados em bancos públicos. Entretanto,
agora que os projetos genoma estão em plena atividade, há muitas
seqüências de DNA que não estão caracterizadas.
4. Alinhamento múltiplo de seqüências
Os métodos de alinhamento múltiplo de seqüências montam alinhamentos
par-a-par para muitas seqüências relacionadas em uma figura de
homologia de seqüência entre todos os membros de uma família de genes.Os alinhamentos múltiplos auxiliam a identificação visual de locais em um
DNA ou em uma seqüência de proteínas que pode ser funcionalmente
importante.
Esse método é uma etapa integral na análise filogenética de uma família de
seqüências relacionadas, e eles também fornecem a base para identificar os
padrões de seqüências que caracterizam famílias de determinadas proteínas.
-
8/19/2019 Introdução a Bioinformática - Tese
47/163
47
5. Análise filogenética
Tenta descrever o relacionamento evolutivo de um grupo de seqüências.Uma árvore filogenética tradicional ou cladograma agrupa espécies em um
diagrama que representa sua divergência evolutiva relativa. As
ramificações em árvores filogenéticas representam a distância evolutiva
baseada nas pontuações de similaridade de seqüência ou na modelagem
teórico-informativa do número de event