introdução a bioinformática - tese

8/19/2019 Introdução a Bioinformática - Tese

1/163

UNIVERSIDADE FEDERAL DE GOIÁS

ESCOLA DE ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO

INTRODUÇÃO A BIOINFORMÁTICA

Weslley Francisco Machado de NapoliOrientador: Prof. Dr. Marco Antônio Assfalk de Oliveira

Goiânia – 2003


2/163

WESLLEY FRANCISCO MACHADO DE NAPOLI


Projeto Final apresentado ao Curso de Engenharia deComputação da Escola de Engenharia Elétrica e deComputação da Universidade Federal de Goiás, paraobtenção de Graduação em Engenharia de Computação.Área de concentração: Bioinformática.Orientador: Prof. Marco Antônio Assfalk de Oliveira

Goiânia – 2003


3/163

WESLLEY FRANCISCO MACHADO DE NAPOLI


Dissertação defendida e aprovada em 25 de março de2003, pela banca examinadora constituída pelos professores.

____________________________________Prof. Dr. Marco Antônio Assfalk de Oliveira

____________________________________

Prof. M.Sc. Carlos Galvão Pinheiro Jr.

____________________________________Prof. Dr. Gelson da Cruz Júnior


4/163

Aos meus pais, pelo carinho comque acompanharam e orientarama minha trajetória.


5/163

Agradecimentos

À minha grande amiga RosângelaThais por ter colaborado em todos os

momentos durante a Elaboração do meuProjeto Final.

Ao meu orientador e a UFG por teremaceitado a minha decisão de mudar de projeto faltando apenas três semanas para aapresentação.

Ao meu antigo parceiro de ProjetoFinal que aceitou a divisão sem traumas esem desentendimentos.


6/163

Todo conhecimento científico nos ajuda acompreender os fenômenos da natureza, adesvendar os mistérios da vida e do Universo.Um novo conhecimento científico nos dá poderes. Esses poderes, quando utilizados deforma responsável, normalmente servem para o

“bem”. Caso contrário, se utilizados sem se ponderar suas conseqüências, podem acabarcausando o “mal”. Se quisermos evitar situaçõesde abuso de um novo poder, como o mau uso daenergia nuclear (bombas atômicas), devemos usarcom responsabilidade os novos poderes adquiridoscom o conhecimento do genoma humano.

Lygia da Veiga Pereira


7/163

SUMÁRIO

RESUMO.......................................................................................................................................... 10

ABSTRACT...................................................................................................................................... 11

INTRODUÇÃO ................................................................................................................................ 12

1 – CONCEITOS DA BIOLOGIA ............................................................................................ 151.1 – GENOMA ............................................................................................................................ 161.2 – DNA: A RECEITA BIOLÓGICA ....................................................................................... 18

1.2.1 – Replicação de dna................................................................................................................. 191.2.2 – Transcrição de dna................................................................................................................ 201.3 – PROTEÍNAS........................................................................................................................ 211.4 – CROMOSSOMOS ............................................................................................................... 231.5 – HEREDITARIEDADE ........................................................................................................ 241.6 – GENES E ALELOS ............................................................................................................. 251.7 – DIVERSIDADE GENÉTICA .............................................................................................. 271.8 – GENES E MEIO AMBIENTE............................................................................................. 28

2 – PROJETO GENOMA HUMANO ....................................................................................... 292.1 – OBJETIVOS DO GENOMA HUMANO ............................................................................ 292.2 – ORGANIZAÇÃO DO GENOMA HUMANO .................................................................... 31

2.2.1 – Identificando genes a partir do rna ....................................................................................... 312.2.2 – O que já foi identificado na seqüência completa do genoma humano ................................. 322.2.3 – Diferenças entre genomas .................................................................................................... 332.2.4 – O próximo desafio: determinar a função gênica................................................................... 342.2.5 – O proteoma humano ............................................................................................................. 342.3 – O PROJETO GENOMA HUMANO NO BRASIL.............................................................. 34

3 – INFORMÁTICA: UMA FERRAMENTA INDISPENSÁVEL .......................................... 363.1 – A INFLUÊNCIA DA COMPUTAÇÃO NA BIOLOGIA ................................................... 363.2 – RÓTULOS NAS SEQÜÊNCIAS DE GENES..................................................................... 383.3 – BIOINFORMÁTICA – APENAS A CRIAÇÃO DE BANCO DE DADOS?..................... 383.4 – A PRIMEIRA ERA DA INFORMAÇÃO EM BIOLOGIA ................................................ 39

3.5 – DESAFIOS DA BIOLOGIA PARA A COMPUTAÇÃO ................................................... 413.6 – UMA NOVA ABORDAGEM DA COLETA DE DADOS................................................. 413.7 – QUE PERGUNTAS A BIOINFORMÁTICA PODE RESPONDER ? ............................... 42

4 – MODELAGEM DE SISTEMAS BIOLÓGICOS ............................................................... 444.1 – REPRESENTAÇÃO UNIDIMENSIONAL DE MOLÉCULAS......................................... 444.2 – MÉTODOS COMPUTACIONAIS...................................................................................... 454.3 – ETAPAS DE UM EXPERIMENTO EM BIOLOGIA COMPUTACIONAL ..................... 49

5 – PESQUISA BIOLÓGICA NA WEB ................................................................................... 515.1 – UTILIZAÇÃO DOS MECANISMOS DE PESQUISA....................................................... 515.2 – LOCALIZAÇÃO DE ARTIGOS CIENTÍFICOS................................................................ 52


8/163

5.3 – OS BANCOS DE DADOS BIOLÓGICOS PÚBLICOS ..................................................... 525.4 – HISTÓRICO......................................................................................................................... 545.5 – DADOS DE SEQÜÊNCIAS DE DNA, RNA E PROTEÍNAS ........................................... 54

5.6 – DADOS DE EXPRESSÃO GÊNICA.................................................................................. 555.7 – PESQUISA E DEPÓSITO EM BANCOS DE DADOS BIOLÓGICOS............................. 56

6 – ANÁLISE DE SEQÜÊNCIAS, ALINHAMENTO PAR-A-PAR E PESQUISA EMBANCOS DE DADOS......................................................................................................... 59

6.1 – COMPOSIÇÃO DO DNA E RNA ...................................................................................... 606.2 – WATSON E CRICK DESCOBREM A ESTRUTURA DO DNA ...................................... 616.3 – DESENVOLVIMENTO DOS MÉTODOS DE SEQÜENCIAMENTO DO DNA............. 626.4 – A COMPOSIÇÃO QUÍMICA DAS PROTEÍNAS ............................................................. 636.5 – MECANISMOS DA EVOLUÇÃO MOLECULAR............................................................ 636.6 – DETECÇÃO DE PADRÕES E LOCALIZADORES DE GENE NO DNA ....................... 646.7 – PREDIÇÃO DA LOCALIZAÇÃO DE GENES.................................................................. 65

6.8 – DETECÇÃO DE ESTRUTURAS........................................................................................ 666.9 – TRADUÇÃO DE DNA........................................................................................................ 666.10 – COMPARAÇÃO DE PARES DE SEQÜÊNCIAS.............................................................. 686.11 – SOFTWARES DE PESQUISA EM BANCOS DE DADOS BIOLÓGICOS ..................... 736.11.1– Alinhamento local usando blast ........................................................................................... 736.11.2– Alinhamento local com fasta ................................................................................................ 74

7 – ALINHAMENTO MÚLTIPLO DE SEQÜÊNCIAS, .......................................................... 767.1 – EVOLUÇÃO........................................................................................................................ 767.2 – ALINHAMENTO DE VÁRIAS SEQÜÊNCIAS ................................................................ 787.3 – ANÁLISE FILOGENÉTICA............................................................................................... 817.3.1 – Árvores filogenéticas com base nas distâncias entre pares .................................................. 83

7.3.2 – Árvores filogenéticas baseadas na junção de vizinhos......................................................... 847.3.3 – Árvores filogenéticas baseadas em parcimônia máxima...................................................... 847.3.4 – Árvores filogenéticas baseadas na estimativa de probabilidade máxima ............................. 857.3.5 – Software para análise filogenética........................................................................................ 867.4 – PERFIS E PADRÕES .......................................................................................................... 877.4.1 – Bancos de dados de padrões................................................................................................. 887.4.2 – Construção e uso dos próprios perfis.................................................................................... 90

8 – VISUALIZAÇÃO DE ESTRUTURAS DE PROTEÍNA .................................................... 958.1 – A QUÍMICA DAS PROTEÍNAS......................................................................................... 968.1.1 – De unidimensional a tridimensional..................................................................................... 968.2 – FORÇAS INTERATÔMICAS E ESTRUTURA DE PROTEÍNAS.................................. 101

8.2.1 – Interações covalentes.......................................................................................................... 1018.2.2 – Pontes de hidrogênio .......................................................................................................... 1028.2.3 – Interações hidrofóbicas e hidrofílicas................................................................................. 1038.2.4 – Interações carga-carga, carga-dipolo e dipolo-dipolo ........................................................ 1058.2.5 – Forças de Vander Waals..................................................................................................... 1068.2.6 – Forças repulsivas ................................................................................................................ 1068.2.7 – Força relativa de forças interatômicas................................................................................ 1068.3 – VISUALIZAÇÃO DA ESTRUTURA............................................................................... 1088.4 – CLASSIFICAÇÃO DA ESTRUTURA ............................................................................. 1098.4.1 – Estrutura Secundária a partir de coordenadas ................................................................... 1108.4.2 – Representação Gráfica da Topologia.................................................................................. 110


9/163

8.5 – ALINHAMENTO ESTRUTURAL ................................................................................... 1118.6 – ANÁLISE DA ESTRUTURA............................................................................................ 1138.6.1 – Análise da qualidade da estrutura....................................................................................... 113

8.7 – ACESSIBILIDADE DE SOLVENTES E INTERAÇÕES................................................ 1148.8 – COMPUTAÇÃO DE PROPRIEDADES FÍSICO-QUÍMICAS ........................................ 1168.8.1 – Eletrostática macromolecular ............................................................................................. 1168.8.1.1 – Visualização de Superfícies Moleculares com Propriedades Mapeadas.......................... 1178.9 – OTIMIZAÇÃO DA ESTRUTURA ................................................................................... 1178.9.1 – Papel da Informática na Otimização................................................................................... 1188.10 – FERRAMENTAS E TÉCNICAS DA ESTRUTURA MOLECULAR.............................. 119

9 – PREDIÇÃO DA ESTRUTURA E FUNÇÃO PROTÉICAS ............................................................1229.1 – DETERMINAÇÃO DE ESTRUTURAS DE PROTEÍNAS.............................................. 1229.1.1 – Resolução de estruturas protéicas pela cristalografia de raios-x ........................................ 1239.1.2 – Dissolução de estruturas pela espectroscopia por rnm ....................................................... 124

9.2 – PREDIÇÃO DE ESTRUTURAS DE PROTEÍNAS.......................................................... 1259.2.1 – CASP: a busca pelo cálice sagrado .................................................................................... 1269.3 – DE TRIDIMENSIONAL A UNIDIMENSIONAL............................................................ 1279.4 – DETECÇÃO DE CARACTERÍSTICAS NAS SEQÜÊNCIAS PROTÉICAS ................. 1289.5 – PREDIÇÃO DA ESTRUTURA SECUNDÁRIA.............................................................. 1299.5.1 – Métodos híbridos e métodos baseados em alinhamento..................................................... 1299.5.2 – Métodos de predição de seqüência única ........................................................................... 1319.5.3 – Avaliação da exatidão da predição..................................................................................... 1319.5.4 – Predições em uso................................................................................................................ 1329.5.5 – Predição da hélice transmembrana ..................................................................................... 1329.5.6 – Encadeamento .................................................................................................................... 1339.6 – PREDIÇÃO DA ESTRUTURA TRIDIMENSIONAL...................................................... 134

9.6.1 – Modelagem por homologia ................................................................................................ 1349.7 – REUNINDO TUDO: UM PROJETO DE MODELAGEM PROTÉICA........................... 1379.7.1 – Predição da estrutura secundária com base na seqüência................................................... 138

10 – FERRAMENTAS PARA GENÔMICA E PROTEÔMICA .............................................. 14010.1 – DO SEQÜENCIAMENTO DOS GENES AO SEQÜENCIAMENTO DOS GENOMAS14110.2 – MONTAGEM DE SEQÜÊNCIAS .................................................................................... 14610.3 – ACESSO ÀS INFORMAÇÕES SOBRE GENOMA NA WEB........................................ 14810.4 – ANOTAÇÃO E ANÁLISE DAS SEQÜÊNCIAS DE GENOMAS COMPLETOS.......... 15110.4.1 – Anotação de Genoma ........................................................................................................ 15110.4.2 – Comparação de Genoma ................................................................................................... 15210.5 – MICROARRAYS DE DNA: TECNOLOGIAS EMERGENTES EM GENÔMICA

FUNCIONAL..................................................................................................................... 15310.6 – PROTEÔMICA.................................................................................................................. 15410.7 – BANCOS DE DADOS DE VIAS BIOQUÍMICAS .......................................................... 15710.8 – MODELAGEM CINÉTICA E FISIOLÓGICA................................................................. 158

CONCLUSÃO ................................................................................................................................ 161

REFERÊNCIAS BIBLIOGRÁFICAS............................................................................................ 162


10/163

RESUMO

A pesquisa biológica está sendo modificada drasticamente pela inserção nomundo atual de uma rede de comunicação cada vez mais globalizada – a Web e decomputadores cada vez mais potentes. A ciência biológica está seguindo uma tendênciamundial de quebra de paradigmas. Seguindo essa linha de pensamento, não podemos deixarde ressaltar o surgimento da bioinformática que consiste em uma disciplina científica emrápido desenvolvimento que trata da aplicação de métodos computacionais e analíticos a problemas biológicos. Envolve aspectos multidisciplinares resultando da união dasseguintes ciências: ciência da computação, a matemática e a biologia molecular. Neste momento, estamos completando o projeto mais audacioso jamais proposto pelahumanidade: determinar a seqüência do genoma humano, conhecer a receita que a natureza

desenvolveu e aperfeiçoou durante milhões de anos e que ela segue para criar uma pessoa.Os conhecimentos da biologia humana gerados por esse projeto nos ajudarão a responderaquelas perguntas e, assim, revolucionarão a vida de cada um de nós.


11/163

ABSTRACT

Recent computational resources and tools, such as the global information-sharing network known as the Internet, and ever more powerful personal computers, haveincreasingly enhanced biology research.Bioinformatics is a recent and increasingly relevant field of research, involving theapplication of computational and analytical methods to biology problems, thus having amultidisciplinary nature: from computer science and mathematics to molecular and cell biology.The Human Genome Project is a well-known example of bioinformatics. The sequencingand identification of the role of genes is however not limited to the human genome but isalso being applied, with considerable scientific and commercial success, to the geneticmaterial of other being, such as commercial crops and pathological bioagents.This essay provides a broad overview of the current state of bioinformatics, with a briefintroduction to genetic research concepts and, given the essay’s target audience - computerengineering professionals and students, with a more detailed description of relevantcomputational methods.


12/163

INTRODUÇÃO

A pesquisa biológica está sendo modificada drasticamente pela inserção no

mundo atual de uma rede de comunicação cada vez mais globalizada – a Web e de

computadores cada vez mais potentes. A ciência biológica está seguindo uma tendência

mundial de quebra de paradigmas. Podemos dizer que há muitos anos a biologia teórica e

computacional existe em um segundo plano da ciência biológica. Mas de poucos anos para

cá, a aplicação de computadores à análise de dados genômicos começou a mudar este

paradigma. Em um passado recente, as pesquisas que eram iniciadas em laboratório,

começam agora no computador, quando os cientistas pesquisam os bancos de dados em

busca de informações que possam sugerir novas hipóteses.

A partir dos anos 80, os computadores pessoais, cada vez mais acessíveis a

todos os profissionais, transformaram-se de novidades caras com pouco poder real de

computação em máquinas poderosas como os supercomputadores de décadas atrás. As

máquinas tomaram o lugar do equipamento de laboratório no controle e na coleta de dados.Os bancos de dados são um meio de armazenar informações mais eficientes do que outras

formas de registro não eletrônicas. Além da sua utilidade para armazenar, analisar e

visualizar os dados, os computadores são dispositivos úteis para entender qualquer sistema

que possa ser descrito de forma matemática, dando origem a disciplinas como a

bioinformática que é um ramo da biologia computacional.

A bioinformática consiste em uma disciplina científica em rápido

desenvolvimento que trata da aplicação de métodos computacionais e analíticos a

problemas biológicos. Envolve aspectos multidisciplinares resultando da união das

seguintes ciências: ciência da computação, a matemática e a biologia molecular. Em vez de

trabalhar com tubos de ensaio no laboratório, tenta extrair informações do genoma humano

por meio de métodos computacionais de comparação de seqüências.

Biologia + informática = bioinformática


13/163

13

Nos últimos anos, é cada vez mais comum o armazenamento de dados

biológicos em bancos de dados públicos. Atualmente, é de vital importância para um

pesquisador manter-se atualizado com as informações necessárias da área utilizando-se de

ferramentas computacionais.

“A bioinformática é, antes de qualquer coisa, uma ciência

biológica. Freqüentemente, trata-se menos de desenvolver perfeitamente algoritmos

elegantes do que responder a perguntas práticas. Os especialistas em bioinformática (ou

bioinformatas) são criadores das ferramentas e é fundamental que eles entendam os

problemas biológicos tanto quanto as soluções computacionais para que produzam

ferramentas úteis.”1

A pesquisa em bioinformática e biologia computacional engloba desde a

abstração das propriedades de um sistema biológico em um modelo matemático ou físico,

até a implementação de novos algoritmos para análise de dados ou, ainda, o

desenvolvimento de banco de dados e ferramentas de Web para acessá-los.

Esse trabalho é uma introdução de alguns dos assuntos mais importantes da

bioinformática. Apresentamos técnicas computacionais padronizadas para localizar

informações em bancos de dados de seqüências biológicas, genomas e estruturas

moleculares. Examinamos maneiras de usar o computador como uma ferramenta para

organizar dados, pensar sistematicamente sobre processos de análise de dados e começar a

pensar sobre a automação do tratamento de dados. Além de abordar conceitos fundamentais

de biologia molecular.

Definimos uma estrutura em que os capítulos são independentes , de forma que pode ser lido do início ao fim ou salteado.

Nos dois primeiros capítulos, discutiremos alguns conceitos sobre Biologia

Molecular, Projeto Genoma dentre outros.

1 GIBA,Cyntia. Desenvolvendo Bioinformática: Ferramentas de software para aplicação em biologia / CyntiaGibas & Per Jambeck; tradução Milarepa Ltda. Rio de Janeiro: Campus, 2001. 423 p. Tradução de:Developing bioinformatics computer skills.


14/163

14

No terceiro capítulo, abordaremos a utilização da informática em pesquisas

científicas, mais especificamente a biologia molecular.

Nos capítulos quatro a dez, vamos descrever algumas técnicas computacionais

utilizadas na bioinformática.

E para encerrar, discutiremos no capítulo dez, algumas aplicações e

perspectivas futuras em relação ao Projeto Genoma.


15/163

1 – CONCEITOS DA BIOLOGIA

Vamos começar observando o produto final do nosso estudo: o ser humano.

Observe seu corpo, começando por algo simples, como suas mãos. Perceba o formato dos

dedos, a capacidade de flexioná-los, de controlar a força da flexão, de segurar objetos.

Mesmo em uma época de grande desenvolvimento tecnológico, é extremamente complexo

simular movimentos humanos através de robôs. Ainda estamos longe de chegar a perfeição.

Cada estrutura do nosso corpo, cada função que ele exerce, desde coordenar as

pernas para andar até bombear o sangue por nossas artérias e veias mantendo o corpo

oxigenado, é extremamente sofisticada. E cada um de nós faz tudo isso sem nem sequer

pensar no assunto.

Mais fascinante ainda é lembrarmos de que cada um de nós começou como uma

única célula, resultado da fusão de um óvulo da nossa mãe com um espermatozóide do

nosso pai. Essa única célula se dividiu em duas, as duas em quatro, as quatro em oito, e

assim por diante. Essas células, no início idênticas, a partir de um certo ponto começaram ase diferenciar, ou seja, passaram a desenvolver características diferentes umas das outras.

Assim, umas viraram células de sangue, outras de músculo, outras de sistema nervoso, cada

uma assumindo uma identidade e função próprias. Pois imagine só a complexidade de um

ser humano: trilhões de células formando ossos, músculos, pele, gordura, os órgãos, os

membros, e por aí vai. E todas essas estruturas ligadas umas às outras, interagindo de

formas extremamente específicas e reguladas para o funcionamento de uma pessoa.

Mas tomo isso acontece? Quem é o maestro que está regendo essa fascinante

orquestra? É o genoma, nossa receita, que foi constituído no momento da fecundação,

dentro daquela primeira célula que um dia fomos. A cada divisão, o genoma é fielmente

copiado para cada uma das células-filhas. Assim, essa receita vai sendo lida e executada por

cada uma das nossas células não só durante o desenvolvimento, mas durante toda a nossa

vida.


16/163

16

1.1 – GENOMA

A seqüência completa de DNA que codifica um ser vivo é chamada de genoma.

Assim como uma receita é composta de diversas instruções, nosso genoma também é

composto de milhares de comandos, que chamamos de genes. Cada um dos 30 mil a 40 mil

genes que se estima compor nosso genoma é uma instrução específica para a formação e o

funcionamento de um ser humano.

Os genes regulam todas as nossas características: altura, cor da pele, cor dos

olhos, quantidade de cabelo, tamanho do nariz, distribuição de gordura no corpo, formato

do rosto, capacidade respiratória, cardíaca, etc. Da mesma forma que uma receita é um

conjunto de instruções, nosso genoma é esse conjunto de genes. Um gene é uma seção

pequena e definida da seqüência genômica inteira, e cada gene tem um propósito específico

exclusivo. Existem três tipos de genes:

– Genes codificadores de proteínas: são modelos para gerar moléculas

chamadas proteínas.

– Genes especificadores de RNA: são modelos para as máquinas químicas,

mas os blocos criadores das máquinas de RNA são diferentes dos que

compõem a proteína.

– Genes não transcritos: são regiões do DNA genômico que possuem algum

propósito funcional, mas não alcançam esse propósito, sendo transcritos ou

convertidos para criar outra molécula.

Aliás, cada ser vivo tem seu próprio genoma. Os seres mais simples, como bactérias e outros organismos unicelulares, têm uma receita pequena, composta de poucas

instruções, de poucos genes. Afinal de contas, esses organismos não têm muitas outras

atividades além de crescer e reproduzir, funções relativamente pouco elaboradas para uma

célula. O menor genoma que se conhece é o da bactéria Mycoplasma genitalium, composto

de aproximadamente 500 genes.


17/163

17

Conjuntos específicos de genes, de instruções, modulam cada uma das nossas

características e funções fisiológicas. Por exemplo, quando sangramos, para o sangue coagular é

preciso que seja executada uma série de instruções que são formadas por um conjunto de pelo

menos dez genes no nosso genoma. Já nosso sistema auditivo é bem mais sofisticado,

necessitando da interação de mais de 200 genes para seu funcionamento normal.

Mutações

Pequenas variações em cada um dos nossos genes dão origem a grande

diversidade de tipos humanos -pessoas saudáveis, mas cada uma diferente da outra. Já erros

em certos genes causam diferentes tipos de mau funcionamento, de doenças na pessoa.Esses erros são chamados de mutações.

Veja o exemplo do gene F9, uma das instruções necessárias para a coagulação

do sangue. Pessoas que possuem erros nesse gene, falha nesse comando, têm dificuldade de

coagulação, fazendo que até pequenos ferimentos se tornem hemorragias. Essa doença,

causada por mutações no gene F9, chama-se hemofilia.

Já o gene ADA é um dos comandos para o funcionamento correto do sistemaimunológico. Pessoas com mutações nesse gene, defeitos nessa instrução, não desenvolvem

seu sistema imune e assim são muito suscetíveis a infecções, tendo que viver isoladas em

ambientes esterilizados.

As mutações, as modificações na receita de um indivíduo de uma espécie,

podem fazer com que ele tenha uma doença ou uma malformação. Mas podem também dar-

lhe uma nova característica que, se conferir alguma vantagem de sobrevivência e

reprodução sobre os seus companheiros, será passada para seus descendentes. O acúmulo

dessas "mutações vantajosas" eventualmente dará origem a indivíduos tão diferentes dos

originais que eles constituirão uma nova espécie. Ou seja, a evolução das espécies se dá por

meio das mutações e da seleção natural.

Atualmente são conhecidas mais de 800 doenças causadas por mutações em

algum dos nossos milhares de genes. São as chamadas doenças genéticas.


18/163

18

1.2 – DNA: A RECEITA BIOLÓGICA

Nosso genoma é composto de um elemento químico chamado DNA (ácido

desoxirribonucléico). O DNA encontra-se no núcleo das células e até a década de 1920 sabia-se

muito pouco sobre a composição e a função desse material. Somente vinte anos depois foi

finalmente demonstrado que o DNA contém instruções que determinam as características do ser

vivo e que é ele que transmite essas instruções de geração a geração.

E como essa informação está escrita no DNA? Da mesma forma que uma receita é

uma seqüência das 25 letras do nosso alfabeto repetidas de forma organizada várias vezes, o

DNA pode ser visto como uma fita composta por quatro elementos básicos repetidos: A

(adenina), C (citosina), G (guanina) e T(timina). Ou seja, a receita de um ser humano está escrita

com um alfabeto de quatro letras. Na linguagem bioquímica, essas "letras" são chamadas bases

do DNA. Nosso genoma é composto de bilhões dessas bases organizadas em uma seqüência

muito específica e que em conjunto são a receita de um ser humano.

E os genes nisso tudo? Ora, se um gene é uma instrução dessa receita, cada gene é

composto por uma seqüência específica de bases de DNA. O gene ADA, necessário para o

funcionamento do sistema imunológico, possui quase 37 mil letras, ou 37 mil bases. Já o gene F9

é composto de 200 mil bases, e assim por diante para cada gene no nosso genoma.

O dogma central da Biologia Molecular estabelece: “o DNA atua como um modelo

para se replicar, ele também é transcrito no RNA, e o RNA é convertido em proteína.“2

A informação genética, que é utilizada pelo organismo individual por meio de

processos de transcrição e tradução, é conservada e passada para os descendentes por meio

do processo de replicação.

O DNA genômico contém todas as informações vitais de um ser vivo e pode

conter íntrons, regiões repetidas e outras características. A seqüência de DNA



19/163

19

“unidimensional” em si não faz nada bioquimicamente; ela é só informação que é lida pelo

sistema de síntese da proteína da célula.

O DNA é um polímero linear composto de unidades químicas individuais

chamadas nucleotídeos ou bases. Os quatro nucleotídeos que compõem as seqüências de

DNA dos seres vivos são adenina, guanina, citosina e timina – designados pelas letras

A, G, C e T, respectivamente. A ordem dos nucleotídeos na seqüência de DNA linear

contém as instruções que criam um organismo. Essas instruções são lidas em processos

chamados de replicação, transcrição e tradução.

1.2.1 – REPLICAÇÃO DE DNA

O DNA possui propriedades especiais fornecidas pela estrutura incomum

de suas células. Essas propriedades permitem que as informações armazenadas sejam

preservadas e passadas de uma célula a outra. Duas moléculas de DNA formam uma

estrutura de dupla hélice, enroscadas uma na outra num padrão regular ao longo de

todo o comprimento. As metades da dupla hélice são mantidas juntas por ligações

entre os nucleotídeos em cada filamento (ou fita). Os nucleotídeos também se ligamde maneiras específicas: A só pode fazer par com T, e G só pode fazer par com C.

Cada um desses pares chama-se par de bases, e o comprimento de uma seqüência de

DNA geralmente é descrito em pares de bases (ou pb), quilobases (1.000 pb),

megabases (1 milhão pb) etc.

Cada fita na dupla hélice de DNA é uma “imagem química espelhada” da outra.

Se houver um A em uma fita, sempre haverá um T em oposição ao outro. Se houver um C

em uma fita, o seu par será sempre um G.

Quando uma célula se divide para formar duas novas células - filhas, o DNA

é replicado desenrolando as duas fitas da dupla hélice e usando cada fita como um

modelo para criar a sua imagem química espelhada, ou Fita complementar. Esse

processo está sendo ilustrado na Figura 1-1.


20/163

20

Figura 1.1 – Esquema de uma molécula de DNA sendo replicada

Fonte: Desenvolvendo Bioinformática, p. 23.

1.2.2 – TRANSCRIÇÃO DE DNA

O DNA não atua somente como um modelo para fazer cópias de si mesmo, mas

também como modelo para uma molécula que possui o nome de ácido ribonucléico (RNA). A

figura 1-2 ilustra o processo pelo qual o DNA é transcrito que se chama transcrição. O RNA é

uma molécula polimérica composta de unidades químicas individuais, porém, a espinha dorsal

química que mantém essas unidades juntas é um pouco diferente da espinha dorsal química do

DNA, permitindo ao RNA existir tanto na forma de fita única como em dupla hélice. Essas

moléculas de fita única ainda formam pares de bases entre diferentes partes da cadeia, causando

a dobra do RNA em estruturas tridimensionais. As unidades químicas individuais do RNA são

designadas pelas letras A, C, G e U (uracila, que substitui a timina).

Figura 1.2 – Esquema do DNA sendo transcrito em RNAFonte: Desenvolvendo Bioinformática, p. 24.


21/163

21

Existem três tipos principais de moléculas de RNA:

1 – RNA mensageiro (mRNA): são transcritas do RNA dos genes e levam informações

do genoma para o ribossomo, a maquinaria de síntese protéica da célula;

2 – RNA de transferência (tRNA): são moléculas de RNA não traduzidas que

transportam aminoácidos, os blocos de construção das proteínas, para os

ribossomos;

3 – RNA ribossômico (rRNA): são os componentes de RNA não traduzido dos

ribossomos, que são complexos de proteína e RNA. Os rRNA estão envolvidos na

fixação das moléculas de mRNA e na catálise de algumas etapas no processo de

tradução.Alguns vírus também usam o RNA como seu material genético.

1.3 – PROTEÍNAS

O que existe na célula além do núcleo? Bem, as células podem ser divididas em

duas regiões. A primeira é o núcleo, onde está armazenado e protegido o nosso genoma e

onde, de acordo com a necessidade da célula, são feitas cópias de certas instruções a serem

executadas – onde genes são copiados em RNAs. A segunda região é o chamado

citoplasma. Ele pode ser comparado a uma grande cozinha, onde a receita vai ser lida e

executada. No citoplasma da célula se encontram diferentes estruturas que são responsáveis

por ler o RNA e executar a informação contida nele. Mas que tipo de informação existe em

cada gene? O que são na prática as "instruções" contidas em cada gene? Se os genes não

são nada mais que informação, quem está de fato "fazendo" alguma coisa nas células?

As proteínas são os personagens principais na formação de um ser vivo. Elas

dirigem a construção de todas as estruturas que compõem as células, e algumas proteínas

constituem elas mesmas outras partes das células e, logo, do organismo (os cabelos e unhas,

por exemplo, consistem basicamente em proteína); outras são responsáveis por mediar os

milhões de reações bioquímicas que acontecem no organismo humano.

As proteínas são responsáveis por fazer a digestão dos alimentos no estômago, da

insulina que metaboliza açúcares, dos hormônios que iniciam a puberdade, da queratina que forma

cabelos e unhas e do colágeno presente nos ossos. Todas essas moléculas são exemplos de proteínas.


22/163

22

Assim, no citoplasma da célula, cada RNA, cada cópia de um gene, é traduzido

em uma proteína. A tradução do mRNA em proteína é a etapa final na colocação das

informações contidas no genoma em funcionamento na célula.

As proteínas são polímeros lineares criados de um conjunto de pequenas

moléculas denominadas aminoácidos. Ao contrário do DNA, a seqüência química de uma

proteína possui uma estrutura físico – química, bem como, um conteúdo informativo.

“Cada um dos vinte aminoácidos encontrados com mais freqüência nas proteínas temuma natureza química diferente, determinada por sua cadeia lateral – um grupo químico que varia deaminoácido para aminoácido. A seqüência química da proteína chama – se estrutura primária, mas a

maneira pela qual a seqüência se dobra para formar uma molécula compacta é tão importante para afunção da proteína como é sua estrutura primária. Os elementos das estruturas secundária e terciáriaque compõem a dobra final da proteína podem juntar partes distantes da seqüência química da proteína para formar sítios funcionais.”3

Figura 1.3 – O Código GenéticoFonte: Desenvolvendo Bioinformática, p. 26.

Como é ilustrado na figura 1-3, o código genético converte DNA em proteína.

Ele utiliza três bases de DNA (chamadas códon) para codificar cada aminoácido em uma



23/163

23

seqüência de proteína. Alguns códons são redundantes, outros têm a função de informar ao

mecanismo de tradução da célula para parar de converter uma molécula de mRNA. A

figura 1-4 mostra como o RNA é convertido em proteína.

Figura 1.4 – Esquema do RNA sendo convertido em proteínaFonte: Desenvolvendo Bioinformática, p. 26.

DNA x Proteínas

O DNA e as proteínas são moléculas tridimensionais complexas, compostas de

milhões de átomos ligados. Entretanto, tanto o DNA quanto às proteínas são polímeros,

cadeias de unidades químicas repetitivas (monômeros) com um núcleo comum que asmantém juntas.

No DNA, quatro monômeros de ácidos nucléicos (A,T,C e G) são usados com

mais freqüência para criar a cadeia de polímero. Nas proteínas, 20 monômeros de

aminoácidos são usados. Em uma cadeia de DNA, os monômeros podem ocorrer em

qualquer ordem, e a ordem em que eles ocorrem determina o que o DNA faz. Em uma

proteína, os aminoácidos podem ocorrer em qualquer ordem, e a sua ordem determina o

dobramento e a função da proteína.

1.4 – CROMOSSOMOS

Da mesma forma que toda a informação contida em uma enciclopédia é dividida em

vários volumes, também nossa informação genética está dividida em pedaços: os cromossomos.

Estes não são nada mais que "fascículos" da imensa enciclopédia que é nosso genoma. Cada

cromossomo é um pedaço de DNA composto de 40 a 250 milhões de bases A, C, G e T.


24/163

24

Os cromossomos humanos são numerados de 1 a 22, além de um cromossomo

chamado X e outro chamado Y. No que diz respeito a ordem de execução de cada gene na

formação de uma pessoa, a numeração dos cromossomos é completamente arbitrária. A

receita não "começa" no cromossomo 1, continua no 2, e assim por diante até o 22. A

numeração é correspondente ao tamanho dos cromossomos é 1 para o maior e 22 o menor.

Os cromossomos X e Y recebem esses nomes especiais porque estão envolvidos na

determinação do sexo. Mais especificamente, no cromossomo Y estão as instruções que vão

determinar o sexo masculino do embrião.

1.5 – HEREDITARIEDADETemos duas versões de cada instrução, de cada gene. Como os genes estão

organizados nos cromossomos, nosso genoma é composto de dois de cada cromossomo – um par

de cromossomos 1, um par do 2, do 3, e assim por diante. E os cromossomos sexuais X e Y

formam também um par: um genoma contendo o par formado de dois cromossomos X dá origem

a uma menina; aquele contendo o par formado de um X e um Y gera um menino.

Cada célula do nosso corpo contém um genoma completo em seu núcleo, um par de

cada um dos cromossomos. Mas existe uma exceção: as células germinativas, isto é, os óvulos e os

espermatozóides. Essas células têm uma função muito especial: são as únicas células designadas à

reprodução, à transmissão dos nossos genes à geração seguinte.

Então que parte do genoma as células germinativas contêm? Eles possuem somente

uma unidade de cada cromossomo e por isso são chamadas células haplóides. Quando essas duas

células haplóides, contendo somente um de cada cromossomo, se fundem na fecundação, elas

formam uma célula diplóide contendo um novo genoma, inédito, composto agora de duas unidades

de cada cromossomo. A partir dessa primeira célula serão derivados todos os trilhões de células que

compõem um indivíduo adulto, cada uma delas contendo um genoma completo. Veja a figura 1-5.

É dessa forma que a natureza cria diversidade entre as pessoas, misturando as receitas do pai e da

mãe para gerar descendentes com genomas diferentes, com características distintas.

Algumas mais parecidas com as do pai, outras com as da mãe, e outras ainda que não

conseguimos reconhecer em nenhum dos dois, mas que estavam lá escondidas em seu genoma.


25/163

25

Figura 1.5 –A “mistura” dos genomas paterno e materno formando indivíduos diferentes.Fonte: Seqüenciaram o Genoma Humano... e Agora? p. 25.

Mas para que duas versões de cada gene, uma do pai e outra da mãe? Estima-se

que cada um de nós possua aproximadamente dez genes com uma das duas versões mutadas.

Se não tivéssemos a outra versão normal, qualquer uma dessas mutações poderia causar uma

doença genética grave ou até a morte. Ou seja, se uma versão de uma instrução está defeituosa,

podemos contar com a outra versão da mesma instrução para executar a receita. E, assim, essa

aparente redundância do genoma nos protege de mutações em vários genes.

Mas qual é então a versão seguida na execução da receita? As duas, mas, dependendo

da natureza de cada uma das versões, o efeito de uma domina ou complementa o efeito da outra.

Exemplo: cor dos olhos. Apesar de essa característica ser determinada por vários

genes agindo em conjunto, vamos simplificar e imaginar que o gene A é o responsável pela cor

dos olhos e que existam duas versões levemente diferentes desse gene: a versão (A) diz "olhos

escuros" e a versão (a) diz "olhos claros". Pois bem, se recebemos um (A) do pai e outro (A) da

mãe, temos olhos escuros; (a) do pai e (a) da mãe, olhos claros. Até aí tudo bem, as instruçõesmaterna e paterna eram idênticas. Mas e quando recebemos (A) de um e (a) de outro? Neste

caso específico, a instrução "olhos escuros" prevalece.

1.6 – GENES E ALELOS

Recapitulando: no nosso genoma possuímos duas versões de cada um dos nossos

mi1hares de genes, uma que é herdada da mãe e a outra do pai. Para cada gene, as duas versões


26/163

26

podem ser idênticas (AA, aa) ou levemente diferentes (Aa). E, dependendo da natureza da

proteína produzida por esse gene, uma ou outra versão prevalecerá na manifestação da

característica específica determinada pelo gene. Pois bem, como no exemplo do gene "A" da

cor de olho, provavelmente da última vez que você ouviu falar de genética, para cada gene

existia somente duas opções: os famosos "azão" (A) e "azinho" (a). Da mesma forma que existe

um espectro contínuo de variações entre "claro" e "escuro", existem várias versões de cada um

dos nossos genes - (A), (a), (a1), (a2), (a3) etc.

Essas versões de um mesmo gene são chamadas alelos do gene. Assim, existem

pessoas com (A)(A), com (a)(a), com (a1)(a3), com (a2)(a), enfim, com todas as

combinações possíveis dos alelos do gene “A", dando origem a olhos pretos, marrons, cor

de mel, verdes etc. E da mesma forma para cada um dos milhares de genes em nosso

genoma. Observe a família representada na figura 1-6. Tente acompanhar a segregação dos

alelos dos quatro genes de pais para filhos entre as várias gerações.

Figura 1.6 – Segregação dos alelos de quatro genes em uma família

Fonte: Seqüenciaram o Genoma Humano... e Agora? p. 28.


27/163

27

1.7 – DIVERSIDADE GENÉTICA

Essas pequenas variações em cada um dos nossos genes é que geram a fabulosa

diversidade encontrada na nossa espécie. Faça este exercício: imagine que temos três genes,

cada um com quatro versões, alelos, diferentes (figura 1-7). Com esse genoma imaginário

de somente três genes e relativamente pouca variação dentro de cada um, seria possível

existir aproximadamente quinhentas pessoas geneticamente distintas.

Figura 1.7 – Combinação de 3 genes, cada um Com 4 alelos diferentes

Fonte: Seqüenciaram o Genoma Humano... e Agora? p. 29.

Fica também claro como é improvável existir duas pessoas geneticamente

idênticas, mesmo sendo irmãos. A única exceção são os gêmeos univitelinos. Eles são

gerados a partir do mesmo óvulo e do mesmo espermatozóide que, em vez de darem origem

a um único embrião, dão origem a dois e só por isso possuem exatamente os mesmos

genes.

Teste de DNA

Eles se baseiam exatamente no que foi explicado anteriormente: nos (A), (a), (a1),

(a2), (a3); (B), (b), (b1), (b2), (b3); (C), (c), (c1), (c2), (c3), e assim por diante. Cada pessoa

possui dois alelos, duas versões, de cada gene, uma vinda da mãe e outra do pai, certo?

Os testes de paternidade comparam de 5 a 15 genes dos envolvidos: filho, mãe

e suposto pai. Para cada um desses genes, o alelo presente no filho que não foi herdado da

mãe deve ter sido herdado de seu pai verdadeiro, certo? Logo, deve estar presente no


28/163

28

suposto pai caso este seja de fato o pai da criança. Se para algum desses genes o alelo do

filho que não veio da mãe não estiver presente no suposto pai, poderemos excluir a

possibilidade de esse homem ser o pai da criança.

Na verdade a coisa não é tão simples assim. Esses testes trabalham

basicamente com probabilidades, calculando o evento mais provável: a criança ter

determinada combinação de alelos por acaso ou por ser filha do suposto pai. Veja o

exemplo da figura 1-6: se o teste de paternidade levasse em consideração somente os

genes A e B, chegaria à conclusão de que aquele homem é o pai da criança, certo? Porém,

nesse caso, isso foi uma coincidência. Se a análise fosse estendida a mais genes, no caso

os genes C e D, o teste excluiria aquele indivíduo como pai. Assim, quanto maior o

número de genes examinados, e quanto maior o número de alelos diferentes para cada

um desses genes, mais preciso será o teste.

Esses dois fatores combinados fazem com que o teste de paternidade possa

dizer que é 1 milhão de vezes mais provável a criança ter aqueles alelos porque é filha

daquele suposto pai do que simplesmente por sorte.

1.8 – GENES E MEIO AMBIENTE

Muitas das nossas características são influenciadas pelo meio ambiente.

Um exemplo bem óbvio é a cor da pele. Como disse, irmãos gêmeos idênticos,

ou univitelinos, possuem genomas absolutamente idênticos, logo possuem exatamente os

mesmos genes determinantes de cor de pele. No entanto, dependendo do estilo de vida de

cada um, eles terão características diferentes.


29/163

29

2 – PROJETO GENOMA HUMANO

Nos últimos 60 anos, tivemos um grande aprendizado sobre a biologia humana.

Descobrimos onde a natureza esconde os segredos da vida: no nosso genoma. Esse imenso

programa está escrito na forma de DNA no núcleo de nossas células. O que é o Projeto

Genoma Humano e quais são seus objetivos?

Desde que nos entendemos por “gente”, nossa espécie vem tentando compreender

como funciona o corpo humano. Isso foi iniciado há séculos essencialmente por anatomistas que

observavam e descreviam cada uma das partes externas e, mais tarde, quando deixou de ser heresia

examinar cadáveres humanos, as estruturas internas do corpo humano. O exame de indivíduos com

diferentes doenças possibilitou um melhor entendimento das diversas funções biológicas.

2.1 – OBJETIVOS DO GENOMA HUMANO

Nesse contexto, o genoma humano tem o objetivo de complementar as

estratégias de compreensão da biologia humana com a obtenção do manual de instruções,

do genoma de um ser humano. Sabemos que a receita está dentro do núcleo de nossas

células: vamos então recuperá-la, lê-la e decifrá-la.

Em 1988, a Human Genome Organization (Organização do Genoma Humano,

HUGO) foi fundada por cientistas norte-americanos para coordenar os esforços de

seqüenciamento do genoma humano internacionalmente. Essa grande ousadia foi

formalmente proposta ao Congresso dos Estados Unidos em 1990 como um plano de 15 anos

a ser executado por um consórcio de pesquisadores : o Projeto Genoma Humano (PGH).

Objetivos específicos do PGH:

– Identificar os estimados 50 mil a 100 mil genes no genoma humano;

– Determinar a seqüência completa do DNA humano;

– Colocar toda essa informação em bancos de dados para acesso público;

– Desenvolver instrumentos para análise desses dados;


30/163

30

– Discutir as questões éticas, legais e sociais que surgiram a partir do projeto;

– Realizar análises similares em organismos-modelo.

Os métodos bioquímicos existentes não permitiam a manipulação de tamanhos

de DNA tão grandes quanto o contido em um cromossomo, muito menos o seqüenciamento

de moléculas desse tamanho. A receita teria que ser lida por partes.

O consórcio público decidiu dividir a tarefa de seqüenciamento entre diferentes

grupos, ficando cada um responsável por analisar um cromossomo específico. Assim, o

genoma foi fragmentado em vários pedaços de milhões de letras. Primeiramente estes foramordenados para se saber que pedaço do genoma vem de qual cromossomo. A partir daí, foram

distribuídos por vários grupos de pesquisa para serem ainda mais fragmentados e assim

poderem ser seqüenciados. À medida que as seqüências ficaram prontas, elas foram

organizadas de acordo com a ordem previamente estabelecida dos pedaços dentro do genoma.

Em 1998 o prazo inicial de 15 anos foi reavaliado, e a HUGO propôs o término

do seqüenciamento do genoma humano para 2003. Ainda em 1998, a empresa americana

Celera Genomics Corporation, liderada por um cientista chamado Creg Venter, declarou

que seqüenciaria o genoma humano em três anos, terminando a tarefa antes do consórcio

público. Essa empresa decidiu adotar uma estratégia alternativa para o seqüenciamento:

picotar o genoma todo em fragmentos pequenos e sobrepostos, e seqüenciá-los

desordenadamente. Isso geraria milhões de seqüências curtas, com 500 a 1.000 letras. Para

montar o enorme quebra-cabeça definindo qual pedaço vem antes de qual foi utilizado um

supercomputador – foi exatamente essa incrível capacidade de computação que permitiu a

Celera seqüenciar o genoma dessa forma, chamada shotgun. Essa estratégia foi recebida commuito ceticismo pela comunidade científica, porém a empresa demonstrou sua eficácia

primeiro seqüenciando o genoma da Drosophila melanogaster , com 137 milhões de letras, e

em seguida o genoma humano em um tempo menor que o consórcio público.

Enfim, a batalha entre a comunidade científica e a empresa Celera continua. Até

agora, essa competição deu uma sacudida no consórcio público, que vinha trabalhando de

forma um pouco acadêmica demais. Sob a ameaça de perder a liderança para a Celera, a


31/163

31

HUGO teve que assumir um ritmo mais frenético de trabalho, diminuindo o prazo do término

do seqüenciamento para o final do ano 2000.

Dessa forma, por enquanto quem mais lucrou com a corrida foi a comunidade

científica mundial. E, no final, as duas estratégias acabaram sendo complementares.

Buracos na seqüência gerada por um grupo foram completados pela seqüência gerada pelo

outro, e assim foi determinada a seqüência completa do genoma humano. Em fevereiro de

2001, o consórcio público divulgou seus dados na revista Nature (v. 409, p. 860), enquanto

a empresa Celera Genomics publicou os seus na revista Science (v. 291, p. 1.304).

Na verdade, ao contrário do consórcio público, a Celera não colocou todos os seus dados

à disposição, como é de praxe um grupo fazer ao publicar um artigo em revistas científicas como a

Science. Quem quiser ter acesso à informação completa gerada pela empresa deverá pagar por isso.

Na figura 2-1 está um trecho do nosso genoma – parte da seqüência do cromossomo 15.

Figura 2.1 – Seqüência parcial do cromossomo 15.Fonte: Seqüenciaram o Genoma Humano... e Agora? p. 38.

2.2 – ORGANIZAÇÃO DO GENOMA HUMANO

Para se ter uma idéia da complexidade desse problema, somente 5% de todo o nosso

genoma são, de fato, compostos por genes. Enquanto que os outros 95% são desconhecidos.

2.2.1 – IDENTIFICANDO GENES A PARTIR DO RNA

Outra estratégia para identificação de genes no genoma é utilizar a própria

natureza. Você está lembrado do RNA, da cópia do gene que é levada para a célula? Ora, a


32/163

32

célula só é capaz de fazer cópias de cada um dos nossos genes porque ela sabe identificar,

naquele emaranhado de letras, as que compõem cada gene. Ao fazer o RNA, ela copia somente

a informação que interessa, somente as letras que formam o gene. Assim, urna grande parte do

trabalho do PGH é dedicada ao seqüenciamento de RNAs, gerando o que chamamos de

seqüências expressas, instruções limpas. Comparando a seqüência do genoma todo com as

seqüências dos RNAs, podemos identificar dentro do genoma de onde os RNAs foram

copiados. Ou seja, podemos identificar no genoma os genes que geraram os RNAs.

Mas, se podemos seqüenciar somente os 5% que interessam, os RNAs, por que

seqüenciar o DNA inteiro?

Primeiro vamos lembrar que os RNAs correspondem somente aos genes que

estão ligados em uma célula, às instruções que estão sendo executadas. E esse conjunto de

genes ligados varia muito de acordo com o período de desenvolvimento do embrião e com

o tipo de célula . Uma célula do sistema nervoso tem uma forma e exerce funções muito

diferentes das de uma célula do coração. Assim, podemos intuir que o conjunto de genes

que está ligado a uma função do corpo humano é diferente do conjunto ligado a outra

função. Essa diferença se reflete nos tipos de RNAs que encontramos nessas células.

Se estudarmos as seqüências expressas, os RNAs, de um tipo de célula, teremos

acesso à somente parte dos genes do genoma – àqueles que estão ligados nesse tipo celular.

Mas, se nos limitarmos a esse tipo de análise, correremos o risco de não detectar genes que

se expressam em ocasiões muito especiais, ou em tipos celulares raros.

Se seqüenciarmos somente os RNAs, nunca obteremos as seqüências dos

promotores dos genes. Ou seja, conhecemos muito pouco da linguagem do DNA para já ir

descartando informação.

2.2.2 – O QUE JÁ FOI IDENTIFICADO NA SEQÜÊNCIA COMPLETA DO GENOMA

HUMANO

A primeira análise da seqüência completa do genoma publicada em fevereiro de

2001 revelou algumas surpresas. A maior delas é relativa ao número de genes contido no


33/163

33

nosso genoma. Estimava-se algo entre 50 mil e 100 mil genes. Pois bem, com a seqüência

toda em mãos, parece que nossa receita tem somente de 30 mil a 40 mil genes.

A complexidade do ser humano não está refletida no número de genes que sua

receita possui. Porém, aparentemente nossos genes são mais versáteis que os daquelas

outras espécies: em média, cada gene humano é capaz de fazer três proteínas diferentes.

Assim, a informação contida no nosso genoma parece estar compactada em 35 mil genes

que produzem de 100 mil a 150 mil proteínas distintas.

A seqüência do genoma humano carrega inúmeras informações. Ela fala daevolução da nossa espécie, de como genes de bactérias, leveduras, vermes e moscas foram

reorganizados para a elaboração da receita de um ser humano. Encontramos no nosso genoma

genes muito parecidos com genes dessas espécies bem menos complexas. A seqüência fala

também das diferenças entre mulheres e homens e das diferenças entre cada um de nós.

2.2.3 – DIFERENÇAS ENTRE GENOMAS

Um código genético difere do outro em apenas 0,1%, ou seja, um em cada milACGTs do genoma humano é diferente em cada pessoa. A essas diferenças de uma base, ou de um

nucleotídeo (outro nome das bases do DNA), deu-se o nome de SNP (Single Nucleotide

Polymorphism, ou polimorfismomo de um único nucleotídeo).Eles são basicamente diferenças de

uma letra em certas partes do genoma de cada um. Veja na figura 2-2 um exemplo de SNPs dentro

de um gene. Naquela região do genoma, uma pessoa pode ter um T enquanto outra pode ter um G.

Ao longo do genoma humano foram identificados até agora 1,4 milhão dessas variações.

Figura 2.2 – Variações na seqüência de DNA: Alelos E SNPSFonte: Seqüenciaram o Genoma Humano... e Agora? p. 46.


34/163

34

2.2.4 – O PRÓXIMO DESAFIO: DETERMINAR A FUNÇÃO GÊNICA

A informação mais valiosa dentro do nosso genoma estará disponível daqui a

muito pouco tempo: a coleção de 30 mil a 50 mil (ainda nem sabemos o número exato)

genes que compõem nossa receita.

Mas atenção: como já vimos, DNA é só informação. Os genes são

informações de como fazer uma proteína. Quem vai construir o ser humano são as

proteínas. Passamos tanto tempo estudando o DNA justamente para começar a

entendê-las. Ou seja, a partir da seqüência de cada um dos genes humanos, poderemos começar a estudar cada uma das proteínas que esses genes codificam

para entendermos a função delas.

2.2.5 – O PROTEOMA HUMANO

Está lançado o maior desafio da "era pós-genoma": entender função gênica (ou

função do produto gênico, da proteína). O conjunto dos milhares de proteínas codificadas

pelo genoma é chamado de proteoma.

A determinação do proteoma humano é comparável à elaboração da tabela

periódica de elementos no final do século XIX. Da mesma forma que toda a matéria do

mundo é composta por combinações daqueles 112 elementos, a idéia é que no futuro

cientistas sejam capazes de explicar todos os fenômenos fisiológicos humanos a partir

do nosso genoma/proteoma.

2.3 – O PROJETO GENOMA HUMANO NO BRASIL

Em nosso país, diversos centros de pesquisa se dedicam à pesquisa da

biologia humana. Entre eles, gostaria de destacar dois intensamente envolvidos em

pesquisas diretamente relacionadas ao Projeto Genoma Humano.


35/163

35

Projeto Brasileiro Genoma do Câncer

Em uma parceria entre a Fapesp (Fundação de Amparo à Pesquisa do Estado de

São Paulo) e o LICR do Brasil ( Ludwig Institute for Cancer Research), foi criado o

Fapesp/LICRHuman CancerGenome Project (Projeto Genoma Humano do Câncer). Esse

projeto envolveu 32 grupos de pesquisa do Estado de São Paulo e visou identificar

seqüências expressas em diferentes tumores, identificar genes envolvidos em diferentes

tipos de cânceres.

Mas como eles conseguiram seqüenciar especificamente esses genes? Aestratégia foi a seguinte: foram isolados RNAs de vários tumores, ou seja, aquelas cópias

dos genes que estavam ativos nos tumores, das instruções que estavam sendo executadas.

Em vez do genoma inteiro, somente esses RNAs foram seqüenciados, dando-nos uma

noção de quais genes são responsáveis pelas características de células cancerosas.

O Projeto Genoma Humano Brasileiro foi capaz de gerar uma grande

quantidade de seqüências de genes humanos, tendo grande impacto internacional.

Centro de Estudos do Genoma Humano

Em setembro de 2000 foi inaugurado o Centro de Estudos do Genoma Humano

(CEGH), no Instituto de Biociências da Universidade de São Paulo O CEGH é atualmente

o maior centro de genética humana da América Latina e nele são estudadas várias doenças

genéticas. Entre elas estão as distrofias musculares; a síndrome do X-frágil e outras formas

de retardo mental; alterações craniofaciais, como o lábio leporino; e alguns tipos de surdez.

A pesquisa realizada no CEGH, além de contribuir para o melhor conhecimento

daquelas doenças, reverte para a sociedade na forma de diagnóstico e aconselhamento genético.

Além disso, esse grupo investe intensamente em educação/ divulgação

científica, oferecendo cursos de genética humana e biologia molecular para os mais

diversos públicos, de professores do ensino médio a médicos já formados que desejam (e

devem) se atualizar nesse tema.


36/163

36

3 – INFORMÁTICA: UMA FERRAMENTA INDISPENSÁVEL

Podemos definir a biologia como o estudo dos seres vivos. O avanço da tecnologia

tornou a coleta de dados mais rápida que sua interpretação. Há grandes volumes de dados de

seqüência de DNA ao alcance de todos. Algumas perguntas direcionam as pesquisas dos biólogos:

– Como descobrir quais partes do DNA controlam os vários processos

químicos da vida?

– Como prever a função e a aparência de uma proteína com base no

conhecimento da sua seqüência?

“A Biologia Computacional é uma área interdisciplinar e consiste no

desenvolvimento de modelos quantitativos para explicar fenômenos biológicos.”4

Através da bioinformática, que é um ramo da biologia computacional, podemos interpretar

as informações com a finalidade de entender o estudo dos seres vivos. A grande badalação em torno do

mapeamento do genoma humano tornou o termo “bioinformática” uma expressão da moda. Muitos

consideram esse fato benéfico porque mais apoio e investimentos foram conseguidos. O ditado popular

prevaleceu: “a propaganda é a alma do negócio”. Outros já não consideram o fato positivo já que o

termo “bioinformática” teve seu significado deturpado sendo utilizado em várias situações.

Os pesquisadores na área são originalmente de muitos campos , incluindo matemática,

ciência da computação e lingüística. As ciências biológicas tratam do específico até o geral. O

oferecimento de algoritmos, bancos de dados, interfaces de usuários e ferramentas estatísticas faz a

bioinformática possibilitar a realização de tarefa trabalhosas, como comparar seqüências de DNA e

gerar resultados potencialmente significativos.

3.1 – A INFLUÊNCIA DA COMPUTAÇÃO NA BIOLOGIA

DNA, RNA e proteínas armazenam informações sobre função e hereditariedade do

organismo. Todas são cadeias lineares compostas de pequenas moléculas. Essas macromoléculas

4 http://www.inf.unisinos.br/~lbbc/


37/163

37

são reunidas com base em um alfabeto fixo de produtos químicos simples: o DNA é composto de

quatro desoxirribonucleotídeos (adenina, timina, citosina e guanina), o RNA é composto de

quatro ribonucleotídeos (adenina, uracila, citosina e guanina), e as proteínas são compostas de

vinte aminoácidos. Como essas macromoléculas são cadeias lineares de componentes definidos,

podem ser representadas por seqüências de símbolos que serão comparadas para localizar

semelhanças que sugerem uma relação das moléculas pela forma ou função.

Figura 3.1 –Formulário para efetuar uma pesquisa com o Blast nos bancos de dados de nucleotídeos no NCBIFonte: Desenvolvendo Bioinformática, p. 6.

A Web possibilita que um único banco de dados público de seqüências de genoma

ofereça serviços por meio de interface uniforme com uma comunidade mundial de usuários. Comum programa mundial de computador, chamado fsBLAST, um biólogo molecular pode comparar

uma seqüência de DNA desconhecida com a coleção pública completa de seqüências públicas.

Assim como o BLASTA podemos citar também a existência do FASTA. A figura 3-1 mostra um

formulário padrão para o envio de dados ao NCBI ( National Center for Biotechnology

Information) para uma pesquisa com o BLAST.


38/163

38

3.2 – RÓTULOS NAS SEQÜÊNCIAS DE GENES

É interessante observar que a seqüência biológica (DNA ou proteína) tem

uma função química, mas ao ser reduzida a um código de uma única letra, também

funciona como um rótulo exclusivo, quase como um código de barras. O rótulo da

seqüência pode ser aplicado a um gene, seu produto, sua função, sua ação no

metabolismo celular, etc. O usuário que está buscando informações relacionadas a um

determinado gene pode usar a comparação rápida das seqüências de pares de base para

acessar todas as informações vinculadas a esse rótulo da seqüência. Os rótulos contêm

padrões biologicamente significativos que permitem fazer comparações de rótulos

diferentes, conectar informações e fazer inferências. Portanto, os rótulos não apenas

conectam todas as informações sobre um gene, como também ajudam os usuários a

conectarem as informações sobre genes que são ligeira ou drasticamente diferentes na

seqüência.

As seqüências biológicas são relacionadas por evolução, logo, uma

combinação parcial de padrões entre dois rótulos de seqüência é um achadosignificativo. O BLAST diferencia-se da simples busca por palavra-chave por sua

capacidade de detectar combinações parciais em toda a extensão da seqüência da

proteína.

3.3 – BIOINFORMÁTICA – APENAS A CRIAÇÃO DE BANCO DE DADOS?

Atualmente, procedimentos que fazem parte da bioinformática –

comparação de seqüências, pesquisa em bancos de dados, análise de seqüências – são

bem mais complexos do que apenas projetar e preencher banco de dados. A figura 3-2

mostra como a ciência quantitativa interage com a biologia em todos os níveis, desde

a análise de dados de seqüências e da estrutura protéica, até a modelagem metabólica,

a análise quantitativa das populações e a ecologia.


39/163

39

Figura 3.2 – Como a tecnologia interage com a biologiaFonte: Desenvolvendo Bioinformática, p. 9.

A pesquisa em bioinformática abrange desde a representação matemática de

características de um sistema biológico até a implementação de novos algoritmos paraanálise de dados e o desenvolvimento de bancos de dados e das ferramentas de Web para

acessá-los.

3.4 – A PRIMEIRA ERA DA INFORMAÇÃO EM BIOLOGIA

No trabalho dos biólogos antigos, que catalogaram e compararam as espécies

de seres vivos, está as raízes do conceito de evolução. Hoje, ainda estão sendo descobertas

novas formas de vida e fósseis de formas extintas de vida .

“Em meados do século 16, Otto Brunfels publicou o primeiro trabalho modernoimportante descrevendo as espécies de plantas, o Herbarium vitae eicones. Como oseuropeus viajavam cada vez mais pelo mundo, o número de espécies catalogadas aumentou,e os jardins botânicos e herbários foram estabelecidos. No tempo de Teofrasto, aluno deAristóteles, havia 500 tipos de plantas catalogadas. Em 1623, Casper bauhin observara 6mil tipos de plantas.Pouco depois, John Ray introduziu o conceito de espécies distintas deanimais e plantas, e desenvolveu diretrizes baseadas nas características anatômicas para


40/163

40

distinguir conclusivamente as espécies. Na terceira década do século 18, Carolus linnaeuscatalogou 18 mil espécies de plantas e cerca de 4 mil espécies de animais, e estabeleceu os princípios do sistema de nomenclatura da taxonomia moderna, baseada em reinos, classes,gêneros e espécies. No fim do século 18, o barão Cuvier relacionou cerca de 50 milespécies de plantas.”5

Uma taxionomia moderna dos milhões de espécies da Terra é de memorização

muito complicada. Felizmente, os computadores fornecem agora uma maneira de manter e

acessar a taxonomia das espécies. O projeto Árvore da Vida (Tree of Life) da Universidade

do Arizona e o banco de dados de taxonomia do NCNI são dois exemplos de projetos on-

line. A figura 3-3 mostra uma maneira esquemática de classificar as espécies conhecidacomo “árvore da vida”.

Figura 3.3 – A “árvore da vida” representa o sistema de nomenclatura que classifica as espécies.Fonte: Desenvolvendo Bioinformática, p. 6.



41/163

41

3.5 – DESAFIOS DA BIOLOGIA PARA A COMPUTAÇÃO

Podemos dizer que o objetivo da biologia, na era dos projetos genoma, é

desenvolver um conhecimento solidificado de como os seres vivos são formados com base

no genoma que os codifica.

Quebrar o código do genoma é uma tarefa muito complexa. No nível mais

simples, ainda é difícil identificar os genes desconhecidos pela análise de computador

da seqüência genômica. Ainda não se obteve êxito na predição ou modelagem de

como a cadeia de aminoácidos se dobra atingindo a estrutura específica de uma proteína funcional.

Gerenciar os bancos de seqüências genômicas está se tornando uma tarefa

muito complicada, já que os dados estão crescendo em ritmo exponencial. Os dados

biológicos são muito complexos e interligados.

Finalmente, cada gene no genoma não é uma entidade independente. Vários genes

interagem para formar vias bioquímicas, que também alimentam outras vias. A bioquímicasofre influência do ambiente externo, da interação com patogenias e de outros estímulos.

3.6 – UMA NOVA ABORDAGEM DA COLETA DE DADOS

A bioquímica é uma ciência empírica. Dependendo do interesse do especialista,

a seqüência ou estrutura é determinada, ou as características de um único produto gênico

por vez são analisadas. A maneira como um caminho ou uma proteína interage com outros

componentes pode facilmente permanecer um mistério, devido ao fato de que a necessidade

de realizar um experimento não é comunicada aos outros cientistas.

A Internet mudou a maneira como os cientistas compartilham os dados e

possibilitou que um depósito central de informações atendesse totalmente a uma

comunidade de pesquisa.


42/163

42

Nos anos 90, o foco central de atuação dos cientis tas foi tentar reproduzir

o seqüenciamento de todo o DNA do genoma humano. Enormes seqüências de

dados, dos quais se conhece a localização de apenas alguns poucos genes

importantes, foram e ainda estão sendo geradas. Usando técnicas de processamento

de imagem, mapas de genomas inteiros podem agora ser gerados mais rapidamente

do que com as técnicas de mapeamento químico, mas mesmo com essa tecnologia, o

mapeamento completo e detalhado dos dados genômicos que estão sendo produzidos

pode levar anos.

Computação paralela é um conceito que existe há muito tempo. Umaabordagem paralela está agora em andamento na biologia molecular experimental

usando tecnologias como o microarray de DNA. Essa tecnologia permite que os

pesquisadores conduzam milhares de experimentos de expressão gênica

simultaneamente em um pequeno chip. Os experimentos paralelos miniaturizados

exigem suporte computacional para a coleção e a análise de dados. Exigem também a

publicação eletrônica, porque as informações em grandes conjuntos de dados talvez

sejam interessantes para outra pessoa.

A crescente automação da biologia molecular experimental e a aplicação da

tecnologia da informação nas ciências biológicas conduzem a uma mudança fundamental

na maneira como a pesquisa biológica é realizada. Além da pesquisa empírica e do estudo

detalhado de um único gene por vez, estamos agora catalogando todos os dados

disponíveis, fazendo mapas completos para os quais podemos retornar e marcar os pontos

de interesse. A tendência é no sentido de armazenar dados biológicos brutos de todos os

tipos em bancos de dados públicos, com acesso aberto pela comunidade de pesquisa. Emvez de fazer pesquisa preliminar no laboratório, os cientistas vão aos bancos de dados

primeiro para economizar tempo e recurso.

3.7 – QUE PERGUNTAS A BIOINFORMÁTICA PODE RESPONDER ?

“A bioinformática aborda as questões humanas que vêm sendo trabalhadas na

biologia aplicada. Como curar doenças? Como prevenir infecções? Como produzir


43/163

43

alimento suficiente para a humanidade toda? As empresas no ramo de desenvolvimento de

remédios, produtos químicos para agricultura, plantas híbridas, plásticos e outros derivados

de petróleo, e as abordagens biológicas da recuperação ambiental, entre outras, estão

desenvolvendo novas divisões da bioinformática para fornecer novas metas e ajudar a

substituir os recursos naturais escassos.”6

Atualmente, os objetivos implícitos da biologia molecular são:

– Ler os genomas completos de todos os seres vivos;

– Identificar cada gene;

– Combinar cada gene com a proteína que ele codifica;

– Determinar a estrutura e a função de cada proteína.

A habilidade de manipular os seres vivos com precisão e exatidão está

implícita.



44/163

4 – MODELAGEM DE SISTEMAS BIOLÓGICOS

Um dos mais importantes exercícios da ciência é a modelagem, ou seja, fazer

uma representação mais simples de um sistema complexo. Um modelo ajuda a visualizar

melhor certas características de um sistema que seriam difíceis de estudar usando

abordagens quantitativas. As ferramentas da bioinformática contam com a habilidade dos

pesquisadores para extrair parâmetros relevantes de um sistema biológico, descrevem

quantitativamente os parâmetros e, em seguida, desenvolvem métodos computacionais que

usam esses parâmetros para prever o seu comportamento.

Um dos principais benefícios do uso de ferramentas computacionais em biologia

é a facilidade de selecionar antecipadamente as metas para a realização dos experimentos.

Para o pesquisador atento ao desenvolvimento dos métodos da bioinformática, a

descoberta de regras e propriedades gerais dos dados é a categoria de problemas mais

interessante que pode ser tratada usando um computador. Os pesquisadores encontram

propriedades interessantes e úteis em tudo, desde os padrões de seqüência até a separaçãode átomos em estruturas moleculares, e têm aplicado essas descobertas para produzir

ferramentas como localizadores de genes, ferramentas de predição de estrutura secundária,

métodos de perfil e ferramentas de modelagem por homologia.

Os especialistas em tecnologia da informação estão desenvolvendo atualmente

as estruturas dos bancos de dados e as ferramentas de consulta para tudo que se possa

imaginar, desde dados de expressão gênica até interações moleculares.

4.1 – REPRESENTAÇÃO UNIDIMENSIONAL DE MOLÉCULAS

Na realidade, o DNA e as proteínas são moléculas tridimensionais complexas,

compostas de milhões de átomos ligados. Entretanto, tanto o DNA quanto às proteínas são

polímeros, cadeias de unidades químicas repetitivas (monômeros) com um núcleo comum


45/163

45

que as mantém juntas. Cada unidade química em um polímero tem dois subconjuntos de

átomos: um subconjunto de átomos que não varia de monômero para monômero, que

compõe o núcleo do polímero, e um subconjunto de átomos que varia de monômero para

monômero.

Não muito tempo depois que a natureza química do DNA e das proteínas foi

entendida, os pesquisadores reconheceram que era conveniente representá-la por seqüências

de letras soltas. Em vez de representar cada ácido nucléico em uma seqüência de DNA

como uma entidade química detalhada, eles puderam ser representados simplesmente como

A,T,C e G. Portanto, um pequeno pedaço de DNA que contém milhares de átomosindividuais pode ser representado por uma seqüência de poucas centenas de letras.

Fazer esta abstração não só economiza o espaço de armazenamento e fornece

uma maneira conveniente de compartilhar as informações de seqüência, como representa

corretamente a natureza de uma molécula exclusiva, e ignora níveis de detalhes

experimentalmente incessíveis.

A abstração do ácido nucléico e das seqüências de proteínas em seqüência decaracteres unidimensionais é uma das estratégias de modelagem mais produtivas em

biologia molecular computacional, e a análise de seqüências de caracteres ( string ) 7 é uma

área de pesquisa antiga em ciência da computação. Há algoritmos bem estabelecidos em

ciência da computação para descobrir combinações exatas e inexatas em pares de string.

Esses algoritmos são aplicados para descobrir combinações entre seqüências biológicas e

para pesquisa em um banco de dados de seqüências usando uma seqüência de consulta.

4.2 – MÉTODOS COMPUTACIONAIS

A quantidade e o tipo de dados que podem ser reunidos na biologia molecular

está crescendo muito, e a tendência de armazenar esses dados em bancos públicos está

ultrapassando os limites das seqüências genômicas.

7 Uma seqüência de caracteres (string) é uma seqüência sem quebras. Um caractere é uma única letraescolhida de um conjunto de letras definidas, que pode ser um código binário (seqüência de zeros e uns) ouum alfabeto alfabético e numérico mais complicado, que pode ser digitado em um teclado de computador.


46/163

46

Apresentaremos uma visão geral sobre alguns métodos computacionais para

tratar os tipos de dados que são compartilhados atualmente em bancos de dados públicos.

1. Uso de banco de dados públicos e formato de dados

A pesquisa bibliográfica não é mais uma questão de procurar referências

em um índice impresso. Há bancos de dados centrais que coletam as

informações de referências de maneira que você possa pesquisar inúmeros

artigos de uma só vez.

2. Alinhamento e busca de seqüência

A pesquisa baseada em seqüência é uma habilidade importante dos

biólogos. A identificação de seqüências homólogas fornece uma base para

a análise filogenética e para reconhecimento de padrões nas seqüências. A

pesquisa pode ser feita on-line por meio de formulário na Web.

3. Predição de genes

Um dos métodos para tentar detectar sinais significativos em seqüências

de DNA não caracterizadas. Até recentemente, os genes já eram

caracterizados antes de serem depositados em bancos públicos. Entretanto,

agora que os projetos genoma estão em plena atividade, há muitas

seqüências de DNA que não estão caracterizadas.

4. Alinhamento múltiplo de seqüências

Os métodos de alinhamento múltiplo de seqüências montam alinhamentos

par-a-par para muitas seqüências relacionadas em uma figura de

homologia de seqüência entre todos os membros de uma família de genes.Os alinhamentos múltiplos auxiliam a identificação visual de locais em um

DNA ou em uma seqüência de proteínas que pode ser funcionalmente

importante.

Esse método é uma etapa integral na análise filogenética de uma família de

seqüências relacionadas, e eles também fornecem a base para identificar os

padrões de seqüências que caracterizam famílias de determinadas proteínas.


47/163

47

5. Análise filogenética

Tenta descrever o relacionamento evolutivo de um grupo de seqüências.Uma árvore filogenética tradicional ou cladograma agrupa espécies em um

diagrama que representa sua divergência evolutiva relativa. As

ramificações em árvores filogenéticas representam a distância evolutiva

baseada nas pontuações de similaridade de seqüência ou na modelagem

teórico-informativa do número de event

introdução a bioinformática - tese

Documents