capítulo 6. alinhamentos múltiplos de sequências ...dreyfus.ib.usp.br/bio456/cap6.pdf · membros...
Post on 28-Nov-2018
220 Views
Preview:
TRANSCRIPT
Capítulo 6. Alinhamentos múltiplos de sequências macromoleculares. versão 0.5
Como vimos no capítulo anterior, o procedimento de alinhamento entre sequências de macromoléculas equivale ao estabelecimento de homologia sequencial dos monômeros dessas macromoléculas. Dentro da perspectiva evolutiva, estabelecer essa homologia significa gerar hipóteses de que dois monômeros de macromoléculas atuais, ou pelo menos um deles, estava em uma molécula de um organismo ancestral. No caso de três sequências ou mais, conceitualmente o alinhamento resulta na proposta de homologias sequenciais entre as macromoléculas consideradas.
Aqui cabe um aprofundamento do conceito de homologia, dada as peculiaridades que existem no estudos comparativos e evolutivos das macromoléculas. Ortologia e Paralogia
Logo que se iniciaram os estudos comparativos de macromoléculas, notou-se que algumas delas ocorriam em mais que uma cópia no genoma dos organismos. Essas versões diferentes de uma mesma macromoléculas foram postuladas como tendo sido resultado de duplicações gênicas, ou seja, um gene que existia em um ser vivo no passado, passou a existir em mais de uma cópia. Esses membros das chamadas famílias gênicas passaram a ser chamados de entidades parálogas, em contraposição às entidades ortólogas, que seriam aquelas que ocorrem em organismos diferentes, desde que as suas linhagens começaram a diversificar a partir do processo de especiação que ocorreu na espécie ancestral comum mais recente. Na figura 1 as relações de paralogia e ortologia são exemplificadas.
Figura 1. Paralogia e ortologia de genes em relação à história evolutiva deles. As duplicações gêniccas originam cópias parálogas.
Embora as cópias parálogas de macromoléculas possam sofrer os mesmos processos que levam à diferenciação entre elas ao longo do tempo (mutações seguidas de seleção natural ou deriva genética que levam às substituições ou aos indels), o fato de que cópias de um mesmo gene coexistam na mesma célula implica diferenças importantes nos processos relacionados com a evolução dessas cópias, em relação àquilo que ocorre nas macromoléculas ortólogas.
Em primeiro lugar, depois do evento de duplicação gênica, o que ocorre com as cópias é definido pelas dependências funcionais dos organismos em relação a essas cópias. Por exemplo, se verificou que um dos mecanismos de resistência de bactérias a antibióticos era a existência de cópias múltiplas de genes que codificam para proteínas que têm alguma atividade na metabolização e
consequente neutralização desses antibióticos, sendo que a função "primária" desses genes era bem diferente. Existem algumas situações em que a existência de cópias múltiplas de genes é evidentemente relacionada à necessidade de incremento da taxa de síntese dos produtos gênicos, que poderia ser um fator limitante metabólico em alguns contextos. Por exemplo, os cistrons ribossômicos existem em grandes números de cópias em diversos genomas, o que pode ser explicado facilmente pois o ribossomo participa da síntese proteica, sendo portanto um componente essencial no metabolismo celular. Se, entretanto, uma única cópia de um gene é suficiente para as situações enfrentadas por um organismo, após o evento de duplicação gênica, dois destinos têm sido verificados: a sub-funcionalização que pode culminar com a total perda de qualquer função, ou a neo-funcionalização. No caso de perda de função, a teoria prevê que aquela cópia que primeiro sofrer alguma mutação deletéria que aumente de frequência por deriva genética, tenderá a acumular mutações, já que a função desempenhada pela outra cópia estará presente. Isso implica um relaxamento na intensidade de seleção natural negativa, ou seja, uma molécula redundante terá maior liberdade de evolução, o que inclui as porções ditas conservadas, mais sensíveis às mudanças nas cópias integralmente funcionais. O acúmulo de mutações deletérias culminará no aparecimento de pseudogenes, ou seja, cópias de genes semelhantes àqueles funcionais, mas que permanecem no genoma como uma espécie de inércia evolutiva, simplesmente por que a intensidade de seleção num eventual "enxugamento genômico" é insuficiente para a eliminação por deleções aleatórias. Mais além disso, pode ser que os pseudogenes acumulem tantas mutações que a possibilidade de recuperação de homologia por falta de similaridade com genes funcionais deixe de existir. Assim, genes sub-funcionalizados podem passar a ser "fósseis moleculares" durante a fase de pseudogenes até ficarem irreconhecíveis, como uma analogia com os fósseis verdadeiros preservados em rochas que podem ser destruídos pela atividade orogenética.
A neo-funcionalização consiste na aquisição de uma função diferente daquela que era exercida pelo gene "original". Essa função pode ser semelhante àquela anterior ou até mesmo radicalmente diferente. O fenômeno de neo-funcionalização também é conhecido como cooptação, nesse caso quando é enxergado pela óptica da função. O problema do uso do termo cooptação é que é impregnado com o sentido de intencionalidade, algo que não se verifica no estudo da evolução. Os diferentes destinos de genes duplicados estão mostrados na figura 2.
Figura 2. Diferentes destinos de genes duplicados. A: Amplificação em tandem. Normalmente é resultado de pressão seletiva no aumento da taxa metabólica do produto correspondente. B: Silenciamento de uma das cópias, por acúmulo de substituições deletérias. C: Neofuncionalização, por divergência resultado de seleção natural para uma nova função metabólica.
A evolução de cópias parálogas pode ser semelhante à evolução de genes ortólogos, ou seja, desde a duplicação, cada uma das cópias pode acumular mutações de todos os tipos. Entretanto, existe m alguns fenômenos que podem promover a "homogeneização" de uma divergência acumulada ao longo das gerações. às vezes não há sentido em se falar em "original", pois quando da duplicação, os genes formados podem ser idênticos). Dois processos diferentes mas análogos podem ocasionar essa homogeneização: A conversão gênica e as recombinações chamadas desiguais. Ohnologia
Esse nome é resultado de uma homenagem feita ao cientista japonês Susumu Ohno, que fez importantes contribuições na questão de evolução por duplicações gênicas, em especial com suas hipóteses sobre o papel de duplicações de genomas inteiros na evolução de grandes grupos. Suas hipóteses foram extensivamente confirmadas com os sequenciamentos genômicos a partir do início do
século XXI. Moléculas ohnólogas são definidas como aquelas que são homólogas por um evento de multiplicação de genomas inteiros. A ohnologia pode ser considerada como um caso particular de paralogia. O fenômeno mais interessante da ohnologia, como se trata de um duplicação genômica "em massa", permite o estudo dos fenômenos de silenciamento gienico e de neofuncionalização de froma quantitativa, análoga ao estudo do decaimento radioativo. Assim como não se pode prever se um determinado isótopo instável decairá, não se pode prever, sem hipóteses ad hoc, qual será o destino de um gene duplicado. Entretanto, a coisa muda completamente de figura quando se tem uma amostra grande, tanto de isótopos como de genes duplicados.
Xenologia
A palavra tem o sufixo "Xeno", que em grego significa "estrangeiro", como em "xenofobia". Duas macromoléculas são ditas xenólogas quando houve um processo de transferência gênica lateral que envolveu a história evolutiva dessas macromoléculas. Nesse caso, organismos muito distantes em termos de parentesco podem compartilhar macromoléculas muito mais semelhantes entre si do que as demais. Em geral é esse o motivo que leva à formulação da hipótese de transferência lateral. Outro elemento que pode reforçar bastante essa suspeita é a ocorrência dos possíveis ancestrais nas mesmas localidades geográficas. Outro fator que pode reforçar ainda mais a suspeita de origem de genes por transferência lateral é a existência de algum viés de utilização de códons diferente daquele dos outros genes do genoma, no caso de sequências de ácidos nucleicos codificantes.
Figura 3. Transferência gênica lateral. Métodos para alinhamento múltiplo de sequências
Os algoritmos de alinhamento entre duas sequências já foram estudados com rigor e já foram demonstrados como capazes atingir o resultado ótimo, desde que fornecidos os parâmetros (p. ex., penalidades de abertura de lacuna, extensão de lacuna, inserção e deleção). É preciso deixar claro que algoritmos exatos, que chegam com certeza à solução ótima, podem não chegar à solução verdadeira! Lembre-se que o alinhamento nada mais é do que uma maneira de se hipotetizar homologia sequencial, e a evolução é um processo bastante contingencial.
Os algoritmos de alinhamento entre três ou mais sequências macromoleculares não atingiram ainda um ponto em que podem chegar a sr considerados como capazes de chegar a soluções exatas. O problema dos alinhamentos múltiplos é demasiadamente complexo para que haja soluções exatas e que sejam práticas ao mesmo tempo.
Programas que fazem alinhamento múltiplo disponíveis para serem utilizados atualmente são construídos a partir de diversos métodos, todos eles baseados em heurísticas, ou seja, procedimentos que se sabem ser eficientes, mas que podem levar a resultados errados. Abaixo serão descritos alguns dos métodos comumente utilizados.
1.- Programação Dinâmica Multidimensional Assim como em outras ciências, a bioinformática utiliza do método de programação
dinâmica para resolver seus problemas, neste método o problema é resolvido quebrando um problema mais complexo em subproblemas mais simples. Esse método pode ser utilizado em várias abordagens tais como dobramento de proteínas, predição de estrutura do RNA e ligação de proteína-DNA, além claro do alinhamento de sequências.
O princípio de programação dinâmica utilizado em alinhamentos par a par pode ser estendido para o alinhamento múltiplo de sequências. Entretanto o tempo necessário aumenta exponencialmente com o número de sequências e comprimentos delas tornando-se impraticável a não ser que seja aplicado para poucas sequências e que sejam também relativamente curtas.
Nesta abordagem, é assumido que as colunas do alinhamento são independentes estatisticamente e, também, que as lacunas são pontuadas com um custo linear de lacunas. E para cada n sequências é necessário construir de uma matriz equivalente com n dimensões formada a partir do alinhamento par a par entre as sequências. Na figura 4 um esquema de um alinhamento feito por programação dinâmica
Figura 4. Alinhamento entre três sequências por programação dinâmica multidimensional. Ao lado esquerdo, as três sequências estão dispostas no vértice da matriz tridimensional, conforma as direções apontadas pelas setas. Nas faces, estão esquematizados os "caminhos" dos alinhamentos par a par, como no capítulo anterior. No lado direito está esquematizado um caminho entre as três sequências, de forma análoga ao que é feito com duas sequências.
2.-‐ Método de alinhamento progressivo Este método provavelmente é o mais utilizando nos alinhamentos
múltiplos de sequência. Ele utiliza uma heurística conhecida como técnica progressiva, também chamada de método hierárquico ou de árvore, o qual é desenvolvida com a combinação de alinhamentos par a par das sequências que se inicia com o alinhamento mais similar e progredindo até o menos similar. A maioria dos algoritmos constroi uma árvore guia e esta é uma árvore binária cujas folhas representam as sequências e os nós interior representam os alinhamentos. O nó raiz representa o alinhamento múltiplo completo e os nós que se afastam da raiz representam sequências mais similares.
A vantagem deste método é que ele é rápido e eficiente e, na maioria dos casos, o resultado do alinhamento é razoável. Entretanto, este método não garante o alinhamento ótimo global. O principal problema desse método se deve
ao fato que os erros ocorridos nas fases iniciais são propagados para o resultado final. Além disso, o desempenho é particularmente ruim quando todas as sequências, no conjunto, são muito diferentes entre si.
2.1.-‐ Algoritmo de Feng-‐Doolitle Este que foi o primeiro algoritmo tipo basicamente é feito em três passos:
I.-‐ Calcular a matriz diagonal de distâncias N (N -‐ 1) / 2 entre todos os pares de sequências de N por alinhamento par a par padrão, convertendo pontuação de alinhamento em distâncias aproximadas entre os pares; II.-‐ Construir uma árvore guia a partir da matriz de distância usando um algoritmo de agrupamento; III.-‐ A partir do primeiro nó adicionado à árvore, alinhar os nós filhos que pode ser duas sequências, uma sequência e um alinhamento, ou dois alinhamentos. Em seguida o procedimento é repetido para todos os outros nós na ordem em que eles foram adicionados à árvore, ou seja, dos pares mais semelhantes para os pares menos semelhantes, até que todas as sequências sejam alinhadas. O método para a conversão de pontuações de alinhamento para a
distâncias não precisam de ser tão precisos, já que o objetivo é criar uma árvore de orientação aproximada que não é uma árvore evolutiva. Este algoritmo calcula a distância D com a seguinte equação:
em que Sobs é a pontuação do alinhamento par a par observado; Smax é a
pontuação máxima, a média do alinhamento da sequência contra ela mesma; e Srand é a pontuação esperada ao alinhar duas sequências aleatórias com a mesma composição e comprimento (número de resíduos). A última Srand pode ser calculada pelo rearranjo aleatório das duas sequências ou calculada por uma aproximação dada em Feng & Doolittle. A pontuação efetiva Seff é vista como uma percentagem de similaridade normalizada, é esperado que um decaimento aproximadamente exponencial para zero com o aumento da distância evolutiva, daí a -‐log para tornar a medida mais aproximadamente linear com a distância evolutiva.
Alinhamentos par a par de sequências é feito com algoritmo de programação dinâmica usualmente utilizados. A sequência é adicionada a um grupo existente, alinhando-‐a aos pares para cada sequência no grupo, por sua vez. O alinhamento com maior pontuação determina como a sequência será alinhado com o grupo. Para alinhar um grupo de um grupo, todos os pares de sequências entre os dois grupos são testados e o melhor alinhamento da sequência de pares determina o alinhamento dos dois grupos. Deste modo, o sistema de pontuação é essencialmente determinado pela pontuação par a par com a penalidade de lacuna afim. No final do alinhamento, os símbolos das lacunas são substituídos com um carácter X neutro, usualmente utilizado esse caracter é o “-‐”. A mesma regra para alinhamento entres sequência-‐sequência pode ser utilizada para sequência-‐grupo ou grupo-‐grupo.
Figura 5. Etapas de um alinhamento do tipo hierárquico. Todos os alinhamentos entre duas sequências diferentes são feitos, calculando-‐se a sua pontuação, onde a pontuação maior significa que houve menos penalidades de substituição e indels entre as sequências. Esses valores são usados para fazer uma análise de agrupamento, que gerará uma "árvore guia". Essa árvore indicará a forma que as sequências serão adicionadas ao alinhamento, que progredirá com a adição sucessivas de lacunas onde for necessário.
2.2.-‐ Algoritmo com refinamento iterativo
Um problema inerente ao algoritmo anterior é que os subalinhamentos são congelados, ou seja, uma vez que um grupo de sequências de ter sido alinhadas em um estágio posterior este alinhamento não poderá ser modificado a medida que mais informação é incluída. Métodos interativos tentam contornar esses problemas.
Nos métodos com refinamento iterativo a partir dos alinhamento inicial de duas ou um conjunto de sequências é gerado um perfil. Este perfil contêm informações das unidades alinhadas das sequências, seja ela aminoácidos ou nucleótidos, em cada posição. Deste modo se houver um resultado significativo o perfil poderá ser otimizada acarretando um aumento da pontuação geral ou mantendo a mesma pontuação em determinada posição. Outra(s) sequência(s) é(são) escolhida(s) e realinhada(s)s, e assim por diante, até que o alinhamento não é alterado. O procedimento é garantido convergir para um local de máxima pontuação, desde que todas as sequências sejam testadas e exista uma pontuação máxima devido o espaço da sequência ser finito.
2.3. -‐Algoritmo Barton-‐Sternberg
I.-‐ Encontrar as duas sequências mais similares usando um alinhamento
de programação dinâmica par a par padrão. O perfil será feito baseado nestas sequências; II.-‐ Encontrar a sequência mais similar ao perfil por alinhamento entre a sequência-‐perfil. Repetir até que todas as sequências sejam incluídas no alinhamento múltiplo; III.-‐ Remover a sequência x1 e realinhar a um perfil de outras sequências alinhadas x2, …, xn pelo alinhamento de sequência-‐perfil. Repetir o procedimento para sequências x2, …, xn; IV.-‐ Repetir o passo anterior realinhando um determinado número de vezes ou até que a pontuação de alinhamento convirja.
As idéias de alinhamento de perfil e refinamento iterativo está muito perto da formulação de probabilística de abordagens que utilizam modelo oculto de Markov para o problema de alinhamento múltiplo.
Figura 6. Fluxograma mostrando um alinhamento interativo com o emprego do algoritmo de Barton-‐Sternberg.
3.-‐ Métodos com cadeias ocultas de Markov Modelos ocultos de Markov (Hidden Markov models — HMM, sigla
em inglês) são modelos probabilísticos que atribuem probabilidades para todas as combinações possíveis de lacunas, correspondências e não-‐correspondências para determinar o mais provável alinhamento múltiplo de sequência ou conjunto deles. HMMs podem produzir uma única saída com pontuação mais alta, mas também pode gerar uma família de alinhamentos possíveis que podem então ser avaliadas para se escolher baseado em significância biológica ou algum outro critério. HMMs podem produzir alinhamentos globais e locais. Embora os métodos baseados em HMM tenham sido desenvolvido há relativamente pouco tempo, eles oferecem melhorias significativas na velocidade de cálculo.
Nos termos de um típico modelo oculto Markov, os estados observados são as colunas de alinhamento individuais e os estados ocultos representam a sequência ancestral presumida a partir de quais sequências no conjunto de consulta há a hipótese de ser descendentes. A figura 7 ilustra o diagrama de um perfil de HMM para um alinhamento global de sequências.
Figura 7. Alinhamento com cadeia oculta de Markov. Essa figura não é um fluxograma. Veja explicação no texto.
Os quadrados na figura denotam os estados em que há
correspondência (Mi), os losangos são estados de inserção (Ij) e os círculos são estados de deleção (Dj), também conhecido como o estado em silêncio, pois se referem as lacunas na sequência. As possíveis transições entre os estados são representados como setas. Observe que o modelo Markov começa num estado de iniciar que permite que qualquer número de estados de inserção (I0) antes do primeiro estado da sequência. Também tem um estado final, que pode mudar de posição, a partir de uma deleção ou inserção de estado que permite a comparação de uma variedade de comprimentos de sequências.
No modelo de Markov, precisamos definir os parâmetros que descrevem as probabilidades dos estados atuais e posterior. Seja ex(b) definida a probabilidade de emitir o símbolo b no estado x ϵ {Mi, Ij}. Além disso, vamos definir uma classe de parâmetros axy que descreve a probabilidade de fazer uma transição de estado x → y. Voltando à Figura X, observa-‐se que as seguintes transições são possíveis.
Mi Ii, → Di+1 ou Mi+1 Ii Ii, → Di+1 ou Mi+1 Di Ii, → Di+1 ou Mi+1
Diversos programas que implementam algoritmos de alinhamento
múltiplo vem sendo desenvolvidos. Embora há programas que adquiriram grande popularidade para essa tarefa, existem programas que entram e saem da moda tanto quanto cortes de cabelos. Assim, é muito importante que se acompanhe os progressos que são constantes nessa área.
top related