validando árvoresconstruindo árvoresmodelos evolutivosencontrando homologiasas árvoreso problema...
TRANSCRIPT
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1
Construindo filogenias
Coletar os dados
Localizar homologias
Construir as árvores
Verificar a confiabilidade das árvores
Testar hipóteses evolutivas
O problema
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 2
Objetivos Gerais
Reconstruir as relações de parentesco entre seqüências. Reconstruir as relações de parentesco entre espécies. Organizar a diversidade biológica.
Específicos Representar as relações evolutivas entre seqüências ou organismos por
meio de uma árvore filogenética.
O problema
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 3
Princípios e pressupostos Existe uma ancestralidade comum entre quaisquer duas seqüências
homólogas. Existe uma ancestralidade comum entre quaisquer duas espécies. A evolução das seqüências se dá por divergência. A evolução das espécies se dá por divergência. Os padrões evolutivos não são observáveis, devido principalmente as
escalas de tempo nas quais os processos evolutivos operam. Em conseqüência, o processo de reconstrução filogenética é,
necessariamente, um processo de inferência.
O problema
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 4
Evolução e especiação
T
e
m
p
o
Espécie 1 Espécie 2 Espécie 3
O problema
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 5
Evolução e especiação
T
e
m
p
o
Seqüência 1 Seqüência 2 Seqüência 3
O problema
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 6
Evolução e especiação
Seqüência 1 Seqüência 2
O problema
Seqüência 3
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 7
Evolução e especiação O processo de especiação independe do processo de evolução do gene em
estudo e vice-versa. O processo de especiação é modelado pela topologia da árvore.
Topologia é o padrão de ramificação da árvore. A topologia revela as relações de ancestralidade e descendência entre
os nós. O processo de evolução do gene é modelado pelos comprimentos dos
ramos. O comprimento de um ramo é, em geral, função do número de
substituições ocorridas naquele ramo ou do tempo decorrido desde o ancestral.
O problema
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 8
Evolução de caracteres Dependendo da história evolutiva do caráter ele pode ser:
Pleisomórfico: caráter, ou estado do caráter, ancestral. Apomórfico: caráter, ou estado do caráter, derivado.
Apomorfias existentes em uma única OTU são chamadas de autoapomorfias.
Apomorfias compartilhadas por duas ou mais OTUs são chamadas de sinapomorfias.
Dois caracteres idênticos são homólogos quando a semelhança entre eles se deve a uma ancestralidade comum.
Identidades entre caracteres que não resultam de uma ancestralidade comum são chamadas de homoplasias. Homoplasias podem resultar de:
Evolução paralela: os dois caracteres evoluíram independentemente do da mesma condição ancestral.
Evolução convergente: os dois caracteres evoluíram independentemente de condições ancestrais diferentes.
Reversão à condição ancestral.
O problema
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 9
Evolução de caracteres
Autoapomorfia
Plesiomorfias
Sinapomorfia
O problema
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 10
Evolução de caracteres
ReversãoEvoluçãoconvergente
Evoluçãoparalela
O problema
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 11
Ancestralidade Em geral todas as seqüências ou espécies em estudo existem no presente.
E se uma delas for ancestral de outras? Se acontecer, a árvore filogenética e a árvore evolutiva não são
iguais, pois algumas OTUs estão localizadas em nós internos da árvore evolutiva.
A chance desta ocorrência é pequena se os tempos médios de coalescência dos alelos são pequenos comparados com o tempo médio de especiação.
Em geral não se espera que as espécies presentes na árvore sejam ancestrais umas das outras.
Uma exceção a esta expectativa são árvores nas quais as linhagens evoluem muito rapidamente, como é o caso de alguns vírus.
O problema
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 12
Árvores de genes e árvores de espécies A suposição de que a filogenia de um conjunto de seqüências corresponde
a filogenia das espécies das quais elas foram obtidas pode não ser correta. Topologias incorretas podem ser produzidas nas seguintes situações:
Genes parálogos são incluídos na análise sem serem reconhecidos como tais.
O tempo de coalescência dos alelos é maior que o tempo de especiação.
Bons genes para filogenias de espécies devem: Obedecer ao relógio molecular.
A taxa de evolução deve ser constante entre linhagens e ao longo do tempo.
Se não for, existem modelos que corrigem a distorção, mas a qualidade da árvore será menor.
O tempo médio de coalescência entre alelos deve ser menor que o tempo médio de especiação.
O problema
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 13
Árvores de genes e árvores de espécies O problema dos genes parálogos
1 1’ 2 2’ 3 3’
O problema
1’ 3’ 2
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 14
Árvores de genes e árvores de espécies O problema do tempo de coalescência
1 2 3
O problema
1 2 3
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 15
Nós e ramos Nós são os pontos de ligação entre os ramos.
Nós externos representam as seqüências ou espécies em estudo (= nós terminais ou OTUs ou táxons terminais).
Nós externos estão ligados a apenas um ramo e a um nó interno. Nós internos representam os estados ancestrais hipotéticos e são
ligados a pelo menos três ramos (e três nós): Um ligando o nó ao seu nó ancestral Dois ou mais ligando o nó aos seus nós descendentes
Ramos são as ligações entre os nós. Ramos externos são aqueles que ligam os nós externos aos nós
internos. Ramos internos são aqueles que ligam dois nós internos.
As árvores
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 16
Nós e ramos
Nós Externos
Nós Internos
Ramos Internos
Ramos Externos
As árvores
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 17
Raízes e topologias não enraizadas Raiz é o nó mais ancestral na árvore.
A raiz confere direcionamento a filogenia obtida. Só a partir dela podemos falar em nós ancestrais e derivados.
Uma árvore não precisa ter raiz. Árvores não enraizadas não mostram relações de ancestralidade e
descendência. Uma topologia não enraizada com “N” ramos pode dar origem a “N”
topologias enraizadas, cada uma delas formada pela inserção de um nó extra num dos ramos.
Raízes podem ser obtidas usando-se um grupo sabidamente externo ou um gene parálogo.
A
BC
A B C A C B B C A
As árvores
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 18
Tipos de árvores Existem três tipos básicos de árvores filogenéticas, dependendo da
informação contida nos comprimentos de ramo (“eixo vertical”). Árvores aditivas (= filogramas): os comprimentos de ramos indicam a
quantidade de mudança evolutiva ocorrida entre os nós. Árvores ultramétricas (= dendogramas): os comprimentos de ramos
indicam o tempo decorrido entre os nós. Todas as OTUs aparecem no presente.
Cladogramas: os comprimentos de ramo não indicam nada. Cladogramas indicam apenas as relações de parentesco entre os
nós. A distância entre as OTUs (eixo horizontal) não significa nada.
Os ramos podem ser rotacionados livremente ao desenhar a árvore, sem alterar nenhuma informação contida nela
Árvores podem ser desenhadas tanto na horizontal quanto na vertical, com ramos inclinados, perpendiculares ou arredondados.
Estas características do desenho da árvores não significam nada.
As árvores
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 19
Tipos de árvores
Árvore aditiva
5
1
2
3
4N
º m
ut /
sítio
Árvore ultramétrica
1 2 3 4 5
Nº
anos
Cladograma
1 2 3 4 5
NA
DA
As árvores
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 20
Tipos de árvores
1 2 3 4 5 2 1 5 4 3 1 2 4 3 5
5 3 4 1 2 4 3 5 2 1 3 4 5 1 2
As árvores
= =
= =
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 21
Tipos de árvores 1
2
3
4
5
6
7
8
0.05
12
3
4 5 6
7
80.05
1
2
3
4
5
6
7
8
0.05
1 2
3
4
5
6
7
8
0.05
As árvores
Sem raiz
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 22
Politomias Nós politômicos, ou politomias, são os nós internos que possuem mais de
três ramos ligados a ele (um ancestral e três ou mais derivados, se a árvore for enraizada).
Existem dois tipos de politomias. Politomias “hard” são aquelas que representam a emergência
simultânea de três ou mais linhagens a partir de um só ancestral. Politomias realmente “hard” são muito improváveis. Duas linhagens surgidas proximamente uma a outra num tempo
remoto podem ser encaradas como uma politomia “hard”. Politomias “soft” representam nós que não foram completamente
resolvidos pelos dados e métodos de reconstrução filogenética disponíveis.
Topologias sem politomias são chamadas de completamente dicotômicas. Politomias podem surgir ao se criar uma árvore consenso.
As árvores
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 23
Politomias
1 2 3 4 5
1 2 3 4 5
Hard
As árvores
1 2 3 4 5 1 2 3 4 5
SoftSoft??
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 24
Árvores consenso Árvores consenso sumarizam a informação contida em várias árvores
alternativas segundo algum critério. Consensos estritos incluem apenas os grupos presentes em todas as
árvores alternativas. Os demais são mostrados como politomias
Consensos majoritários incluem os grupos que aparecem na maioria dos das árvores alternativas
1 2 3 4 51 2 3 4 5 1 2 3 4 5
+ =
+ =
1 2 3 4 5
70%
1 2 3 4 5
30%
1 2 3 4 5
As árvores
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 25
Número de topologias dicotômicas O número de topologias possíveis cresce muito rapidamente a medida que
cresce o número de OTUs em análise. O número excessivo de possíveis topologias é um dos maiores desafios
computacionais da análise filogenética.
8.200.794.532.637.891.559.375
2.027.025104,9518 x 10388.200.794.532.637.891.5
59.37520
1,00985 x 10574,9518 x 10383077 x 1,00985 x 10571,00985 x 105740
2.027.025135.1359135.13510.3958
10.39594579451056105155
1534313112
Nº topologias enraizadasNº topologias não enraizadas
Nº de OTUs
As árvores
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 26
Número de topologias dicotômicas sem raiz
1 2
33 OTUs 1 = 1 Topologia
4 OTUs1
2
3
42
1
3
4
2
4
3
1
3 = 3 Topologias
5 OTUs 5 = 15 Topologias
6 OTUs 7 = 105 Topologias
7 OTUs 9 = 945 Topologias
1 22 OTUS 1 1 Topologia=
X
X
X
As árvores
X
X
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 27
Número de topologias dicotômicas Para topologias completamente dicotômicas não enraizadas temos as
seguintes relações: Número de topologias = 1 x 3 x 5 x 7 x ... x (2N - 5) = (2N - 5)!
2N-1(N - 1)! N OTUs: N ramos externos + N - 3 ramos internos = 2N - 3 ramos N OTUs: N nós terminais + N - 2 nós internos = 2N - 2 nós
Para topologias completamente dicotômicas enraizadas temos as seguintes relações:
Número de topologias = 1 x 3 x 5 x 7 x ... x (2N - 3) = (2N - 3)!
2N-1(N - 1)! N OTUs: N ramos externos + N - 2 ramos internos = 2N - 2 ramos N OTUs: N nós terminais + N - 1 nós internos = 2N - 1 nós
As árvores
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 28
AlinhamentoEncontrando homologias
ALINHE CORRETAMENTE
SUAS SEQÜÊNCIAS.
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 29
Como seqüências evoluem Para construir uma hipótese sobre a filogenia de um conjunto de
seqüências precisamos de um modelo de como elas evoluíram. Modelos são, eles próprios, hipóteses e podem (devem na verdade) ser
alvo de testes. O processo de evolução de uma seqüência é estocástico e portanto os
modelos de evolução de seqüências são necessariamente probabilísticos. Existem muitos modelos de evolução de seqüência disponíveis, mas a
maioria deles só descreve as mudanças devidas a substituições, sem levar em conta recombinações.
São portanto modelos de substituição. Os modelos de substituição podem focar na substituição de nucleotídeos ou
na substituição de aminoácidos. Modelos de substituição de aminoácidos só são aplicáveis a seqüências
codantes. A escolha do modelo de substituição mais adequado ao problema em
análise depende tanto dos dados disponíveis quanto de considerações teóricas sobre estes.
Modelos evolutivos
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 30
Como uma seqüência muda no tempo
ATC*CAGGTATAATGCTC
ATACAGGT*ATAATGCTC
t
AT*ACAGGAATAA*TGCTC
t
t
AGA*CAGGAATAC*TGCTC
AGCCAGGAATAGTGCTC
t
Tempo
0
1
2
3
4
5
0 1 2 3 4
Tempo
---- Diferenças em relação a ancestral---- Mutações realmente ocorridas
Modelos evolutivos
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 31
Como duas seqüências divergem entre si no tempo
ATCCAGGTATAATGCTC
ATGCACCAGGTAATAACGTGCTC
t
AGT
CAC
AGG
CTATA
GAT
CAGCTC
t
Tempo
---- Diferenças observadas entre as seqüências---- Mutações ocorridas
?
Modelos evolutivos
Mutação ParalelaMutação Reversa
Mutação Convergente
Modelo Matemático
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 32
Como a evolução de seqüências pode ser modelada O acúmulo de mutações “ocultas” e a impossibilidade de se contar mais de
100% de diferença entre duas seqüências resulta no fenômeno de saturação.
Simplesmente contar o número de diferenças entre duas seqüências não é o suficiente, pois este valor subestima a quantidade real de mudanças ocorridas desde a divergência.
No entanto não há outra métrica disponível para avaliar a divergência entre duas seqüências.
Assim os processos “ocultos” de evolução devem ser acrescentados ao modelo, para que se possa inferir com mais precisão a distância evolutiva.
Por se tratar de um processos estocásticos não é possível inferir exatamente quais ou quantas mutações ocorreram, mas sim:
A chance de uma dada mutação ter ocorrido num dado sítio. A proporção esperada de mutações que ocorreram na seqüência.
O fato dos modelos serem probabilísticos, por si só, não impede a reconstrução da filogenia.
O excesso de saturação, por outro lado, pode impedir a reconstrução da filogenia.
Modelos evolutivos
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 33
Como a evolução de seqüências pode ser modelada A forma mais simples de se modelar a evolução de seqüências por
substituição é pela distribuição de Poisson A probabilidade de ocorrerem “n” mutações numa seqüência num intervalo
de tempo t pode ser modelada pela distribuição de Poisson como:
Pn(t) = [(t)nexp(- t)]/n! Para isso:
A taxa de mutação por sítio por unidade de tempo () não pode mudar. As mutações devem ser independentes entre si (a ocorrência de uma
mutação em um sítio não pode afetar a probabilidade da ocorrência de outras mutações naquele ou em outros sítios).
O parâmetro t (número médio de mutações por sítio durante o tempo t) em geral é o único que pode ser estimado pois, em geral, não se conhece o tempo t desde a divergência da seqüência para que se possa estimar .
O processo de evolução de seqüências por substituição também pode ser modelado também como um processo de Markov, que usa uma matriz de transição no lugar do parâmetro único , de modo a tornar o modelo de substituição mais completo.
Modelos evolutivos
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 34
Matrizes de transição Os parâmetros A, T, C e G são as
freqüências dos nucleotídeos A, T, C e G, que são supostas em equilíbrio.
Os parâmetros de “a” até “i” representam as taxas instantâneas de mudança entre os nucleotídeos.
A matriz de transição é construída de forma que a transição de um nucleotídeos para si mesmo seja descrita por 1 menos a soma da linha referente ao nucleotídeo.
Com a matriz de transição (Q), podemos obter a matriz de substituição (P).
Aplicando a matriz de substituição P às duas seqüências divergentes podemos estimar uma distância evolutiva entre elas que mede o número real de mutações ocorridas nas duas desde a sua divergência em função do número de diferenças observadas entre ambas.
Modelos evolutivos
TGCA
1-linha
iGkCjA
fT1-
linhaiChA
eTdG1-
linhagA
Q =
cTbGaC1-
linha
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 35
Modelo Jukes & Cantor (JC69) Modelo de substituição mais simples
mais simples. Supõem que as taxas de mutação
são as mesmas para todas as seis mutações possíveis () e que a freqüência de equilíbrio de cada nucleotídeo é de ¼ (25%).
Modelos evolutivos
TGCA
P =
d = -3/4ln(1-4p/3)
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 36
Modelo Kimura 2 parâmetros (K2P) Diferencia a taxa de transição () da
taxa de transversão (). Baseia-se na observação de que
transições são mais comuns que transversões, pois ocorrem entre nucleotídeos mais similares quimicamente.
Supõem que a freqüência de equilíbrio de cada nucleotídeo é de ¼ (25%).
Modelos evolutivos
TGCA
P =
d = 1/2ln[1/1-2P-Q)]1/4+ln[1/(1-2Q)]
P = diferença no número de transiçõesQ = diferença no número de transversões
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 37
TGCA
GCA
TCA
TGAP =
TGC
Modelo Felsenstein (F81) Supõe que todos os tipos de
mutações ocorrem com a mesma taxa.
Diferencia a freqüência de equilíbrio dos nucleotídeos.
Modelos evolutivos
d = ?
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 38
TGCA
GCA
TCA
TGAP =
TGC
Modelo Hasegawa, Kishino & Yano (HKY85) Diferencia a taxa de transição () da
taxa de transversão (). Diferencia também a freqüência de
equilíbrio dos nucleotídeos.
Modelos evolutivos
d = ?
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 39
Modelo geral reversível (REV) Diferencia os seis tipos de mutação. Diferencia também a freqüência de
equilíbrio dos nucleotídeos. Supõe apenas que a taxa de
mutação de um nucleotídeo do tipo i para um nucleotídeo do tipo j é igual a taxa de mutação de j para i.
Modelos evolutivos
TGCA
fGeCcA
fTdCbA
eTdGaAP =
cTbGaC
d = ?
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 40
Relações entre modelos de evolução de DNAModelos evolutivos
Modelo geral reversível (REV)
Hasegawa, Kishino & Yano (HKY85)
Diferencie apenas as transições das
transversões
Kimura 2 parâmetros (K2P)
Fixe as freqüências de equilíbrio em 1/4
Felsenstein (F81)
Suponha que todas as mutações tem a mesma taxa
Suponha que todas as mutação tem a mesma taxa
Jukes & Cantor (JC69)
Fixe as freqüências de equilíbrio em 1/4
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 41
Modelos de evolução de proteínas Os modelos de evolução de proteínas, a semelhança dos modelos de
evolução de DNA, envolvem matrizes de substituição de aminoácidos. Matrizes de substituição de aminoácidos refletem o fato de que certas
substituições entre estes são mais comuns que outras. Os pesos de cada tipo de substituição podem se basear em:
Dados empíricos de alinhamentos de seqüências de proteínas. Contagem dos tipos de mudança de nucleotídeos que provocam cada
tipo de mudança de AA Considerações teóricas sobre as características físico-químicas de cada
AA. A maioria dos modelos de evolução de proteína usados atualmente são
produzidos a partir da análise de alinhamentos de seqüências. Matrizes de substituição de aminoácidos são muito usadas também para
alinhamento de seqüências de proteínas, e muitas delas foram derivados com esta finalidade.
Modelos evolutivos
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 42
Tipos de matrizes de transição de AAs Existem três tipos principais de matrizes de substituição de AAs. As matrizes PAM (Point Accepted Mutation) são baseadas em alinhamentos
globais de proteínas a partir de um modelo filogenético. Existem várias matrizes PAM, algumas baseadas em alinhamentos de
proteínas com mais mutações e outras em alinhamentos com menos mutações.
A matriz PAM 250, por exemplo, é adequada para alinhamentos que divirjam por 250 mutações a cada 100 AAs. Devido as mutações reversas, convergentes e paralelas isso equivale a cerca de 20% de divergência entre seqüências.
As matrizes BLOSSUM (Blocks Substitution Matrix) foram derivadas de modo semelhante as de PAM, usando apenas alinhamentos altamente conservados e sem gaps e sem levar em conta um modelo filogenético.
Existem várias matrizes BLOSSUM, cada uma delas adequada a uma certa porcentagem de similaridade enter AAs
As matrizes de Gonnet foram derivadas usando apenas alinhamentos pareados, de forma recursiva. Cada alinhamento foi usado para gerar uma nova matriz, que foi então usada para corrigir o próprio alinhamento, até se atingir um equilíbrio.
Modelos evolutivos
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 43
Comparação matrizes de transição de AAs Existe muita correspondência entre os modelos de substituição de AAs,
especialmente entre as matrizes PAM e BLOSSUM. Assim podem ser estabelecidas as seqüentes relações:
PAM100 <==> Blosum90 (Seqüências menos divergentes) PAM120 <==> Blosum80 PAM160 <==> Blosum60 PAM200 <==> Blosum52 PAM250 <==> Blosum45 (Seqüências mais divergentes)
Modelos evolutivos
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 44
Modelos de evolução de proteínasModelos evolutivos
WYFVLIMKRHQEDNGAPTSC
1700-6-2-5-4-3-2-3-5-7-7-4-7-6-6-5-2-8Trp
107-2-1-1-2-4-40-4-4-4-2-5-3-5-3-30Tyr
9-1210-5-4-2-5-5-6-4-5-4-5-3-3-4Phe
4242-2-2-2-2-2-2-3-10-10-1-2Val
624-3-3-2-2-3-4-3-4-2-3-2-3-6Leu
52-2-2-2-2-2-2-2-3-1-20-1-2Ile
600-2-1-2-3-2-3-1-2-1-2-5Met
5301001-2-1-100-5Lys
621-1-10-3-20-10-4Arg
63112-2-10-1-1-3His
4221-100-1-1-5Gln
43100-100-5Glu
4210-100-5Asp
200-101-4Asn
51-101-3Gly
2111-2Ala
601-1Pro
31-2Thr
20Ser
12Cys Matriz PAM 250
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 45
Suposições dos modelos Todos os modelos de substituição mostrados se baseiam em quatro
suposições: Substituições em um sítio são independentes das mutações nos demais. A taxa de substituição é a mesma para todos os nucleotídeos. A taxa de substituição é constante no tempo e entre as seqüências. A composição de bases das seqüências está em equilíbrio.
Estas suposições são importantes para viabilizar a criação dos modelos mas, em muitos casos, são irreais .
Certos refinamentos dos modelos básicos de substituição permitem seu uso quando algumas das suposições acima são violadas.
Modelos evolutivos
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 46
Modelo LogDet É comum que as freqüências das bases não sejam constantes entre as
seqüências analisadas. Variações na composição de bases entre seqüências podem levar os
modelos tradicionais a agruparem seqüências com base na similaridade de bases entre elas, e não em relações filogenéticas verdadeiras.
O modelo LogDet pode ser usado para obter umas distância entre seqüências mesmo quando a composição de bases varia entre elas.
O modelo constrói uma matriz Fxy 4x4 em que cada célula é a freqüência de sítios com aquela combinação de bases.
A distância dxy é definida como dxy = -ln [detFxy].
Modelos evolutivos
t
g
c
a
tgca
Seqüência X
1758195
4230524
1611493
Seq
Y
8245224 dxy = 6,216Fxy =
0,1940,0090,0210,006
0,0040,2560,0060,027
0,0180,0010,1660,003
0,0090,0270,0060,249
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 47
Correção gama É muito comum que as taxas de mutação sejam diferentes entre os sítios. Os modelos de substituição podem ser corrigidos para taxas diferentes de
mutação usando a distribuição . Quando o parâmetro da distribuição se aproxima de zero a
distribuição retrata uma grande heterogeneidade entre as taxas de mutação dos vários sítios.
Quanto maior o parâmetro, menor a heterogeneidade entre as taxas de mutação dos sítios.
Modelos evolutivos
pequeno (<1)
grande (>1)
Reg
ião
flanq
uead
ora
5’
Pse
udog
enes
Reg
ião
não
trans
crita
5’
Síti
os n
ão d
egen
erad
os
Síti
os “2
” deg
ener
ados
Síti
os “4
” deg
ener
ados
Íntro
ns
Reg
ião
não
trans
crita
3’
Reg
ião
flanq
uead
ora
3’
Sub
stitu
içõe
s po
r síti
o po
r 10 9
an
os
0
1
2
3
4
5
6
7
8
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 48
Como escolher modelos A escolha de um modelo começa pela análise das freqüência de cada
nucleotídeo e de cada tipo de mutação. Embora modelos mais complexos permitam uma descrição mais real do
processo, eles também acrescentam mais parâmetros, o que aumenta a variância das estimativas
Por esta razão deve-se usar apenas os parâmetros realmente necessários.
Alguns programas já permitem usar mais de um modelo por conjunto de seqüência, especificando que cada parte do alinhamento evolui de acordo com um deles.
Novamente, esta prática aumenta o número de parâmetros e a variância das distâncias estimadas.
Modelos evolutivos
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 49
Tipos de métodos de reconstrução filogenética Existem duas categorias principais de métodos de construção de árvores
filogenéticas: Os métodos de busca definem algum critério para escolha da “melhor”
árvore e então seguir procuram pela árvore que melhor se adeque a este critério entre todas as que podem ser construídas com aquelas OTUs.
Devido ao grande número de árvores que podem ser construídas quando o número de OTUs é grande, a maioria dos métodos de busca não consegue realmente procurar entre todas as árvores possíveis.
Existem várias técnicas computacionais para otimizar o processo de busca da “melhor árvore”.
Os métodos de solução única reconstroem uma única árvore filogenética, acrescentando em cada passo do processamento uma nova OTU na árvore em construção.
Construindo árvores
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 50
Tipos de métodos de reconstrução filogenéticaConstruindo árvores
Solução única Busca
1,01,5
1,3
1,8
0,9
1,5
1,61,9
1,11,8
1,2
1,7
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 51
Tipos de métodos de reconstrução filogenética Outro critério para classificar os métodos de reconstrução filogenética é
quanto ao tipo de informação usada para construir a árvore. Os métodos que se valem das distâncias evolutivas calculadas a partir
das seqüências originais usando algum dos modelos evolutivos são chamados de métodos de distância, ou métodos geométricos.
Os métodos de solução única são sempre métodos geométricos, ou seja, produzem uma única árvore a partir das distâncias entre as seqüências. Nem todo método de distância, por outro lado, é necessariamente de solução única.
Os métodos que se valem das seqüências em si, chamados de métodos de análise de caráter, são de dois subtipos:
Métodos probabilísticos, como o de máxima verossimilhança ou bayesianos.
Método de máxima parcimônia. Os métodos de análise de caráter são necessariamente métodos de
busca.
Construindo árvores
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 52
UPGMA Método de solução única. Enraíza cada cluster pré formado no ponto médio dos dois últimos ramos
acrescentados. Baseia-se (implicitamente) na suposição de que as taxas evolutivas são
constantes para todas as linhagens. Bom quando o relógio molecular é obedecido. Computacionalmente simples e rápido. Único método de reconstrução a produzir árvores enraizadas.
Construindo árvores
OTUs maispróximas
OTUs maispróximas
OTUs maispróximas
OTUs maispróximas
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 53
Evolução mínima Método de busca baseado em distâncias. Procura pela árvore com a menor soma dos ramos. Computacionalmente lento. Único método com uma “justificativa” teórica. Sob certas condições, a
árvore mais curta é a árvore verdadeira. Se as estimativas de distância evolutivas não tiverem nenhum viés, A
soma dos ramos (“S”) será menor para a árvore verdadeira do que para qualquer outra.
Isso não significa que a topologia com a menor soma de ramos seja a correta.
Construindo árvores
S=1,1
S=1,0
S=1,5 S=1,9
S=0,8
S=1,8
S=1,3S=1,6
S=1,7
S=1,2
S=1,3 S=1,2
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 54
Neighbor Joining Método de solução única. Produz resultados em geral muito próximos aos do método de evolução
mínima, minimizando, em cada passo, a soma dos ramos da árvore formada pelas OTUs já acrescentadas.
Computacionalmente eficiente.
Construindo árvores
Menor somade ramos
Menor somade ramos
Menor somade ramos
Menor somade ramos
Menor somade ramos
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 55
Máxima parcimônia Método de busca. Avalia todas as árvores em busca da mais parcimoniosa.
A árvore mais parcimoniosa é aquela que exige o menor número de mutações nas seqüências observadas para ser produzida.
Método computacionalmente muito custoso. Em geral utiliza uma árvore produzida por algum método geométrico
como ponto de partida e avalia apenas as árvores “próximas” (semelhantes) a ela.
Para tornar o modelo mais realista as diferentes mutações podem receber pesos diferentes.
Construindo árvores
N=11N=10
N=15
N=19
N=8
N=18N=13N=16
N=17N=12
N=13
N=12
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 56
Máxima verossimilhança Método probabilístico e de busca. Calcula, para cada topologia, a probabilidade da topologia produzir aquelas
seqüências observadas se o modelo evolutivo escolhido for verdadeiro. Considera como a “melhor árvore’ aquela que tiver maior probabilidade de
produzir os dados observados. Método computacionalmente muito custoso.
Em geral utiliza uma árvore produzida por algum método geométrico como ponto de partida e avalia apenas as árvores “próximas” (semelhantes) a ela.
É o método mais usado atualmente, não apenas para a reconstrução da filogenia mas também para testar hipóteses sobre ela.
Construindo árvores
P=0,10P=0,15
P=0,2
P=0,11
P=0,16
P=0,18P=0,20P=0,21
P=0,17P=0,14
P=0,02
P=0,16
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 57
Bootstrap A consistência da árvore construída em relação aos dados usados para a
construção pode ser testada por meio de procedimentos de replicação dos dados.
O método de replicação mais usado é o bootstrap. O método de bootstrap re-amostra dos dados originais, com repetição, o
mesmo número de nucleotídeos. Esta re-amostragem é usada para reconstruir uma nova árvore, que é
comparada com a árvore original. Se os dados forem consistentes, no sentido de apontarem todos para
uma mesma filogenia, os ramos da nova árvore serão aproximadamente os mesmo da árvore original.
O número de vezes que cada ramo aparece em N repetições é contado. Ramos que não se repetem são considerados pouco sustentados pelos dados.
Os ramos externos tem, por definição, 100% de bootstrap. Os testes de replicação não dizem se os ramos estão certos ou errados e
sim se eles são consistentes ou não com os dados.
Validando árvores
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 58
BootstrapSeq1 AATGCGTATTGCTACAGCSeq2 CAGGCGAATTGCTACGCC ...SeqN AATGCGAATTGCTATAAC
Seq1 AATGCCTATTGCTACAGCSeq2 CAGGCCAATTGCTACGCC ...SeqN AATGCCAATTGCTATAAC
Seq1 AATGCGTATTGCTTCAGCSeq2 CCGGCGAATTGCTTCGCC ...SeqN AATGCGAATTGCTTTAAC
10090
60
Validando árvores