validando árvoresconstruindo árvoresmodelos evolutivosencontrando homologiasas árvoreso problema...

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1

Construindo filogenias

Coletar os dados

Localizar homologias

Construir as árvores

Verificar a confiabilidade das árvores

Testar hipóteses evolutivas

O problema


Objetivos Gerais

Reconstruir as relações de parentesco entre seqüências. Reconstruir as relações de parentesco entre espécies. Organizar a diversidade biológica.

Específicos Representar as relações evolutivas entre seqüências ou organismos por

meio de uma árvore filogenética.

O problema


Princípios e pressupostos Existe uma ancestralidade comum entre quaisquer duas seqüências

homólogas. Existe uma ancestralidade comum entre quaisquer duas espécies. A evolução das seqüências se dá por divergência. A evolução das espécies se dá por divergência. Os padrões evolutivos não são observáveis, devido principalmente as

escalas de tempo nas quais os processos evolutivos operam. Em conseqüência, o processo de reconstrução filogenética é,

necessariamente, um processo de inferência.

O problema


Evolução e especiação

T

e

m

p

o

Espécie 1 Espécie 2 Espécie 3

O problema



T

e

m

p

o

Seqüência 1 Seqüência 2 Seqüência 3

O problema



Seqüência 1 Seqüência 2

O problema

Seqüência 3


Evolução e especiação O processo de especiação independe do processo de evolução do gene em

estudo e vice-versa. O processo de especiação é modelado pela topologia da árvore.

Topologia é o padrão de ramificação da árvore. A topologia revela as relações de ancestralidade e descendência entre

os nós. O processo de evolução do gene é modelado pelos comprimentos dos

ramos. O comprimento de um ramo é, em geral, função do número de

substituições ocorridas naquele ramo ou do tempo decorrido desde o ancestral.

O problema


Evolução de caracteres Dependendo da história evolutiva do caráter ele pode ser:

Pleisomórfico: caráter, ou estado do caráter, ancestral. Apomórfico: caráter, ou estado do caráter, derivado.

Apomorfias existentes em uma única OTU são chamadas de autoapomorfias.

Apomorfias compartilhadas por duas ou mais OTUs são chamadas de sinapomorfias.

Dois caracteres idênticos são homólogos quando a semelhança entre eles se deve a uma ancestralidade comum.

Identidades entre caracteres que não resultam de uma ancestralidade comum são chamadas de homoplasias. Homoplasias podem resultar de:

Evolução paralela: os dois caracteres evoluíram independentemente do da mesma condição ancestral.

Evolução convergente: os dois caracteres evoluíram independentemente de condições ancestrais diferentes.

Reversão à condição ancestral.

O problema


Evolução de caracteres

Autoapomorfia

Plesiomorfias

Sinapomorfia

O problema


Evolução de caracteres

ReversãoEvoluçãoconvergente

Evoluçãoparalela

O problema


Ancestralidade Em geral todas as seqüências ou espécies em estudo existem no presente.

E se uma delas for ancestral de outras? Se acontecer, a árvore filogenética e a árvore evolutiva não são

iguais, pois algumas OTUs estão localizadas em nós internos da árvore evolutiva.

A chance desta ocorrência é pequena se os tempos médios de coalescência dos alelos são pequenos comparados com o tempo médio de especiação.

Em geral não se espera que as espécies presentes na árvore sejam ancestrais umas das outras.

Uma exceção a esta expectativa são árvores nas quais as linhagens evoluem muito rapidamente, como é o caso de alguns vírus.

O problema


Árvores de genes e árvores de espécies A suposição de que a filogenia de um conjunto de seqüências corresponde

a filogenia das espécies das quais elas foram obtidas pode não ser correta. Topologias incorretas podem ser produzidas nas seguintes situações:

Genes parálogos são incluídos na análise sem serem reconhecidos como tais.

O tempo de coalescência dos alelos é maior que o tempo de especiação.

Bons genes para filogenias de espécies devem: Obedecer ao relógio molecular.

A taxa de evolução deve ser constante entre linhagens e ao longo do tempo.

Se não for, existem modelos que corrigem a distorção, mas a qualidade da árvore será menor.

O tempo médio de coalescência entre alelos deve ser menor que o tempo médio de especiação.

O problema


Árvores de genes e árvores de espécies O problema dos genes parálogos

1 1’ 2 2’ 3 3’

O problema

1’ 3’ 2


Árvores de genes e árvores de espécies O problema do tempo de coalescência

1 2 3

O problema

1 2 3


Nós e ramos Nós são os pontos de ligação entre os ramos.

Nós externos representam as seqüências ou espécies em estudo (= nós terminais ou OTUs ou táxons terminais).

Nós externos estão ligados a apenas um ramo e a um nó interno. Nós internos representam os estados ancestrais hipotéticos e são

ligados a pelo menos três ramos (e três nós): Um ligando o nó ao seu nó ancestral Dois ou mais ligando o nó aos seus nós descendentes

Ramos são as ligações entre os nós. Ramos externos são aqueles que ligam os nós externos aos nós

internos. Ramos internos são aqueles que ligam dois nós internos.

As árvores


Nós e ramos

Nós Externos

Nós Internos

Ramos Internos

Ramos Externos

As árvores


Raízes e topologias não enraizadas Raiz é o nó mais ancestral na árvore.

A raiz confere direcionamento a filogenia obtida. Só a partir dela podemos falar em nós ancestrais e derivados.

Uma árvore não precisa ter raiz. Árvores não enraizadas não mostram relações de ancestralidade e

descendência. Uma topologia não enraizada com “N” ramos pode dar origem a “N”

topologias enraizadas, cada uma delas formada pela inserção de um nó extra num dos ramos.

Raízes podem ser obtidas usando-se um grupo sabidamente externo ou um gene parálogo.

A

BC

A B C A C B B C A

As árvores


Tipos de árvores Existem três tipos básicos de árvores filogenéticas, dependendo da

informação contida nos comprimentos de ramo (“eixo vertical”). Árvores aditivas (= filogramas): os comprimentos de ramos indicam a

quantidade de mudança evolutiva ocorrida entre os nós. Árvores ultramétricas (= dendogramas): os comprimentos de ramos

indicam o tempo decorrido entre os nós. Todas as OTUs aparecem no presente.

Cladogramas: os comprimentos de ramo não indicam nada. Cladogramas indicam apenas as relações de parentesco entre os

nós. A distância entre as OTUs (eixo horizontal) não significa nada.

Os ramos podem ser rotacionados livremente ao desenhar a árvore, sem alterar nenhuma informação contida nela

Árvores podem ser desenhadas tanto na horizontal quanto na vertical, com ramos inclinados, perpendiculares ou arredondados.

Estas características do desenho da árvores não significam nada.

As árvores


Tipos de árvores

Árvore aditiva

5

1

2

3

4N

º m

ut /

sítio

Árvore ultramétrica

1 2 3 4 5

Nº

anos

Cladograma

1 2 3 4 5

NA

DA

As árvores


Tipos de árvores

1 2 3 4 5 2 1 5 4 3 1 2 4 3 5

5 3 4 1 2 4 3 5 2 1 3 4 5 1 2

As árvores

= =

= =


Tipos de árvores 1

2

3

4

5

6

7

8

0.05

12

3

4 5 6

7

80.05

1

2

3

4

5

6

7

8

0.05

1 2

3

4

5

6

7

8

0.05

As árvores

Sem raiz


Politomias Nós politômicos, ou politomias, são os nós internos que possuem mais de

três ramos ligados a ele (um ancestral e três ou mais derivados, se a árvore for enraizada).

Existem dois tipos de politomias. Politomias “hard” são aquelas que representam a emergência

simultânea de três ou mais linhagens a partir de um só ancestral. Politomias realmente “hard” são muito improváveis. Duas linhagens surgidas proximamente uma a outra num tempo

remoto podem ser encaradas como uma politomia “hard”. Politomias “soft” representam nós que não foram completamente

resolvidos pelos dados e métodos de reconstrução filogenética disponíveis.

Topologias sem politomias são chamadas de completamente dicotômicas. Politomias podem surgir ao se criar uma árvore consenso.

As árvores


Politomias

1 2 3 4 5

1 2 3 4 5

Hard

As árvores

1 2 3 4 5 1 2 3 4 5

SoftSoft??


Árvores consenso Árvores consenso sumarizam a informação contida em várias árvores

alternativas segundo algum critério. Consensos estritos incluem apenas os grupos presentes em todas as

árvores alternativas. Os demais são mostrados como politomias

Consensos majoritários incluem os grupos que aparecem na maioria dos das árvores alternativas

1 2 3 4 51 2 3 4 5 1 2 3 4 5

+ =

+ =

1 2 3 4 5

70%

1 2 3 4 5

30%

1 2 3 4 5

As árvores


Número de topologias dicotômicas O número de topologias possíveis cresce muito rapidamente a medida que

cresce o número de OTUs em análise. O número excessivo de possíveis topologias é um dos maiores desafios

computacionais da análise filogenética.

8.200.794.532.637.891.559.375

2.027.025104,9518 x 10388.200.794.532.637.891.5

59.37520

1,00985 x 10574,9518 x 10383077 x 1,00985 x 10571,00985 x 105740

2.027.025135.1359135.13510.3958

10.39594579451056105155

1534313112

Nº topologias enraizadasNº topologias não enraizadas

Nº de OTUs

As árvores


Número de topologias dicotômicas sem raiz

1 2

33 OTUs 1 = 1 Topologia

4 OTUs1

2

3

42

1

3

4

2

4

3

1

3 = 3 Topologias

5 OTUs 5 = 15 Topologias



1 22 OTUS 1 1 Topologia=

X

X

X

As árvores

X

X


Número de topologias dicotômicas Para topologias completamente dicotômicas não enraizadas temos as

seguintes relações: Número de topologias = 1 x 3 x 5 x 7 x ... x (2N - 5) = (2N - 5)!

2N-1(N - 1)! N OTUs: N ramos externos + N - 3 ramos internos = 2N - 3 ramos N OTUs: N nós terminais + N - 2 nós internos = 2N - 2 nós

Para topologias completamente dicotômicas enraizadas temos as seguintes relações:

Número de topologias = 1 x 3 x 5 x 7 x ... x (2N - 3) = (2N - 3)!

2N-1(N - 1)! N OTUs: N ramos externos + N - 2 ramos internos = 2N - 2 ramos N OTUs: N nós terminais + N - 1 nós internos = 2N - 1 nós

As árvores


AlinhamentoEncontrando homologias

ALINHE CORRETAMENTE

SUAS SEQÜÊNCIAS.


Como seqüências evoluem Para construir uma hipótese sobre a filogenia de um conjunto de

seqüências precisamos de um modelo de como elas evoluíram. Modelos são, eles próprios, hipóteses e podem (devem na verdade) ser

alvo de testes. O processo de evolução de uma seqüência é estocástico e portanto os

modelos de evolução de seqüências são necessariamente probabilísticos. Existem muitos modelos de evolução de seqüência disponíveis, mas a

maioria deles só descreve as mudanças devidas a substituições, sem levar em conta recombinações.

São portanto modelos de substituição. Os modelos de substituição podem focar na substituição de nucleotídeos ou

na substituição de aminoácidos. Modelos de substituição de aminoácidos só são aplicáveis a seqüências

codantes. A escolha do modelo de substituição mais adequado ao problema em

análise depende tanto dos dados disponíveis quanto de considerações teóricas sobre estes.

Modelos evolutivos


Como uma seqüência muda no tempo

ATC*CAGGTATAATGCTC

ATACAGGT*ATAATGCTC

t

AT*ACAGGAATAA*TGCTC

t

t

AGA*CAGGAATAC*TGCTC

AGCCAGGAATAGTGCTC

t

Tempo

0

1

2

3

4

5

0 1 2 3 4

Tempo

---- Diferenças em relação a ancestral---- Mutações realmente ocorridas

Modelos evolutivos


Como duas seqüências divergem entre si no tempo

ATCCAGGTATAATGCTC

ATGCACCAGGTAATAACGTGCTC

t

AGT

CAC

AGG

CTATA

GAT

CAGCTC

t

Tempo

---- Diferenças observadas entre as seqüências---- Mutações ocorridas

?

Modelos evolutivos

Mutação ParalelaMutação Reversa

Mutação Convergente

Modelo Matemático


Como a evolução de seqüências pode ser modelada O acúmulo de mutações “ocultas” e a impossibilidade de se contar mais de

100% de diferença entre duas seqüências resulta no fenômeno de saturação.

Simplesmente contar o número de diferenças entre duas seqüências não é o suficiente, pois este valor subestima a quantidade real de mudanças ocorridas desde a divergência.

No entanto não há outra métrica disponível para avaliar a divergência entre duas seqüências.

Assim os processos “ocultos” de evolução devem ser acrescentados ao modelo, para que se possa inferir com mais precisão a distância evolutiva.

Por se tratar de um processos estocásticos não é possível inferir exatamente quais ou quantas mutações ocorreram, mas sim:

A chance de uma dada mutação ter ocorrido num dado sítio. A proporção esperada de mutações que ocorreram na seqüência.

O fato dos modelos serem probabilísticos, por si só, não impede a reconstrução da filogenia.

O excesso de saturação, por outro lado, pode impedir a reconstrução da filogenia.

Modelos evolutivos


Como a evolução de seqüências pode ser modelada A forma mais simples de se modelar a evolução de seqüências por

substituição é pela distribuição de Poisson A probabilidade de ocorrerem “n” mutações numa seqüência num intervalo

de tempo t pode ser modelada pela distribuição de Poisson como:

Pn(t) = [(t)nexp(- t)]/n! Para isso:

A taxa de mutação por sítio por unidade de tempo () não pode mudar. As mutações devem ser independentes entre si (a ocorrência de uma

mutação em um sítio não pode afetar a probabilidade da ocorrência de outras mutações naquele ou em outros sítios).

O parâmetro t (número médio de mutações por sítio durante o tempo t) em geral é o único que pode ser estimado pois, em geral, não se conhece o tempo t desde a divergência da seqüência para que se possa estimar .

O processo de evolução de seqüências por substituição também pode ser modelado também como um processo de Markov, que usa uma matriz de transição no lugar do parâmetro único , de modo a tornar o modelo de substituição mais completo.

Modelos evolutivos


Matrizes de transição Os parâmetros A, T, C e G são as

freqüências dos nucleotídeos A, T, C e G, que são supostas em equilíbrio.

Os parâmetros de “a” até “i” representam as taxas instantâneas de mudança entre os nucleotídeos.

A matriz de transição é construída de forma que a transição de um nucleotídeos para si mesmo seja descrita por 1 menos a soma da linha referente ao nucleotídeo.

Com a matriz de transição (Q), podemos obter a matriz de substituição (P).

Aplicando a matriz de substituição P às duas seqüências divergentes podemos estimar uma distância evolutiva entre elas que mede o número real de mutações ocorridas nas duas desde a sua divergência em função do número de diferenças observadas entre ambas.

Modelos evolutivos

TGCA

1-linha

iGkCjA

fT1-

linhaiChA

eTdG1-

linhagA

Q =

cTbGaC1-

linha


Modelo Jukes & Cantor (JC69) Modelo de substituição mais simples

mais simples. Supõem que as taxas de mutação

são as mesmas para todas as seis mutações possíveis () e que a freqüência de equilíbrio de cada nucleotídeo é de ¼ (25%).

Modelos evolutivos

TGCA

P =

d = -3/4ln(1-4p/3)


Modelo Kimura 2 parâmetros (K2P) Diferencia a taxa de transição () da

taxa de transversão (). Baseia-se na observação de que

transições são mais comuns que transversões, pois ocorrem entre nucleotídeos mais similares quimicamente.

Supõem que a freqüência de equilíbrio de cada nucleotídeo é de ¼ (25%).

Modelos evolutivos

TGCA

P =

d = 1/2ln[1/1-2P-Q)]1/4+ln[1/(1-2Q)]

P = diferença no número de transiçõesQ = diferença no número de transversões


TGCA

GCA

TCA

TGAP =

TGC

Modelo Felsenstein (F81) Supõe que todos os tipos de

mutações ocorrem com a mesma taxa.

Diferencia a freqüência de equilíbrio dos nucleotídeos.

Modelos evolutivos

d = ?


TGCA

GCA

TCA

TGAP =

TGC

Modelo Hasegawa, Kishino & Yano (HKY85) Diferencia a taxa de transição () da

taxa de transversão (). Diferencia também a freqüência de

equilíbrio dos nucleotídeos.

Modelos evolutivos

d = ?


Modelo geral reversível (REV) Diferencia os seis tipos de mutação. Diferencia também a freqüência de

equilíbrio dos nucleotídeos. Supõe apenas que a taxa de

mutação de um nucleotídeo do tipo i para um nucleotídeo do tipo j é igual a taxa de mutação de j para i.

Modelos evolutivos

TGCA

fGeCcA

fTdCbA

eTdGaAP =

cTbGaC

d = ?


Relações entre modelos de evolução de DNAModelos evolutivos

Modelo geral reversível (REV)

Hasegawa, Kishino & Yano (HKY85)

Diferencie apenas as transições das

transversões

Kimura 2 parâmetros (K2P)

Fixe as freqüências de equilíbrio em 1/4

Felsenstein (F81)

Suponha que todas as mutações tem a mesma taxa

Suponha que todas as mutação tem a mesma taxa

Jukes & Cantor (JC69)

Fixe as freqüências de equilíbrio em 1/4


Modelos de evolução de proteínas Os modelos de evolução de proteínas, a semelhança dos modelos de

evolução de DNA, envolvem matrizes de substituição de aminoácidos. Matrizes de substituição de aminoácidos refletem o fato de que certas

substituições entre estes são mais comuns que outras. Os pesos de cada tipo de substituição podem se basear em:

Dados empíricos de alinhamentos de seqüências de proteínas. Contagem dos tipos de mudança de nucleotídeos que provocam cada

tipo de mudança de AA Considerações teóricas sobre as características físico-químicas de cada

AA. A maioria dos modelos de evolução de proteína usados atualmente são

produzidos a partir da análise de alinhamentos de seqüências. Matrizes de substituição de aminoácidos são muito usadas também para

alinhamento de seqüências de proteínas, e muitas delas foram derivados com esta finalidade.

Modelos evolutivos


Tipos de matrizes de transição de AAs Existem três tipos principais de matrizes de substituição de AAs. As matrizes PAM (Point Accepted Mutation) são baseadas em alinhamentos

globais de proteínas a partir de um modelo filogenético. Existem várias matrizes PAM, algumas baseadas em alinhamentos de

proteínas com mais mutações e outras em alinhamentos com menos mutações.

A matriz PAM 250, por exemplo, é adequada para alinhamentos que divirjam por 250 mutações a cada 100 AAs. Devido as mutações reversas, convergentes e paralelas isso equivale a cerca de 20% de divergência entre seqüências.

As matrizes BLOSSUM (Blocks Substitution Matrix) foram derivadas de modo semelhante as de PAM, usando apenas alinhamentos altamente conservados e sem gaps e sem levar em conta um modelo filogenético.

Existem várias matrizes BLOSSUM, cada uma delas adequada a uma certa porcentagem de similaridade enter AAs

As matrizes de Gonnet foram derivadas usando apenas alinhamentos pareados, de forma recursiva. Cada alinhamento foi usado para gerar uma nova matriz, que foi então usada para corrigir o próprio alinhamento, até se atingir um equilíbrio.

Modelos evolutivos


Comparação matrizes de transição de AAs Existe muita correspondência entre os modelos de substituição de AAs,

especialmente entre as matrizes PAM e BLOSSUM. Assim podem ser estabelecidas as seqüentes relações:

PAM100 <==> Blosum90 (Seqüências menos divergentes) PAM120 <==> Blosum80 PAM160 <==> Blosum60 PAM200 <==> Blosum52 PAM250 <==> Blosum45 (Seqüências mais divergentes)

Modelos evolutivos


Modelos de evolução de proteínasModelos evolutivos

WYFVLIMKRHQEDNGAPTSC

1700-6-2-5-4-3-2-3-5-7-7-4-7-6-6-5-2-8Trp

107-2-1-1-2-4-40-4-4-4-2-5-3-5-3-30Tyr

9-1210-5-4-2-5-5-6-4-5-4-5-3-3-4Phe

4242-2-2-2-2-2-2-3-10-10-1-2Val

624-3-3-2-2-3-4-3-4-2-3-2-3-6Leu

52-2-2-2-2-2-2-2-3-1-20-1-2Ile

600-2-1-2-3-2-3-1-2-1-2-5Met

5301001-2-1-100-5Lys

621-1-10-3-20-10-4Arg

63112-2-10-1-1-3His

4221-100-1-1-5Gln

43100-100-5Glu

4210-100-5Asp

200-101-4Asn

51-101-3Gly

2111-2Ala

601-1Pro

31-2Thr

20Ser

12Cys Matriz PAM 250


Suposições dos modelos Todos os modelos de substituição mostrados se baseiam em quatro

suposições: Substituições em um sítio são independentes das mutações nos demais. A taxa de substituição é a mesma para todos os nucleotídeos. A taxa de substituição é constante no tempo e entre as seqüências. A composição de bases das seqüências está em equilíbrio.

Estas suposições são importantes para viabilizar a criação dos modelos mas, em muitos casos, são irreais .

Certos refinamentos dos modelos básicos de substituição permitem seu uso quando algumas das suposições acima são violadas.

Modelos evolutivos


Modelo LogDet É comum que as freqüências das bases não sejam constantes entre as

seqüências analisadas. Variações na composição de bases entre seqüências podem levar os

modelos tradicionais a agruparem seqüências com base na similaridade de bases entre elas, e não em relações filogenéticas verdadeiras.

O modelo LogDet pode ser usado para obter umas distância entre seqüências mesmo quando a composição de bases varia entre elas.

O modelo constrói uma matriz Fxy 4x4 em que cada célula é a freqüência de sítios com aquela combinação de bases.

A distância dxy é definida como dxy = -ln [detFxy].

Modelos evolutivos

t

g

c

a

tgca

Seqüência X

1758195

4230524

1611493

Seq

Y

8245224 dxy = 6,216Fxy =

0,1940,0090,0210,006

0,0040,2560,0060,027

0,0180,0010,1660,003

0,0090,0270,0060,249


Correção gama É muito comum que as taxas de mutação sejam diferentes entre os sítios. Os modelos de substituição podem ser corrigidos para taxas diferentes de

mutação usando a distribuição . Quando o parâmetro da distribuição se aproxima de zero a

distribuição retrata uma grande heterogeneidade entre as taxas de mutação dos vários sítios.

Quanto maior o parâmetro, menor a heterogeneidade entre as taxas de mutação dos sítios.

Modelos evolutivos

pequeno (<1)

grande (>1)

Reg

ião

flanq

uead

ora

5’

Pse

udog

enes

Reg

ião

não

trans

crita

5’

Síti

os n

ão d

egen

erad

os

Síti

os “2

” deg

ener

ados

Síti

os “4

” deg

ener

ados

Íntro

ns

Reg

ião

não

trans

crita

3’

Reg

ião

flanq

uead

ora

3’

Sub

stitu

içõe

s po

r síti

o po

r 10 9

an

os

0

1

2

3

4

5

6

7

8


Como escolher modelos A escolha de um modelo começa pela análise das freqüência de cada

nucleotídeo e de cada tipo de mutação. Embora modelos mais complexos permitam uma descrição mais real do

processo, eles também acrescentam mais parâmetros, o que aumenta a variância das estimativas

Por esta razão deve-se usar apenas os parâmetros realmente necessários.

Alguns programas já permitem usar mais de um modelo por conjunto de seqüência, especificando que cada parte do alinhamento evolui de acordo com um deles.

Novamente, esta prática aumenta o número de parâmetros e a variância das distâncias estimadas.

Modelos evolutivos


Tipos de métodos de reconstrução filogenética Existem duas categorias principais de métodos de construção de árvores

filogenéticas: Os métodos de busca definem algum critério para escolha da “melhor”

árvore e então seguir procuram pela árvore que melhor se adeque a este critério entre todas as que podem ser construídas com aquelas OTUs.

Devido ao grande número de árvores que podem ser construídas quando o número de OTUs é grande, a maioria dos métodos de busca não consegue realmente procurar entre todas as árvores possíveis.

Existem várias técnicas computacionais para otimizar o processo de busca da “melhor árvore”.

Os métodos de solução única reconstroem uma única árvore filogenética, acrescentando em cada passo do processamento uma nova OTU na árvore em construção.

Construindo árvores


Tipos de métodos de reconstrução filogenéticaConstruindo árvores

Solução única Busca

1,01,5

1,3

1,8

0,9

1,5

1,61,9

1,11,8

1,2

1,7


Tipos de métodos de reconstrução filogenética Outro critério para classificar os métodos de reconstrução filogenética é

quanto ao tipo de informação usada para construir a árvore. Os métodos que se valem das distâncias evolutivas calculadas a partir

das seqüências originais usando algum dos modelos evolutivos são chamados de métodos de distância, ou métodos geométricos.

Os métodos de solução única são sempre métodos geométricos, ou seja, produzem uma única árvore a partir das distâncias entre as seqüências. Nem todo método de distância, por outro lado, é necessariamente de solução única.

Os métodos que se valem das seqüências em si, chamados de métodos de análise de caráter, são de dois subtipos:

Métodos probabilísticos, como o de máxima verossimilhança ou bayesianos.

Método de máxima parcimônia. Os métodos de análise de caráter são necessariamente métodos de

busca.



UPGMA Método de solução única. Enraíza cada cluster pré formado no ponto médio dos dois últimos ramos

acrescentados. Baseia-se (implicitamente) na suposição de que as taxas evolutivas são

constantes para todas as linhagens. Bom quando o relógio molecular é obedecido. Computacionalmente simples e rápido. Único método de reconstrução a produzir árvores enraizadas.


OTUs maispróximas

OTUs maispróximas

OTUs maispróximas

OTUs maispróximas


Evolução mínima Método de busca baseado em distâncias. Procura pela árvore com a menor soma dos ramos. Computacionalmente lento. Único método com uma “justificativa” teórica. Sob certas condições, a

árvore mais curta é a árvore verdadeira. Se as estimativas de distância evolutivas não tiverem nenhum viés, A

soma dos ramos (“S”) será menor para a árvore verdadeira do que para qualquer outra.

Isso não significa que a topologia com a menor soma de ramos seja a correta.


S=1,1

S=1,0

S=1,5 S=1,9

S=0,8

S=1,8

S=1,3S=1,6

S=1,7

S=1,2

S=1,3 S=1,2


Neighbor Joining Método de solução única. Produz resultados em geral muito próximos aos do método de evolução

mínima, minimizando, em cada passo, a soma dos ramos da árvore formada pelas OTUs já acrescentadas.

Computacionalmente eficiente.


Menor somade ramos

Menor somade ramos

Menor somade ramos

Menor somade ramos

Menor somade ramos


Máxima parcimônia Método de busca. Avalia todas as árvores em busca da mais parcimoniosa.

A árvore mais parcimoniosa é aquela que exige o menor número de mutações nas seqüências observadas para ser produzida.

Método computacionalmente muito custoso. Em geral utiliza uma árvore produzida por algum método geométrico

como ponto de partida e avalia apenas as árvores “próximas” (semelhantes) a ela.

Para tornar o modelo mais realista as diferentes mutações podem receber pesos diferentes.


N=11N=10

N=15

N=19

N=8

N=18N=13N=16

N=17N=12

N=13

N=12


Máxima verossimilhança Método probabilístico e de busca. Calcula, para cada topologia, a probabilidade da topologia produzir aquelas

seqüências observadas se o modelo evolutivo escolhido for verdadeiro. Considera como a “melhor árvore’ aquela que tiver maior probabilidade de

produzir os dados observados. Método computacionalmente muito custoso.

Em geral utiliza uma árvore produzida por algum método geométrico como ponto de partida e avalia apenas as árvores “próximas” (semelhantes) a ela.

É o método mais usado atualmente, não apenas para a reconstrução da filogenia mas também para testar hipóteses sobre ela.


P=0,10P=0,15

P=0,2

P=0,11

P=0,16

P=0,18P=0,20P=0,21

P=0,17P=0,14

P=0,02

P=0,16


Bootstrap A consistência da árvore construída em relação aos dados usados para a

construção pode ser testada por meio de procedimentos de replicação dos dados.

O método de replicação mais usado é o bootstrap. O método de bootstrap re-amostra dos dados originais, com repetição, o

mesmo número de nucleotídeos. Esta re-amostragem é usada para reconstruir uma nova árvore, que é

comparada com a árvore original. Se os dados forem consistentes, no sentido de apontarem todos para

uma mesma filogenia, os ramos da nova árvore serão aproximadamente os mesmo da árvore original.

O número de vezes que cada ramo aparece em N repetições é contado. Ramos que não se repetem são considerados pouco sustentados pelos dados.

Os ramos externos tem, por definição, 100% de bootstrap. Os testes de replicação não dizem se os ramos estão certos ou errados e

sim se eles são consistentes ou não com os dados.

Validando árvores


BootstrapSeq1 AATGCGTATTGCTACAGCSeq2 CAGGCGAATTGCTACGCC ...SeqN AATGCGAATTGCTATAAC

Seq1 AATGCCTATTGCTACAGCSeq2 CAGGCCAATTGCTACGCC ...SeqN AATGCCAATTGCTATAAC

Seq1 AATGCGTATTGCTTCAGCSeq2 CCGGCGAATTGCTTCGCC ...SeqN AATGCGAATTGCTTTAAC

10090

60

Validando árvores

validando árvoresconstruindo árvoresmodelos evolutivosencontrando homologiasas árvoreso problema...

Documents