validando árvoresconstruindo árvoresmodelos evolutivosencontrando homologiasas árvoreso problema...

58
Validando árvores Construindo árvores Modelos evolutivos Encontrando homologias As árvores O problema 1 Construindo filogenias Coletar os dados Localizar homologias Construir as árvores Verificar a confiabilidade das árvores Testar hipóteses evolutivas O problema

Upload: maria-antonieta-tome-anjos

Post on 07-Apr-2016

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1

Construindo filogenias

Coletar os dados

Localizar homologias

Construir as árvores

Verificar a confiabilidade das árvores

Testar hipóteses evolutivas

O problema

Page 2: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 2

Objetivos Gerais

Reconstruir as relações de parentesco entre seqüências. Reconstruir as relações de parentesco entre espécies. Organizar a diversidade biológica.

Específicos Representar as relações evolutivas entre seqüências ou organismos por

meio de uma árvore filogenética.

O problema

Page 3: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 3

Princípios e pressupostos Existe uma ancestralidade comum entre quaisquer duas seqüências

homólogas. Existe uma ancestralidade comum entre quaisquer duas espécies. A evolução das seqüências se dá por divergência. A evolução das espécies se dá por divergência. Os padrões evolutivos não são observáveis, devido principalmente as

escalas de tempo nas quais os processos evolutivos operam. Em conseqüência, o processo de reconstrução filogenética é,

necessariamente, um processo de inferência.

O problema

Page 4: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 4

Evolução e especiação

T

e

m

p

o

Espécie 1 Espécie 2 Espécie 3

O problema

Page 5: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 5

Evolução e especiação

T

e

m

p

o

Seqüência 1 Seqüência 2 Seqüência 3

O problema

Page 6: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 6

Evolução e especiação

Seqüência 1 Seqüência 2

O problema

Seqüência 3

Page 7: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 7

Evolução e especiação O processo de especiação independe do processo de evolução do gene em

estudo e vice-versa. O processo de especiação é modelado pela topologia da árvore.

Topologia é o padrão de ramificação da árvore. A topologia revela as relações de ancestralidade e descendência entre

os nós. O processo de evolução do gene é modelado pelos comprimentos dos

ramos. O comprimento de um ramo é, em geral, função do número de

substituições ocorridas naquele ramo ou do tempo decorrido desde o ancestral.

O problema

Page 8: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 8

Evolução de caracteres Dependendo da história evolutiva do caráter ele pode ser:

Pleisomórfico: caráter, ou estado do caráter, ancestral. Apomórfico: caráter, ou estado do caráter, derivado.

Apomorfias existentes em uma única OTU são chamadas de autoapomorfias.

Apomorfias compartilhadas por duas ou mais OTUs são chamadas de sinapomorfias.

Dois caracteres idênticos são homólogos quando a semelhança entre eles se deve a uma ancestralidade comum.

Identidades entre caracteres que não resultam de uma ancestralidade comum são chamadas de homoplasias. Homoplasias podem resultar de:

Evolução paralela: os dois caracteres evoluíram independentemente do da mesma condição ancestral.

Evolução convergente: os dois caracteres evoluíram independentemente de condições ancestrais diferentes.

Reversão à condição ancestral.

O problema

Page 9: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 9

Evolução de caracteres

Autoapomorfia

Plesiomorfias

Sinapomorfia

O problema

Page 10: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 10

Evolução de caracteres

ReversãoEvoluçãoconvergente

Evoluçãoparalela

O problema

Page 11: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 11

Ancestralidade Em geral todas as seqüências ou espécies em estudo existem no presente.

E se uma delas for ancestral de outras? Se acontecer, a árvore filogenética e a árvore evolutiva não são

iguais, pois algumas OTUs estão localizadas em nós internos da árvore evolutiva.

A chance desta ocorrência é pequena se os tempos médios de coalescência dos alelos são pequenos comparados com o tempo médio de especiação.

Em geral não se espera que as espécies presentes na árvore sejam ancestrais umas das outras.

Uma exceção a esta expectativa são árvores nas quais as linhagens evoluem muito rapidamente, como é o caso de alguns vírus.

O problema

Page 12: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 12

Árvores de genes e árvores de espécies A suposição de que a filogenia de um conjunto de seqüências corresponde

a filogenia das espécies das quais elas foram obtidas pode não ser correta. Topologias incorretas podem ser produzidas nas seguintes situações:

Genes parálogos são incluídos na análise sem serem reconhecidos como tais.

O tempo de coalescência dos alelos é maior que o tempo de especiação.

Bons genes para filogenias de espécies devem: Obedecer ao relógio molecular.

A taxa de evolução deve ser constante entre linhagens e ao longo do tempo.

Se não for, existem modelos que corrigem a distorção, mas a qualidade da árvore será menor.

O tempo médio de coalescência entre alelos deve ser menor que o tempo médio de especiação.

O problema

Page 13: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 13

Árvores de genes e árvores de espécies O problema dos genes parálogos

1 1’ 2 2’ 3 3’

O problema

1’ 3’ 2

Page 14: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 14

Árvores de genes e árvores de espécies O problema do tempo de coalescência

1 2 3

O problema

1 2 3

Page 15: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 15

Nós e ramos Nós são os pontos de ligação entre os ramos.

Nós externos representam as seqüências ou espécies em estudo (= nós terminais ou OTUs ou táxons terminais).

Nós externos estão ligados a apenas um ramo e a um nó interno. Nós internos representam os estados ancestrais hipotéticos e são

ligados a pelo menos três ramos (e três nós): Um ligando o nó ao seu nó ancestral Dois ou mais ligando o nó aos seus nós descendentes

Ramos são as ligações entre os nós. Ramos externos são aqueles que ligam os nós externos aos nós

internos. Ramos internos são aqueles que ligam dois nós internos.

As árvores

Page 16: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 16

Nós e ramos

Nós Externos

Nós Internos

Ramos Internos

Ramos Externos

As árvores

Page 17: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 17

Raízes e topologias não enraizadas Raiz é o nó mais ancestral na árvore.

A raiz confere direcionamento a filogenia obtida. Só a partir dela podemos falar em nós ancestrais e derivados.

Uma árvore não precisa ter raiz. Árvores não enraizadas não mostram relações de ancestralidade e

descendência. Uma topologia não enraizada com “N” ramos pode dar origem a “N”

topologias enraizadas, cada uma delas formada pela inserção de um nó extra num dos ramos.

Raízes podem ser obtidas usando-se um grupo sabidamente externo ou um gene parálogo.

A

BC

A B C A C B B C A

As árvores

Page 18: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 18

Tipos de árvores Existem três tipos básicos de árvores filogenéticas, dependendo da

informação contida nos comprimentos de ramo (“eixo vertical”). Árvores aditivas (= filogramas): os comprimentos de ramos indicam a

quantidade de mudança evolutiva ocorrida entre os nós. Árvores ultramétricas (= dendogramas): os comprimentos de ramos

indicam o tempo decorrido entre os nós. Todas as OTUs aparecem no presente.

Cladogramas: os comprimentos de ramo não indicam nada. Cladogramas indicam apenas as relações de parentesco entre os

nós. A distância entre as OTUs (eixo horizontal) não significa nada.

Os ramos podem ser rotacionados livremente ao desenhar a árvore, sem alterar nenhuma informação contida nela

Árvores podem ser desenhadas tanto na horizontal quanto na vertical, com ramos inclinados, perpendiculares ou arredondados.

Estas características do desenho da árvores não significam nada.

As árvores

Page 19: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 19

Tipos de árvores

Árvore aditiva

5

1

2

3

4N

º m

ut /

sítio

Árvore ultramétrica

1 2 3 4 5

anos

Cladograma

1 2 3 4 5

NA

DA

As árvores

Page 20: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 20

Tipos de árvores

1 2 3 4 5 2 1 5 4 3 1 2 4 3 5

5 3 4 1 2 4 3 5 2 1 3 4 5 1 2

As árvores

= =

= =

Page 21: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 21

Tipos de árvores 1

2

3

4

5

6

7

8

0.05

12

3

4 5 6

7

80.05

1

2

3

4

5

6

7

8

0.05

1 2

3

4

5

6

7

8

0.05

As árvores

Sem raiz

Page 22: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 22

Politomias Nós politômicos, ou politomias, são os nós internos que possuem mais de

três ramos ligados a ele (um ancestral e três ou mais derivados, se a árvore for enraizada).

Existem dois tipos de politomias. Politomias “hard” são aquelas que representam a emergência

simultânea de três ou mais linhagens a partir de um só ancestral. Politomias realmente “hard” são muito improváveis. Duas linhagens surgidas proximamente uma a outra num tempo

remoto podem ser encaradas como uma politomia “hard”. Politomias “soft” representam nós que não foram completamente

resolvidos pelos dados e métodos de reconstrução filogenética disponíveis.

Topologias sem politomias são chamadas de completamente dicotômicas. Politomias podem surgir ao se criar uma árvore consenso.

As árvores

Page 23: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 23

Politomias

1 2 3 4 5

1 2 3 4 5

Hard

As árvores

1 2 3 4 5 1 2 3 4 5

SoftSoft??

Page 24: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 24

Árvores consenso Árvores consenso sumarizam a informação contida em várias árvores

alternativas segundo algum critério. Consensos estritos incluem apenas os grupos presentes em todas as

árvores alternativas. Os demais são mostrados como politomias

Consensos majoritários incluem os grupos que aparecem na maioria dos das árvores alternativas

1 2 3 4 51 2 3 4 5 1 2 3 4 5

+ =

+ =

1 2 3 4 5

70%

1 2 3 4 5

30%

1 2 3 4 5

As árvores

Page 25: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 25

Número de topologias dicotômicas O número de topologias possíveis cresce muito rapidamente a medida que

cresce o número de OTUs em análise. O número excessivo de possíveis topologias é um dos maiores desafios

computacionais da análise filogenética.

8.200.794.532.637.891.559.375

2.027.025104,9518 x 10388.200.794.532.637.891.5

59.37520

1,00985 x 10574,9518 x 10383077 x 1,00985 x 10571,00985 x 105740

2.027.025135.1359135.13510.3958

10.39594579451056105155

1534313112

Nº topologias enraizadasNº topologias não enraizadas

Nº de OTUs

As árvores

Page 26: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 26

Número de topologias dicotômicas sem raiz

1 2

33 OTUs 1 = 1 Topologia

4 OTUs1

2

3

42

1

3

4

2

4

3

1

3 = 3 Topologias

5 OTUs 5 = 15 Topologias

6 OTUs 7 = 105 Topologias

7 OTUs 9 = 945 Topologias

1 22 OTUS 1 1 Topologia=

X

X

X

As árvores

X

X

Page 27: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 27

Número de topologias dicotômicas Para topologias completamente dicotômicas não enraizadas temos as

seguintes relações: Número de topologias = 1 x 3 x 5 x 7 x ... x (2N - 5) = (2N - 5)!

2N-1(N - 1)! N OTUs: N ramos externos + N - 3 ramos internos = 2N - 3 ramos N OTUs: N nós terminais + N - 2 nós internos = 2N - 2 nós

Para topologias completamente dicotômicas enraizadas temos as seguintes relações:

Número de topologias = 1 x 3 x 5 x 7 x ... x (2N - 3) = (2N - 3)!

2N-1(N - 1)! N OTUs: N ramos externos + N - 2 ramos internos = 2N - 2 ramos N OTUs: N nós terminais + N - 1 nós internos = 2N - 1 nós

As árvores

Page 28: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 28

AlinhamentoEncontrando homologias

ALINHE CORRETAMENTE

SUAS SEQÜÊNCIAS.

Page 29: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 29

Como seqüências evoluem Para construir uma hipótese sobre a filogenia de um conjunto de

seqüências precisamos de um modelo de como elas evoluíram. Modelos são, eles próprios, hipóteses e podem (devem na verdade) ser

alvo de testes. O processo de evolução de uma seqüência é estocástico e portanto os

modelos de evolução de seqüências são necessariamente probabilísticos. Existem muitos modelos de evolução de seqüência disponíveis, mas a

maioria deles só descreve as mudanças devidas a substituições, sem levar em conta recombinações.

São portanto modelos de substituição. Os modelos de substituição podem focar na substituição de nucleotídeos ou

na substituição de aminoácidos. Modelos de substituição de aminoácidos só são aplicáveis a seqüências

codantes. A escolha do modelo de substituição mais adequado ao problema em

análise depende tanto dos dados disponíveis quanto de considerações teóricas sobre estes.

Modelos evolutivos

Page 30: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 30

Como uma seqüência muda no tempo

ATC*CAGGTATAATGCTC

ATACAGGT*ATAATGCTC

t

AT*ACAGGAATAA*TGCTC

t

t

AGA*CAGGAATAC*TGCTC

AGCCAGGAATAGTGCTC

t

Tempo

0

1

2

3

4

5

0 1 2 3 4

Tempo

---- Diferenças em relação a ancestral---- Mutações realmente ocorridas

Modelos evolutivos

Page 31: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 31

Como duas seqüências divergem entre si no tempo

ATCCAGGTATAATGCTC

ATGCACCAGGTAATAACGTGCTC

t

AGT

CAC

AGG

CTATA

GAT

CAGCTC

t

Tempo

---- Diferenças observadas entre as seqüências---- Mutações ocorridas

?

Modelos evolutivos

Mutação ParalelaMutação Reversa

Mutação Convergente

Modelo Matemático

Page 32: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 32

Como a evolução de seqüências pode ser modelada O acúmulo de mutações “ocultas” e a impossibilidade de se contar mais de

100% de diferença entre duas seqüências resulta no fenômeno de saturação.

Simplesmente contar o número de diferenças entre duas seqüências não é o suficiente, pois este valor subestima a quantidade real de mudanças ocorridas desde a divergência.

No entanto não há outra métrica disponível para avaliar a divergência entre duas seqüências.

Assim os processos “ocultos” de evolução devem ser acrescentados ao modelo, para que se possa inferir com mais precisão a distância evolutiva.

Por se tratar de um processos estocásticos não é possível inferir exatamente quais ou quantas mutações ocorreram, mas sim:

A chance de uma dada mutação ter ocorrido num dado sítio. A proporção esperada de mutações que ocorreram na seqüência.

O fato dos modelos serem probabilísticos, por si só, não impede a reconstrução da filogenia.

O excesso de saturação, por outro lado, pode impedir a reconstrução da filogenia.

Modelos evolutivos

Page 33: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 33

Como a evolução de seqüências pode ser modelada A forma mais simples de se modelar a evolução de seqüências por

substituição é pela distribuição de Poisson A probabilidade de ocorrerem “n” mutações numa seqüência num intervalo

de tempo t pode ser modelada pela distribuição de Poisson como:

Pn(t) = [(t)nexp(- t)]/n! Para isso:

A taxa de mutação por sítio por unidade de tempo () não pode mudar. As mutações devem ser independentes entre si (a ocorrência de uma

mutação em um sítio não pode afetar a probabilidade da ocorrência de outras mutações naquele ou em outros sítios).

O parâmetro t (número médio de mutações por sítio durante o tempo t) em geral é o único que pode ser estimado pois, em geral, não se conhece o tempo t desde a divergência da seqüência para que se possa estimar .

O processo de evolução de seqüências por substituição também pode ser modelado também como um processo de Markov, que usa uma matriz de transição no lugar do parâmetro único , de modo a tornar o modelo de substituição mais completo.

Modelos evolutivos

Page 34: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 34

Matrizes de transição Os parâmetros A, T, C e G são as

freqüências dos nucleotídeos A, T, C e G, que são supostas em equilíbrio.

Os parâmetros de “a” até “i” representam as taxas instantâneas de mudança entre os nucleotídeos.

A matriz de transição é construída de forma que a transição de um nucleotídeos para si mesmo seja descrita por 1 menos a soma da linha referente ao nucleotídeo.

Com a matriz de transição (Q), podemos obter a matriz de substituição (P).

Aplicando a matriz de substituição P às duas seqüências divergentes podemos estimar uma distância evolutiva entre elas que mede o número real de mutações ocorridas nas duas desde a sua divergência em função do número de diferenças observadas entre ambas.

Modelos evolutivos

TGCA

1-linha

iGkCjA

fT1-

linhaiChA

eTdG1-

linhagA

Q =

cTbGaC1-

linha

Page 35: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 35

Modelo Jukes & Cantor (JC69) Modelo de substituição mais simples

mais simples. Supõem que as taxas de mutação

são as mesmas para todas as seis mutações possíveis () e que a freqüência de equilíbrio de cada nucleotídeo é de ¼ (25%).

Modelos evolutivos

TGCA

P =

d = -3/4ln(1-4p/3)

Page 36: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 36

Modelo Kimura 2 parâmetros (K2P) Diferencia a taxa de transição () da

taxa de transversão (). Baseia-se na observação de que

transições são mais comuns que transversões, pois ocorrem entre nucleotídeos mais similares quimicamente.

Supõem que a freqüência de equilíbrio de cada nucleotídeo é de ¼ (25%).

Modelos evolutivos

TGCA

P =

d = 1/2ln[1/1-2P-Q)]1/4+ln[1/(1-2Q)]

P = diferença no número de transiçõesQ = diferença no número de transversões

Page 37: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 37

TGCA

GCA

TCA

TGAP =

TGC

Modelo Felsenstein (F81) Supõe que todos os tipos de

mutações ocorrem com a mesma taxa.

Diferencia a freqüência de equilíbrio dos nucleotídeos.

Modelos evolutivos

d = ?

Page 38: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 38

TGCA

GCA

TCA

TGAP =

TGC

Modelo Hasegawa, Kishino & Yano (HKY85) Diferencia a taxa de transição () da

taxa de transversão (). Diferencia também a freqüência de

equilíbrio dos nucleotídeos.

Modelos evolutivos

d = ?

Page 39: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 39

Modelo geral reversível (REV) Diferencia os seis tipos de mutação. Diferencia também a freqüência de

equilíbrio dos nucleotídeos. Supõe apenas que a taxa de

mutação de um nucleotídeo do tipo i para um nucleotídeo do tipo j é igual a taxa de mutação de j para i.

Modelos evolutivos

TGCA

fGeCcA

fTdCbA

eTdGaAP =

cTbGaC

d = ?

Page 40: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 40

Relações entre modelos de evolução de DNAModelos evolutivos

Modelo geral reversível (REV)

Hasegawa, Kishino & Yano (HKY85)

Diferencie apenas as transições das

transversões

Kimura 2 parâmetros (K2P)

Fixe as freqüências de equilíbrio em 1/4

Felsenstein (F81)

Suponha que todas as mutações tem a mesma taxa

Suponha que todas as mutação tem a mesma taxa

Jukes & Cantor (JC69)

Fixe as freqüências de equilíbrio em 1/4

Page 41: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 41

Modelos de evolução de proteínas Os modelos de evolução de proteínas, a semelhança dos modelos de

evolução de DNA, envolvem matrizes de substituição de aminoácidos. Matrizes de substituição de aminoácidos refletem o fato de que certas

substituições entre estes são mais comuns que outras. Os pesos de cada tipo de substituição podem se basear em:

Dados empíricos de alinhamentos de seqüências de proteínas. Contagem dos tipos de mudança de nucleotídeos que provocam cada

tipo de mudança de AA Considerações teóricas sobre as características físico-químicas de cada

AA. A maioria dos modelos de evolução de proteína usados atualmente são

produzidos a partir da análise de alinhamentos de seqüências. Matrizes de substituição de aminoácidos são muito usadas também para

alinhamento de seqüências de proteínas, e muitas delas foram derivados com esta finalidade.

Modelos evolutivos

Page 42: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 42

Tipos de matrizes de transição de AAs Existem três tipos principais de matrizes de substituição de AAs. As matrizes PAM (Point Accepted Mutation) são baseadas em alinhamentos

globais de proteínas a partir de um modelo filogenético. Existem várias matrizes PAM, algumas baseadas em alinhamentos de

proteínas com mais mutações e outras em alinhamentos com menos mutações.

A matriz PAM 250, por exemplo, é adequada para alinhamentos que divirjam por 250 mutações a cada 100 AAs. Devido as mutações reversas, convergentes e paralelas isso equivale a cerca de 20% de divergência entre seqüências.

As matrizes BLOSSUM (Blocks Substitution Matrix) foram derivadas de modo semelhante as de PAM, usando apenas alinhamentos altamente conservados e sem gaps e sem levar em conta um modelo filogenético.

Existem várias matrizes BLOSSUM, cada uma delas adequada a uma certa porcentagem de similaridade enter AAs

As matrizes de Gonnet foram derivadas usando apenas alinhamentos pareados, de forma recursiva. Cada alinhamento foi usado para gerar uma nova matriz, que foi então usada para corrigir o próprio alinhamento, até se atingir um equilíbrio.

Modelos evolutivos

Page 43: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 43

Comparação matrizes de transição de AAs Existe muita correspondência entre os modelos de substituição de AAs,

especialmente entre as matrizes PAM e BLOSSUM. Assim podem ser estabelecidas as seqüentes relações:

PAM100 <==> Blosum90 (Seqüências menos divergentes) PAM120 <==> Blosum80 PAM160 <==> Blosum60 PAM200 <==> Blosum52 PAM250 <==> Blosum45 (Seqüências mais divergentes)

Modelos evolutivos

Page 44: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 44

Modelos de evolução de proteínasModelos evolutivos

WYFVLIMKRHQEDNGAPTSC

1700-6-2-5-4-3-2-3-5-7-7-4-7-6-6-5-2-8Trp

107-2-1-1-2-4-40-4-4-4-2-5-3-5-3-30Tyr

9-1210-5-4-2-5-5-6-4-5-4-5-3-3-4Phe

4242-2-2-2-2-2-2-3-10-10-1-2Val

624-3-3-2-2-3-4-3-4-2-3-2-3-6Leu

52-2-2-2-2-2-2-2-3-1-20-1-2Ile

600-2-1-2-3-2-3-1-2-1-2-5Met

5301001-2-1-100-5Lys

621-1-10-3-20-10-4Arg

63112-2-10-1-1-3His

4221-100-1-1-5Gln

43100-100-5Glu

4210-100-5Asp

200-101-4Asn

51-101-3Gly

2111-2Ala

601-1Pro

31-2Thr

20Ser

12Cys Matriz PAM 250

Page 45: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 45

Suposições dos modelos Todos os modelos de substituição mostrados se baseiam em quatro

suposições: Substituições em um sítio são independentes das mutações nos demais. A taxa de substituição é a mesma para todos os nucleotídeos. A taxa de substituição é constante no tempo e entre as seqüências. A composição de bases das seqüências está em equilíbrio.

Estas suposições são importantes para viabilizar a criação dos modelos mas, em muitos casos, são irreais .

Certos refinamentos dos modelos básicos de substituição permitem seu uso quando algumas das suposições acima são violadas.

Modelos evolutivos

Page 46: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 46

Modelo LogDet É comum que as freqüências das bases não sejam constantes entre as

seqüências analisadas. Variações na composição de bases entre seqüências podem levar os

modelos tradicionais a agruparem seqüências com base na similaridade de bases entre elas, e não em relações filogenéticas verdadeiras.

O modelo LogDet pode ser usado para obter umas distância entre seqüências mesmo quando a composição de bases varia entre elas.

O modelo constrói uma matriz Fxy 4x4 em que cada célula é a freqüência de sítios com aquela combinação de bases.

A distância dxy é definida como dxy = -ln [detFxy].

Modelos evolutivos

t

g

c

a

tgca

Seqüência X

1758195

4230524

1611493

Seq

Y

8245224 dxy = 6,216Fxy =

0,1940,0090,0210,006

0,0040,2560,0060,027

0,0180,0010,1660,003

0,0090,0270,0060,249

Page 47: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 47

Correção gama É muito comum que as taxas de mutação sejam diferentes entre os sítios. Os modelos de substituição podem ser corrigidos para taxas diferentes de

mutação usando a distribuição . Quando o parâmetro da distribuição se aproxima de zero a

distribuição retrata uma grande heterogeneidade entre as taxas de mutação dos vários sítios.

Quanto maior o parâmetro, menor a heterogeneidade entre as taxas de mutação dos sítios.

Modelos evolutivos

pequeno (<1)

grande (>1)

Reg

ião

flanq

uead

ora

5’

Pse

udog

enes

Reg

ião

não

trans

crita

5’

Síti

os n

ão d

egen

erad

os

Síti

os “2

” deg

ener

ados

Síti

os “4

” deg

ener

ados

Íntro

ns

Reg

ião

não

trans

crita

3’

Reg

ião

flanq

uead

ora

3’

Sub

stitu

içõe

s po

r síti

o po

r 10 9

an

os

0

1

2

3

4

5

6

7

8

Page 48: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 48

Como escolher modelos A escolha de um modelo começa pela análise das freqüência de cada

nucleotídeo e de cada tipo de mutação. Embora modelos mais complexos permitam uma descrição mais real do

processo, eles também acrescentam mais parâmetros, o que aumenta a variância das estimativas

Por esta razão deve-se usar apenas os parâmetros realmente necessários.

Alguns programas já permitem usar mais de um modelo por conjunto de seqüência, especificando que cada parte do alinhamento evolui de acordo com um deles.

Novamente, esta prática aumenta o número de parâmetros e a variância das distâncias estimadas.

Modelos evolutivos

Page 49: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 49

Tipos de métodos de reconstrução filogenética Existem duas categorias principais de métodos de construção de árvores

filogenéticas: Os métodos de busca definem algum critério para escolha da “melhor”

árvore e então seguir procuram pela árvore que melhor se adeque a este critério entre todas as que podem ser construídas com aquelas OTUs.

Devido ao grande número de árvores que podem ser construídas quando o número de OTUs é grande, a maioria dos métodos de busca não consegue realmente procurar entre todas as árvores possíveis.

Existem várias técnicas computacionais para otimizar o processo de busca da “melhor árvore”.

Os métodos de solução única reconstroem uma única árvore filogenética, acrescentando em cada passo do processamento uma nova OTU na árvore em construção.

Construindo árvores

Page 50: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 50

Tipos de métodos de reconstrução filogenéticaConstruindo árvores

Solução única Busca

1,01,5

1,3

1,8

0,9

1,5

1,61,9

1,11,8

1,2

1,7

Page 51: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 51

Tipos de métodos de reconstrução filogenética Outro critério para classificar os métodos de reconstrução filogenética é

quanto ao tipo de informação usada para construir a árvore. Os métodos que se valem das distâncias evolutivas calculadas a partir

das seqüências originais usando algum dos modelos evolutivos são chamados de métodos de distância, ou métodos geométricos.

Os métodos de solução única são sempre métodos geométricos, ou seja, produzem uma única árvore a partir das distâncias entre as seqüências. Nem todo método de distância, por outro lado, é necessariamente de solução única.

Os métodos que se valem das seqüências em si, chamados de métodos de análise de caráter, são de dois subtipos:

Métodos probabilísticos, como o de máxima verossimilhança ou bayesianos.

Método de máxima parcimônia. Os métodos de análise de caráter são necessariamente métodos de

busca.

Construindo árvores

Page 52: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 52

UPGMA Método de solução única. Enraíza cada cluster pré formado no ponto médio dos dois últimos ramos

acrescentados. Baseia-se (implicitamente) na suposição de que as taxas evolutivas são

constantes para todas as linhagens. Bom quando o relógio molecular é obedecido. Computacionalmente simples e rápido. Único método de reconstrução a produzir árvores enraizadas.

Construindo árvores

OTUs maispróximas

OTUs maispróximas

OTUs maispróximas

OTUs maispróximas

Page 53: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 53

Evolução mínima Método de busca baseado em distâncias. Procura pela árvore com a menor soma dos ramos. Computacionalmente lento. Único método com uma “justificativa” teórica. Sob certas condições, a

árvore mais curta é a árvore verdadeira. Se as estimativas de distância evolutivas não tiverem nenhum viés, A

soma dos ramos (“S”) será menor para a árvore verdadeira do que para qualquer outra.

Isso não significa que a topologia com a menor soma de ramos seja a correta.

Construindo árvores

S=1,1

S=1,0

S=1,5 S=1,9

S=0,8

S=1,8

S=1,3S=1,6

S=1,7

S=1,2

S=1,3 S=1,2

Page 54: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 54

Neighbor Joining Método de solução única. Produz resultados em geral muito próximos aos do método de evolução

mínima, minimizando, em cada passo, a soma dos ramos da árvore formada pelas OTUs já acrescentadas.

Computacionalmente eficiente.

Construindo árvores

Menor somade ramos

Menor somade ramos

Menor somade ramos

Menor somade ramos

Menor somade ramos

Page 55: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 55

Máxima parcimônia Método de busca. Avalia todas as árvores em busca da mais parcimoniosa.

A árvore mais parcimoniosa é aquela que exige o menor número de mutações nas seqüências observadas para ser produzida.

Método computacionalmente muito custoso. Em geral utiliza uma árvore produzida por algum método geométrico

como ponto de partida e avalia apenas as árvores “próximas” (semelhantes) a ela.

Para tornar o modelo mais realista as diferentes mutações podem receber pesos diferentes.

Construindo árvores

N=11N=10

N=15

N=19

N=8

N=18N=13N=16

N=17N=12

N=13

N=12

Page 56: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 56

Máxima verossimilhança Método probabilístico e de busca. Calcula, para cada topologia, a probabilidade da topologia produzir aquelas

seqüências observadas se o modelo evolutivo escolhido for verdadeiro. Considera como a “melhor árvore’ aquela que tiver maior probabilidade de

produzir os dados observados. Método computacionalmente muito custoso.

Em geral utiliza uma árvore produzida por algum método geométrico como ponto de partida e avalia apenas as árvores “próximas” (semelhantes) a ela.

É o método mais usado atualmente, não apenas para a reconstrução da filogenia mas também para testar hipóteses sobre ela.

Construindo árvores

P=0,10P=0,15

P=0,2

P=0,11

P=0,16

P=0,18P=0,20P=0,21

P=0,17P=0,14

P=0,02

P=0,16

Page 57: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 57

Bootstrap A consistência da árvore construída em relação aos dados usados para a

construção pode ser testada por meio de procedimentos de replicação dos dados.

O método de replicação mais usado é o bootstrap. O método de bootstrap re-amostra dos dados originais, com repetição, o

mesmo número de nucleotídeos. Esta re-amostragem é usada para reconstruir uma nova árvore, que é

comparada com a árvore original. Se os dados forem consistentes, no sentido de apontarem todos para

uma mesma filogenia, os ramos da nova árvore serão aproximadamente os mesmo da árvore original.

O número de vezes que cada ramo aparece em N repetições é contado. Ramos que não se repetem são considerados pouco sustentados pelos dados.

Os ramos externos tem, por definição, 100% de bootstrap. Os testes de replicação não dizem se os ramos estão certos ou errados e

sim se eles são consistentes ou não com os dados.

Validando árvores

Page 58: Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 58

BootstrapSeq1 AATGCGTATTGCTACAGCSeq2 CAGGCGAATTGCTACGCC ...SeqN AATGCGAATTGCTATAAC

Seq1 AATGCCTATTGCTACAGCSeq2 CAGGCCAATTGCTACGCC ...SeqN AATGCCAATTGCTATAAC

Seq1 AATGCGTATTGCTTCAGCSeq2 CCGGCGAATTGCTTCGCC ...SeqN AATGCGAATTGCTTTAAC

10090

60

Validando árvores