teoria da coalescÊncia - fc.up.pt · a teoria da coalescência centra-se na genealogia da amostra...

60
TEORIA DA COALESCÊNCIA Estudo das propriedades genealógicas de linhagens

Upload: vuongque

Post on 17-Dec-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

TEORIA DA

COALESCÊNCIA

Estudo das propriedades genealógicas de linhagens

APLICABILIDADE

• É o instrumento interpretativo mais usado na análise dos

processos populacionais que estão na base da variação

de sequências de DNA.

CARACTERÍSTICAS

• Abordagem genealógica

• Modelação dos processos mutacionais no sentido

presentepassado e não presentefuturo

• Limitação da análise à amostra disponível sem que seja

necessário ter em conta toda a população

• Dissociação conceptual entre processos mutacionais e

genealógicos

AAGCTTGTTCAGAGGAGTGACAATCTGCTTACATCTTGACCTT

AAGCTTGTTCAGAGGAGTGATAATCTGCTTACATCTTGACCTT

SNP

TIPO DE DADOS

TIPO DE DADOS

Nat Rev Genet 7: 669-680 (2006)

indiv

iduals

site of variation

http://pga.gs.washington.edu/

TIPO DE DADOS

A ABORDAGEM GENEALÓGICA

ab cd

ad ac tzxy

ax ay at az

ab cd

ad ac

ax ay at az

A ABORDAGEM GENEALÓGICA

a

a a

a a a a

ab cd

ad ac

ax ay at az

A teoria da coalescência centra-se na genealogia da amostra

MODELO DE WRIGHT-FISHER

• N constante

• Acasalamento ao acaso

• Ausência subdivisões geográficas (ou outras)

• Ausência de selecção

• Gerações discretas

• O insucesso reprodutivo está distribuído ao acaso

– Para valores de N grandes, o número de descendentes por

indivíduo tem uma distribuição Poisson.

CDAB EF GH KLIJ

MODELO DE WRIGHT-FISHER

PROPRIEDADES DAS GENEALOGIAS NO

MODELO DE WRIGHT-FISHER

TEMPO DE COALESCÊNCIA n=2

tMRCA

CDAB EF GH KLIJ

Prob. de partilha de ancestral na geração anterior

AA = [1/12]2

BB = [1/12]2

CC = [1/12]2

DD = [1/12]2

EE = [1/12]2

FF = [1/12]2

GG = [1/12]2

HH = [1/12]2

II = [1/12]2

JJ= [1/12]2

KK = [1/12]2

LL = [1/12]2

= [1/12]2 . 12 = 1/12 = 1/2N

TEMPO DE COALESCÊNCIA n=2

TEMPO DE COALESCÊNCIA n=2

• n=2

• Prob. de partilha de ancestral na

geração anterior:

• 1/2N

• Prob. de não partilha de ancestral na

geração anterior:

• 1- (1/2N)

• Probabilidade de coalescência na

geração t+1

• 1/2N [1- (1/2N) ]t

Distribuição geométrica

0

0,005

0,01

0,015

0,02

0,025

0,03

0,035

0,04

0,045

0,05

1 8 15 22 29 36 43 50 57 64 71 78 85 92 99

t

P(M

RC

A=

t)

n=2; N=10

Distribuição geométrica

0

0,005

0,01

0,015

0,02

0,025

0,03

1 8 15 22 29 36 43 50 57 64 71 78 85 92 99

t

P(M

RC

A=

t)

Distribuição exponencial

0

0,005

0,01

0,015

0,02

0,025

0,03

1 9 17 25 33 41 49 57 65 73 81 89 97

t

P(M

RC

A=

t)P(MRCA=t)= 1/2N [1- (1/2N) ]t P(MRCA=t)= 1/2N e-t/2N

n=2; N=20

P(MRCA=t)= 1/2N [1- (1/2N) ]t

Distribuição exponencial

0

0,005

0,01

0,015

0,02

0,025

0,03

0,035

0,04

0,045

0,05

1 9 17 25 33 41 49 57 65 73 81 89 97

t

P(M

RC

A=

t)

P(MRCA=t)= 1/2N e-t/2N

• P (MRCA=t)=1/(2N) e-t/2N

• E (t)=2N gerações

TEMPO DE COALESCÊNCIA n=2

tMRCA = 2N gerações

TEMPO DE COALESCÊNCIA n=n

tMRCA

TEMPO DE COALESCÊNCIA n=n

TEMPO DE COALESCÊNCIA n=n

E (tMRCA com n=2) = 2N

Número de pares possíveis= n (n-1) / 2

Tempo médio para a primeira coalescência

numa amostra de n linhagens:

1/ [(n (n-1) / 2)] . 2N = 4N / n(n-1)

TEMPO DE COALESCÊNCIA n=n

T9

T8T7T6T5T4

T3

T2

4N / 9 (9-1) = 1/36 . 2N4N / 8 (8-1) = 1/28 . 2N4N / 7 (7-1) = 1/21 . 2N4N / 6 (6-1) = 1/15 . 2N4N / 5 (5-1) = 1/10 . 2N4N / 4 (4-1) = 1/6 . 2N4N / 3 (3-1) = 1/3 . 2N

4N / 2 (2-1) = 1 . 2N

0,78 * 2NTOTAL = E(tMRCA)=3,56 N = 4N [1- (1/n)]

TEMPO DE COALESCÊNCIA n=n

• E (tMRCA)=4N [1- (1/n)]

• n

• E (tMRCA)=4N

• Ex:

• n=2; E (t)=2N

• n=10; E (t)=3,6N

• .

• .

• .

• .

0

20

40

60

80

100

n

E(t)

4 N

TEMPO DE COALESCÊNCIA

• Propriedades médias

2N

2N

4N

TEMPO DE COALESCÊNCIA

• Aleatoridade

Stable

GrowingContracting

TEMPO DE COALESCÊNCIA

• Consequências

• Inutilidade de aumento da amostra: a estrutura da genealogia é basicamente determinada a partir da altura em que já há poucos ancestrais

• A inclusão da bifurcação mais antiga na amostra é obtida com um número surpreendentemente baixo de indivíduos:

• (n-1)/(n+1) é a probabilidade de incluir o MRCA numa amostra de tamanho n

• A informação obtida a partir de um único gene é muito limitada.

• É melhor aumentar o número de loci analisados do que o número de amostras em cada locus.

ADIÇÃO DE MUTAÇÕES

ADIÇÃO DE MUTAÇÕES

• Os padrões de diversidade genética observados

reflectem a sobreposição de mutações numa genealogia

ADIÇÃO DE MUTAÇÕES-ISM

• Cada mutação ocorre numa posição diferente de

uma sequência de DNA: ISM

t t + x t + x + y

ADIÇÃO DE MUTAÇÕES

246 810

12

1 2 3 4 5 6 7 8 9101112

ADIÇÃO DE MUTAÇÕES

Exemplo de aplicação do programa GENETREE

MEDIDAS SUMÁRIAS DE DIVERSIDADE GENÉTICA

t

2 t

E() =2 t

E(t)=2 N

=4N

ou

= 4NNº Médio de diferenças

entre um par de

sequências =

E() =2 E(t)

= taxa de

mutação por

locus por

geração

Comprimento total da árvore L = 4T4 + 3 T3 + 2 T2

Nº de mutações (posições

com segregação) numa

amostra de tamanho n = S

T4

T3

T2

MEDIDAS SUMÁRIAS DE DIVERSIDADE GENÉTICA

n

i

iiTL2

1

1222

14

1

4

)1(

4)()(

n

i

n

i

n

i

n

i

i

iN

i

N

ii

NiTiELE

1

1

1

1

114)(

n

i

n

i iiNSE

Nº esperado de mutações

1

1

1/

n

i

w

iS

Diapositivo 23

MEDIDAS SUMÁRIAS DE DIVERSIDADE GENÉTICA

Exemplo numérico

S=6

θ= 6/(1/1 + 1/2 + 1/3 + 1/4 + 1/5)

θ =2,63

1

1

1/

n

i

w

iS

VARIAÇÃO NO TAMANHO

POPULACIONAL

Crescimento da população

N

Topologia das genealogias

t

N

t

Stable

GrowingContractingEstável

(maior aleatoridade)

Crescimento

(menor aleatoridade)

• Aleatoridade das genealogias

Stable

GrowingContracting

Distribuição de mutações

6

5

4

3

2

1

1 2 3

Espectro de frequências

Crescimento populacional

6

5

4

3

2

1

1 2 3

6

5

4

3

2

1

1 2 3

Espectro de frequências

Crescimento populacional

Crescimento populacional

• O D de Tajima

Crescimento populacional

1

1

1/

n

i

w

iS = 2,73

1

1

1/

n

i

w

iS = 2,73

= θ = 2,25 = θ = 1,875

)(

48,0

)(

73,225,2

)(

sdsdsdD

)(

855,0

)(

73,2875,1

)(

sdsdsdD

• O D de Tajima

Crescimento populacional

D ~ 0

D < 0

6

5

4

3

2

1

1 2 3

Teste de D

,, S Simulações/WF,, , S

D obs

D esp

Crescimento populacional

Número de diferenças entre pares de sequências comparadas (mismatch distributions).

Média=

Crescimento populacional

Crescimento populacional

Diminuição da população

N

Topologia das genealogias

N

tt

t

N

6

5

4

3

2

1

1 2 3

6

5

4

3

2

1

1 2 3

Diminuição da população

Alterações no tamanho

Subdivisão populacional

Subdivisão da população

Fst

Subdivisão da população

PANMIXIASUBESTRUTURAÇÃO

Subdivisão populacional

D ~ 0 D >0

Alterações no tamanho e subdivisão