genÉtica geogrÁfica: estatistica espacial em genética de populações e da paisagem

110
GENÉTICA GEOGRÁFICA: GENÉTICA GEOGRÁFICA: Estatistica Espacial em Genética de Estatistica Espacial em Genética de Populações e da Paisagem Populações e da Paisagem JOSÉ ALEXANDRE FELIZOLA DINIZ FILHO JOSÉ ALEXANDRE FELIZOLA DINIZ FILHO LABORATORIO DE ECOLOGIA TEÓRICA & SÍNTESE Departamento de Ecologia, ICB, Universidade Federal de Goiás, Brasil ([email protected])

Upload: hedy

Post on 13-Jan-2016

23 views

Category:

Documents


0 download

DESCRIPTION

GENÉTICA GEOGRÁFICA: Estatistica Espacial em Genética de Populações e da Paisagem. JOSÉ ALEXANDRE FELIZOLA DINIZ FILHO LABORATORIO DE ECOLOGIA TEÓRICA & SÍNTESE Departamento de Ecologia, ICB, Universidade Federal de Goiás, Brasil ([email protected]). ABORDAGENS ESPACIAIS. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

GENÉTICA GEOGRÁFICA: GENÉTICA GEOGRÁFICA:

Estatistica Espacial em Genética de Estatistica Espacial em Genética de Populações e da PaisagemPopulações e da Paisagem

JOSÉ ALEXANDRE FELIZOLA DINIZ FILHOJOSÉ ALEXANDRE FELIZOLA DINIZ FILHOLABORATORIO DE ECOLOGIA TEÓRICA & SÍNTESE

Departamento de Ecologia, ICB,Universidade Federal de Goiás, Brasil

([email protected])

Page 2: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Ecologia & Genética

ESPACIALMENTE IMPLICITAS

ABORDAGENS ESPACIAIS

ESPACIALMENTE EXPLICITAS

Page 3: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Relação genética entre as populações

FST (e estatísticas relacionadas) par-a-par

Distâncias genéticas

Outras matrizes de similaridade

Matriz quadrada (n * n), simétrica e com zero na diagonal principal

http://www.uwyo.edu/dbmcd/molmark/gendisteqns.pdf

Page 4: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Masatoshi Nei

D = -ln (I)

Where

I = Σxiyi / (Σxi2 Σyi

2)0.5

A identidade de Nei é, portanto, a correlação de Pearson entre as populações “ao longo” das frequencias alélicas...

Nei’s genetic distances

Page 5: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Wright’s FST

Análise de Variância de Frequencias Alélicas (P)

AMOVA RST

Holsinger’s Bayesian ST

GST

QST (fenótipo)

Valores “par-a-par” (n * n,

simétrica)

Page 6: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Distância Euclidiana (ca. distância de Rogers 1972)

p

kjkikij xxd

1

2)(

Page 7: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

ddiijj

Alelo XAlelo X22

Alelo XAlelo X11

XXjj22

XXi2i2

XXi1i1 XXjj11

ii

jj

})(){( 222

211 jijiij xxxxd

Quando existem apenas dois descritores, essa equação resulta no valor da hipotenusa:

população

população

Page 8: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

A distância Euclidiana não apresenta um limite superior, ou seja, o valor aumenta indefinidamente com o aumento do número de descritores. Assim, podemos calcular a distância Euclidiana média:

p

kBkAkAB pxxd

1

2 /)(

A distância de Rogers usa p = 2

Page 9: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

p

jj

p

jj

p

jjj

yy

yy

C

1

22

1

21

121

)2,1( 12

Cavalli-Sforza’s & Edward (1967) chord distance

Populations are conceptualised as existing as points in a m-dimensional Euclidean space which are specified by m allele frequencies (i.e. m equals the total number of alleles in both populations).

Page 10: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Nei Distance Matrix1.0510.950.90.850.80.750.70.650.60.550.50.450.40.350.3

Cho

rd D

ista

nce

Mat

rix

Nei Distance Matrix1.71.61.51.41.31.21.110.90.80.70.60.5

Rog

ers

Dis

tanc

e M

atrix

Page 11: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Coeficientes de SIMILARIDADE para dados binários

Transformar frequencias alélicas em dados 0/1 (ou seja, presença ou ausência do alelo ou haplótipo)

1 01 a b a +b0 c d c +d

a +c b +d

Po

pula

ção

1

População 2

Tabela de Freqüência 2 X 2

Page 12: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Uma maneira simples de calcular a similaridade entre os dois objetos envolve a contagem dos números de descritores que codificam estes objetos do mesmo modo e a posterior divisão pelo número total de descritores p (a+b+c+d):

p

daS

1

S1 = Coincidência simples (“simple matching”)

1 01 a b a +b0 c d c +d

a +c b +d

Page 13: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Y 1 Y 2 Y 3 Y 4 Y 5 Y 6 Y 7 Y 8 Y 9 Y 10

Local A 1 1 0 1 0 1 1 0 0 1Local B 1 0 0 1 0 1 1 1 0 0

A4 1 5

B 2 3 56 4 10

1 01 a b a +b0 c d c +d

a +c b +d

7,010

341

S

(0 = baixa similaridade e 1 = alta similaridade)

p

daS

1

Page 14: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Coeficientes de similaridade para dados binários: modo Q (Coeficientes assimétricos)

cba

aS

7

cba

aS

2

28

JaccardJaccard

SSøørensenrensen

1 01 a b a +b0 c d c +d

a +c b +d

Page 15: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

A idéia é desdobrar a (dis)similaridade em diferentes componentes, incluindo turnover e riqueza de alelos

Page 16: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

“Turnover” (substituição)

Riqueza alélica

Para o Baru, o componente de turnover representa 69% da similaridade, mas o interessante é que apenas o componente de riqueza possui padrão espacial

Page 17: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

[n (n – 1)/2] valores

(e.g. se n = 25 300 valores)

E agora, José?

Com n objetos (unidades amostrais) vamos ter uma matriz com:

Como podemos representar eficientemente o padrão de similaridade entre esses objetos?

As relações entre as n populações estão definidas em um espaço p-dimensional (onde p é o numero de alelos)

Page 18: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

A B C D E FA 0.00B 0.67 0.00C 1.41 0.74 0.00D 2.12 1.47 0.77 0.00E 0.79 0.67 1.09 1.62 0.00F 2.49 1.84 1.13 0.37 1.96 0.00

e.g., Quais as relações entre os 6 objetos a partir dessa matriz de distancias?

Page 19: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Agrupamento & Ordenações

Page 20: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Classificação das técnicas de agrupamentos

Algumas propriedades das técnicas:

Aglomerativos: Os grupos são formados, sucessivamente, até reunir todos os objetos em um único grande grupo, ou;

Divisivos: Subdivide os grupos até o isolamento de cada objeto (e.g. chaves de taxonomia);

Hierárquicos: elementos de um determinado grupo são agrupados dentro de grupos em níveis maiores, ou;

Não-hierárquicos: Produzem uma única divisão que maximiza a homogeneidade dentro de grupos;

Page 21: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Dis

tânc

ia

U.A

. 1U

.A. 2

U.A

. 3U

.A. 4

U.A

. 5 . . .U

.A. n

B(n x p )

T(n x p )

S(n x n )

C(n x n )

Y 2

Y1

i

j

Distância (D i,j )

C.C.C.

Análise de ClassificaçãoAnálise de ClassificaçãoAnálise de Agrupamentos (SAHN)Análise de Agrupamentos (SAHN)

Page 22: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Vários métodos de agrupamento: métodos de agrupamento:

Page 23: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Aplicação da técnica de agrupamento:Construção do dendrograma

A B C D E FA 0.00B 0.67 0.00C 1.41 0.74 0.00D 2.12 1.47 0.77 0.00E 0.79 0.67 1.09 1.62 0.00F 2.49 1.84 1.13 0.37 1.96 0.00

(método médias das distâncias, UPGMA)

Page 24: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Primeiro passo:Primeiro passo:Unir D e F (0,37)Unir D e F (0,37)

DD FF

0,370,37

Distância de Distância de ligaçãoligação

Page 25: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

A B C EB 0.67C 1.41 0.74E 0.79 0.67 1.09

DF 2.30 1.66 0.95 1.79

Segundo passo:Segundo passo:Calcular as distância em relação ao novo grupoCalcular as distância em relação ao novo grupo

A B C D E FA 0.00B 0.67 0.00C 1.41 0.74 0.00D 2.12 1.47 0.77 0.00E 0.79 0.67 1.09 1.62 0.00F 2.49 1.84 1.13 0.37 1.96 0.00

E assim, E assim, sucessivamente, sucessivamente, para esta linhapara esta linha

Neste ponto, Neste ponto, vamos verificar vamos verificar qual o par com qual o par com menor distânciamenor distância

(2,12+2,49)/2(2,12+2,49)/2

Page 26: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Terceiro passo:Terceiro passo:Unir A e B (0,67)Unir A e B (0,67)

DD FF

Distância de Distância de ligaçãoligação

AA BB

Page 27: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

C E DFE 1.09

DF 0.95 1.79AB 1.08 0.73 1.98

Quarto passo:Quarto passo:Calcular as distância em relação ao novo grupoCalcular as distância em relação ao novo grupo

A B C D E FA 0.00B 0.67 0.00C 1.41 0.74 0.00D 2.12 1.47 0.77 0.00E 0.79 0.67 1.09 1.62 0.00F 2.49 1.84 1.13 0.37 1.96 0.00

Vamos agrupar:Vamos agrupar:(E) com (AB)(E) com (AB)

98,14/)84,149,247,112,2(d

4/),(),(),(),(d

AB)(DF,

AB)(DF,

BFdAFDBDdADd

Page 28: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Quinto passo:Quinto passo:Unir E e AB (0,73)Unir E e AB (0,73)

DD FF

Distância de Distância de ligaçãoligação

AA BB EE

Page 29: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Demais passos:Demais passos:Calcular as distância em relação ao novo grupoCalcular as distância em relação ao novo grupo

C DFDF 0.95

ABE 1.08 1.92

DD FFAA BB EE CC

CDFABE 1.64

Agrupar (CDF) com (ABE)Agrupar (CDF) com (ABE)

Shortcut to ABE x CDF.lnk

Page 30: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Resultado do NTSYS

Page 31: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Para os dados das 25 populações de Baru (UPGMA), a partir do FST par-a-par...

?

Page 32: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Subp. Local de coleta

1 Cocalinho-MT

2 Água Boa-MT

3 Pirenópolis-GO

4 Sonora-MS

5 Alcinópolis-MS

6 Alvorada-TO

7 São Miguel do Araguaia-GO

8 Luziânia-GO

9 Icém-SP

10 Monte Alegre de Minas-MG

11 Estrela do Norte-GO

12 Santa Terezinha-GO

13 Arinos-MG

14 Pintópolis-MG

15 Paraíso-MS (Chapadão do Sul)

16 Paraíso/Camapuã-MS (Camapuã)

17 Camapuã-MS

18 Indiara-GO

19 Araguaia-MT (Barra do Garça)

20 Araguaia-GO (Aragarças)

21 Jandaia-GO

22 Natividade-TO

23 Arraias-TO

24 Aquidauana- MS

25 Cáceres- MT

Page 33: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Subp. Local de coleta

1 Cocalinho-MT

2 Água Boa-MT

3 Pirenópolis-GO

4 Sonora-MS

5 Alcinópolis-MS

6 Alvorada-TO

7 São Miguel do Araguaia-GO

8 Luziânia-GO

9 Icém-SP

10 Monte Alegre de Minas-MG

11 Estrela do Norte-GO

12 Santa Terezinha-GO

13 Arinos-MG

14 Pintópolis-MG

15 Paraíso-MS (Chapadão do Sul)

16 Paraíso/Camapuã-MS (Camapuã)

17 Camapuã-MS

18 Indiara-GO

19 Araguaia-MT (Barra do Garça)

20 Araguaia-GO (Aragarças)

21 Jandaia-GO

22 Natividade-TO

23 Arraias-TO

24 Aquidauana- MS

25 Cáceres- MT

Page 34: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

VISUALIZANDO OS PADRÕES NO ESPAÇO...

Page 35: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Dis

tânc

ia

U.A

. 1U

.A. 2

U.A

. 3U

.A. 4

U.A

. 5 . . .U

.A. n

B(n x p )

T(n x p )

S(n x n )

C(n x n )

Y 2

Y1

i

j

Distância (D i,j )

C.C.C.

Page 36: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

O dendrograma representa adequadamente a matriz de distância original?

Matriz CofenéticaMatriz Cofenética

A B C D E FAB 0.67C 1.64 1.64D 1.64 1.64 0.95E 0.73 0.73 1.64 1.64F 1.64 1.64 0.95 0.37 1.64

A B C D E FAB 0.67C 1.41 0.74D 2.12 1.47 0.77E 0.79 0.67 1.09 1.62F 2.49 1.84 1.13 0.37 1.96

Matriz OriginalMatriz Original

n

YY

n

XX

n

YXYX

ri

ii

i

iiii

22

22 )()( CCC=0,75

Bom ou Ruim?Bom ou Ruim?

Coeficiente de Correlação Cofenética CCC)

Page 37: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Diagrama de Shepard: diagrama de dispersão que relaciona distâncias em um espaço com dimensão reduzida com a distâncias originais (mais adequado para técnicas de ordenação):

No caso do Baru, o CCC foi igual a 0.845

Page 38: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

(i) Resultados são dependentes dos protocolos utilizados;

Problemas com a Análise de AgrupamentosProblemas com a Análise de Agrupamentos

Distância EuclidianaUPGMA

7 6 5 4 3 2 1

Distância EuclidianaWPGMA

7 4 6 5 3 2 1

(ii) discretizar um processo que pode ser, na verdade, contínuo, de modo que;

(iv) Dificuldade de interpretação

(iii) O número de grupos é dependente do nível de corte;

Page 39: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Dis

tânc

ia

U.A

. 1U

.A. 2

U.A

. 3U

.A. 4

U.A

. 5 . . .U

.A. n

Page 40: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Métodos para determinação do nível de corteMétodos para determinação do nível de corte

Maximizar diferenças entre grupos

Minimizar diferenças dentro de grupos

Page 41: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Zero para quando u.a. estão em Zero para quando u.a. estão em grupos iguais definidos pelo nível grupos iguais definidos pelo nível de cortede corte

1 para quando u.a. estão em 1 para quando u.a. estão em diferentes grupos definidos pelo diferentes grupos definidos pelo nível de cortenível de corte

Nível 1

Nível 2

Bini, L. M. & Diniz Filho, J. A. F. (1995) Spectral Decomposition in cluster analysis with applications to limnological data. Acta Limnologica Brasiliensia, 7: 35-40.

Page 42: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Matriz Modelo(Nível de corte 1)

Matriz Modelo(Nível de corte 2)

Matriz de distânciaOriginal

Nível de Corte

CC

C

Page 43: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

(v) Mesmo com um conjunto aleatório de dados é possível encontrar “grupos”.

B

I

F

E

G

D

J

H

C

A

u.a. Y1 Y2A 0 0.2B -1 -2C -0 -0D 0.7 0.3E 0 1.4F 1.8 -0G 1.4 0.9H -1 -0I 0.9 -1J -0 0.3

Page 44: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

“Model-based” Clustering: STRUCTURE

-Pressupostos (H-W, equilibrio de ligação)

-Maximizar a probabilidade de individuos pertencerem a grupos (que são desconhecidos)

-Vários dados (marcadores) e modelos de evolução

-Associar com outras caracteristicas dos individuos (inclusive “espaço”)

- Abordagem Bayesiana (MCMC)

Page 45: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

0 5 10 15 20 25K

-11000

-10000

-9000

-8000

P_

DK

--------------------------------------------Estimated Ln Prob of Data = -8723.8Mean value of ln likelihood = -8313.4Variance of ln likelihood = 820.8Mean value of alpha = 0.0405

Page 46: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem
Page 47: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Subp. Local de coleta

1 Cocalinho-MT

2 Água Boa-MT

3 Pirenópolis-GO

4 Sonora-MS

5 Alcinópolis-MS

6 Alvorada-TO

7 São Miguel do Araguaia-GO

8 Luziânia-GO

9 Icém-SP

10 Monte Alegre de Minas-MG

11 Estrela do Norte-GO

12 Santa Terezinha-GO

13 Arinos-MG

14 Pintópolis-MG

15 Paraíso-MS (Chapadão do Sul)

16 Paraíso/Camapuã-MS (Camapuã)

17 Camapuã-MS

18 Indiara-GO

19 Araguaia-MT (Barra do Garça)

20 Araguaia-GO (Aragarças)

21 Jandaia-GO

22 Natividade-TO

23 Arraias-TO

24 Aquidauana- MS

25 Cáceres- MT

CLUSTERS1 2 3 4 5 6 7 8 n BEST p2

0.026 0.01 0.078 0.012 0.753 0.03 0.073 0.017 32 5 0.5810.007 0.095 0.086 0.013 0.167 0.525 0.092 0.014 32 6 0.3290.007 0.013 0.056 0.017 0.31 0.547 0.032 0.018 32 6 0.4000.12 0.145 0.017 0.53 0.014 0.017 0.054 0.103 31 4 0.3310.069 0.692 0.018 0.081 0.012 0.056 0.023 0.05 32 2 0.4970.013 0.009 0.128 0.061 0.089 0.016 0.094 0.589 32 8 0.3840.011 0.018 0.583 0.012 0.301 0.015 0.044 0.016 32 3 0.4330.009 0.015 0.347 0.124 0.045 0.398 0.044 0.018 32 6 0.2990.009 0.032 0.232 0.59 0.034 0.024 0.051 0.029 31 3 0.4080.022 0.021 0.028 0.034 0.509 0.036 0.015 0.335 32 5 0.3760.009 0.02 0.436 0.021 0.323 0.045 0.077 0.068 12 3 0.3080.014 0.041 0.024 0.038 0.516 0.034 0.122 0.211 12 5 0.3310.008 0.01 0.011 0.014 0.058 0.024 0.854 0.021 32 7 0.7340.006 0.017 0.092 0.029 0.016 0.012 0.811 0.016 32 7 0.6680.096 0.5 0.137 0.017 0.022 0.066 0.077 0.085 13 2 0.2960.01 0.811 0.027 0.015 0.043 0.016 0.011 0.067 13 2 0.6650.015 0.807 0.061 0.063 0.011 0.013 0.014 0.017 13 2 0.6600.005 0.145 0.058 0.034 0.035 0.676 0.01 0.036 13 6 0.4850.018 0.157 0.173 0.183 0.03 0.348 0.043 0.048 27 6 0.2150.018 0.285 0.068 0.09 0.03 0.129 0.025 0.356 37 8 0.2390.011 0.014 0.389 0.104 0.063 0.356 0.014 0.049 32 3 0.2960.007 0.008 0.81 0.036 0.019 0.022 0.012 0.086 12 3 0.6660.009 0.009 0.667 0.142 0.1 0.024 0.021 0.028 15 3 0.4770.033 0.049 0.171 0.484 0.061 0.139 0.047 0.016 31 4 0.2920.94 0.008 0.007 0.009 0.007 0.005 0.008 0.014 30 1 0.884

Page 48: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Subp. Local de coleta

1 Cocalinho-MT

2 Água Boa-MT

3 Pirenópolis-GO

4 Sonora-MS

5 Alcinópolis-MS

6 Alvorada-TO

7 São Miguel do Araguaia-GO

8 Luziânia-GO

9 Icém-SP

10 Monte Alegre de Minas-MG

11 Estrela do Norte-GO

12 Santa Terezinha-GO

13 Arinos-MG

14 Pintópolis-MG

15 Paraíso-MS (Chapadão do Sul)

16 Paraíso/Camapuã-MS (Camapuã)

17 Camapuã-MS

18 Indiara-GO

19 Araguaia-MT (Barra do Garça)

20 Araguaia-GO (Aragarças)

21 Jandaia-GO

22 Natividade-TO

23 Arraias-TO

24 Aquidauana- MS

25 Cáceres- MT

Page 49: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

grupoCase: 21 Longitude: -50.201 Latitude: -16.912 grupo: 3

8

7.5

7

6.5

6

5.5

5

4.5

4

3.5

3

2.5

2

1.5

1

p2Case: 18 Longitude: -49.973 Latitude: -17.162 p2: 0.485

0.880.860.840.820.8

0.780.760.740.720.7

0.680.660.640.620.6

0.580.560.540.520.5

0.480.460.440.420.4

0.380.360.340.320.3

0.280.260.240.22

Page 50: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

grupoCase: 20 Longitude: -52.158 Latitude: -15.948 grupo: 8

8

7.5

7

6.5

6

5.5

5

4.5

4

3.5

3

2.5

2

1.5

1

1

4

42

8

8 3

3

5

6

6

3

3

5

7

6

Os 8 grupos do STRUCTURE no espaço geográfico

Page 51: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem
Page 52: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem
Page 53: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

grupoCase: 20 Longitude: -52.158 Latitude: -15.948 grupo: 8

8

7.5

7

6.5

6

5.5

5

4.5

4

3.5

3

2.5

2

1.5

1

1

4

42

8

8 3

3

5

6

6

3

3

5

7

6

Page 54: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

grupoCase: 20 Longitude: -52.158 Latitude: -15.948 grupo: 8

8

7.5

7

6.5

6

5.5

5

4.5

4

3.5

3

2.5

2

1.5

1

1

4

42

8

8 3

3

5

6

6

3

3

5

7

6

Page 55: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

1

4

2

8

8 3

3

5

6

6

3

3

5

7

6

1

4 2

8

75

36

Page 56: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

1

4

42

8

8 3

3

5

6

6

3

3

5

7

6

1

4 2

8

75

36

Page 57: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

TÈCNICAS DE ORDENAÇÃO

Representar a variação p-dimensional em um espaço (eixos) contínuo que “compacte” essa variação variação em um numero com m > p de dimensões (normalmente 1, 2 ou 3)

Page 58: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Hotteling, H. 1933. Analysis of a complex of statistical variables into principal componentes. Journal of Educational Psychology. v. 24, p. 417-441.

MAPAS SINTÉTICOS baseados em Análise de Componentes Principais (ACP)

-Eliminar estrutura de correlação entre variáveis transformando-as em eixos ortogonais (os componentes principais);

-Interpretar os eixos principais como conseqüência de processos microevolutivos.

Page 59: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

CP 1

CP 2

CP3

X1

X2

X3

Em resumo, na ACP três matrizes são importantes1) Autovalores – importância de cada eixo;2) Autovetores – coeficientes das variáveis nos eixos;3) Escores – componentes principais (eixo)

Page 60: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Análise de Componentes Principais (PCA)(Principal Component Analysis)

Pearson, K. 1901. On lines and planes of closest fit to a system of points in space. Phylosophical magazine. v. 2, p. 557-572.

Hotteling, H. 1933. Analysis of a complex of statistical variables into principal componentes. Journal of Educational Psychology. v. 24, p. 417-441.

Etapas:

-Interpretação geométrica;

-Procedimentos matemáticos;

-Interpretação de dados reais;

-Aplicações

Page 61: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

pp XaXaXaZ 12121111 ...

Matematicamente, o objetivo da PCA é encontrar uma combinação linear de variáveis de tal forma que a variância entre os indivíduos seja a maior possível (1o componente principal):

Os coeficientes a são os autovetores. São obtidos de tal forma a maximizar a variância de Z1 (var(Z1)), com a seguinte condição:

1... 21

212

211 paaa

Esta condição garante que a var(Z1) não aumente com a simples adição de qualquer um dos valores de a1j .

Page 62: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

O segundo componente principal:

pp XaXaXaZ 22221212 ...É calculado de tal forma que a var(Z2) seja a maior possível (a segunda principal direção da variância). A mesma condição anterior é requerida:

1... 22

222

221 paaa

Além disso, estes autovetores são calculados de tal maneira que Z2 não seja correlacionado com Z1 (componentes independentes).

Page 63: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

X1

X2

X1

X2

X1

X2

Eixos independentes ou ortogonais:

Page 64: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

O terceiro componente principal:

pp XaXaXaZ 32321313 ...

É calculado de tal forma que a var(Z3) seja a maior possível. A mesma condição anterior é requerida:

1... 23

232

231 paaa

Além disso, estes autovetores são calculados de tal maneira que Z3 não seja correlacionado com Z2 e Z1 (componentes independentes).

Page 65: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Por exemplo, se temos 5 variáveis podemos extrair 5 componentes principais, tal como definido anteriormente.

De forma mais geral, o número possível de componente é igual a p (variáveis).

No entanto, como foi demonstrado, sucessivos componentes principais apresentam uma variância cada vez menor. Esse resultado será útil para a redução da dimensionalidade dos dados.

Page 66: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

As variâncias dos componentes principais são os autovalores () de uma matriz de covariância ou correlação (com dados previamente estandardizados).

ppiiii XaXaXaZ ...2211

iλ)var( iZOs autovetores (a) são os coeficientes das combinações lineares e informam quais as variáveis que apresentam o maior poder de discriminação das u.a. (maximizam a dispersão das unidades amostrais ao longo do espaço).

Page 67: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

CP 1

CP 2

CP3

X1

X2

X3

Page 68: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Autovalores e Autovetores

Y1 Y2 Y3 Y4 Y5

Y1

Y2 1

Y3 2 5

Y4 3 6 8

Y5 4 7 9 10 . . .

Ca = a

C =

Page 69: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Autovalores e Autovetores

Y1 Y2 Y3 Y4 Y5

Y1

Y2 1

Y3 2 5

Y4 3 6 8

Y5 4 7 9 10 . . .

Ra = a

R =

Page 70: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

X1 X2 X1P X2Pu1 2 0 -0.24 -0.63u2 5 3 0.47 0.32u3 5 4 0.47 0.63u4 3 2 0.00 0.00u5 0 1 -0.71 -0.32

Exemplo numérico

182,0

82,01R

Matriz de correlação entre variáveis:

Page 71: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

(R-I)a=0

Cuja equação característica:

|R- I|=0

Page 72: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

01820

8201

0

0

1820

8201

10

01

1820

8201

λ,

λ

λ

,

,

λ,

,λ IR

Page 73: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

)(-)( bcaddc

ba

Determinante de uma matriz 2 x 2:

0λ182,0

82,0λ1

033,0λ2λ

)82,0(λ)1(2

22

o primeiro termo ao quadrado,

menos duas vezes o produto dos dois termos mais o quadrado do

segundo)

Page 74: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

ac4b

a2bλ

2

033,0λ2λ2

18,02

64.12λ

82,12

64.12λ

2

64.12

2

)33,0(4)2(2λ

2

II

I(Ignore o sinal)

(Ignore o sinal)

a b c

Page 75: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

% de explicação do CP 1

= I/ = 1,82/2 = 91 %

% de explicação do CP 2

= II/ = 0,18/2 = 9 %

Total = 100 %

Page 76: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Autovetores:

Ra = a

I,2

I,1

I,2

I,1

a

a82,1

a

a

182,0

82,01

O autovetor associado com I=1,82 é:

III

III

aaa

aaa

,2,2,1

,1,2,1

82,1182,0

82,182,01

Page 77: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

082,10,182,0

082,082,10,1

,2,2,1

,2,1,1

III

III

aaa

aaaArranjando:

082,082,0

082,082,0

,2,1

,2,1

II

II

aa

aa

Para resolver essa equação, o valor a1,I é, arbitrariamente, fixado como 1 e o resultado de a2,I é encontrado:

Page 78: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

82,0a82,0

82,0a82,0

I,2

I,2

Para resolver essa equação, 0 valor a1,I é, arbitrariamente, fixado como 1 e o resultado de a2,I é encontrado:

Assim, a2,1= 1

1

1a I

Assim, o autovetor associado com o 1 é:

Page 79: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

1

1a II

Similarmente, para 2 :

Page 80: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

1aa 22i

21i

Para que a condição :

seja atendida, o autovetor deve ser normalizado através de um fator, dado por:

p

qiq

i

a

k

1

1

Posteriormente, cado autovetor é multiplicado pelo seu respectivo fator:

707,011

122I

k

707,011

122II

k

Page 81: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

707,0

707,0

1

1707,0a

707,0

707,0

1

1707,0a

II

I

Note que: 1aa 22i

21i

Page 82: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

De posse dos autovetores podemos criar as combinações lineares e, deste modo, encontrar os escores das unidades amostrais através da substituição das variáveis originais nestas combinações lineares:

X1P X2Pu1 -0.24 -0.63u2 0.47 0.32u3 0.47 0.63u4 0.00 0.00u5 -0.71 -0.32

212

211

707,0707,0

707,0707,0

XXZ

XXZ

28.0)63,0(707,0)24,0)(707,0(

62,0)63,0(707,0)24,0)(707,0(

2

1

Z

Z

Page 83: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Para as demais unidades amostrais

X1P X2P Z 1 Z 2

u1 -0.24 -0.63 -0.62 -0.28u2 0.47 0.32 0.56 -0.11u3 0.47 0.63 0.78 0.11u4 0.00 0.00 0.00 0.00u5 -0.71 -0.32 -0.73 0.28

212

211

707,0707,0

707,0707,0

XXZ

XXZ

Page 84: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Z 1

Z2

U.1

U.2

U.3

U.5

-0.5-0.4-0.3-0.2-0.10.00.10.20.30.40.5

-1.0 -0.6 -0.2 0.2 0.6 1.0

U.4

Escores = posição das novas u.a. nas novas variáveis denominadas CPs

Page 85: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

A correlação (“loading”, coeficiente de estrutura) das variáveis originais com os componentes é dada pela correlação linear de Pearson entre as variáveis originais e os escores ou:

iii ar λ

30,0

30,018,0

707,0

707,0

95,0

95,082,1

707,0

707,0

II

I

r

r

Page 86: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Z1

U.1

U.2

U.3

U.5

X1

X2

-0.5-0.4-0.3-0.2-0.10.00.10.20.30.40.5

-1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4

u.a.

variáveis

U.4

Page 87: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Para a realização da PCA, em conjuntos reais de dados, p deve ser sempre maior que 3, para fins de ordenação e redução da dimensionalidade dos dados (com 3 dimensões basta fazer um diagrama tridimensional).

Deste modo, quando p >>> 3, por exemplo, p = 10, é possível obter 10 combinações lineares. Assim, é necessário um critério de parada.

Em outras palavras, precisamos de um critério para verificar quais são os componentes principais interpretáveis.

Se interpretamos um número muito grande de componente voltamos para o problema da análise univariada e não conseguimos o objetivo principal: redução da dimensionalidade do problema.

Page 88: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Critérios de Parada

Jackson, D. A. 1993. Stopping rules in principal components analysis: a comparison of heuristical and statistical approaches. Ecology 74:2204-2214.

-Critério de Kaiser-Guttman ( > 1);

-Proporção da variância total (e.g. 95%);

-”Scree plot”;

-Teste de esferecidade de Bartlett;

-Modelo de Broken-Stick;

Page 89: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Regras de Parada: Scree plot

Ordem dos componentes

Au

tova

lore

s

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

0 1 2 3 4 5 6

Os componentes “residuais” tendem a estar em uma linha reta.

Assim, neste exemplo, somente o 1o CP seria interpretável.

Page 90: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

CP 1

CP 2

CP3

X1

X2

X3

Regras de Parada: Esferidade de Bartlett

Page 91: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Regras de Parada: Broken Stick

Ordem dos componentes

Au

tova

lore

s

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

0 1 2 3 4 5 6

Broken-Stick

Observado

Page 92: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Um exemplo clássico...

Considerem os dados obtidos por Bumpus (1898):

-49 pardais (21 vivos e 29 mortos, após uma tempestade);-5 medidas morfométricas (landmarks);

X1 X2 X3 X4 X5X1 1X2 0.73 1X3 0.66 0.67 1X4 0.65 0.77 0.76 1X5 0.61 0.53 0.53 0.61 1

Passer domesticus

Page 93: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

***** PRINCIPAL COMPONENTS ANALYSIS -- pardais in medidas space **********

PC-ORD, Version 3.0

VARIANCE EXTRACTED, FIRST 5 AXES

---------------------------------------------------------------

Broken-stick

AXIS Eigenvalue % of Variance Cum.% of Var. Eigenvalue

---------------------------------------------------------------

1 3.616 72.320 72.320 2.283

2 .532 10.630 82.950 1.283

3 .386 7.728 90.678 .783

4 .302 6.031 96.709 .450

5 .165 3.291 100.000 .200

---------------------------------------------------------------

***** PRINCIPAL COMPONENTS ANALYSIS -- pardais in medidas space **********

PC-ORD, Version 3.0

VARIANCE EXTRACTED, FIRST 5 AXES

---------------------------------------------------------------

Broken-stick

AXIS Eigenvalue % of Variance Cum.% of Var. Eigenvalue

---------------------------------------------------------------

1 3.616 72.320 72.320 2.283

2 .532 10.630 82.950 1.283

3 .386 7.728 90.678 .783

4 .302 6.031 96.709 .450

5 .165 3.291 100.000 .200

---------------------------------------------------------------

Page 94: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Latent Vectors (Eigenvectors)

1 2 3 4 5

X1 0.452 -0.051 -0.690 -0.420 -0.374

X2 0.462 0.300 -0.341 0.548 0.530

X3 0.451 0.325 0.454 -0.606 0.343

X4 0.471 0.185 0.411 0.388 -0.652

X5 0.398 -0.876 0.178 0.069 0.192

542211 389,0471,0451.0462.0452.0 XXXXXZ

Page 95: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Factor 1

Fac

tor

2

X1

X2X3X4

X5

-0.3

-0.1

0.1

0.3

0.5

0.7

0.9

0.6

0

0.6

4

0.6

8

0.7

2

0.7

6

0.8

0

0.8

4

0.8

8

0.9

2

0.9

6

1.0

0

Page 96: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

CP 1

CP

2

-3

-2

-1

0

1

2

3

4

5

-3 -2 -1 0 1 2 3

vivosmortos

Eixo de tamanho (72,3 %)

Seleção estabilizadora?

Page 97: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem
Page 98: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem
Page 99: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem
Page 100: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem
Page 101: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Nature Genetics 35: 311-313, 2003

Page 102: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem
Page 103: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem
Page 104: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Dados do Baru (1 locus – DA20)

Page 105: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem
Page 106: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

Principal Component 1Case: 14 Longitude: -45.166 Latitude: -16.061 Principal Component 1: 2.309

Principal Component 2Case: 23 Longitude: -46.863 Latitude: -12.99 Principal Component 2: -0.939

Page 107: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

OUTRAS TÉCNICAS DE ORDENAÇÃO

ANALISE DE COORDENADAS PRINCIPAIS(PCOA)

- resolve o problema do PCA de poucas populações, pois extrai os autovetores de uma matriz de distâncias (transformada)

- Pode utilizar qualquer métrica de distância (incluindo distancias de Nei, FST, etc)

ESCALONAMENTO MULTIDIMENSIONAL NÃO-MÉTRICO (NMDS)

-Técnica de otimização não-linear para espaço com m dimensões (medida de “stress”)

-Pode iniciar com a PCOA e melhorar a configuração

Page 108: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

PCOACCC = 0.907

NMDSFinal STRESS1 = 0.07954CCC = 0.968

Page 109: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem
Page 110: GENÉTICA GEOGRÁFICA:  Estatistica  Espacial em Genética de Populações e da Paisagem

PCOACCC = 0.907

NMDSFinal STRESS1 = 0.07954CCC = 0.968