genÉtica geogrÁfica: estatistica espacial em genética de populações e da paisagem

GENÉTICA GEOGRÁFICA: GENÉTICA GEOGRÁFICA:

Estatistica Espacial em Genética de Estatistica Espacial em Genética de Populações e da PaisagemPopulações e da Paisagem

JOSÉ ALEXANDRE FELIZOLA DINIZ FILHOJOSÉ ALEXANDRE FELIZOLA DINIZ FILHOLABORATORIO DE ECOLOGIA TEÓRICA & SÍNTESE

Departamento de Ecologia, ICB,Universidade Federal de Goiás, Brasil

([email protected])

Ecologia & Genética

ESPACIALMENTE IMPLICITAS

ABORDAGENS ESPACIAIS

ESPACIALMENTE EXPLICITAS

Relação genética entre as populações

FST (e estatísticas relacionadas) par-a-par

Distâncias genéticas

Outras matrizes de similaridade

Matriz quadrada (n * n), simétrica e com zero na diagonal principal

http://www.uwyo.edu/dbmcd/molmark/gendisteqns.pdf

Masatoshi Nei

D = -ln (I)

Where

I = Σxiyi / (Σxi2 Σyi

2)0.5

A identidade de Nei é, portanto, a correlação de Pearson entre as populações “ao longo” das frequencias alélicas...

Nei’s genetic distances

Wright’s FST

Análise de Variância de Frequencias Alélicas (P)

AMOVA RST

Holsinger’s Bayesian ST

GST

QST (fenótipo)

Valores “par-a-par” (n * n,

simétrica)

Distância Euclidiana (ca. distância de Rogers 1972)

p

kjkikij xxd

1

2)(

ddiijj

Alelo XAlelo X22

Alelo XAlelo X11

XXjj22

XXi2i2

XXi1i1 XXjj11

ii

jj

})(){( 222

211 jijiij xxxxd

Quando existem apenas dois descritores, essa equação resulta no valor da hipotenusa:

população

população

A distância Euclidiana não apresenta um limite superior, ou seja, o valor aumenta indefinidamente com o aumento do número de descritores. Assim, podemos calcular a distância Euclidiana média:

p

kBkAkAB pxxd

1

2 /)(

A distância de Rogers usa p = 2

p

jj

p

jj

p

jjj

yy

yy

C

1

22

1

21

121

)2,1( 12

Cavalli-Sforza’s & Edward (1967) chord distance

Populations are conceptualised as existing as points in a m-dimensional Euclidean space which are specified by m allele frequencies (i.e. m equals the total number of alleles in both populations).

Nei Distance Matrix1.0510.950.90.850.80.750.70.650.60.550.50.450.40.350.3

Cho

rd D

ista

nce

Mat

rix

Nei Distance Matrix1.71.61.51.41.31.21.110.90.80.70.60.5

Rog

ers

Dis

tanc

e M

atrix

Coeficientes de SIMILARIDADE para dados binários

Transformar frequencias alélicas em dados 0/1 (ou seja, presença ou ausência do alelo ou haplótipo)

1 01 a b a +b0 c d c +d

a +c b +d

Po

pula

ção

1

População 2

Tabela de Freqüência 2 X 2

Uma maneira simples de calcular a similaridade entre os dois objetos envolve a contagem dos números de descritores que codificam estes objetos do mesmo modo e a posterior divisão pelo número total de descritores p (a+b+c+d):

p

daS

1

S1 = Coincidência simples (“simple matching”)

1 01 a b a +b0 c d c +d

a +c b +d

Y 1 Y 2 Y 3 Y 4 Y 5 Y 6 Y 7 Y 8 Y 9 Y 10

Local A 1 1 0 1 0 1 1 0 0 1Local B 1 0 0 1 0 1 1 1 0 0

A4 1 5

B 2 3 56 4 10

1 01 a b a +b0 c d c +d

a +c b +d

7,010

341

S

(0 = baixa similaridade e 1 = alta similaridade)

p

daS

1

Coeficientes de similaridade para dados binários: modo Q (Coeficientes assimétricos)

cba

aS

7

cba

aS

2

28

JaccardJaccard

SSøørensenrensen

1 01 a b a +b0 c d c +d

a +c b +d

A idéia é desdobrar a (dis)similaridade em diferentes componentes, incluindo turnover e riqueza de alelos

“Turnover” (substituição)

Riqueza alélica

Para o Baru, o componente de turnover representa 69% da similaridade, mas o interessante é que apenas o componente de riqueza possui padrão espacial

[n (n – 1)/2] valores

(e.g. se n = 25 300 valores)

E agora, José?

Com n objetos (unidades amostrais) vamos ter uma matriz com:

Como podemos representar eficientemente o padrão de similaridade entre esses objetos?

As relações entre as n populações estão definidas em um espaço p-dimensional (onde p é o numero de alelos)

A B C D E FA 0.00B 0.67 0.00C 1.41 0.74 0.00D 2.12 1.47 0.77 0.00E 0.79 0.67 1.09 1.62 0.00F 2.49 1.84 1.13 0.37 1.96 0.00

e.g., Quais as relações entre os 6 objetos a partir dessa matriz de distancias?

Agrupamento & Ordenações

Classificação das técnicas de agrupamentos

Algumas propriedades das técnicas:

Aglomerativos: Os grupos são formados, sucessivamente, até reunir todos os objetos em um único grande grupo, ou;

Divisivos: Subdivide os grupos até o isolamento de cada objeto (e.g. chaves de taxonomia);

Hierárquicos: elementos de um determinado grupo são agrupados dentro de grupos em níveis maiores, ou;

Não-hierárquicos: Produzem uma única divisão que maximiza a homogeneidade dentro de grupos;

Dis

tânc

ia

U.A

. 1U

.A. 2

U.A

. 3U

.A. 4

U.A

. 5 . . .U

.A. n

B(n x p )

T(n x p )

S(n x n )

C(n x n )

Y 2

Y1

i

j

Distância (D i,j )

C.C.C.

Análise de ClassificaçãoAnálise de ClassificaçãoAnálise de Agrupamentos (SAHN)Análise de Agrupamentos (SAHN)

Vários métodos de agrupamento: métodos de agrupamento:

Aplicação da técnica de agrupamento:Construção do dendrograma

A B C D E FA 0.00B 0.67 0.00C 1.41 0.74 0.00D 2.12 1.47 0.77 0.00E 0.79 0.67 1.09 1.62 0.00F 2.49 1.84 1.13 0.37 1.96 0.00

(método médias das distâncias, UPGMA)

Primeiro passo:Primeiro passo:Unir D e F (0,37)Unir D e F (0,37)

DD FF

0,370,37

Distância de Distância de ligaçãoligação

A B C EB 0.67C 1.41 0.74E 0.79 0.67 1.09

DF 2.30 1.66 0.95 1.79

Segundo passo:Segundo passo:Calcular as distância em relação ao novo grupoCalcular as distância em relação ao novo grupo

A B C D E FA 0.00B 0.67 0.00C 1.41 0.74 0.00D 2.12 1.47 0.77 0.00E 0.79 0.67 1.09 1.62 0.00F 2.49 1.84 1.13 0.37 1.96 0.00

E assim, E assim, sucessivamente, sucessivamente, para esta linhapara esta linha

Neste ponto, Neste ponto, vamos verificar vamos verificar qual o par com qual o par com menor distânciamenor distância

(2,12+2,49)/2(2,12+2,49)/2

Terceiro passo:Terceiro passo:Unir A e B (0,67)Unir A e B (0,67)

DD FF


AA BB

C E DFE 1.09

DF 0.95 1.79AB 1.08 0.73 1.98

Quarto passo:Quarto passo:Calcular as distância em relação ao novo grupoCalcular as distância em relação ao novo grupo

A B C D E FA 0.00B 0.67 0.00C 1.41 0.74 0.00D 2.12 1.47 0.77 0.00E 0.79 0.67 1.09 1.62 0.00F 2.49 1.84 1.13 0.37 1.96 0.00

Vamos agrupar:Vamos agrupar:(E) com (AB)(E) com (AB)

98,14/)84,149,247,112,2(d

4/),(),(),(),(d

AB)(DF,

AB)(DF,

BFdAFDBDdADd

Quinto passo:Quinto passo:Unir E e AB (0,73)Unir E e AB (0,73)

DD FF


AA BB EE

Demais passos:Demais passos:Calcular as distância em relação ao novo grupoCalcular as distância em relação ao novo grupo

C DFDF 0.95

ABE 1.08 1.92

DD FFAA BB EE CC

CDFABE 1.64

Agrupar (CDF) com (ABE)Agrupar (CDF) com (ABE)

Shortcut to ABE x CDF.lnk

Resultado do NTSYS

Para os dados das 25 populações de Baru (UPGMA), a partir do FST par-a-par...

?

Subp. Local de coleta

1 Cocalinho-MT

2 Água Boa-MT

3 Pirenópolis-GO

4 Sonora-MS

5 Alcinópolis-MS

6 Alvorada-TO

7 São Miguel do Araguaia-GO

8 Luziânia-GO

9 Icém-SP

10 Monte Alegre de Minas-MG

11 Estrela do Norte-GO

12 Santa Terezinha-GO

13 Arinos-MG

14 Pintópolis-MG

15 Paraíso-MS (Chapadão do Sul)

16 Paraíso/Camapuã-MS (Camapuã)

17 Camapuã-MS

18 Indiara-GO

19 Araguaia-MT (Barra do Garça)

20 Araguaia-GO (Aragarças)

21 Jandaia-GO

22 Natividade-TO

23 Arraias-TO

24 Aquidauana- MS

25 Cáceres- MT

VISUALIZANDO OS PADRÕES NO ESPAÇO...

Dis

tânc

ia

U.A

. 1U

.A. 2

U.A

. 3U

.A. 4

U.A

. 5 . . .U

.A. n

B(n x p )

T(n x p )

S(n x n )

C(n x n )

Y 2

Y1

i

j

Distância (D i,j )

C.C.C.

O dendrograma representa adequadamente a matriz de distância original?

Matriz CofenéticaMatriz Cofenética

A B C D E FAB 0.67C 1.64 1.64D 1.64 1.64 0.95E 0.73 0.73 1.64 1.64F 1.64 1.64 0.95 0.37 1.64

A B C D E FAB 0.67C 1.41 0.74D 2.12 1.47 0.77E 0.79 0.67 1.09 1.62F 2.49 1.84 1.13 0.37 1.96

Matriz OriginalMatriz Original

n

YY

n

XX

n

YXYX

ri

ii

i

iiii

22

22 )()( CCC=0,75

Bom ou Ruim?Bom ou Ruim?

Coeficiente de Correlação Cofenética CCC)

Diagrama de Shepard: diagrama de dispersão que relaciona distâncias em um espaço com dimensão reduzida com a distâncias originais (mais adequado para técnicas de ordenação):

No caso do Baru, o CCC foi igual a 0.845

(i) Resultados são dependentes dos protocolos utilizados;

Problemas com a Análise de AgrupamentosProblemas com a Análise de Agrupamentos

Distância EuclidianaUPGMA

7 6 5 4 3 2 1

Distância EuclidianaWPGMA

7 4 6 5 3 2 1

(ii) discretizar um processo que pode ser, na verdade, contínuo, de modo que;

(iv) Dificuldade de interpretação

(iii) O número de grupos é dependente do nível de corte;

Dis

tânc

ia

U.A

. 1U

.A. 2

U.A

. 3U

.A. 4

U.A

. 5 . . .U

.A. n

Métodos para determinação do nível de corteMétodos para determinação do nível de corte

Maximizar diferenças entre grupos

Minimizar diferenças dentro de grupos

Zero para quando u.a. estão em Zero para quando u.a. estão em grupos iguais definidos pelo nível grupos iguais definidos pelo nível de cortede corte

1 para quando u.a. estão em 1 para quando u.a. estão em diferentes grupos definidos pelo diferentes grupos definidos pelo nível de cortenível de corte

Nível 1

Nível 2

Bini, L. M. & Diniz Filho, J. A. F. (1995) Spectral Decomposition in cluster analysis with applications to limnological data. Acta Limnologica Brasiliensia, 7: 35-40.

Matriz Modelo(Nível de corte 1)

Matriz Modelo(Nível de corte 2)

Matriz de distânciaOriginal

Nível de Corte

CC

C

(v) Mesmo com um conjunto aleatório de dados é possível encontrar “grupos”.

B

I

F

E

G

D

J

H

C

A

u.a. Y1 Y2A 0 0.2B -1 -2C -0 -0D 0.7 0.3E 0 1.4F 1.8 -0G 1.4 0.9H -1 -0I 0.9 -1J -0 0.3

“Model-based” Clustering: STRUCTURE

-Pressupostos (H-W, equilibrio de ligação)

-Maximizar a probabilidade de individuos pertencerem a grupos (que são desconhecidos)

-Vários dados (marcadores) e modelos de evolução

-Associar com outras caracteristicas dos individuos (inclusive “espaço”)

- Abordagem Bayesiana (MCMC)

0 5 10 15 20 25K

-11000

-10000

-9000

-8000

P_

DK

--------------------------------------------Estimated Ln Prob of Data = -8723.8Mean value of ln likelihood = -8313.4Variance of ln likelihood = 820.8Mean value of alpha = 0.0405


1 Cocalinho-MT

2 Água Boa-MT

3 Pirenópolis-GO

4 Sonora-MS

5 Alcinópolis-MS

6 Alvorada-TO


8 Luziânia-GO

9 Icém-SP




13 Arinos-MG

14 Pintópolis-MG



17 Camapuã-MS

18 Indiara-GO



21 Jandaia-GO

22 Natividade-TO

23 Arraias-TO

24 Aquidauana- MS

25 Cáceres- MT

CLUSTERS1 2 3 4 5 6 7 8 n BEST p2

0.026 0.01 0.078 0.012 0.753 0.03 0.073 0.017 32 5 0.5810.007 0.095 0.086 0.013 0.167 0.525 0.092 0.014 32 6 0.3290.007 0.013 0.056 0.017 0.31 0.547 0.032 0.018 32 6 0.4000.12 0.145 0.017 0.53 0.014 0.017 0.054 0.103 31 4 0.3310.069 0.692 0.018 0.081 0.012 0.056 0.023 0.05 32 2 0.4970.013 0.009 0.128 0.061 0.089 0.016 0.094 0.589 32 8 0.3840.011 0.018 0.583 0.012 0.301 0.015 0.044 0.016 32 3 0.4330.009 0.015 0.347 0.124 0.045 0.398 0.044 0.018 32 6 0.2990.009 0.032 0.232 0.59 0.034 0.024 0.051 0.029 31 3 0.4080.022 0.021 0.028 0.034 0.509 0.036 0.015 0.335 32 5 0.3760.009 0.02 0.436 0.021 0.323 0.045 0.077 0.068 12 3 0.3080.014 0.041 0.024 0.038 0.516 0.034 0.122 0.211 12 5 0.3310.008 0.01 0.011 0.014 0.058 0.024 0.854 0.021 32 7 0.7340.006 0.017 0.092 0.029 0.016 0.012 0.811 0.016 32 7 0.6680.096 0.5 0.137 0.017 0.022 0.066 0.077 0.085 13 2 0.2960.01 0.811 0.027 0.015 0.043 0.016 0.011 0.067 13 2 0.6650.015 0.807 0.061 0.063 0.011 0.013 0.014 0.017 13 2 0.6600.005 0.145 0.058 0.034 0.035 0.676 0.01 0.036 13 6 0.4850.018 0.157 0.173 0.183 0.03 0.348 0.043 0.048 27 6 0.2150.018 0.285 0.068 0.09 0.03 0.129 0.025 0.356 37 8 0.2390.011 0.014 0.389 0.104 0.063 0.356 0.014 0.049 32 3 0.2960.007 0.008 0.81 0.036 0.019 0.022 0.012 0.086 12 3 0.6660.009 0.009 0.667 0.142 0.1 0.024 0.021 0.028 15 3 0.4770.033 0.049 0.171 0.484 0.061 0.139 0.047 0.016 31 4 0.2920.94 0.008 0.007 0.009 0.007 0.005 0.008 0.014 30 1 0.884


1 Cocalinho-MT

2 Água Boa-MT

3 Pirenópolis-GO

4 Sonora-MS

5 Alcinópolis-MS

6 Alvorada-TO


8 Luziânia-GO

9 Icém-SP




13 Arinos-MG

14 Pintópolis-MG



17 Camapuã-MS

18 Indiara-GO



21 Jandaia-GO

22 Natividade-TO

23 Arraias-TO

24 Aquidauana- MS

25 Cáceres- MT

grupoCase: 21 Longitude: -50.201 Latitude: -16.912 grupo: 3

8

7.5

7

6.5

6

5.5

5

4.5

4

3.5

3

2.5

2

1.5

1

p2Case: 18 Longitude: -49.973 Latitude: -17.162 p2: 0.485

0.880.860.840.820.8

0.780.760.740.720.7

0.680.660.640.620.6

0.580.560.540.520.5

0.480.460.440.420.4

0.380.360.340.320.3

0.280.260.240.22


8

7.5

7

6.5

6

5.5

5

4.5

4

3.5

3

2.5

2

1.5

1

1

4

42

8

8 3

3

5

6

6

3

3

5

7

6

Os 8 grupos do STRUCTURE no espaço geográfico


8

7.5

7

6.5

6

5.5

5

4.5

4

3.5

3

2.5

2

1.5

1

1

4

42

8

8 3

3

5

6

6

3

3

5

7

6

1

4

2

8

8 3

3

5

6

6

3

3

5

7

6

1

4 2

8

75

36

1

4

42

8

8 3

3

5

6

6

3

3

5

7

6

1

4 2

8

75

36

TÈCNICAS DE ORDENAÇÃO

Representar a variação p-dimensional em um espaço (eixos) contínuo que “compacte” essa variação variação em um numero com m > p de dimensões (normalmente 1, 2 ou 3)

Hotteling, H. 1933. Analysis of a complex of statistical variables into principal componentes. Journal of Educational Psychology. v. 24, p. 417-441.

MAPAS SINTÉTICOS baseados em Análise de Componentes Principais (ACP)

-Eliminar estrutura de correlação entre variáveis transformando-as em eixos ortogonais (os componentes principais);

-Interpretar os eixos principais como conseqüência de processos microevolutivos.

CP 1

CP 2

CP3

X1

X2

X3

Em resumo, na ACP três matrizes são importantes1) Autovalores – importância de cada eixo;2) Autovetores – coeficientes das variáveis nos eixos;3) Escores – componentes principais (eixo)

Análise de Componentes Principais (PCA)(Principal Component Analysis)

Pearson, K. 1901. On lines and planes of closest fit to a system of points in space. Phylosophical magazine. v. 2, p. 557-572.

Hotteling, H. 1933. Analysis of a complex of statistical variables into principal componentes. Journal of Educational Psychology. v. 24, p. 417-441.

Etapas:

-Interpretação geométrica;

-Procedimentos matemáticos;

-Interpretação de dados reais;

-Aplicações

pp XaXaXaZ 12121111 ...

Matematicamente, o objetivo da PCA é encontrar uma combinação linear de variáveis de tal forma que a variância entre os indivíduos seja a maior possível (1o componente principal):

Os coeficientes a são os autovetores. São obtidos de tal forma a maximizar a variância de Z1 (var(Z1)), com a seguinte condição:

1... 21

212

211 paaa

Esta condição garante que a var(Z1) não aumente com a simples adição de qualquer um dos valores de a1j .

O segundo componente principal:

pp XaXaXaZ 22221212 ...É calculado de tal forma que a var(Z2) seja a maior possível (a segunda principal direção da variância). A mesma condição anterior é requerida:

1... 22

222

221 paaa

Além disso, estes autovetores são calculados de tal maneira que Z2 não seja correlacionado com Z1 (componentes independentes).

X1

X2

X1

X2

X1

X2

Eixos independentes ou ortogonais:

O terceiro componente principal:

pp XaXaXaZ 32321313 ...

É calculado de tal forma que a var(Z3) seja a maior possível. A mesma condição anterior é requerida:

1... 23

232

231 paaa

Além disso, estes autovetores são calculados de tal maneira que Z3 não seja correlacionado com Z2 e Z1 (componentes independentes).

Por exemplo, se temos 5 variáveis podemos extrair 5 componentes principais, tal como definido anteriormente.

De forma mais geral, o número possível de componente é igual a p (variáveis).

No entanto, como foi demonstrado, sucessivos componentes principais apresentam uma variância cada vez menor. Esse resultado será útil para a redução da dimensionalidade dos dados.

As variâncias dos componentes principais são os autovalores () de uma matriz de covariância ou correlação (com dados previamente estandardizados).

ppiiii XaXaXaZ ...2211

iλ)var( iZOs autovetores (a) são os coeficientes das combinações lineares e informam quais as variáveis que apresentam o maior poder de discriminação das u.a. (maximizam a dispersão das unidades amostrais ao longo do espaço).

CP 1

CP 2

CP3

X1

X2

X3

Autovalores e Autovetores

Y1 Y2 Y3 Y4 Y5

Y1

Y2 1

Y3 2 5

Y4 3 6 8

Y5 4 7 9 10 . . .

Ca = a

C =

Autovalores e Autovetores

Y1 Y2 Y3 Y4 Y5

Y1

Y2 1

Y3 2 5

Y4 3 6 8

Y5 4 7 9 10 . . .

Ra = a

R =

X1 X2 X1P X2Pu1 2 0 -0.24 -0.63u2 5 3 0.47 0.32u3 5 4 0.47 0.63u4 3 2 0.00 0.00u5 0 1 -0.71 -0.32

Exemplo numérico

182,0

82,01R

Matriz de correlação entre variáveis:

(R-I)a=0

Cuja equação característica:

|R- I|=0

01820

8201

0

0

1820

8201

10

01

1820

8201

λ,

,λ

λ

λ

,

,

λ,

,λ IR

)(-)( bcaddc

ba

Determinante de uma matriz 2 x 2:

0λ182,0

82,0λ1

033,0λ2λ

)82,0(λ)1(2

22

o primeiro termo ao quadrado,

menos duas vezes o produto dos dois termos mais o quadrado do

segundo)

ac4b

a2bλ

2

033,0λ2λ2

18,02

64.12λ

82,12

64.12λ

2

64.12

2

)33,0(4)2(2λ

2

II

I(Ignore o sinal)

(Ignore o sinal)

a b c

% de explicação do CP 1

= I/ = 1,82/2 = 91 %

% de explicação do CP 2

= II/ = 0,18/2 = 9 %

Total = 100 %

Autovetores:

Ra = a

I,2

I,1

I,2

I,1

a

a82,1

a

a

182,0

82,01

O autovetor associado com I=1,82 é:

III

III

aaa

aaa

,2,2,1

,1,2,1

82,1182,0

82,182,01

082,10,182,0

082,082,10,1

,2,2,1

,2,1,1

III

III

aaa

aaaArranjando:

082,082,0

082,082,0

,2,1

,2,1

II

II

aa

aa

Para resolver essa equação, o valor a1,I é, arbitrariamente, fixado como 1 e o resultado de a2,I é encontrado:

82,0a82,0

82,0a82,0

I,2

I,2

Para resolver essa equação, 0 valor a1,I é, arbitrariamente, fixado como 1 e o resultado de a2,I é encontrado:

Assim, a2,1= 1

1

1a I

Assim, o autovetor associado com o 1 é:

1

1a II

Similarmente, para 2 :

1aa 22i

21i

Para que a condição :

seja atendida, o autovetor deve ser normalizado através de um fator, dado por:

p

qiq

i

a

k

1

1

Posteriormente, cado autovetor é multiplicado pelo seu respectivo fator:

707,011

122I

k

707,011

122II

k

707,0

707,0

1

1707,0a

707,0

707,0

1

1707,0a

II

I

Note que: 1aa 22i

21i

De posse dos autovetores podemos criar as combinações lineares e, deste modo, encontrar os escores das unidades amostrais através da substituição das variáveis originais nestas combinações lineares:

X1P X2Pu1 -0.24 -0.63u2 0.47 0.32u3 0.47 0.63u4 0.00 0.00u5 -0.71 -0.32

212

211

707,0707,0

707,0707,0

XXZ

XXZ

28.0)63,0(707,0)24,0)(707,0(

62,0)63,0(707,0)24,0)(707,0(

2

1

Z

Z

Para as demais unidades amostrais

X1P X2P Z 1 Z 2

u1 -0.24 -0.63 -0.62 -0.28u2 0.47 0.32 0.56 -0.11u3 0.47 0.63 0.78 0.11u4 0.00 0.00 0.00 0.00u5 -0.71 -0.32 -0.73 0.28

212

211

707,0707,0

707,0707,0

XXZ

XXZ

Z 1

Z2

U.1

U.2

U.3

U.5

-0.5-0.4-0.3-0.2-0.10.00.10.20.30.40.5

-1.0 -0.6 -0.2 0.2 0.6 1.0

U.4

Escores = posição das novas u.a. nas novas variáveis denominadas CPs

A correlação (“loading”, coeficiente de estrutura) das variáveis originais com os componentes é dada pela correlação linear de Pearson entre as variáveis originais e os escores ou:

iii ar λ

30,0

30,018,0

707,0

707,0

95,0

95,082,1

707,0

707,0

II

I

r

r

Z1

U.1

U.2

U.3

U.5

X1

X2

-0.5-0.4-0.3-0.2-0.10.00.10.20.30.40.5

-1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4

u.a.

variáveis

U.4

Para a realização da PCA, em conjuntos reais de dados, p deve ser sempre maior que 3, para fins de ordenação e redução da dimensionalidade dos dados (com 3 dimensões basta fazer um diagrama tridimensional).

Deste modo, quando p >>> 3, por exemplo, p = 10, é possível obter 10 combinações lineares. Assim, é necessário um critério de parada.

Em outras palavras, precisamos de um critério para verificar quais são os componentes principais interpretáveis.

Se interpretamos um número muito grande de componente voltamos para o problema da análise univariada e não conseguimos o objetivo principal: redução da dimensionalidade do problema.

Critérios de Parada

Jackson, D. A. 1993. Stopping rules in principal components analysis: a comparison of heuristical and statistical approaches. Ecology 74:2204-2214.

-Critério de Kaiser-Guttman ( > 1);

-Proporção da variância total (e.g. 95%);

-”Scree plot”;

-Teste de esferecidade de Bartlett;

-Modelo de Broken-Stick;

Regras de Parada: Scree plot

Ordem dos componentes

Au

tova

lore

s

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

0 1 2 3 4 5 6

Os componentes “residuais” tendem a estar em uma linha reta.

Assim, neste exemplo, somente o 1o CP seria interpretável.

CP 1

CP 2

CP3

X1

X2

X3

Regras de Parada: Esferidade de Bartlett

Regras de Parada: Broken Stick

Ordem dos componentes

Au

tova

lore

s

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

0 1 2 3 4 5 6

Broken-Stick

Observado

Um exemplo clássico...

Considerem os dados obtidos por Bumpus (1898):

-49 pardais (21 vivos e 29 mortos, após uma tempestade);-5 medidas morfométricas (landmarks);

X1 X2 X3 X4 X5X1 1X2 0.73 1X3 0.66 0.67 1X4 0.65 0.77 0.76 1X5 0.61 0.53 0.53 0.61 1

Passer domesticus

***** PRINCIPAL COMPONENTS ANALYSIS -- pardais in medidas space **********

PC-ORD, Version 3.0

VARIANCE EXTRACTED, FIRST 5 AXES

---------------------------------------------------------------

Broken-stick

AXIS Eigenvalue % of Variance Cum.% of Var. Eigenvalue

---------------------------------------------------------------

1 3.616 72.320 72.320 2.283

2 .532 10.630 82.950 1.283

3 .386 7.728 90.678 .783

4 .302 6.031 96.709 .450

5 .165 3.291 100.000 .200

---------------------------------------------------------------

***** PRINCIPAL COMPONENTS ANALYSIS -- pardais in medidas space **********

PC-ORD, Version 3.0

VARIANCE EXTRACTED, FIRST 5 AXES

---------------------------------------------------------------

Broken-stick

AXIS Eigenvalue % of Variance Cum.% of Var. Eigenvalue

---------------------------------------------------------------

1 3.616 72.320 72.320 2.283

2 .532 10.630 82.950 1.283

3 .386 7.728 90.678 .783

4 .302 6.031 96.709 .450

5 .165 3.291 100.000 .200

---------------------------------------------------------------

Latent Vectors (Eigenvectors)

1 2 3 4 5

X1 0.452 -0.051 -0.690 -0.420 -0.374

X2 0.462 0.300 -0.341 0.548 0.530

X3 0.451 0.325 0.454 -0.606 0.343

X4 0.471 0.185 0.411 0.388 -0.652

X5 0.398 -0.876 0.178 0.069 0.192

542211 389,0471,0451.0462.0452.0 XXXXXZ

Factor 1

Fac

tor

2

X1

X2X3X4

X5

-0.3

-0.1

0.1

0.3

0.5

0.7

0.9

0.6

0

0.6

4

0.6

8

0.7

2

0.7

6

0.8

0

0.8

4

0.8

8

0.9

2

0.9

6

1.0

0

CP 1

CP

2

-3

-2

-1

0

1

2

3

4

5

-3 -2 -1 0 1 2 3

vivosmortos

Eixo de tamanho (72,3 %)

Seleção estabilizadora?

Nature Genetics 35: 311-313, 2003

Dados do Baru (1 locus – DA20)

Principal Component 1Case: 14 Longitude: -45.166 Latitude: -16.061 Principal Component 1: 2.309

Principal Component 2Case: 23 Longitude: -46.863 Latitude: -12.99 Principal Component 2: -0.939

OUTRAS TÉCNICAS DE ORDENAÇÃO

ANALISE DE COORDENADAS PRINCIPAIS(PCOA)

- resolve o problema do PCA de poucas populações, pois extrai os autovetores de uma matriz de distâncias (transformada)

- Pode utilizar qualquer métrica de distância (incluindo distancias de Nei, FST, etc)

ESCALONAMENTO MULTIDIMENSIONAL NÃO-MÉTRICO (NMDS)

-Técnica de otimização não-linear para espaço com m dimensões (medida de “stress”)

-Pode iniciar com a PCOA e melhorar a configuração

PCOACCC = 0.907

NMDSFinal STRESS1 = 0.07954CCC = 0.968

genÉtica geogrÁfica: estatistica espacial em genética de populações e da paisagem

Documents