genÉtica geogrÁfica: estatistica espacial em genética de populações e da paisagem
DESCRIPTION
GENÉTICA GEOGRÁFICA: Estatistica Espacial em Genética de Populações e da Paisagem. JOSÉ ALEXANDRE FELIZOLA DINIZ FILHO LABORATORIO DE ECOLOGIA TEÓRICA & SÍNTESE Departamento de Ecologia, ICB, Universidade Federal de Goiás, Brasil ([email protected]). ABORDAGENS ESPACIAIS. - PowerPoint PPT PresentationTRANSCRIPT
GENÉTICA GEOGRÁFICA: GENÉTICA GEOGRÁFICA:
Estatistica Espacial em Genética de Estatistica Espacial em Genética de Populações e da PaisagemPopulações e da Paisagem
JOSÉ ALEXANDRE FELIZOLA DINIZ FILHOJOSÉ ALEXANDRE FELIZOLA DINIZ FILHOLABORATORIO DE ECOLOGIA TEÓRICA & SÍNTESE
Departamento de Ecologia, ICB,Universidade Federal de Goiás, Brasil
Ecologia & Genética
ESPACIALMENTE IMPLICITAS
ABORDAGENS ESPACIAIS
ESPACIALMENTE EXPLICITAS
Relação genética entre as populações
FST (e estatísticas relacionadas) par-a-par
Distâncias genéticas
Outras matrizes de similaridade
Matriz quadrada (n * n), simétrica e com zero na diagonal principal
http://www.uwyo.edu/dbmcd/molmark/gendisteqns.pdf
Masatoshi Nei
D = -ln (I)
Where
I = Σxiyi / (Σxi2 Σyi
2)0.5
A identidade de Nei é, portanto, a correlação de Pearson entre as populações “ao longo” das frequencias alélicas...
Nei’s genetic distances
Wright’s FST
Análise de Variância de Frequencias Alélicas (P)
AMOVA RST
Holsinger’s Bayesian ST
GST
QST (fenótipo)
Valores “par-a-par” (n * n,
simétrica)
Distância Euclidiana (ca. distância de Rogers 1972)
p
kjkikij xxd
1
2)(
ddiijj
Alelo XAlelo X22
Alelo XAlelo X11
XXjj22
XXi2i2
XXi1i1 XXjj11
ii
jj
})(){( 222
211 jijiij xxxxd
Quando existem apenas dois descritores, essa equação resulta no valor da hipotenusa:
população
população
A distância Euclidiana não apresenta um limite superior, ou seja, o valor aumenta indefinidamente com o aumento do número de descritores. Assim, podemos calcular a distância Euclidiana média:
p
kBkAkAB pxxd
1
2 /)(
A distância de Rogers usa p = 2
p
jj
p
jj
p
jjj
yy
yy
C
1
22
1
21
121
)2,1( 12
Cavalli-Sforza’s & Edward (1967) chord distance
Populations are conceptualised as existing as points in a m-dimensional Euclidean space which are specified by m allele frequencies (i.e. m equals the total number of alleles in both populations).
Nei Distance Matrix1.0510.950.90.850.80.750.70.650.60.550.50.450.40.350.3
Cho
rd D
ista
nce
Mat
rix
Nei Distance Matrix1.71.61.51.41.31.21.110.90.80.70.60.5
Rog
ers
Dis
tanc
e M
atrix
Coeficientes de SIMILARIDADE para dados binários
Transformar frequencias alélicas em dados 0/1 (ou seja, presença ou ausência do alelo ou haplótipo)
1 01 a b a +b0 c d c +d
a +c b +d
Po
pula
ção
1
População 2
Tabela de Freqüência 2 X 2
Uma maneira simples de calcular a similaridade entre os dois objetos envolve a contagem dos números de descritores que codificam estes objetos do mesmo modo e a posterior divisão pelo número total de descritores p (a+b+c+d):
p
daS
1
S1 = Coincidência simples (“simple matching”)
1 01 a b a +b0 c d c +d
a +c b +d
Y 1 Y 2 Y 3 Y 4 Y 5 Y 6 Y 7 Y 8 Y 9 Y 10
Local A 1 1 0 1 0 1 1 0 0 1Local B 1 0 0 1 0 1 1 1 0 0
A4 1 5
B 2 3 56 4 10
1 01 a b a +b0 c d c +d
a +c b +d
7,010
341
S
(0 = baixa similaridade e 1 = alta similaridade)
p
daS
1
Coeficientes de similaridade para dados binários: modo Q (Coeficientes assimétricos)
cba
aS
7
cba
aS
2
28
JaccardJaccard
SSøørensenrensen
1 01 a b a +b0 c d c +d
a +c b +d
A idéia é desdobrar a (dis)similaridade em diferentes componentes, incluindo turnover e riqueza de alelos
“Turnover” (substituição)
Riqueza alélica
Para o Baru, o componente de turnover representa 69% da similaridade, mas o interessante é que apenas o componente de riqueza possui padrão espacial
[n (n – 1)/2] valores
(e.g. se n = 25 300 valores)
E agora, José?
Com n objetos (unidades amostrais) vamos ter uma matriz com:
Como podemos representar eficientemente o padrão de similaridade entre esses objetos?
As relações entre as n populações estão definidas em um espaço p-dimensional (onde p é o numero de alelos)
A B C D E FA 0.00B 0.67 0.00C 1.41 0.74 0.00D 2.12 1.47 0.77 0.00E 0.79 0.67 1.09 1.62 0.00F 2.49 1.84 1.13 0.37 1.96 0.00
e.g., Quais as relações entre os 6 objetos a partir dessa matriz de distancias?
Agrupamento & Ordenações
Classificação das técnicas de agrupamentos
Algumas propriedades das técnicas:
Aglomerativos: Os grupos são formados, sucessivamente, até reunir todos os objetos em um único grande grupo, ou;
Divisivos: Subdivide os grupos até o isolamento de cada objeto (e.g. chaves de taxonomia);
Hierárquicos: elementos de um determinado grupo são agrupados dentro de grupos em níveis maiores, ou;
Não-hierárquicos: Produzem uma única divisão que maximiza a homogeneidade dentro de grupos;
Dis
tânc
ia
U.A
. 1U
.A. 2
U.A
. 3U
.A. 4
U.A
. 5 . . .U
.A. n
B(n x p )
T(n x p )
S(n x n )
C(n x n )
Y 2
Y1
i
j
Distância (D i,j )
C.C.C.
Análise de ClassificaçãoAnálise de ClassificaçãoAnálise de Agrupamentos (SAHN)Análise de Agrupamentos (SAHN)
Vários métodos de agrupamento: métodos de agrupamento:
Aplicação da técnica de agrupamento:Construção do dendrograma
A B C D E FA 0.00B 0.67 0.00C 1.41 0.74 0.00D 2.12 1.47 0.77 0.00E 0.79 0.67 1.09 1.62 0.00F 2.49 1.84 1.13 0.37 1.96 0.00
(método médias das distâncias, UPGMA)
Primeiro passo:Primeiro passo:Unir D e F (0,37)Unir D e F (0,37)
DD FF
0,370,37
Distância de Distância de ligaçãoligação
A B C EB 0.67C 1.41 0.74E 0.79 0.67 1.09
DF 2.30 1.66 0.95 1.79
Segundo passo:Segundo passo:Calcular as distância em relação ao novo grupoCalcular as distância em relação ao novo grupo
A B C D E FA 0.00B 0.67 0.00C 1.41 0.74 0.00D 2.12 1.47 0.77 0.00E 0.79 0.67 1.09 1.62 0.00F 2.49 1.84 1.13 0.37 1.96 0.00
E assim, E assim, sucessivamente, sucessivamente, para esta linhapara esta linha
Neste ponto, Neste ponto, vamos verificar vamos verificar qual o par com qual o par com menor distânciamenor distância
(2,12+2,49)/2(2,12+2,49)/2
Terceiro passo:Terceiro passo:Unir A e B (0,67)Unir A e B (0,67)
DD FF
Distância de Distância de ligaçãoligação
AA BB
C E DFE 1.09
DF 0.95 1.79AB 1.08 0.73 1.98
Quarto passo:Quarto passo:Calcular as distância em relação ao novo grupoCalcular as distância em relação ao novo grupo
A B C D E FA 0.00B 0.67 0.00C 1.41 0.74 0.00D 2.12 1.47 0.77 0.00E 0.79 0.67 1.09 1.62 0.00F 2.49 1.84 1.13 0.37 1.96 0.00
Vamos agrupar:Vamos agrupar:(E) com (AB)(E) com (AB)
98,14/)84,149,247,112,2(d
4/),(),(),(),(d
AB)(DF,
AB)(DF,
BFdAFDBDdADd
Quinto passo:Quinto passo:Unir E e AB (0,73)Unir E e AB (0,73)
DD FF
Distância de Distância de ligaçãoligação
AA BB EE
Demais passos:Demais passos:Calcular as distância em relação ao novo grupoCalcular as distância em relação ao novo grupo
C DFDF 0.95
ABE 1.08 1.92
DD FFAA BB EE CC
CDFABE 1.64
Agrupar (CDF) com (ABE)Agrupar (CDF) com (ABE)
Shortcut to ABE x CDF.lnk
Resultado do NTSYS
Para os dados das 25 populações de Baru (UPGMA), a partir do FST par-a-par...
?
Subp. Local de coleta
1 Cocalinho-MT
2 Água Boa-MT
3 Pirenópolis-GO
4 Sonora-MS
5 Alcinópolis-MS
6 Alvorada-TO
7 São Miguel do Araguaia-GO
8 Luziânia-GO
9 Icém-SP
10 Monte Alegre de Minas-MG
11 Estrela do Norte-GO
12 Santa Terezinha-GO
13 Arinos-MG
14 Pintópolis-MG
15 Paraíso-MS (Chapadão do Sul)
16 Paraíso/Camapuã-MS (Camapuã)
17 Camapuã-MS
18 Indiara-GO
19 Araguaia-MT (Barra do Garça)
20 Araguaia-GO (Aragarças)
21 Jandaia-GO
22 Natividade-TO
23 Arraias-TO
24 Aquidauana- MS
25 Cáceres- MT
Subp. Local de coleta
1 Cocalinho-MT
2 Água Boa-MT
3 Pirenópolis-GO
4 Sonora-MS
5 Alcinópolis-MS
6 Alvorada-TO
7 São Miguel do Araguaia-GO
8 Luziânia-GO
9 Icém-SP
10 Monte Alegre de Minas-MG
11 Estrela do Norte-GO
12 Santa Terezinha-GO
13 Arinos-MG
14 Pintópolis-MG
15 Paraíso-MS (Chapadão do Sul)
16 Paraíso/Camapuã-MS (Camapuã)
17 Camapuã-MS
18 Indiara-GO
19 Araguaia-MT (Barra do Garça)
20 Araguaia-GO (Aragarças)
21 Jandaia-GO
22 Natividade-TO
23 Arraias-TO
24 Aquidauana- MS
25 Cáceres- MT
VISUALIZANDO OS PADRÕES NO ESPAÇO...
Dis
tânc
ia
U.A
. 1U
.A. 2
U.A
. 3U
.A. 4
U.A
. 5 . . .U
.A. n
B(n x p )
T(n x p )
S(n x n )
C(n x n )
Y 2
Y1
i
j
Distância (D i,j )
C.C.C.
O dendrograma representa adequadamente a matriz de distância original?
Matriz CofenéticaMatriz Cofenética
A B C D E FAB 0.67C 1.64 1.64D 1.64 1.64 0.95E 0.73 0.73 1.64 1.64F 1.64 1.64 0.95 0.37 1.64
A B C D E FAB 0.67C 1.41 0.74D 2.12 1.47 0.77E 0.79 0.67 1.09 1.62F 2.49 1.84 1.13 0.37 1.96
Matriz OriginalMatriz Original
n
YY
n
XX
n
YXYX
ri
ii
i
iiii
22
22 )()( CCC=0,75
Bom ou Ruim?Bom ou Ruim?
Coeficiente de Correlação Cofenética CCC)
Diagrama de Shepard: diagrama de dispersão que relaciona distâncias em um espaço com dimensão reduzida com a distâncias originais (mais adequado para técnicas de ordenação):
No caso do Baru, o CCC foi igual a 0.845
(i) Resultados são dependentes dos protocolos utilizados;
Problemas com a Análise de AgrupamentosProblemas com a Análise de Agrupamentos
Distância EuclidianaUPGMA
7 6 5 4 3 2 1
Distância EuclidianaWPGMA
7 4 6 5 3 2 1
(ii) discretizar um processo que pode ser, na verdade, contínuo, de modo que;
(iv) Dificuldade de interpretação
(iii) O número de grupos é dependente do nível de corte;
Dis
tânc
ia
U.A
. 1U
.A. 2
U.A
. 3U
.A. 4
U.A
. 5 . . .U
.A. n
Métodos para determinação do nível de corteMétodos para determinação do nível de corte
Maximizar diferenças entre grupos
Minimizar diferenças dentro de grupos
Zero para quando u.a. estão em Zero para quando u.a. estão em grupos iguais definidos pelo nível grupos iguais definidos pelo nível de cortede corte
1 para quando u.a. estão em 1 para quando u.a. estão em diferentes grupos definidos pelo diferentes grupos definidos pelo nível de cortenível de corte
Nível 1
Nível 2
Bini, L. M. & Diniz Filho, J. A. F. (1995) Spectral Decomposition in cluster analysis with applications to limnological data. Acta Limnologica Brasiliensia, 7: 35-40.
Matriz Modelo(Nível de corte 1)
Matriz Modelo(Nível de corte 2)
Matriz de distânciaOriginal
Nível de Corte
CC
C
(v) Mesmo com um conjunto aleatório de dados é possível encontrar “grupos”.
B
I
F
E
G
D
J
H
C
A
u.a. Y1 Y2A 0 0.2B -1 -2C -0 -0D 0.7 0.3E 0 1.4F 1.8 -0G 1.4 0.9H -1 -0I 0.9 -1J -0 0.3
“Model-based” Clustering: STRUCTURE
-Pressupostos (H-W, equilibrio de ligação)
-Maximizar a probabilidade de individuos pertencerem a grupos (que são desconhecidos)
-Vários dados (marcadores) e modelos de evolução
-Associar com outras caracteristicas dos individuos (inclusive “espaço”)
- Abordagem Bayesiana (MCMC)
0 5 10 15 20 25K
-11000
-10000
-9000
-8000
P_
DK
--------------------------------------------Estimated Ln Prob of Data = -8723.8Mean value of ln likelihood = -8313.4Variance of ln likelihood = 820.8Mean value of alpha = 0.0405
Subp. Local de coleta
1 Cocalinho-MT
2 Água Boa-MT
3 Pirenópolis-GO
4 Sonora-MS
5 Alcinópolis-MS
6 Alvorada-TO
7 São Miguel do Araguaia-GO
8 Luziânia-GO
9 Icém-SP
10 Monte Alegre de Minas-MG
11 Estrela do Norte-GO
12 Santa Terezinha-GO
13 Arinos-MG
14 Pintópolis-MG
15 Paraíso-MS (Chapadão do Sul)
16 Paraíso/Camapuã-MS (Camapuã)
17 Camapuã-MS
18 Indiara-GO
19 Araguaia-MT (Barra do Garça)
20 Araguaia-GO (Aragarças)
21 Jandaia-GO
22 Natividade-TO
23 Arraias-TO
24 Aquidauana- MS
25 Cáceres- MT
CLUSTERS1 2 3 4 5 6 7 8 n BEST p2
0.026 0.01 0.078 0.012 0.753 0.03 0.073 0.017 32 5 0.5810.007 0.095 0.086 0.013 0.167 0.525 0.092 0.014 32 6 0.3290.007 0.013 0.056 0.017 0.31 0.547 0.032 0.018 32 6 0.4000.12 0.145 0.017 0.53 0.014 0.017 0.054 0.103 31 4 0.3310.069 0.692 0.018 0.081 0.012 0.056 0.023 0.05 32 2 0.4970.013 0.009 0.128 0.061 0.089 0.016 0.094 0.589 32 8 0.3840.011 0.018 0.583 0.012 0.301 0.015 0.044 0.016 32 3 0.4330.009 0.015 0.347 0.124 0.045 0.398 0.044 0.018 32 6 0.2990.009 0.032 0.232 0.59 0.034 0.024 0.051 0.029 31 3 0.4080.022 0.021 0.028 0.034 0.509 0.036 0.015 0.335 32 5 0.3760.009 0.02 0.436 0.021 0.323 0.045 0.077 0.068 12 3 0.3080.014 0.041 0.024 0.038 0.516 0.034 0.122 0.211 12 5 0.3310.008 0.01 0.011 0.014 0.058 0.024 0.854 0.021 32 7 0.7340.006 0.017 0.092 0.029 0.016 0.012 0.811 0.016 32 7 0.6680.096 0.5 0.137 0.017 0.022 0.066 0.077 0.085 13 2 0.2960.01 0.811 0.027 0.015 0.043 0.016 0.011 0.067 13 2 0.6650.015 0.807 0.061 0.063 0.011 0.013 0.014 0.017 13 2 0.6600.005 0.145 0.058 0.034 0.035 0.676 0.01 0.036 13 6 0.4850.018 0.157 0.173 0.183 0.03 0.348 0.043 0.048 27 6 0.2150.018 0.285 0.068 0.09 0.03 0.129 0.025 0.356 37 8 0.2390.011 0.014 0.389 0.104 0.063 0.356 0.014 0.049 32 3 0.2960.007 0.008 0.81 0.036 0.019 0.022 0.012 0.086 12 3 0.6660.009 0.009 0.667 0.142 0.1 0.024 0.021 0.028 15 3 0.4770.033 0.049 0.171 0.484 0.061 0.139 0.047 0.016 31 4 0.2920.94 0.008 0.007 0.009 0.007 0.005 0.008 0.014 30 1 0.884
Subp. Local de coleta
1 Cocalinho-MT
2 Água Boa-MT
3 Pirenópolis-GO
4 Sonora-MS
5 Alcinópolis-MS
6 Alvorada-TO
7 São Miguel do Araguaia-GO
8 Luziânia-GO
9 Icém-SP
10 Monte Alegre de Minas-MG
11 Estrela do Norte-GO
12 Santa Terezinha-GO
13 Arinos-MG
14 Pintópolis-MG
15 Paraíso-MS (Chapadão do Sul)
16 Paraíso/Camapuã-MS (Camapuã)
17 Camapuã-MS
18 Indiara-GO
19 Araguaia-MT (Barra do Garça)
20 Araguaia-GO (Aragarças)
21 Jandaia-GO
22 Natividade-TO
23 Arraias-TO
24 Aquidauana- MS
25 Cáceres- MT
grupoCase: 21 Longitude: -50.201 Latitude: -16.912 grupo: 3
8
7.5
7
6.5
6
5.5
5
4.5
4
3.5
3
2.5
2
1.5
1
p2Case: 18 Longitude: -49.973 Latitude: -17.162 p2: 0.485
0.880.860.840.820.8
0.780.760.740.720.7
0.680.660.640.620.6
0.580.560.540.520.5
0.480.460.440.420.4
0.380.360.340.320.3
0.280.260.240.22
grupoCase: 20 Longitude: -52.158 Latitude: -15.948 grupo: 8
8
7.5
7
6.5
6
5.5
5
4.5
4
3.5
3
2.5
2
1.5
1
1
4
42
8
8 3
3
5
6
6
3
3
5
7
6
Os 8 grupos do STRUCTURE no espaço geográfico
grupoCase: 20 Longitude: -52.158 Latitude: -15.948 grupo: 8
8
7.5
7
6.5
6
5.5
5
4.5
4
3.5
3
2.5
2
1.5
1
1
4
42
8
8 3
3
5
6
6
3
3
5
7
6
grupoCase: 20 Longitude: -52.158 Latitude: -15.948 grupo: 8
8
7.5
7
6.5
6
5.5
5
4.5
4
3.5
3
2.5
2
1.5
1
1
4
42
8
8 3
3
5
6
6
3
3
5
7
6
1
4
2
8
8 3
3
5
6
6
3
3
5
7
6
1
4 2
8
75
36
1
4
42
8
8 3
3
5
6
6
3
3
5
7
6
1
4 2
8
75
36
TÈCNICAS DE ORDENAÇÃO
Representar a variação p-dimensional em um espaço (eixos) contínuo que “compacte” essa variação variação em um numero com m > p de dimensões (normalmente 1, 2 ou 3)
Hotteling, H. 1933. Analysis of a complex of statistical variables into principal componentes. Journal of Educational Psychology. v. 24, p. 417-441.
MAPAS SINTÉTICOS baseados em Análise de Componentes Principais (ACP)
-Eliminar estrutura de correlação entre variáveis transformando-as em eixos ortogonais (os componentes principais);
-Interpretar os eixos principais como conseqüência de processos microevolutivos.
CP 1
CP 2
CP3
X1
X2
X3
Em resumo, na ACP três matrizes são importantes1) Autovalores – importância de cada eixo;2) Autovetores – coeficientes das variáveis nos eixos;3) Escores – componentes principais (eixo)
Análise de Componentes Principais (PCA)(Principal Component Analysis)
Pearson, K. 1901. On lines and planes of closest fit to a system of points in space. Phylosophical magazine. v. 2, p. 557-572.
Hotteling, H. 1933. Analysis of a complex of statistical variables into principal componentes. Journal of Educational Psychology. v. 24, p. 417-441.
Etapas:
-Interpretação geométrica;
-Procedimentos matemáticos;
-Interpretação de dados reais;
-Aplicações
pp XaXaXaZ 12121111 ...
Matematicamente, o objetivo da PCA é encontrar uma combinação linear de variáveis de tal forma que a variância entre os indivíduos seja a maior possível (1o componente principal):
Os coeficientes a são os autovetores. São obtidos de tal forma a maximizar a variância de Z1 (var(Z1)), com a seguinte condição:
1... 21
212
211 paaa
Esta condição garante que a var(Z1) não aumente com a simples adição de qualquer um dos valores de a1j .
O segundo componente principal:
pp XaXaXaZ 22221212 ...É calculado de tal forma que a var(Z2) seja a maior possível (a segunda principal direção da variância). A mesma condição anterior é requerida:
1... 22
222
221 paaa
Além disso, estes autovetores são calculados de tal maneira que Z2 não seja correlacionado com Z1 (componentes independentes).
X1
X2
X1
X2
X1
X2
Eixos independentes ou ortogonais:
O terceiro componente principal:
pp XaXaXaZ 32321313 ...
É calculado de tal forma que a var(Z3) seja a maior possível. A mesma condição anterior é requerida:
1... 23
232
231 paaa
Além disso, estes autovetores são calculados de tal maneira que Z3 não seja correlacionado com Z2 e Z1 (componentes independentes).
Por exemplo, se temos 5 variáveis podemos extrair 5 componentes principais, tal como definido anteriormente.
De forma mais geral, o número possível de componente é igual a p (variáveis).
No entanto, como foi demonstrado, sucessivos componentes principais apresentam uma variância cada vez menor. Esse resultado será útil para a redução da dimensionalidade dos dados.
As variâncias dos componentes principais são os autovalores () de uma matriz de covariância ou correlação (com dados previamente estandardizados).
ppiiii XaXaXaZ ...2211
iλ)var( iZOs autovetores (a) são os coeficientes das combinações lineares e informam quais as variáveis que apresentam o maior poder de discriminação das u.a. (maximizam a dispersão das unidades amostrais ao longo do espaço).
CP 1
CP 2
CP3
X1
X2
X3
Autovalores e Autovetores
Y1 Y2 Y3 Y4 Y5
Y1
Y2 1
Y3 2 5
Y4 3 6 8
Y5 4 7 9 10 . . .
Ca = a
C =
Autovalores e Autovetores
Y1 Y2 Y3 Y4 Y5
Y1
Y2 1
Y3 2 5
Y4 3 6 8
Y5 4 7 9 10 . . .
Ra = a
R =
X1 X2 X1P X2Pu1 2 0 -0.24 -0.63u2 5 3 0.47 0.32u3 5 4 0.47 0.63u4 3 2 0.00 0.00u5 0 1 -0.71 -0.32
Exemplo numérico
182,0
82,01R
Matriz de correlação entre variáveis:
(R-I)a=0
Cuja equação característica:
|R- I|=0
01820
8201
0
0
1820
8201
10
01
1820
8201
λ,
,λ
λ
λ
,
,
λ,
,λ IR
)(-)( bcaddc
ba
Determinante de uma matriz 2 x 2:
0λ182,0
82,0λ1
033,0λ2λ
)82,0(λ)1(2
22
o primeiro termo ao quadrado,
menos duas vezes o produto dos dois termos mais o quadrado do
segundo)
ac4b
a2bλ
2
033,0λ2λ2
18,02
64.12λ
82,12
64.12λ
2
64.12
2
)33,0(4)2(2λ
2
II
I(Ignore o sinal)
(Ignore o sinal)
a b c
% de explicação do CP 1
= I/ = 1,82/2 = 91 %
% de explicação do CP 2
= II/ = 0,18/2 = 9 %
Total = 100 %
Autovetores:
Ra = a
I,2
I,1
I,2
I,1
a
a82,1
a
a
182,0
82,01
O autovetor associado com I=1,82 é:
III
III
aaa
aaa
,2,2,1
,1,2,1
82,1182,0
82,182,01
082,10,182,0
082,082,10,1
,2,2,1
,2,1,1
III
III
aaa
aaaArranjando:
082,082,0
082,082,0
,2,1
,2,1
II
II
aa
aa
Para resolver essa equação, o valor a1,I é, arbitrariamente, fixado como 1 e o resultado de a2,I é encontrado:
82,0a82,0
82,0a82,0
I,2
I,2
Para resolver essa equação, 0 valor a1,I é, arbitrariamente, fixado como 1 e o resultado de a2,I é encontrado:
Assim, a2,1= 1
1
1a I
Assim, o autovetor associado com o 1 é:
1
1a II
Similarmente, para 2 :
1aa 22i
21i
Para que a condição :
seja atendida, o autovetor deve ser normalizado através de um fator, dado por:
p
qiq
i
a
k
1
1
Posteriormente, cado autovetor é multiplicado pelo seu respectivo fator:
707,011
122I
k
707,011
122II
k
707,0
707,0
1
1707,0a
707,0
707,0
1
1707,0a
II
I
Note que: 1aa 22i
21i
De posse dos autovetores podemos criar as combinações lineares e, deste modo, encontrar os escores das unidades amostrais através da substituição das variáveis originais nestas combinações lineares:
X1P X2Pu1 -0.24 -0.63u2 0.47 0.32u3 0.47 0.63u4 0.00 0.00u5 -0.71 -0.32
212
211
707,0707,0
707,0707,0
XXZ
XXZ
28.0)63,0(707,0)24,0)(707,0(
62,0)63,0(707,0)24,0)(707,0(
2
1
Z
Z
Para as demais unidades amostrais
X1P X2P Z 1 Z 2
u1 -0.24 -0.63 -0.62 -0.28u2 0.47 0.32 0.56 -0.11u3 0.47 0.63 0.78 0.11u4 0.00 0.00 0.00 0.00u5 -0.71 -0.32 -0.73 0.28
212
211
707,0707,0
707,0707,0
XXZ
XXZ
Z 1
Z2
U.1
U.2
U.3
U.5
-0.5-0.4-0.3-0.2-0.10.00.10.20.30.40.5
-1.0 -0.6 -0.2 0.2 0.6 1.0
U.4
Escores = posição das novas u.a. nas novas variáveis denominadas CPs
A correlação (“loading”, coeficiente de estrutura) das variáveis originais com os componentes é dada pela correlação linear de Pearson entre as variáveis originais e os escores ou:
iii ar λ
30,0
30,018,0
707,0
707,0
95,0
95,082,1
707,0
707,0
II
I
r
r
Z1
U.1
U.2
U.3
U.5
X1
X2
-0.5-0.4-0.3-0.2-0.10.00.10.20.30.40.5
-1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4
u.a.
variáveis
U.4
Para a realização da PCA, em conjuntos reais de dados, p deve ser sempre maior que 3, para fins de ordenação e redução da dimensionalidade dos dados (com 3 dimensões basta fazer um diagrama tridimensional).
Deste modo, quando p >>> 3, por exemplo, p = 10, é possível obter 10 combinações lineares. Assim, é necessário um critério de parada.
Em outras palavras, precisamos de um critério para verificar quais são os componentes principais interpretáveis.
Se interpretamos um número muito grande de componente voltamos para o problema da análise univariada e não conseguimos o objetivo principal: redução da dimensionalidade do problema.
Critérios de Parada
Jackson, D. A. 1993. Stopping rules in principal components analysis: a comparison of heuristical and statistical approaches. Ecology 74:2204-2214.
-Critério de Kaiser-Guttman ( > 1);
-Proporção da variância total (e.g. 95%);
-”Scree plot”;
-Teste de esferecidade de Bartlett;
-Modelo de Broken-Stick;
Regras de Parada: Scree plot
Ordem dos componentes
Au
tova
lore
s
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
0 1 2 3 4 5 6
Os componentes “residuais” tendem a estar em uma linha reta.
Assim, neste exemplo, somente o 1o CP seria interpretável.
CP 1
CP 2
CP3
X1
X2
X3
Regras de Parada: Esferidade de Bartlett
Regras de Parada: Broken Stick
Ordem dos componentes
Au
tova
lore
s
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
0 1 2 3 4 5 6
Broken-Stick
Observado
Um exemplo clássico...
Considerem os dados obtidos por Bumpus (1898):
-49 pardais (21 vivos e 29 mortos, após uma tempestade);-5 medidas morfométricas (landmarks);
X1 X2 X3 X4 X5X1 1X2 0.73 1X3 0.66 0.67 1X4 0.65 0.77 0.76 1X5 0.61 0.53 0.53 0.61 1
Passer domesticus
***** PRINCIPAL COMPONENTS ANALYSIS -- pardais in medidas space **********
PC-ORD, Version 3.0
VARIANCE EXTRACTED, FIRST 5 AXES
---------------------------------------------------------------
Broken-stick
AXIS Eigenvalue % of Variance Cum.% of Var. Eigenvalue
---------------------------------------------------------------
1 3.616 72.320 72.320 2.283
2 .532 10.630 82.950 1.283
3 .386 7.728 90.678 .783
4 .302 6.031 96.709 .450
5 .165 3.291 100.000 .200
---------------------------------------------------------------
***** PRINCIPAL COMPONENTS ANALYSIS -- pardais in medidas space **********
PC-ORD, Version 3.0
VARIANCE EXTRACTED, FIRST 5 AXES
---------------------------------------------------------------
Broken-stick
AXIS Eigenvalue % of Variance Cum.% of Var. Eigenvalue
---------------------------------------------------------------
1 3.616 72.320 72.320 2.283
2 .532 10.630 82.950 1.283
3 .386 7.728 90.678 .783
4 .302 6.031 96.709 .450
5 .165 3.291 100.000 .200
---------------------------------------------------------------
Latent Vectors (Eigenvectors)
1 2 3 4 5
X1 0.452 -0.051 -0.690 -0.420 -0.374
X2 0.462 0.300 -0.341 0.548 0.530
X3 0.451 0.325 0.454 -0.606 0.343
X4 0.471 0.185 0.411 0.388 -0.652
X5 0.398 -0.876 0.178 0.069 0.192
542211 389,0471,0451.0462.0452.0 XXXXXZ
Factor 1
Fac
tor
2
X1
X2X3X4
X5
-0.3
-0.1
0.1
0.3
0.5
0.7
0.9
0.6
0
0.6
4
0.6
8
0.7
2
0.7
6
0.8
0
0.8
4
0.8
8
0.9
2
0.9
6
1.0
0
CP 1
CP
2
-3
-2
-1
0
1
2
3
4
5
-3 -2 -1 0 1 2 3
vivosmortos
Eixo de tamanho (72,3 %)
Seleção estabilizadora?
Nature Genetics 35: 311-313, 2003
Dados do Baru (1 locus – DA20)
Principal Component 1Case: 14 Longitude: -45.166 Latitude: -16.061 Principal Component 1: 2.309
Principal Component 2Case: 23 Longitude: -46.863 Latitude: -12.99 Principal Component 2: -0.939
OUTRAS TÉCNICAS DE ORDENAÇÃO
ANALISE DE COORDENADAS PRINCIPAIS(PCOA)
- resolve o problema do PCA de poucas populações, pois extrai os autovetores de uma matriz de distâncias (transformada)
- Pode utilizar qualquer métrica de distância (incluindo distancias de Nei, FST, etc)
ESCALONAMENTO MULTIDIMENSIONAL NÃO-MÉTRICO (NMDS)
-Técnica de otimização não-linear para espaço com m dimensões (medida de “stress”)
-Pode iniciar com a PCOA e melhorar a configuração
PCOACCC = 0.907
NMDSFinal STRESS1 = 0.07954CCC = 0.968
PCOACCC = 0.907
NMDSFinal STRESS1 = 0.07954CCC = 0.968