análise de agrupamentos valério de patta pillar departamento de ecologia universidade federal do...
TRANSCRIPT
Análise de Agrupamentos
Valério De Patta PillarDepartamento de Ecologia
Universidade Federal do Rio Grande do SulPorto Alegre
[email protected]://ecoqua.ecologia.ufrgs.br
Análise de dados com MULTIV
Dataquantitative, qualitative, binary, mixed
Ordination
Transformation
Resemblancebetween variables or sampling units
Cluster analysis
Randomization
teststo compare groups of
sampling units (analysis of variance)
or to compare variables
Descriptive attributes and
bootstrap
Bootstrap Bootstrap
Disponível em http://ecoqua.ecologia.ufrgs.br
Análise de Agrupamentos(método de ligação simples)
5
4
7
6
32
1
20
30
40
20 40
Species A
Species B
2
3
4
1
5
6
7
0 4 8
1 02 5.83 03 6.56 1.00 04 7.68 2.24 2.00 05 4.24 6.48 7.28 8.54 06 13.78 9.27 9.43 8.06 12.73 07 15.56 11.23 11.36 10.63 13.34 4.47 0
1 2 3 4 5 6 7
Sp.A Sp.B Sp.C1 26 28 182 28 30 143 29 31 134 29 33 135 30 27 196 35 38 157 39 36 15
Análise de Agrupamentos• Agrupamento hierárquico
– Algoritmos podem ser aglomerativos ou divisivos– Processo de agrupamento representado por um dendrograma – Não produz uma classificação mas n-1 possibilidades de
classificação, pois o número de grupos é definido a posteriori– Alguns algoritmos aglomerativos: Ligação simples, ligação
completa, ligação média (UPGMA, WPGMA), soma de quadrados (Ward)
• Agrupamento não-hierárquico– Número de grupos é especificado a priori e o resultado é uma
classificação.
Referências: Legendre, P. ; Legendre, L. 1998. Numerical Ecology. Elsevier, N. Yo rk. Orlóci, L.; Kenkel, N.C.; Orlóci, M. 1987. Data Analysis in Population and Community Ecology. University
of Hawaii, Honolulu / New Mexico State University, Las Cruces. p 175-182. Pielou, E. C. 1984. The Interpretation of Ecological Data; a Primer on Classification and Ordination. New
York, J. Wiley. p. 13-40 e 63-81. Pillar, V. D. 1999. How sharp are classifications? Ecology 80: 2508-2516 Podani, J. 2000. Introduction to the Exploration of Multivariate Biological Data. Leiden, Backhuys. p.
135-174.
Algoritmo de agrupamento aglomerativo hierárquico
(1) São agrupados os dois objetos (ou dois grupos de objetos) que forem mais semelhantes na matriz de semelhança.(2) A matriz de semelhança é redefinida de acordo com o grupo que foi formado. (3) Repete-se o processo até que todos os objetos formem um único grupo (n-1 passos de agrupamentos).
Baseado em uma matriz de semelhança comparando n objetos (unidades amostrais ou variáveis) aos pares:
Alguns critérios para a redefinição da matriz de semelhança após cada passo aglomerativo (Extraído de Podani 1994:82)
Ligação Simples
• Quando a matriz contém dissimilaridades, a dissimilaridade entre os grupos P e Q é:
– dPQ = INF [ djk, para j=1, ..., n-1 e k=j+1, ..., n objetos, desde que j pertença ao grupo P e k ao grupo Q ]
onde:• djk é um elemento da matriz de dissimilaridades• INF é valor mínimo no conjunto entre []
• Quando a matriz contém similaridades, SUP (máximo) é usado ao invés de INF.
Ligação Simples
Ligação Completa
• Quando a matriz contém dissimilaridades, a dissimilaridade entre os grupos P e Q é– dPQ = SUP [ djk, para j=1, ..., n-1 and
k=j+1, ..., n objetos, desde que j pertença ao grupo P e k ao grupo Q ]
onde:– djk é um elemento da matrizx de dissimilaridades– SUP é o valor máximo no conjunto entre []
• Quando a matriz contém similaridades, INF é usado aon invés de SUP.
Ligação Completa
Ligação Média (UPGMA)Rohlf (1963)
• UPGMA: Unweighted Pair Group Method using Arithmetic Averages
• A distância entre dois objetos ou grupos M e N é dada pela média aritmética das distâncias entre os elementos dos dois grupos.
Soma de quadrados progressiva(Ward 1963, Orlóci 1967)
O critério de agrupamento minimiza o aumento na soma de quadrados dentro do grupo formado a cada passo de agrupamento, i.e. QPQ = QP+Q - QP - QQ
Onde QP+Q é a soma de quadrados total no grupo P+Q e QP e QQ são as somas de quadrados dentro dos grupos P e Q.
QP+Q =
€
1np+nq h
∑ dhi2
i∑
para h=1, ..., n-1 e i=h+1, ..., n , objetos desde que h e i pertençam ao grupo P ou Q
QP =
€
1np h∑ dhi
2i∑
para h=1, ..., n-1 and i=h+1, ..., n objetos, desde que h e i pertençam ao grupo P
QQ =
€
1nq h∑ dhi
2i∑
para h=1, ..., n-1 and i=h+1, ..., n objetos, desde que h e i pertençam ao grupo Q
Soma de quadrados progressiva
Nitidez de grupos e suficiência amostral em análise de
agrupamentos
•Análise de agrupamentos é uma ferramenta para classificação de quaisquer objetos.
•Métodos de agrupamento revelam grupos mesmo quando não existe estrutura clara de grupos nos dados. Os grupos revelados são reais? Como escolher um nível de partição adequado?
•Seria estável a classificação se o levantamento fosse repetido muitas vezes?
•O tamanho da amostra é suficiente para responder essas questões?
Análise de agrupamentos (soma de quadrados) com dados simulados: 50 unidades descritas por quatro variáveis aleatórias.
Análise de agrupamentos (soma de quadrados) com dados simulados: 50 unidades descritas por quatro variáveis aleatórias definindo 2 grupos nítidos.
Quantos grupos? (onde “cortar” o dendrograma)
São nítidos os grupos?
0
WITHIN GROUP SUM OF SQUARES
9000
1
2
3
Análise de agrupamentos de 20 comunidades em vegetação de campo (quadros 0.1 x 1 m) (Cadenazzi 1996). O método de agrupamentos é variância mínima e a análise é baseada em distâncias Euclidianas.
Qual a probabilidade de que uma classificação (e.g., tipos de comunidades) obtida de um levantamento se mantenha ao se repetir o levantamento no
mesmo universo amostral?
Avaliação da nitidez de grupos por auto-reamostragem
(bootstrap)Análise de agrupamentos é realizada com uma amostra, e grupos são definidos a um dado nível de partição.
Amostras bootstrap são tomadas reamostrando a amostra com reposição.
Análise de agrupamentos é realizada com cada amostra bootstrap e os grupos encontrados são comparados com os grupos originais.
Quanto mais nítidos forem os grupos na amostra, mais estáveis serão os grupos encontrados nas amostras bootstrap.
Quanto mais difusos forem os grupos na amostra, mais instáveis serão os grupos nas amostras bootstrap.
Pillar, V.D. 1999. How sharp are classifications? Ecology 80: 2508-2516.
Dada uma amostra de n unidades amostrais e p variáveis submetida a análise de agrupamentos, o método gera as probabilidades necessárias para avaliar a significância das partições com k grupos usando tamanhos crescentes de amostra nz ≤ n.
Pillar, V.D. 1998. Sampling sufficiency in ecological surveys. Abstracta Botanica 22: 37-48.
Avaliação da nitidez de grupos por bootstrap combinada com amostragem em processo
Algoritmo:
- Cada it eração to ma uma amostra boots tr ap com nz unidades amostrais e submete -a a análise de agrupamentos.
- Cada it eração computa G
z
*
, que é a similaridade entre a partição com k
grupos na amostra bootstrap e a partição com k grupos na amostra de referência,
- e computa G
z
o
sob a hipótese nula de que os grupos são nítidos. Se H0 é
verdadeira, cada grupo encontrado pela análise de agrupamentos na amostra bootstrap é uma amostra aleatória do grupo correspondente (mais próximo) no pseudo universo amostral.
- A comparação de G
z
o
e G
z
*
conc lui uma it eraçã o.
- A probabilidade P ( G
z
o
≤ G
z
*
) é encontrada após muitas .iterações
- Se P( G
z
o
≤ G
z
*
) ≤ a hipótese nul a é rejeit ,ada os grupos são difusos e a amostraé suficiente.
- Se P( G
z
o
≤ G
z
*
) > a hipótese nul a é aceit ,a os grupos são nítidos ou o tamanho da amostral é .insuficiente Sufici ência amostral é avaliada pel a
estabilidade de P( G
z
o
≤ G
z
*
) com tamanhos crescentes de amostra nz ≤ n.
Avaliação de nitidez de grupos por auto-reamostragem (bootstrap)
Evaluation of group sharpness by bootstrap resampling
The G
z
* parameter
The n + nz sampling units in the reference sample and in the bootstrap sample arepoints in a space defined by p variables.
The parameter evaluated in each bootstrap sample of size nz is:
Gz
*
= 1 −
Sz
Tz
where
Tz
=
1
n + nz h = 1
n + nz
− 1
∑ dh i
2
i = h + 1
n + nz
∑
is the tota l sum of squares, involving (n + nz)( n + nz–1 )/ 2 squareddissimilarities o f n + nz sampling units, n is the siz e o f the referencesample a nd nz is the size of the bootstrap sample.
Sz is the sum of squares between neares t neighbo r groups mappedone-to-o ne in the reference sample to the bootstrap sample.
Sz requires the computation of sum of squares Qj for all k2 pair-wisecontras ts between the k groups in th e bootstrap sample and the kgroups in the reference sample.
Evaluation of group sharpness by bootstrap resampling
The sum of squares Qj are arranged in a k by k matrix, with rows identifying the groups found in the bootstrap sample and the columns the groups in the reference sample.
The k! permutations of the columns of this matrix are examined such that a minimum trace is found.
The minimum trace is the value of S we are seeking.
The k pair-wise contrasts in the main diagonal indicate one-to-one correspondence of the groups in the bootstrap sample with the groups in the reference sample.
The between groups sum of squares for contrast j is
Qj
= Tj
− Wj B
+ Wj R( )
where
Tj is the total sum of squares involving squared distances of the sampling units in the tw o gr ,oups
WjB is the sum of sq uares within the gro up cB in the bootstrap :sample
Wj B
=
1
nc B h = 1
n + nz
− 1
∑ dh i
2
δ ( h , i , cB
)
i = h + 1
n + nz
∑
wher e ncB is the size of group cB in the bootstrap sample and the indicator variable ( , ,h i cB) is one if sampling unit h andi belong t o
group cB or zero if other .wise WjR is similarly .defined
Algorithm illustrated by an example (Pillar 1999):(1) Complete data set (variables are rows, sampling units are columns):
1 2 3 4 5V1 17 14 27 21 16V2 5 9 8 5 0V3 5 8 0 0 10
(2) Distance matrix (squared Euclidean) of sampling units:0 34 134 41 51
0 234 129 890 45 285
0 1500
(3) Reference partition with 2 groups generated by cluster analysis:Sampling units: 1 2 3 4 5Groups: 1 1 2 2 1
(4) Get a bootstrap sample (in this example sample size nz = n):Sampling units: 1 5 4 4 5
(5) Distance matrix (squared Euclidean) of sampling units (reference plusbootstrap):
0 34 134 41 51 0 51 41 41 510 234 129 89 34 89 129 129 89
0 45 285 134 285 45 45 2850 150 41 150 0 0 150
0 51 0 150 150 00 51 41 41 51
0 150 150 00 0 150
0 1500
(6) Bootstrap sample partition with 2 groups generated by cluster analysis:Sampling units: 1 5 4 4 5Groups: 3 4 3 3 4
(7) Sum of squares for contrasts between groups of sampling units in thereference (rows) and bootstrap sample (columns); matrix is rearranged:
3 4 4 31 78.2 32.8 ––> 32.8 78.22 28.6 206 206 28.6
(8) To tal sum of squares computed from distance matrix of step (5):T = (34+...+51+…+150)/ 10 = 411.6One-to-one nearest neighbor sum of squares between partitions: S =32.8+28.6 = 61.3667Nearest neighbor groups: 1,4; 2,3;
G
z
*
= 1 - S / T = 0 .8509
(9 ) Null boot s tra p s am ple ( th e unit s in e ach gr oup ar e ta ken at ra ndomfro m t he ne ar es t gro up in t he refe re nce s am ple):Sam pling un its: 3 1 3 4 5Gro ups: 3 4 3 3 4
(10 ) Dis tan ce m atri x of s ampling unit s ( refe re nce p lus null boot s traps am ple):
0 3 4 1 3 4 4 1 5 1 1 3 4 0 1 3 4 4 1 5 10 2 3 4 1 2 9 8 9 2 3 4 3 4 2 3 4 1 2 9 8 9
0 4 5 2 8 5 0 1 3 4 0 4 5 2 8 50 1 5 0 4 5 4 1 4 5 0 1 5 0
0 2 8 5 5 1 2 8 5 1 5 0 00 1 3 4 0 4 5 2 8 5
0 1 3 4 4 1 5 10 4 5 2 8 5
0 1 5 00
(11 ) Sum of squar es for cont ra s ts be t wee n nea re st ne ighb or gro ups ofs am pling unit s in t he re fe ren ce and null boot s tra p s am ple:1 ,4: 6 .52 ,3: 1 .5
(12 ) To t al s um of s quar e s comput e d fro m d ist ance matri x of s t e p (10 ):T° = ( 34+ ...+51+. ..+285+150 )/ 10 = 495 .8Exclusive ne are s t ne ighb or s um of s quar e s be t wee n partit ion s: S° = 6 .5+1.5= 8
G
z
o
= 1 – S° / T° = 0 .9839
Since G
z
o
is larg e r t han G
z
*
t his it e rati on will add z e ro to t he cumulati ve
fre que ncy F( G
z
o
≤ G
z
*
) .
(13 ) Repeat step s (4 ) to (12 ) u p to B times
A run with B = 10000 iterations gave a (P G
z
o ≤ G
z
* ) = 0 .3839 and average
G
z
* = 0 .9068.
Evaluation of sampling sufficiency andsignificance for group partition levels indifferent data sets by probabilities
P( G
z
o
≤ G
z
*
) . Probabilities were generated in
1 0 00 0 bootstrap iterations at each samplesize. Data sets and partition levels are: (A)Artificial data of 60 un its described byrandom variable ,s partition level 3 groups; ( -BC) Artificial data set of 3 well defined group ,spartition levels 3 and 4 groups; The groupswer e define d by sum o f squares clustering.(Fro m Pilla 1r 9 98 )
Evaluation of sampling sufficiency andsignificance for group partition levels indifferent data sets by probabilities
P( G
z
o
≤ G
z
*
) . Probabilities were generate d in
1 0 00 0 bootstr ap iterations at each samplesize. Dat a sets a nd partition leve ls are: (D-F)EEA grassland dat a set (Pilla r et al. 1 9 92 ) ,partition level 2s , 3 and 4 grou ; ps a (nd -G )JSant a Catarina grassland da ta set (Pilla r andTc acenco 1 98 6 ), partition leve 2ls , 3, 4 and5 groups. The grou ps were define d b y s um ofsquares clustering. (Fro m Pillar 19 9 8)
0.00 0.05 0.10 0.15 0.20 0.25 0.30
0.1
0.2
0.3
0.4
0.5
CENTROID DIFFERENCE
2-group partitions
3-group partitions
Probability curve of P( G
z
o
≤ G
z
*
) for increasing separation between groups in
simulated data. Random data sets were defined with 2 groups separated byexpected difference d between centroids ranging from d = 0 (a single gro )up to d= 0. 3 2 (clearly two groups). The groups have equal sizes (2 0 and 2 0 samplingunits). The data contain 4 0 variables with normal (solid lin )e and uniform (dottedline) distribution withi n each group. Standard deviations of th e means base d on 1 0data sets in each case are indicate .d The partition level after cluster analysis isindicated on each line. The number of iterations is 1 0 00 for each combination ofcentroid difference, partition level, distribution ty pe a nd dat a set replicate.
(Fro m Pilla 1r 9 99 )
Dimensions: 245 sampling units, 9 variablesData type: (5) mixedType: 3 3 3 3 3 2 3 3 3 Resemblance measure: (5)Gower index, (1)between sampling unitsClustering criterion: (4)average linkage (UPGMA)
SAMPLERBootstrap resamplingSample attribute: sharpness of group structure (G*)Considering partitions with 2 to 5 groups.
Sample size at 1 sampling step(s):245
Probabilities P(GNull<=G*) generated in 1000 iterations of bootstrap resampling:2 groups: 0.2813 groups: 0.1414 groups: 0.1065 groups: 0.027
Cluster analysis (UPGMA) of 245 vegetation patches delimited on grassland, Morro Santana, Porto Alegre (Klebe 2003). Description used 6 structural variables and the analysis was based on Gower similarities.
Types of grassland vegetation patches, Morro Santana, Porto Alegre (Klebe 2003). Classification based on 9 variables describing vegetation structure.