análise de agrupamentos valério de patta pillar departamento de ecologia universidade federal do...

Análise de Agrupamentos

Valério De Patta PillarDepartamento de Ecologia

Universidade Federal do Rio Grande do SulPorto Alegre

[email protected]://ecoqua.ecologia.ufrgs.br

mailto:[email protected]

http://ecoqua.ecologia.ufrgs.br/

Análise de dados com MULTIV

Dataquantitative, qualitative, binary, mixed

Ordination

Transformation

Resemblancebetween variables or sampling units

Cluster analysis

Randomization

teststo compare groups of

sampling units (analysis of variance)

or to compare variables

Descriptive attributes and

bootstrap

Bootstrap Bootstrap

Disponível em http://ecoqua.ecologia.ufrgs.br

Análise de Agrupamentos(método de ligação simples)

5

4

7

6

32

1

20

30

40

20 40

Species A

Species B

2

3

4

1

5

6

7

0 4 8

1 02 5.83 03 6.56 1.00 04 7.68 2.24 2.00 05 4.24 6.48 7.28 8.54 06 13.78 9.27 9.43 8.06 12.73 07 15.56 11.23 11.36 10.63 13.34 4.47 0

1 2 3 4 5 6 7

Sp.A Sp.B Sp.C1 26 28 182 28 30 143 29 31 134 29 33 135 30 27 196 35 38 157 39 36 15

Análise de Agrupamentos• Agrupamento hierárquico

– Algoritmos podem ser aglomerativos ou divisivos– Processo de agrupamento representado por um dendrograma – Não produz uma classificação mas n-1 possibilidades de

classificação, pois o número de grupos é definido a posteriori– Alguns algoritmos aglomerativos: Ligação simples, ligação

completa, ligação média (UPGMA, WPGMA), soma de quadrados (Ward)

• Agrupamento não-hierárquico– Número de grupos é especificado a priori e o resultado é uma

classificação.

Referências: Legendre, P. ; Legendre, L. 1998. Numerical Ecology. Elsevier, N. Yo rk. Orlóci, L.; Kenkel, N.C.; Orlóci, M. 1987. Data Analysis in Population and Community Ecology. University

of Hawaii, Honolulu / New Mexico State University, Las Cruces. p 175-182. Pielou, E. C. 1984. The Interpretation of Ecological Data; a Primer on Classification and Ordination. New

York, J. Wiley. p. 13-40 e 63-81. Pillar, V. D. 1999. How sharp are classifications? Ecology 80: 2508-2516 Podani, J. 2000. Introduction to the Exploration of Multivariate Biological Data. Leiden, Backhuys. p.

135-174.

Algoritmo de agrupamento aglomerativo hierárquico

(1) São agrupados os dois objetos (ou dois grupos de objetos) que forem mais semelhantes na matriz de semelhança.(2) A matriz de semelhança é redefinida de acordo com o grupo que foi formado. (3) Repete-se o processo até que todos os objetos formem um único grupo (n-1 passos de agrupamentos).

Baseado em uma matriz de semelhança comparando n objetos (unidades amostrais ou variáveis) aos pares:

Alguns critérios para a redefinição da matriz de semelhança após cada passo aglomerativo (Extraído de Podani 1994:82)

Ligação Simples

• Quando a matriz contém dissimilaridades, a dissimilaridade entre os grupos P e Q é:

– dPQ = INF [ djk, para j=1, ..., n-1 e k=j+1, ..., n objetos, desde que j pertença ao grupo P e k ao grupo Q ]

onde:• djk é um elemento da matriz de dissimilaridades• INF é valor mínimo no conjunto entre []

• Quando a matriz contém similaridades, SUP (máximo) é usado ao invés de INF.

Ligação Simples

Ligação Completa

• Quando a matriz contém dissimilaridades, a dissimilaridade entre os grupos P e Q é– dPQ = SUP [ djk, para j=1, ..., n-1 and

k=j+1, ..., n objetos, desde que j pertença ao grupo P e k ao grupo Q ]

onde:– djk é um elemento da matrizx de dissimilaridades– SUP é o valor máximo no conjunto entre []

• Quando a matriz contém similaridades, INF é usado aon invés de SUP.

Ligação Completa

Ligação Média (UPGMA)Rohlf (1963)

• UPGMA: Unweighted Pair Group Method using Arithmetic Averages

• A distância entre dois objetos ou grupos M e N é dada pela média aritmética das distâncias entre os elementos dos dois grupos.

Soma de quadrados progressiva(Ward 1963, Orlóci 1967)

O critério de agrupamento minimiza o aumento na soma de quadrados dentro do grupo formado a cada passo de agrupamento, i.e. QPQ = QP+Q - QP - QQ

Onde QP+Q é a soma de quadrados total no grupo P+Q e QP e QQ são as somas de quadrados dentro dos grupos P e Q.

QP+Q =

€

1np+nq h

∑ dhi2

i∑

para h=1, ..., n-1 e i=h+1, ..., n , objetos desde que h e i pertençam ao grupo P ou Q

QP =

€

1np h∑ dhi

2i∑

para h=1, ..., n-1 and i=h+1, ..., n objetos, desde que h e i pertençam ao grupo P

QQ =

€

1nq h∑ dhi

2i∑

para h=1, ..., n-1 and i=h+1, ..., n objetos, desde que h e i pertençam ao grupo Q

Soma de quadrados progressiva

Nitidez de grupos e suficiência amostral em análise de

agrupamentos

•Análise de agrupamentos é uma ferramenta para classificação de quaisquer objetos.

•Métodos de agrupamento revelam grupos mesmo quando não existe estrutura clara de grupos nos dados. Os grupos revelados são reais? Como escolher um nível de partição adequado?

•Seria estável a classificação se o levantamento fosse repetido muitas vezes?

•O tamanho da amostra é suficiente para responder essas questões?

Análise de agrupamentos (soma de quadrados) com dados simulados: 50 unidades descritas por quatro variáveis aleatórias.

Análise de agrupamentos (soma de quadrados) com dados simulados: 50 unidades descritas por quatro variáveis aleatórias definindo 2 grupos nítidos.

Quantos grupos? (onde “cortar” o dendrograma)

São nítidos os grupos?

0

WITHIN GROUP SUM OF SQUARES

9000

1

2

3

Análise de agrupamentos de 20 comunidades em vegetação de campo (quadros 0.1 x 1 m) (Cadenazzi 1996). O método de agrupamentos é variância mínima e a análise é baseada em distâncias Euclidianas.

Qual a probabilidade de que uma classificação (e.g., tipos de comunidades) obtida de um levantamento se mantenha ao se repetir o levantamento no

mesmo universo amostral?

Avaliação da nitidez de grupos por auto-reamostragem

(bootstrap)Análise de agrupamentos é realizada com uma amostra, e grupos são definidos a um dado nível de partição.

Amostras bootstrap são tomadas reamostrando a amostra com reposição.

Análise de agrupamentos é realizada com cada amostra bootstrap e os grupos encontrados são comparados com os grupos originais.

Quanto mais nítidos forem os grupos na amostra, mais estáveis serão os grupos encontrados nas amostras bootstrap.

Quanto mais difusos forem os grupos na amostra, mais instáveis serão os grupos nas amostras bootstrap.

Pillar, V.D. 1999. How sharp are classifications? Ecology 80: 2508-2516.

Dada uma amostra de n unidades amostrais e p variáveis submetida a análise de agrupamentos, o método gera as probabilidades necessárias para avaliar a significância das partições com k grupos usando tamanhos crescentes de amostra nz ≤ n.

Pillar, V.D. 1998. Sampling sufficiency in ecological surveys. Abstracta Botanica 22: 37-48.

Avaliação da nitidez de grupos por bootstrap combinada com amostragem em processo

Algoritmo:

- Cada it eração to ma uma amostra boots tr ap com nz unidades amostrais e submete -a a análise de agrupamentos.

- Cada it eração computa G

z

*

, que é a similaridade entre a partição com k

grupos na amostra bootstrap e a partição com k grupos na amostra de referência,

- e computa G

z

o

sob a hipótese nula de que os grupos são nítidos. Se H0 é

verdadeira, cada grupo encontrado pela análise de agrupamentos na amostra bootstrap é uma amostra aleatória do grupo correspondente (mais próximo) no pseudo universo amostral.

- A comparação de G

z

o

e G

z

*

conc lui uma it eraçã o.

- A probabilidade P ( G

z

o

≤ G

z

*

) é encontrada após muitas .iterações

- Se P( G

z

o

≤ G

z

*

) ≤ a hipótese nul a é rejeit ,ada os grupos são difusos e a amostraé suficiente.

- Se P( G

z

o

≤ G

z

*

) > a hipótese nul a é aceit ,a os grupos são nítidos ou o tamanho da amostral é .insuficiente Sufici ência amostral é avaliada pel a

estabilidade de P( G

z

o

≤ G

z

*

) com tamanhos crescentes de amostra nz ≤ n.

Avaliação de nitidez de grupos por auto-reamostragem (bootstrap)

Evaluation of group sharpness by bootstrap resampling

The G

z

* parameter

The n + nz sampling units in the reference sample and in the bootstrap sample arepoints in a space defined by p variables.

The parameter evaluated in each bootstrap sample of size nz is:

Gz

*

= 1 −

Sz

Tz

where

Tz

=

1

n + nz h = 1

n + nz

− 1

∑ dh i

2

i = h + 1

n + nz

∑

is the tota l sum of squares, involving (n + nz)( n + nz–1 )/ 2 squareddissimilarities o f n + nz sampling units, n is the siz e o f the referencesample a nd nz is the size of the bootstrap sample.

Sz is the sum of squares between neares t neighbo r groups mappedone-to-o ne in the reference sample to the bootstrap sample.

Sz requires the computation of sum of squares Qj for all k2 pair-wisecontras ts between the k groups in th e bootstrap sample and the kgroups in the reference sample.

Evaluation of group sharpness by bootstrap resampling

The sum of squares Qj are arranged in a k by k matrix, with rows identifying the groups found in the bootstrap sample and the columns the groups in the reference sample.

The k! permutations of the columns of this matrix are examined such that a minimum trace is found.

The minimum trace is the value of S we are seeking.

The k pair-wise contrasts in the main diagonal indicate one-to-one correspondence of the groups in the bootstrap sample with the groups in the reference sample.

The between groups sum of squares for contrast j is

Qj

= Tj

− Wj B

+ Wj R( )

where

Tj is the total sum of squares involving squared distances of the sampling units in the tw o gr ,oups

WjB is the sum of sq uares within the gro up cB in the bootstrap :sample

Wj B

=

1

nc B h = 1

n + nz

− 1

∑ dh i

2

δ ( h , i , cB

)

i = h + 1

n + nz

∑

wher e ncB is the size of group cB in the bootstrap sample and the indicator variable ( , ,h i cB) is one if sampling unit h andi belong t o

group cB or zero if other .wise WjR is similarly .defined

Algorithm illustrated by an example (Pillar 1999):(1) Complete data set (variables are rows, sampling units are columns):

1 2 3 4 5V1 17 14 27 21 16V2 5 9 8 5 0V3 5 8 0 0 10

(2) Distance matrix (squared Euclidean) of sampling units:0 34 134 41 51

0 234 129 890 45 285

0 1500

(3) Reference partition with 2 groups generated by cluster analysis:Sampling units: 1 2 3 4 5Groups: 1 1 2 2 1

(4) Get a bootstrap sample (in this example sample size nz = n):Sampling units: 1 5 4 4 5

(5) Distance matrix (squared Euclidean) of sampling units (reference plusbootstrap):

0 34 134 41 51 0 51 41 41 510 234 129 89 34 89 129 129 89

0 45 285 134 285 45 45 2850 150 41 150 0 0 150

0 51 0 150 150 00 51 41 41 51

0 150 150 00 0 150

0 1500

(6) Bootstrap sample partition with 2 groups generated by cluster analysis:Sampling units: 1 5 4 4 5Groups: 3 4 3 3 4

(7) Sum of squares for contrasts between groups of sampling units in thereference (rows) and bootstrap sample (columns); matrix is rearranged:

3 4 4 31 78.2 32.8 ––> 32.8 78.22 28.6 206 206 28.6

(8) To tal sum of squares computed from distance matrix of step (5):T = (34+...+51+…+150)/ 10 = 411.6One-to-one nearest neighbor sum of squares between partitions: S =32.8+28.6 = 61.3667Nearest neighbor groups: 1,4; 2,3;

G

z

*

= 1 - S / T = 0 .8509

(9 ) Null boot s tra p s am ple ( th e unit s in e ach gr oup ar e ta ken at ra ndomfro m t he ne ar es t gro up in t he refe re nce s am ple):Sam pling un its: 3 1 3 4 5Gro ups: 3 4 3 3 4

(10 ) Dis tan ce m atri x of s ampling unit s ( refe re nce p lus null boot s traps am ple):

0 3 4 1 3 4 4 1 5 1 1 3 4 0 1 3 4 4 1 5 10 2 3 4 1 2 9 8 9 2 3 4 3 4 2 3 4 1 2 9 8 9

0 4 5 2 8 5 0 1 3 4 0 4 5 2 8 50 1 5 0 4 5 4 1 4 5 0 1 5 0

0 2 8 5 5 1 2 8 5 1 5 0 00 1 3 4 0 4 5 2 8 5

0 1 3 4 4 1 5 10 4 5 2 8 5

0 1 5 00

(11 ) Sum of squar es for cont ra s ts be t wee n nea re st ne ighb or gro ups ofs am pling unit s in t he re fe ren ce and null boot s tra p s am ple:1 ,4: 6 .52 ,3: 1 .5

(12 ) To t al s um of s quar e s comput e d fro m d ist ance matri x of s t e p (10 ):T° = ( 34+ ...+51+. ..+285+150 )/ 10 = 495 .8Exclusive ne are s t ne ighb or s um of s quar e s be t wee n partit ion s: S° = 6 .5+1.5= 8

G

z

o

= 1 – S° / T° = 0 .9839

Since G

z

o

is larg e r t han G

z

*

t his it e rati on will add z e ro to t he cumulati ve

fre que ncy F( G

z

o

≤ G

z

*

) .

(13 ) Repeat step s (4 ) to (12 ) u p to B times

A run with B = 10000 iterations gave a (P G

z

o ≤ G

z

* ) = 0 .3839 and average

G

z

* = 0 .9068.

Evaluation of sampling sufficiency andsignificance for group partition levels indifferent data sets by probabilities

P( G

z

o

≤ G

z

*

) . Probabilities were generated in

1 0 00 0 bootstrap iterations at each samplesize. Data sets and partition levels are: (A)Artificial data of 60 un its described byrandom variable ,s partition level 3 groups; ( -BC) Artificial data set of 3 well defined group ,spartition levels 3 and 4 groups; The groupswer e define d by sum o f squares clustering.(Fro m Pilla 1r 9 98 )

Evaluation of sampling sufficiency andsignificance for group partition levels indifferent data sets by probabilities

P( G

z

o

≤ G

z

*

) . Probabilities were generate d in

1 0 00 0 bootstr ap iterations at each samplesize. Dat a sets a nd partition leve ls are: (D-F)EEA grassland dat a set (Pilla r et al. 1 9 92 ) ,partition level 2s , 3 and 4 grou ; ps a (nd -G )JSant a Catarina grassland da ta set (Pilla r andTc acenco 1 98 6 ), partition leve 2ls , 3, 4 and5 groups. The grou ps were define d b y s um ofsquares clustering. (Fro m Pillar 19 9 8)

0.00 0.05 0.10 0.15 0.20 0.25 0.30

0.1

0.2

0.3

0.4

0.5

CENTROID DIFFERENCE

2-group partitions

3-group partitions

Probability curve of P( G

z

o

≤ G

z

*

) for increasing separation between groups in

simulated data. Random data sets were defined with 2 groups separated byexpected difference d between centroids ranging from d = 0 (a single gro )up to d= 0. 3 2 (clearly two groups). The groups have equal sizes (2 0 and 2 0 samplingunits). The data contain 4 0 variables with normal (solid lin )e and uniform (dottedline) distribution withi n each group. Standard deviations of th e means base d on 1 0data sets in each case are indicate .d The partition level after cluster analysis isindicated on each line. The number of iterations is 1 0 00 for each combination ofcentroid difference, partition level, distribution ty pe a nd dat a set replicate.

(Fro m Pilla 1r 9 99 )

Dimensions: 245 sampling units, 9 variablesData type: (5) mixedType: 3 3 3 3 3 2 3 3 3 Resemblance measure: (5)Gower index, (1)between sampling unitsClustering criterion: (4)average linkage (UPGMA)

SAMPLERBootstrap resamplingSample attribute: sharpness of group structure (G*)Considering partitions with 2 to 5 groups.

Sample size at 1 sampling step(s):245

Probabilities P(GNull<=G*) generated in 1000 iterations of bootstrap resampling:2 groups: 0.2813 groups: 0.1414 groups: 0.1065 groups: 0.027

Cluster analysis (UPGMA) of 245 vegetation patches delimited on grassland, Morro Santana, Porto Alegre (Klebe 2003). Description used 6 structural variables and the analysis was based on Gower similarities.

Types of grassland vegetation patches, Morro Santana, Porto Alegre (Klebe 2003). Classification based on 9 variables describing vegetation structure.

análise de agrupamentos valério de patta pillar departamento de ecologia universidade federal do...

Documents