delineamento analises multivariadas

Post on 05-Jun-2015

1.666 Views

Category:

Education

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ANÁLISES MULTIVARIADAS

• Análises que trabalham com mais de uma variável dependente.

• Análises principalmente exploratórias.

• Inferências estatísticas possíveis em alguns casos.

• Análises recomendadas em estudos de comunidades.

• TIPOS

� Classificação (classificar em grupos)� Ordenação (ordenar em gradientes)

ORDENAÇÃO

• Ordenar dados ao longo de gradientes (variáveis)

� Reduzir o número de variáveis para permitir o reconhecimento de padrões só com as variáveis realmente importantes (Análise Exploratória)

� Fornecer uma nova combinação de variáveis, as variáveis latentes, que podem ser tratadas como novas variáveis para análises estatísticas (ANOVA, teste t, Regressão).

� Variáveis bióticas, ambientais ou ambas

� Variáveis explicativas (independentes) ou dependentes

ORDENAÇÃO

� Relação entre variáveis biológicas (espécies ou táxons) a partir de observações (amostras).

� Análises indiretas: padrões de ordenação explicados por variáveis ambientais não analisadas diretamente.

Análise de Componentes PrincipaisAnálise Discriminante

Análise de CorrespondênciaEscalonamento Multidimensional

� Análises diretas: padrões de ordenação calculados a partir de dados bióticos e ambientais concomitantemente

Análise de GradientesAnálise de Correspondência Canônica

Análise de Correlação Canônica

ORDENAÇÃO

VARIÁVEIS VARIÁVEIS AMBIENTAIS

...

2

5

5

3

4

Sp.B

...

1

6

5

4

2

Sp. A

......St. Y

...2St. 5

...1St. 4

...2St. 3

...12St. 2

...3St. 1

Sp. X

Sp. C

EspécieEstação

...

2

5

5

3

4

Temp

...

1

6

5

4

2

NO3

......

...2

...1

...2

...12

...3

xAltitude

OB

SE

RV

ÕE

S/O

BJE

TO

S

(uni

dade

s am

ostr

ais)

ESPÉCIES

AM

OS

TR

AS

AMOSTRAS

Modo R Modo Q

VARIÁVEIS << AMOSTRAS(Colunas) (linhas)

ES

CIE

S

ORDENAÇÃOVARIÁVEIS

AMBIENTAIS

MATRIZ

Correlação ou Covariância

ESPÉCIES/ AMBIENTAIS

ESPÉCIES

AM

OS

TR

AS

AM

OS

TR

AS

ESPÉCIES

ES

CIE

S

AM

OS

TR

AS

AMOSTRAS

Modo Q

Modo R MATRIZ

Distância ou Similaridade

ES

CIE

S/ A

MB

IEN

TA

IS

ANÁLISE DIRETA

ANÁLISE INDIRETA

Análise de Componentes Principais(ACP – PCA)

Estação/ Espécie Sp. A Sp. B

St. 1 1 1

St. 2 4 3

St. 3 5 5

St. 4 2 4

St. 5 6 4

St. 6 2 2

ACP

COMPONENTES PRINCIPAIS

st 4 st 5

st 2

st 6

st 1

st 3

Sp. A

Sp.

B

NOVO SISTEMA DE EIXOS

st 2st 6

st 1

st 3

st 4

st 5CP 1

CP

2Sp. A

Sp. B

Elipse, bisnaga & hipervolume

NOVO EIX

O

(CP1)

NOVO SISTEMA DE EIXOS(modo R) - biplot

T. v

inicol

a

A. cinea

Variáveis

Observações

CP 1

CP

2

P. g

era

ncico

la

G. brunnea

St 1

St 10

St 9

St 5

St 2

St 3

St 8

St 4

St 7

St 6

NOVO SISTEMA DE EIXOS (modo Q) – biplot

CP 1

Variáveis

Observações

CP

2

brejo

restinga

mata

cilia

r

flore

sta

Cap

Alu

Nem

Tec

Pac

Tal

Cil

Bec

Quantos componentes interpretar ?

Componente Valor Absoluto

% da Variância

CP 1 1,890 64,4%

CP 2 0,602 20,4%

CP 3 0,401 13,6%

CP 4 0,021 0,7%

CP 5 0,014 0,5%

CP 6 0,013 0,4%

0 1 2 3 4 5 6 7 8 9 10Componentes Principais

0

1

2

3

4

5

Aut

o val

ores

0 1 2 3 4 5 6 7 8 9 10Componentes Principais

0

1

2

3

4

5

Aut

oval

ores

Valores reaisValores aleatorizados

Quantos componentes interpretar ?

• Decisão numérica

• Decisão ecológica

Variáveis biologicamente explicáveis

Componente Valor Absoluto

% da Variância

CP 1 1,890 64,4%

CP 2 0,602 20,4%

CP 3 0,401 13,6%

CP 4 0,021 0,7%

CP 5 0,014 0,5%

CP 6 0,013 0,4%

Critério de Kaiser CP > 1

> Excesso de redundância

Premissas da ACP

Linear Gaussiana

Monotônicas

1. Linearidade entre as variáveis

2. Normalidade de cada variável (univariada).

3. Normalidade de todas as variáveis (multivariada)

4. Número de Variáveis << Observações (<50%)

5. Ausência de ‘valores extremos’ (‘outliers’)

Premissas da ACP

Premissas da ACP

• Transformações

√x, Log (x+1), √ √x , Arcoseno

• Eliminação de valores extremos

‘outlier’ > 2,5 D.P.

• Violação das premissas →menos grave quando o objetivo da análise é apenas exploratório.

Variações da ACP

• Gradientes pequenos (maior chance de dados monotônicos)

• Pouco conhecimento sobre o local

• Ausência de estruturação nas amostras (sem formação de grupos a priori.

• Eliminação de valores extremos

• Variáveis latentes.

Utilização da ACP

• Rotação secundária (varimax, quadrimax, etc...)

• Matriz → Correlação × Covariância

ROTAÇÃO DOS EIXOS

st 4 st 5

st 2

st 6

st 1

st 3

Sp. A

Sp.

B

Novo sistema de variáveis (latentes) a serem testadas

Análise Discriminante ouAnálise de Variáveis Canônica

(AVC ou CVA)MANOVA

ACP AVC

CVA(Discriminante)

4

-4 -3 -2 -1 0 1 2 3 4

Variável Canônica 1

-3

-2

-1

0

1

2

3V

ariá

vel C

anôn

ica

2

50m20m10m

GRUPO

4

-4 -3 -2 -1 0 1 2 3 4

Variável Canônica 1

-3

-2

-1

0

1

2

3V

ariá

vel C

anôn

ica

2

50m20m10m

GRUPO

CVA(Discriminante)

10 m 20 m 50 m classificação correta (%)

10 m 10 0 1 91 %

20 m 0 8 1 89 %

50 m 0 0 11 100 %

Total 10 8 13 94 %

10 m 20 m 50 m classificação correta (%)

10 m 9 1 1 82 %

20 m 1 7 1 78 %

50 m 0 1 10 91 %

Total 10 9 12 84 %

Matriz de classificação

Matriz de classificação corrigida (‘jacknife)

CVA(Discriminante)

CVA (Discriminante)

Testando a Significância dos agrupamentos

• MANOVA

� Traço de Pillai

� Lambda de Wilks

• ANOVA das Variáveis Canônicas (Funções Discriminantes)

• Teste T de Hotelling

CVA (Discriminante)

PREMISSAS

• Mesmas da ACP

APLICAÇÃO

• Objetivo é avaliar o que difere entre grupos

• Dados estruturados em grupos a priori

� Pontos de coleta formando grupos

� Amostras referentes a diferentes ambientes

� Morfometria (variação entre populações, espécies, etc.)

Análise de Correspondência

Parcela 1 = 1 ind.Parcela 2 = 0 ind.Parcela 3 = 1 ind.Parcela 4 = 0 ind.Parcela 5 = 7 ind.Parcela 6 = 2 ind.Parcela 7 = 1 ind. Parcela 8 = 0 ind.Parcela 9 = 0 ind.

(1× 1) + (3 × 1) + (5× 7) + (6× 2) + (7× 1)/12 = 4,83

Espécie D

Média ponderada da Espécie D

= Escore de D por parcelas

Análise de GradientesT = 20o C = 2 ind.T = 22o C = 0 ind.T = 25o C = 1 ind.T = 28o C = 5 ind.T = 30o C = 3 ind.T = 32o C = 2 ind.

Espécie X

(20×2) + (25×1) + (28×5) + (30×3) + (32×2) / 13 = 27,61oC

Média ponderada da Espécie X

Escore de X para temperatura = temperatura ‘ideal’

Análise de Correspondência

A B C D E F

ORDEM 1 2 3 4 5 6 M.P.

P1 1 1 9 3 1 2 6 3.55

P2 2 2 0 2 0 1 1 3.17

P3 3 3 3 2 1 2 2 3.15

P4 4 4 0 3 0 1 1 2.67

P5 5 3 1 2 7 1 2 3.50

P6 6 2 0 3 2 2 1 3.50

P7 7 1 1 2 1 2 2 3.89

P8 8 0 1 3 0 1 1 3.67

P9 9 0 0 2 0 2 0 4.00

M.P. 4.00 2.53 4.95 4.83 5.07 3.50

Análise de Correspondência

-0.10 -0.05 0.00 0.05AC1

-0.05

0.00

0.05

0.10

AC

2

BP1 F

P8

P3EP7

D

P5

P6A

P4P2

P9

C

Análise de Correspondência

A B C D E F

P1 1 9 3 1 2 6

P2 2 0 2 0 1 1

P3 3 3 2 1 2 2

P4 4 0 3 0 1 1

P5 3 1 2 7 1 2

P6 2 0 3 2 2 1

P7 1 1 2 1 2 2

P8 0 1 3 0 1 1

P9 0 0 2 0 2 0-0.10 -0.05 0.00 0.05

AC1

-0.05

0.00

0.05

0.10

AC

2

BP1 F

P8

P3EP7

D

P5

P6A

P4P2

P9

C

Análise de Correspondência

A B C D E F

P1 1 9 3 1 2 6

P2 2 0 2 0 1 1

P3 3 3 2 1 2 2

P4 4 0 3 0 1 1

P5 3 1 2 7 1 2

P6 2 0 3 2 2 1

P7 1 1 2 1 2 2

P8 0 1 3 0 1 1

P9 0 0 2 0 2 0-0.10 -0.05 0.00 0.05

AC1

-0.05

0.00

0.05

0.10

AC

2

BP1 F

P8

P3EP7

D

P5

P6A

P4P2

P9

C

Análise de CorrespondênciaDestendenciosa (‘Detrended’)

‘Efeito Ferradura’

C1 (CA)

C1

C2

C1 (DCA)

Análise de Correspondência

PREMISSAS

• Espécies apresentam distribuição gaussiana ao longo dos gradientes ambientais.

• Homogeneidade das Variâncias

APLICAÇÃO

• Pode ser usada quando o número de variáveis ≈ observações

• Modo Q e R = equivalentes

• Gradientes ambientais amplos

Análise de Correspondência

Linear Gaussiana

Monotônicas

Análise de Correspondência Canônica (CANOCO)

• Extensão da Análise de Correspondência com duas matrizes.

• Extensão da Análise de Gradientes ou de Média Ponderada (univariada).

• Os gradientes da AC são condicionados pela matriz de variáveis abióticas.

• Análise direta expressa graficamente por (espécies x amostras x var. ambientais – joint-plot).

• Gradientes de espécies e estações por eixos ambientais

Análise de Correspondência Canônica (ACC ou CANOCO)

Ple 6

Cec

1

Typ Ter

Au 2

5

O2

Temp

Zon

Análise de Correspondência Canônica (CANOCO)

Análise de Correlações Canônicas (COR)

PREMISSAS

• Mesmas da Análise de Componentes Principais

APLICAÇÃO

• Envolve dois grupos de variáveis

• Ambientais

• Bióticas

• Gera variáveis latentes que maximizam a explicação da variável latente biótica pela variável latente ambiental.

• Pouco recomendada devido a dificuldade de interpretação

• Recomenda-se interpretar um PCA a partir da projeção das variáveis ambientais no plano fatorial

Análise de Redundância (RDA)

• Extensão da Análise de Componentes Principais (monotônica) com varáveis explicativas (duas matrizes).

• Semelhante à CANOCO (só que para distribuições monotônicas e não gaussianas)

• Extensão da COR (Análise de Correl. Canônicas) mas com a definição de variáveis predictivas (independentes).

• Sub-estimada em estudos ecológicos

• Premissas semelhantes as da ACP (monotonicidade) e da CANOCO

Escalonamento Multidimensional não métrico (N-MDS ou MDS)

• Ordenação por escores

• Matriz de similaridades (modo Q) ordena observações (amostras)

• Mapa de pares de distâncias/similaridades projetadas em um espaço bidimensional – interpretação por proximidade.

• Não paramétrica – vantagens → premissas desvantagens → s/ variáveis latentes;

→ não preserva s2

Stress = 0,2 Stress = 0,1

ACP (PCA)

AD, AVC(DA, CVA)

AC(CA)

ACC(CANOCO)

COR(COR)

ARD(RDA)

Esc. Multid.(MDS)

Variáveis Indif. I & Categ Indif. D & I Indif. D & I Indif.

Matrizes 1 1 1 2 2 2 1

Análise Indireta Indireta Indireta Direta Direta Direta Indireta

Relação entre Var.

Monotônica Monotônica Gaussiana Gaussiana Monotônica Monotônica N.A

Grupos

(a priori)

Não Sim Não Não Não Não Não

Forma da Matriz

Ob >> Var Ob>>Var>G Ob ≈ Var Ob ≈ Var Ob >> Var Ob >> Var Ob >> Var

Gradiente ambiental

restrito restrito amplo amplo restrito restrito Indif.

COMPARAÇÃO ENTRE AS DIFERENTES ANÁLISES DE ORDENAÇÃO

CLASSIFICAÇÃO

Análise de Dendrograma (‘Cluster Analysis’)

A

B

E

F

H

C

D

G

I

J

A

B

E

F

H

C

D

G

I

J

0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

CLASSIFICAÇÃOAnálise de Dendrograma (‘Cluster Analysis’)

TIPOS

• Medidas de similaridade ou distância:

�Jaccard, Sorensen, Distância Euclidiana, Bray-Curtis.

• Algorítimo de aglomeração:

� UPGMA, WPGMA, Ward, Neighbor-joining, etc...

APLICAÇÃO

• Organiza entidades (amostras, spp.) em grupos onde a similaridade interna é maximizada

• Não existem grupos a priori

• Sintetiza a análise para apenas alguns grupos G << N

• Identifica ‘outliers’

• Sintetiza as informações de um único grupo de variáveis (não hávariáveis predictivas/respostas)

CLASSIFICAÇÃO

Análise de Dendrograma (‘Cluster Analysis’)

A

B

E

F

H

C

D

G

I

J

A

B

E

F

H

C

D

G

I

J

0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

CLASSIFICAÇÃO

Análise de Dendrograma (‘Cluster Analysis’)Twinspan

A B E F H C D G I J

sp1

sp5

sp2

sp7

sp8

sp3

sp6

sp4

4 5 0 0 1 2 0 0 7 1

8 7 0 0 2 1 0 0 9 6

0 0 0 0 7 5 0 0 0 1

0 1 1 0 4 3 0 0 1 0

0 1 8 7 1 2 0 0 0 1

0 1 5 4 0 1 2 3 0 0

0 2 0 0 1 2 6 8 0 0

0 1 0 1 1 0 5 7 0 1

CLASSIFICAÇÃOAnálise de Dendrograma (‘Cluster Analysis’)

LIMITAÇÕES

• Muito sensível à ‘outliers’

• Sempre procura grupos minimizando diferenças internas e maximizando externas → ordenação não procura grupos

• Difícil a determinação do número de grupos e do nível de formação destes, exceto quando bem estruturados

• Muitas opções de distâncias/similaridades e de métodos de aglomeração – leva muitas vezes a resultados muito distintos.

• Agrupamentos formados por dicotomias, não realísticos em estudos de comunidades – mais aplicáveis a estudos evolutivos.

CLASSIFICAÇÃO

Análise de Dendrograma (‘Cluster Analysis’)

A

B

E

F

H

C

D

G

I

J

K

0 10 20 30 40 50 60 70 80 90 100 %

AM

OS

TR

AS

TESTES DE HIPÓTESE MULTIVARIADOS POR ALEATORIZAÇÃO

TESTE DE MANTEL

AM

OS

TR

AS

AMOSTRAS

MATRIZ DE SIMILARIDADE MATRIZ DE DISTÂNCIA

AM

OS

TR

AS

AMOSTRAS

CORRELAÇÃO

ALEATORIZAÇÃO

ALEATORIZAÇÃO

CORRELAÇÃO

R = 0,40

R1 = 0,38R2 = 0,36R3 = 0,47R4 = 0,15R5 = 0.10...............

98%

R = 0,40

TESTE DE MANTEL

PREMISSAS

• As mesmas da correlação linear

APLICAÇÃO

• Compara duas ou mais matrizes de similaridades

� Biótica × Distância geográfica

� Biótica × Ambiental

� Biótica × Modelo

� Biótica × Distância geográfica × Ambiental

• Não paramétrico mas monotônico

• Elimina o problema da dependência dos dados (autocorrelação)

• Não apresenta graficamente a estruturação, apenas testa a hipótese de dependência entre as matrizes.

TESTE DE MANTEL

AM

OS

TR

AS

AMOSTRAS

MATRIZ DE SIMILARIDADE

×

A

A

A

B

B

B

B

MATRIZ DO MODELO

1

1

1

0

0

0

0

A A A B B B B

1

1

0

0

0

0

1

0

0

0

0

1

1 1

1 1 1

1 1 1 1

Biótica × Modelo

(Ex.: ANOSIM)

TESTE DE MANTEL PARCIAL

Biótica × Distância geográfica × Ambiental

BIÓTICA

ESPACIAL (DISTÂNCIA)

CORRELAÇÃO

AMBIENTAL

CORRELAÇÃO

CORRELAÇÃO Espúria ?

TESTE DE MANTEL PARCIAL

Biótica × Distância geográfica × Ambiental

BIÓTICA

ESPACIAL (DISTÂNCIA)

REGRESSÃOAMBIENTAL REGRESSÃO

Res

íduo

Resíduo

AMBIENTAL (resídual) BIÓTICA (residual)

TESTE DE MANTEL

ANÁLISES MULTIVARIADAS

• Análises ainda muito exploratórias.

• Fornecimento de variáveis latentes – promissor em estudos ecológicos.

• Grande desenvolvimento de diferentes métodos nas últimas décadas (embora antigas).

• Fim ou Meio ?

Fim

top related