análises multivariadas em comunidades vegetais

35
Aplicação de análises multivariadas em estudos de comunidades vegetais Maria W. Pil Concurso Docente, UFPR – Palotina 03/12/2015 [email protected] d = 10 Canonical weights d = 10 Arg Leu Ser Thr Pro Ala Gly Val Lys Asn Gln His Glu Asp Tyr Cys Phe Ile Met Trp Canonical weights Arg Leu Ser Thr Pro Ala Gly Val Lys Asn Gln His Glu Asp Tyr Cys Phe Ile Met Trp Cos(variates,canonical variates) Eigenvalues d = 2 Scores and classes ●● ●● ●● ●● ●● ●● ●● ●● cyto memb peri RS1 RS2 RS3 RS4 RS5 RS6 RS7 RS8 RS9 RS10 RS11 RS12 RS13 RS14 RS15 RS16 RS17 RS18 RS19 Cos(components,canonical variates) d = 0.5 Class scores cyto memb peri

Upload: mwpil

Post on 13-Apr-2017

104 views

Category:

Science


4 download

TRANSCRIPT

Page 1: Análises multivariadas em comunidades vegetais

Aplicação de análisesmultivariadas em estudosde comunidades vegetais

MariaW.PilConcurso Docente,UFPR– Palotina

03/12/[email protected]

d = 10

Canonical weights

d = 10

Arg Leu

Ser Thr

Pro

Ala Gly Val

Lys

Asn Gln

His

Glu

Asp Tyr Cys

Phe

Ile

Met

Trp

Canonical weights

x1

Arg Leu

Ser

Thr Pro

Ala Gly

Val

Lys Asn Gln

His

Glu

Asp Tyr

Cys

Phe

Ile

Met Trp

Cos(variates,canonical variates) Eigenvalues

d = 2

Scores and classes

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

● ●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●

● ●

●●

●●

● ●

●●

● ●●

●●

● ●

●●

●●

●●

● ●

cyto memb

peri

RS1

RS2

RS3

RS4

RS5 RS6

RS7

RS8

RS9 RS10 RS11

RS12

RS13

RS14

RS15

RS16

RS17 RS18

RS19

Cos(components,canonical variates)

d = 0.5

Class scores cyto

memb

peri

Page 2: Análises multivariadas em comunidades vegetais

2

Outline

• Comunidades vegetais• Tipos de dados• Tipos de estudos

• O que são Análises Multivariadas?• Vantagens e características• Escolha de métodos

• Exemplos de métodos• MANOVA• Análise Discriminante Linear• Análise de Componentes Principais

Page 3: Análises multivariadas em comunidades vegetais

Comunidades vegetais

Page 4: Análises multivariadas em comunidades vegetais

4

Comunidade de mangue

Page 5: Análises multivariadas em comunidades vegetais

• Unidades de amostragem:

• E.g.: plots, transectos, quadrats• Geralmente em estrutura espacial ou temporal hierárquica

• Parâmetros registrados por taxas múltiplas em cada unidade• E.g.: contagem simples, densidades,% de cobertura vegetal,presença-ausência

• Variáveis ambientais registradas em cada unidade• pH, salinidade, temperatura, nutrientes, tipo de sedimento do solo,elevação

Dados de estudos de comunidades vegetais

Page 6: Análises multivariadas em comunidades vegetais

• Examinar padrões temporais e espaciais na composição deespécies

• Relacionar padrões à variáveis ambientais das unidadesamostradas

• Determinar quais táxons são chave em “direcionar” ospadrões temporais e espaciais

Exemplos de objetivos em estudos decomunidade vegetal

Page 7: Análises multivariadas em comunidades vegetais

7

Complexidade de variáveis

• Composição dacomunidade

• Característicasmorfológicas das espécies

• Características ambientais

Page 8: Análises multivariadas em comunidades vegetais

O que são Análises Multivariadas?

• Dois grupos de métodos estatísticos: univariada emultivariada

• A análise multivariada (AMV) fornece métodosestatísticos para estudo das relações conjuntas devariáveis em dados que contêm intercorrelações.

• Porque muitas variáveis podem ser consideradassimultaneamente, as interpretações podem ser feitas quenão são possíveis com estatísticas univariadas.

8

Page 9: Análises multivariadas em comunidades vegetais

AMV usa todos os dados disponíveis para capturar omáximo de informação possível. O princípio básico édiminuir o número de variáveis de centenas para um meropunhado.

9

O que são Análises Multivariadas?

AMV

[

Page 10: Análises multivariadas em comunidades vegetais

Pluralitas non est ponenda sine necessitate.Tradução aproximada: "Não torne as coisas mais complicadas do que

precisam ser."

Análises multivariadas são baseadas na“Navalha de Ockham”

William of Ockham(1285-1347) 10

Williamde Ockham foi ummonge Inglês do século14, autor do princípio lógico de que a explicaçãopara qualquer fenômeno deve assumir apenas aspremissas estritamente necessárias à explicação domesmo e eliminar todas as que não causariamqualquer diferença aparente nas predições dahipótese ou teoria.

O termo "navalha" se explica porqueo princípioserve para cortar as partes desnecessárias de umateoria científica.

Page 11: Análises multivariadas em comunidades vegetais

11

• O principal elemento da AMV é a redução da dimensionalidade.

Levado ao extremo, isso pode significar ir de centenas dedimensões (variáveis) para apenas algumas, o que nos permitecriar um gráfico bidimensional.

• Usando estes gráficos, que os nossos olhos e cérebros podemfacilmente manipular, somos capazes de perscrutar o banco dedados e identificar tendências e correlações.

Redução de dimensionalidade

Page 12: Análises multivariadas em comunidades vegetais

Tmt X1 X4 X5 Rep Y avec Y sans

1 -1 -1 -1 1 2.51 2.74

1 -1 -1 -1 2 2.36 3.22

1 -1 -1 -1 3 2.45 2.56

2 -1 0 1 1 2.63 3.23

2 -1 0 1 2 2.55 2.47

2 -1 0 1 3 2.65 2.31

3 -1 1 0 1 2.45 2.67

3 -1 1 0 2 2.6 2.45

3 -1 1 0 3 2.53 2.98

4 0 -1 1 1 3.02 3.22

4 0 -1 1 2 2.7 2.57

4 0 -1 1 3 2.97 2.63

5 0 0 0 1 2.89 3.16

5 0 0 0 2 2.56 3.32

5 0 0 0 3 2.52 3.26

6 0 1 -1 1 2.44 3.1

6 0 1 -1 2 2.22 2.97

6 0 1 -1 3 2.27 2.92

Dados brutos:impossíveis deinterpretar

Gráficos interpretáveis

tendência

tendênciatendência

Y

XX

X

X

Nlinhas

Ncolunas

Redução de dimensionalidade

Page 13: Análises multivariadas em comunidades vegetais

13

• Auxilianacompreensãodecomportamentoscomplexosnoambiente

• Acrescentainformaçõespotencialmenteúteis

• Permitepreservarascorrelaçõesnaturaisentreasmúltiplasinfluênciasdecomportamentosemisolarqualquerindivíduoouvariável

Vantagens

Page 14: Análises multivariadas em comunidades vegetais

14

• Todasasvariáveisdevemserinter-relacionadas

• Diferentesefeitosdasvariáveisnãopodemserinterpretadosdeformaseparada

• Temopropósitodemedir,explicarepreverograuderelacionamentoentrecombinaçõesponderadasdevariáveis

• Consisteemcombinaçõesmúltiplasdevariáveis

Características

Page 15: Análises multivariadas em comunidades vegetais

15

Como escolher o método

• Dependedoobjetivodoinvestigador

• Paracartografaroudescreveravegetação:classificação

• Paraavaliarrelaçõesentreavegetaçãoeoambiente:ordenação

• Classificação:identificaindivíduosouobjetosemgruposouclassessebaseandoemmedidasdasvariáveisatravésdealgumíndicedesimilaridadeE.g.:Análisediscriminante

• Ordenação:sumarizaumgrandenúmerodemedidasempoucasvariáveissintéticas(eixosoucomponentes)E.g.:PCA

Page 16: Análises multivariadas em comunidades vegetais

Exemplos de Métodos

• Que determinam diferenças entre grupos:• ANOVA Fatorial;• MANOVA;• Análise Discriminante;

• Que determinam a estrutura da relação:

• Regressão Múltipla• Correlação Canônica• Análise de Componentes Principais;• Análise de Correspondência;• Análise de agrupamento;

Page 17: Análises multivariadas em comunidades vegetais

17

• Uma extensão de ANOVA em que os efeitos principais einterações são avaliados em uma combinação de VDs

• Análise de variância realizada em múltiplas variáveisdependentes (VD) simultaneamente

• Compara várias médias de diferentes populações paraverificar se essas populações possuem médias de variáveisiguais ou não

• Testa se diferenças médias entre os grupos em umacombinação de VDs é provável de ocorrer por acaso

MANOVA

Teste Número deVI NúmerodeVD

Teste t 1 1

ANOVA Múltiplos 1

MANOVA Múltiplos Múltiplos

Page 18: Análises multivariadas em comunidades vegetais

18

• H0: μ11 = μ12 =…= μ1k ; = μ21 = μ22 =…= μ2k• Onde μij significa a média populacional da variável i no grupoj. Essa Ho diz que a média da variável 1 é a mesma para todosos k grupos e que as médias da vaiável 2 são as mesmas parak grupos, e assim por diante.

• HA: As k populações não tem as mesmas médias paras asdiversas variáveis.

Teste de hipótese da MANOVA

Page 19: Análises multivariadas em comunidades vegetais

19

• A MANOVA desenvolve uma combinação linear de variáveisdependentes

• Equação: Z = c1V1 + c2V2 + c3V3 + ...+ cnVn• Essa combinação leva em consideração todas as possíveiscorrelações entre as variáveis

Correlações da MANOVA

V1 V2 V3

V1 SSv1 SCPv1xv2 SCPv1xv3

V2 SCPv1xv2 SSv2 SCPv2xv3

V3 SCPv1xv3 SCPv2xv3 SSv3

SS=SomadosQuadradosSCP=SomadosProdutosCruzados

Page 20: Análises multivariadas em comunidades vegetais

20

• Wilks’lambda(Λ)• TesteestatísticocomumenteusadoemMANOVA• H0 érejeitadaquandoovalordeΛ épequeno(0-1)• Λ sãonormalmentetransformadosemvaloresdeF or X2maisfamiliares

• TestedePillai-Bertlett• Nessecaso,valoresaltossignificamrejeiçãodeHo

• TambémétransformadoemestatísticadeF

Índices da MANOVA

Page 21: Análises multivariadas em comunidades vegetais

21Reichetal.1999.Generality of leaf trait relationships:atest across six biomes.Ecology 80:1955–1969.

• Reich et al. (1999) examinou a generalidade dascaracterísticas foliares de espécies diferentes em umavariedade de ecossistemas e regiões geográficas.

• 2 populações, entre 3 e 11 espécies, 2 grupos funcionais(arbustos e árvores) e 5 variáveis: • área foliar específica, concentração de N2 na folha, capacidade

fotossintética líquida à base de massa, capacidade fotossintéticalíquida à base de área foliar e capacidadede condutância difusorafotossintética.

• Vamos testar os efeitos da localização e grupo funcional, esua interação, nessas cinco variáveis de resposta tomadasem conjunto

Exemplo de MANOVA

Page 22: Análises multivariadas em comunidades vegetais

22

Exemplo de MANOVA

Aceitamos H0, portanto não há diferenças nas médias das variáveisentre as populações.

Page 23: Análises multivariadas em comunidades vegetais

• Suponha duas classes• Assuma que elas são linearmente separáveis por uma fronteira l(θ)

• Otimizar o parâmetro θ para encontrar a melhor fronteira.

• Análise Discriminante gera uma combinação linear das variáveisque maximiza a probabilidade de observações serem atribuídascorretamente aos seus grupos pré-determinados

Ruim Boa

Análise Discriminante Linear

Page 24: Análises multivariadas em comunidades vegetais

• Tenta encontrar uma transformação linear através damaximização da distância entre-classes e minimização dadistância intra-classe.

• O método tenta encontrar a melhor direção de maneira quequando os dados são projetados em um plano, as classespossam ser separadas.

Análise Discriminante Linear

Page 25: Análises multivariadas em comunidades vegetais

25

Análise de Componentes Principais

• descreve os dados contidos num quadro indivíduos-variáveis numéricas: p variáveis serão mediadas com nindivíduos

• transforma um conjunto original de variáveis em outroconjunto: os componentes principais de dimensõesequivalentes

• detecta a estrutura nas relações entre as variáveis

Page 26: Análises multivariadas em comunidades vegetais

26

1. Padronizar os dados2. Calcular a matriz de covariância3. Encontrar os eigenvalues e eigenvectors da matriz de

covariânciaEigenvalues: Conceitualmente podemser considerados comomedidor da força (comprimento relativo) de um eixo no espaço N-

dimensionalEigenvectors: Enquanto umeigenvalue é o comprimento de um eixo,o eigenvector determina a sua orientação no espaço

4. Plotar os componentes principais sobre os dados

Passos para a Análise deComponentes Principais

Page 27: Análises multivariadas em comunidades vegetais

27

Exemplo de mangue

• Composição dacomunidade

• Característicasmorfológicas das espécies

• Características ambientais

Page 28: Análises multivariadas em comunidades vegetais

28

ANTONINA

BABITONGA

GUARATUBA

fringe bacia transição

Características do solo: conteúdo de areia e argila, salinidade(PWsalinity),composição orgânica (O.M.), pH e capacidadede troca de cátions (CEC).

Page 29: Análises multivariadas em comunidades vegetais

29

• Áreas não ficaram bemseparadas

• Maior partedosdadossumarizados poratributos dosolo.

• PCA1explica 36%davariância erepresentadoprincipalmente porconteúdo deareia

• PCA2explica 24%davariância,representadoprincipalmente porsalinidade

Page 30: Análises multivariadas em comunidades vegetais

30

Page 31: Análises multivariadas em comunidades vegetais

31

Mito ou verdade?

• Uma análise estatística com mais de 2 variáveis é uma análisemultivariada.

Mito. Quando mais de 2 variáveis estão inter-relacionados unscom os outros, podemos usar estatísticamultivariada.

• A finalidade da estatística multivariada é estabelecer correlaçãoentre os conjuntos de variáveis.

Verdade. Mas é objetivo não se limita a determinar relação entreconjunto de variáveis. Ele tende a controlar o efeito de algumasvariáveis que intervêmem relacionamento entre os conjuntos devariáveis.

Page 32: Análises multivariadas em comunidades vegetais

32

Resumo

• Umacomunidadevegetalpodeserdefinidacomotodasasespécies queocupam uma determinada área circunscrita por umecólogo paraopropósito deumestudo

• AMV fornecem métodos estatísticos para estudo das relações conjuntas devariáveis em dados que contêm intercorrelações.

• O princípio básico da AMV é diminuir o número de variáveis correlacionadas(redução da dimensionalidade).

• Classificação:identificaindivíduos ouobjetosemgrupos ouclassessebaseandoemmedidasdasvariáveisatravésdealgumíndicedesimilaridadeE.g.:Análisediscriminante.

• Ordenação:sumarizaumgrandenúmerodemedidasempoucasvariáveissintéticas(eixosoucomponentes) E.g.:PCA.

• MANOVAé uma extensão de ANOVA em que os efeitos principais e interaçõessão avaliados em uma combinação de VDs.

• Análise Discriminante gera uma combinação linear das variáveis que maximizaa probabilidade de observações serem atribuídas corretamente aos seusgrupos pré-determinados.

• Análise de Componentes Principais transforma um conjunto original devariáveis em outro conjunto: os componentes principais de dimensõesequivalentes.

Page 33: Análises multivariadas em comunidades vegetais

33

•Objetivo:

• explorar e identificar dimensões não reconhecidas queafetam o comportamento

• obter avaliações comparativas de objetos quando as basesespecíficas de comparação são desconhecidas ou identificadas

•Passos:

•- identificar todos os objetos relevantes

•- escolher entre dados de similaridade ou de preferência

•- selecionar uma análise agregada ou desagregada

Escalonamento Multidimensional

Page 34: Análises multivariadas em comunidades vegetais

34

Page 35: Análises multivariadas em comunidades vegetais

35