livro princpios...multivariada_20_janeiro_2011 apos reunio paulo

123
PRINCÍPIOS E APLICAÇÕES DA ANÁLISE MULTIVARIADA NOS ESTUDOS DE BIOLOGIA DO SOLO José Paulo SOUSA George Gardner BROWN Dilmar BARETTA Coimbra, fevereiro de 2010

Upload: everton-andrade

Post on 12-Aug-2015

127 views

Category:

Documents


37 download

TRANSCRIPT

Page 1: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

PRINCÍPIOS E APLICAÇÕES DA

ANÁLISE MULTIVARIADA NOS

ESTUDOS DE BIOLOGIA DO SOLO

José Paulo SOUSA

George Gardner BROWN

Dilmar BARETTA

Coimbra, fevereiro de 2010

Page 2: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

APRESENTAÇÃO

Este manual trata-se de um trabalho preparado sob encomenda e com finalidades

bem definidas: estimular a maior utilização das técnicas de análises multivariadas

disponíveis, provocando uma reflexão crítica sobre este tema de inegável relevância

para o avanço da Biologia do Solo no Brasil. Isso porque a comunidade científica

brasileira é muito carente, em planejamento e tratamento de dados obtidos pela

pesquisa, tema este que deve ser estimulado e não tratado isoladamente, pois vêm

provocando controvérsias no ambiente acadêmico.

A intenção, ao elaborar esta primeira versão, com base em alguns poucos autores

especialistas nos vários assuntos abordados, foi principalmente organizar algumas

informações de cursos ministrados no Brasil e de publicações envolvendo técnicas de

análises multivariada. Portanto, não existe a pretensão de esgotar nenhum tema e nem

de apresentar todas as soluções sobre assuntos polêmicos, mas sim demonstrar o

potencial de ferramentas que são muito relevantes.

O texto mostra também as aplicações, potencialidades e amplia o debate para

além da visão dos “iniciados”; para aqueles que trabalham com biologia do solo,

indicadores de qualidade e nos levantamentos de biodiversidade. Este manual não visa

lucratividade com as vendas, pois é custeado por recursos públicos da EMBRAPA e do

CNPq, que motiva a refletir criticamente sobre a realidade da pesquisa brasileira.

Talvez os dois parágrafos abaixo tenham que ir no início

Com os avanços da ciência moderna, o grande desafio é aplicar métodos para

avaliar as intervenções antrópica sobre os processos biológicos do solo, em condições

de campo. Dada a complexidade das propriedades biológicas do solo, devido à alta

variabilidade dos dados, com grande frequência de zero e, na maioria das vezes

distribuição não normal, qualquer análise estatística, mesmo a multivariada deve

atender aos pressupostos de homogeneidade de variância, delineamentos com repetições

verdadeiras, dentre outros princípios para sua aplicação.

Parece evidente que a aplicação da análise multivariada em dados biológicos

pode, de fato, contribuir positivamente para uma melhor visualização e a interpretação

dos resultados obtidos. Mas importa esclarecer que não pretendemos invalidar a análise

univariada e sim apresentar as vantagens e o potencial da multivariada, seja por causa

das pressuposições que são semelhantes, seja em razão da pouca ou incorreta utilização

dos recursos que temos disponíveis hoje. O relato de alunos, professores e colegas

Page 3: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

pesquisadores, de certa forma, nos incentivaram e influenciaram na redação do presente

texto, desde a escolha dos tópicos até apresentação dos exemplos práticos.

O presente livro descreve os principais métodos e técnicas de análise de dados,

especialmente envolvendo biologia do solo, provenientes de estudos, como análise e

previsão de riscos causados por agrotóxicos e resíduos, compostos, etc.; monitoramento

do impacto causado pelo uso da terra e da qualidade do solo antes ou após sua

recuperação e numa visão mais holística, usando sempre análises não só de um

parâmetro físico ou químico, mas métodos que utilizem um conjunto de variáveis

ambientais, teste suas relações e ou utilize como explicativas das modificações de uso

do solo, cujos resultados experimentais foram planejados para tal finalidade.

Essa é a primeira versão do Livro e dada a urgência necessária para sua

confecção já esclarecemos que, em breve será publicada uma nova versão revisada e

atualizada, com mais exemplos de estudos de biologia do solo.

Page 4: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

Índice

Page 5: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

1. Introdução

A maioria dos dados recolhidos em estudos de Ecologia possui uma natureza

multivariável ou multidimensional. Sejam estudos autoecológicos ou sinecológicos,

baseados em experiências mensurativas ou manipulativas e a informação recolhida em

cada unidade experimental (ou objeto) compreende diversas variáveis. Caso as unidades

experimentais sejam indivíduos ou espécies, estas variáveis podem ser, por exemplo,

medidas morfológicas, parâmetros fisiológicos ou respostas comportamentais. No caso

de objetos serem amostras ou locais, as variáveis podem consistir em espécies ou

parâmetros ambientais (sensu latu).

Este cariz multivariável, aliado ao tipo de questões que normalmente estão

associadas a estes estudos, necessita de ser tido em conta quando da análise dos

resultados obtidos. Esteja o interesse na interpretação da estrutura dos dados ou na

busca de relações causa-efeito entre as diversas variáveis, a visão reducionista de

procurar padrões para cada variável isoladamente não resulta na maior parte dos casos.

A natureza multidimensional dos dados faz com que as matrizes de resultados

sejam (i) extensas, apresentando muitas entradas (Exemplo: um estudo com 50 amostras

e 100 espécies possui 50.000 entradas) e (ii) complexas, com os dados a apresentarem,

na maior parte dos casos, elevados níveis de ruído, redundância e valores “outlier”.

Estes fatos fazem com que a utilização de técnicas de análise multivariável sejam as

ferramentas indicadas para trabalhar este tipo de dados.

A sua utilização em Ecologia iniciou-se com a busca de padrões de distribuição

de espécies de plantas e animais, em estudos de Ecologia de Comunidades, e remonta

ao início da segunda metade do século XX. Os métodos utilizados na época eram algo

incipientes, não permitindo, essencialmente por limitações de ordem tecnológica,

explorar diversos aspectos de tratamento dos resultados e responder a muitas das

questões pretendidas. Atualmente, devido aos avanços a nível informático, aliados ao

desenvolvimento dos métodos matemáticos, as ferramentas de análise multivariada são

já mais eficientes, existindo soluções apropriadas para responder às diferentes questões

levantadas em estudos ecológicos. Além disso, a facilidade de comunicação dos

resultados, em virtude das diferentes possibilidades de visualização gráfica aliadas aos

respectivos “outputs” numéricos, e ainda a possibilidade de se testarem hipóteses de

trabalho, acoplando-lhes níveis de significância estatística, contribuem para a extensa

utilização deste tipo de métodos.

Page 6: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

6

Portanto, devido ao crescente avanço das técnicas instrumentais de análise

biológica do solo, impulsionada pelo avanço de microcomputadores, ferramentas novas

de tratamento de dados das mais variadas e complexas do ponto de vista estatístico e

matemático tornam-se uma realidade (POPPI & SENA, 2000).

Até a segunda metade da década de 90, a presença da Análise Multivariada

(AM) na literatura brasileira era praticamente inexistente. A partir da segunda metade

da década de 90, nota-se um aumento significativo de sua utilização, aumentando a

capacidade de se extrair informações de dados biológicos do solo. Contudo, pode

afirmar que as pesquisas na área de biologia do solo no Brasil estão em processo de

substituição de muitos métodos tradicionais de análise univariados por métodos

multivariados. Mas a experiência adquirida durante os cursos avançados ministrados em

várias Universidades Brasileiras e Européias, especialmente envolvendo mestrandos,

doutorandos, pesquisadores e professores serviu muito para elaboração deste livro.

Entretanto, esperamos que haja uma ampla divulgação na “Ciência do Solo” e que mais

pessoas tomem contato com esta ferramenta muito útil, que é a AM.

1.1 Pré-requisitos básicos para introdução a AM

Partindo do pressuposto de que o iniciante possui noções básicas de Matemática

e Estatística Básica (univariada), ao nível de cálculo matricial (matrizes), estatística

descritiva e estatística inferencial (especialmente ANOVA e regressão), e ainda devido

ao tipo de estudos efetuados, dados recolhidos e questões em análise, o ensino de

técnicas de AM é normalmente efetuado ao nível da pós-graduação. Atualmente, o

oferecimento de disciplinas nesta linha é efetuado, em poucos Cursos Avançados e

integrados nos programas nacionais de Mestrado e Doutorado.

A proposta deste livro é um texto voltado para pessoas que desejam ou estejam

cursando Programas de Pós-graduação, especialmente em Biologia e ou Ecologia do

solo. Portanto, recomenda-se que os interessados nesta área do conhecimento também

cursem disciplinas que podemos chamar de pré-requisitos ou obrigatórias para o bom

aproveitamento deste livro. Assim, pretendemos não só fornecer princípios básicos de

Técnicas de AM de dados, mas também promover e estimular as suas capacidades

científicas e o seu espírito crítico de forma que possam compreender, trabalhar e

Page 7: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

7

encontrar soluções adequadas para as questões relacionadas com a análise de dados

biológicos. Além disso, fornecer a possibilidade de compreender e aplicar de forma

correta os métodos de AM, desde a obtenção dos resultados até a forma de interpretação

dos resultados.

Um aspecto importante se refere ao estudo em grupos de pessoas, pois isso é

fundamental para o bom aproveitamento do conteúdo. Assim sendo, haverá uma grande

interligação entre a teórica e a prática e as dificuldades de um, podem ser, na maioria

dos casos, sanadas pelos seus colegas.

Para facilitar a compreensão das diversas ferramentas disponíveis, logo após a

fundamentação teórica se apresentará um exemplo prático de aplicação de um estudo de

caso com a sequência da análise e ou programação para o software específico. Como o

diferencial é a demostração prática de fácil entendimento, recomendamos que o leitor

resolva os exercícios e discuta com seu colega(s) os exemplos. No site

www.ceo.udesc.br/pesquisa (Paulo talvez coloque no site pessoal, ver podemos deixar

num extensão pt ou embrapa como preferirem?) podem baixar e fazer cópias, em

formato eletrônico deste livro, bem como dos dados em Excel (Arquivos em formato

“.xls”) que foram usados, além dos exemplos para resolverem. Assim, recomenda-se

fazer no mínimo duas vezes cada exercício indicado.

2. Conceitos básicos sobre técnicas de AM

A aplicação da AM se justifica em função de que a maioria dos trabalhos na área

de “Ciência do Solo”:

a) estudam aspectos específicos de sistemas complexos, que envolvem muitas

variáveis intercorrelacionadas;

b) apresentam e discutem os resultados de cada variável quantificada

isoladamente;

c) ignoram a relação entre variáveis e a sua estrutura multivariada, e de uma

forma simplista, apresentam uma visão univariada do sistema em estudo;

d) não detectam e representam a estrutura subjacente aos dados (Amostras x

varáveis de reposta) ou seja, “ver a floresta a partir das árvores” (J. P. Souza, 2006,

comunicação pessoal);

e) não ordenam e agrupam objetos (tratamentos) ou variáveis similares;

Page 8: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

8

f) não analisam conjuntamente dados físicos, químicos e biológicos como

indicadores de qualidade do solo, e quando analisam não consideram estas três

dimensões em conjunto;

g) informações importantes quanto à interação holística entre as variáveis não

são consideradas;

h) isto tudo representa uma perda de oportunidades na interpretação global dos

variáveis estudadas, levando muitas vezes ao uso ineficiente dos recursos empregados

na condução do trabalho de investigação.

Portanto, a natureza multidimensional dos dados obtidos na maioria dos estudos

biológicos deve ser levada em conta quando da análise dos seus resultados, visando

obter respostas para às hipótese e ou questões técnico-científicas.

Desse modo a AM corresponde a um grande número de métodos e técnicas que

utilizam simultaneamente todas as variáveis na interpretação teórica do conjunto de

dados obtidos.

A necessidade de utilizar técnicas adequadas de AM em estudos de biologia do

solo será apresentada com exemplos de diferentes estudos de caso, especialmente ao

nível da ecologia de comunidades e de avaliação de impactos ambientais. Para tanto,

serão apresentados diferentes tipos de matrizes de dados de modo a mostrar-se a

quantidade e a natureza multidimensional dos dados obtidos. Serão ainda fornecidos

exemplos de diferentes questões que estiveram na origem da coleta desses mesmos

dados, notadamente as relacionadas com a compreensão da sua estrutura intrínseca e

separação das diferentes unidades experimentais ou com a distribuição de espécies ao

longo de gradientes ambientais, e cuja resolução requer a utilização de métodos de AM.

Antes de abordar as técnicas de AM, será introduzida a terminologia importante

utilizada neste tipo de análise, os conceitos de: variável de resposta, variável explicativa

e de co-variável, com diferentes matrizes de dados, levando em conta o tipo de questões

em análise.

Como forma de facilitar a compreensão destes conceitos serão apresentados

exemplos onde, dependendo do objetivo do estudo, os dados de uma mesma matriz

podem funcionar como variáveis de resposta (Ex.: DilmarEx3.xls) e no outro caso,

como variáveis explicativas (Ex.: DilmarEx3.xls). O conceito de co-variável será

abordado em exemplos de partição de variância, nos estudos onde se objetiva avaliar a

contribuição de diferentes variáveis ambientais na explicação da variabilidade inerente

às variáveis de resposta extraída pela análise (Exemplo José Paulo intitulado??).

Page 9: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

9

Quando da utilização de técnicas de AM com objetivo de que esta, de acordo

com as suas necessidades, possam resolver questões que estejam a analisar, a

abordagem dos diferentes métodos será efetuada tendo em conta os três grandes

grupos de questões normalmente formuladas em Biologia do Solo:

1) compreender a estrutura intrínseca dos dados, avaliando a separação das

diferentes unidades experimentais (Ex.: amostras) e as respectivas variáveis de resposta

associadas (Ex.: espécies ou parâmetros físico-químicos do solo);

2) avaliar estatisticamente as diferenças entre grupos de unidades experimentais

(Ex.: amostras pertencentes a locais ou tratamentos diferentes);

3) avaliar a relação entre variáveis de resposta e variáveis ambientais (Ex.:

relacionar espécies com parâmetros físico-químicos ou espécies com descritores de

paisagem).

Ao analisar somente os resumos (Abstracts) nos períodicos CAPES de 1997 até

2007, buscando quais artigos usam ferramentas multivariadas nos estudos de biologia

do solo, verificou-se que mais ou menos 4% utilizam algum tipo de técnica multivariada

(Figura 1). Entretanto, nota-se que após o ano de 2007 essa porcentagem de utilização

de AM parece ter aumentado, mas as informações em termos de valor infelizmente não

foram obtidas nesta pesquisa.

Ao fazermos a porcentagem de utilização somente dos 4% que utilizam alguma

técnica de AM, percebeu-se que a maioria dos estudos (40%) utiliza a Análise de

Componentes Principais (ACP), seguidos pela Análise de Agrupamento (34%), Análise

de Correspondência (22%) e Análise Canônica Discriminante (4%), sendo esta última

bem menos adotada (Figura 1), talvez por ser mais robusta em termos de número de

repetições (ideal é no mínimo n=10, dependendo do estudo biológico) e pelo pouco

conhecimento dos pesquisadores.

Page 10: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

10

Análise de

Componentes

Principais

40%

Análise de Agrupamento

34%

Análise de

Correspondência

22%

Análise Canônica

Discriminante (n=10)

4%

Figura 1. Frequência relativa de utilização de cada técnica de Análise Multivariada em

estudos de Biologia do Solo de 1997 até 2007.

Devido às potencialidades em termos metodológicos, as técnicas de ordenação

são, atualmente, as mais utilizadas. Por essa razão, e também por limitações de ordem

temporal, a análise de cluster (Cluster Analysis) não será abordada em detalhe. Exceção

feita às medidas de similaridade, pois são necessárias para a elaboração dos gráficos de

ordenação de NMDS (Non-Metric Multidimentional Scalling) e para a realização da

ANOSIM.

No caso do primeiro ponto serão introduzidos os conceitos de ordenação em

espaço reduzido (denominada simplesmente de “ordenação”) e de classificação (ou

análise de cluster), abordando-se sucintamente quais as estratégias adotadas por cada

um destes dois tipos de análise para cumprirem um objetivo comum, por exemplo,

formar grupos entre as diferentes unidades experimentais e saber quais as variáveis de

resposta associadas. O passo seguinte passa por discriminar os diferentes grupos de

unidades experimentais (Exemplos: amostras de diferentes tratamentos). Ainda reduzem

a complexidade dos dados e representam-na num sistema de novas variáveis ou novas

dimensões (eixos).

No segundo tópico serão introduzidos conceitos de análise discriminante (AD) e

de ANOSIM (“analysis of similarities”). A AD é também recomendada quando o

objetivo é verificar se há separação entre os tratamentos, mas ela nos fornece ainda qual

foi o parâmetro físico, químico ou biológico do solo que mais contribuiu para esta

separação (BARETTA et al., 2005).

Page 11: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

11

No terceiro ponto serão abordados os conceitos de ordenação condicionada

(“constrained ordination”) e de regressão linear múltipla e modelos lineares

generalizados, como estratégias para relacionar variáveis de resposta com variáveis

explicativas.

O Quadro 1 faz uma comparação entre a análise univariada e multivariada

mostrando as particularidades de cada técnica.

Quadro 1. Comparação entre análise univariada e multivariada.

Parâmetro analisado Univariada Multivariada

N de publicações Maior Menor

Facilidade Mais simples Mais complexas

Tipo de dados Esperimentos

clássicos

Experimentos complexos

Programa de computador Mais simples Mais poderosos e complexos

Variabilidade dos dados Menor Maior

Confiabilidade Recomendada para

experimentos

clássicos

Indicada para dados

biológicos

Facilidade de publicação na

área de ecologia

Certa barreira Aumentando

progressivamente

Conhecimento Mais conhecida Menos conhecida

Divulgação Mais divulgada Menos divulgada

Recomendação em estudos

de ecologia

Menos recomendada Mais recomendada

Aceitação Não conhece Quem usa recomenda

A Figura 1 e Quadro 1 facilitam o entendimento da frase abaixo dita pela

primeira vez no Brasil no ano de 2006, num dos cursos de análise multivariada

ministrado na EMBRAPA Agrobiologia (Seropédica, RJ):

Se o único instrumento que conheceres for um martelo (Figura 2a), tenderás a

ver todos os teus problemas como pregos (Figura 2b) ! (J.P. Sousa, comunicação

pessoal).

Page 12: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

12

Figura 2. Vista do instrumento martelo (a) e dos pregos (b).

No caso das variações nos dados, verifica-se que num experimento clássico

simples de avaliação de altura de plantas de milho (cm), no mesmo tratamento as

repetições apresentam certa variabilidade em relação a média (Ex.: 200 cm, Figura 3),

mas esta normalmente bem menor do que em experimentos envolvendo biodiversidade

do solo (Ex.: número de indíviduos, Figura 4).

Figura 3. Representação da altura de plantas de milho (Zea mays) em cada repetição,

das sete repetições de um estudo clássico.

Experimento Simples

190

200

210

0 2 4 6 8

Ordem

Alt

ura

de

pla

nta

s (

cm

)

Page 13: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

13

Experimento ecologia

0

200

400

600

800

1000

1200

1400

0 5 10 15 20 25

Ordem

mer

o in

div

ídu

os

Figura 4. Representação do número de indivíduos em cada repetição de um

experimento de biodiversidade do solo, mostrando as variabilidade em relação a

média.

A AM possui o propósito de testar ou inferir a respeito de uma hipótese sobre

um determinado fenômeno e sua adequada utilização depende do bom conhecimento

das técnicas e das suas limitações.

“Não há mágica com os métodos numéricos e, apesar de serem uma importante

ferramenta para análise e interpretação de dados, não devem ser utilizados como

máquinas automáticas de encher lingüiça, transformando massas numéricas em

pacotes de fatos científicos” (MARRIOTT, 1974).

3. Técnicas de Ordenação I: Representação da estrutura intrínseca dos

dados.

Neste tópico o conceito de ordenação será explicado e serão exploradas apenas

três técnicas de ordenação para representar a estrutura intrínseca dos dados biológicos.

Para melhor compreensão destes conceitos serão utilizados exemplos clássicos de

ecologia de comunidades, com exemplos de matrizes de amostras retiradas em

diferentes locais ou de diferentes tratamentos vs. espécies, e exemplos de amostras vs.

variáveis físico-químicas do solo.

Um dos objetivos em ecologia de comunidades é compreender a estrutura

inerente aos dados, ou seja, se existe algum tipo de associação entre espécies e amostras

Page 14: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

14

ou entre espécies entre si. Os métodos de ordenação, ao “ordenarem” amostras e

espécies ao longo de eixos e ao agruparem as amostras com base na sua composição em

espécies, vão permitir uma representação desse padrão. Na maior parte dos casos os

eixos de um gráfico de ordenação representam gradientes que podem ser reconhecidos,

como por exemplo a variação de um ou mais parâmetros químicos (Ex.: pH) ou da

concentração de um poluente. Isso significa que o posicionamento das amostras no

diagrama é condicionado pelo comportamento das espécies ao gradiente identificado.

Este princípio servirá para introduzir os modelos de resposta de espécies a

gradientes e o conceito de análise de gradientes. A forma como as espécies reagem a um

gradiente contínuo pode ser muito variada. No entanto, em AM, os dois modelos mais

utilizados assumem que as espécies possuem uma resposta linear (Figura 5) ou

unimodal (Figura 6), muito embora se assuma que estes sejam apenas aproximações à

realidade.

No caso da resposta linear, cada espécie assume uma resposta linear em relação

ao eixo (gradiente) e a coordenada é o declive da linha (Figura 5). Mesmo numa

resposta unimodal se o comprimento do gradiente for pequeno, a resposta é linear.

Neste caso a forma recomendada de interpretação do gráfico segue os princípios da

regra do Biplot. Por outro lado, se a resposta for unimodal, cada espécie assume uma

resposta unimodal em relação ao eixo (gradiente) e a coordenada é o centro da curva e

não o declive da linha. Este modelo assume que cada espécie possui um ótimo no

gradiente ambiental, e neste caso, a forma recomendada de interpretação do gráfico

segue os princípios da regra do centróide.

Em dados biológicos, a forma como as espécies irão responder a um

determinado gradiente definido pelos eixos, irá condicionar o modo de cálculo das

coordenadas das espécies nos eixos, logo a escolha da técnica a utilizar (resposta linear:

Análise de Componente Principal; resposta unimodal: Análise de Correspondência)

(Quadro 2).

Page 15: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

15

Gradiente (Ex.: pH)

Re

sp

os

ta

Figura 5. Representação da resposta linear das espécies em função de um gradiente de

pH do solo.

Gradiente (Ex.: pH)

Res

po

sta

Figura 6. Representação da resposta unimodal das espécies em função de um gradiente

de pH do solo.

A técnica utilizada para detectar o padrão de resposta das espécies adequado aos

dados em análise, a “Detrended Correspondence Analysis” (DCA) será explicada com

exemplos.

Quadro 2. Relação entre o tipo de ordenação e o tipo de resposta das variáveis resposta

a um gradiente.

Tipo de ordenação/resposta Resposta linear Resposta unimodal

Ordenação simples (não

condicionada)

Análise em Componentes

Principais (ACP)

Análise de

correspondência (CA)

Ordenação canônica

(condicionada)

Análise de redundância

(RDA)

Análise de Correlações

Canônicas (CCA)

Page 16: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

16

Uma pergunta que normalmente surge após os conhecimentos dos principais

adotados é qual a técnica mais recomendada para o meu estudo? Isso depende do

conjunto de variáveis e do comportamento desta, assim a resposta pode ser obtida

através do conhecimento do comprimento do gradiente, pois dependendo do tipo de

dados e deste gradiente obtido via DCA, sabemos se a resposta é linear ou unimodal e a

indicação da melhor análise (Quadro 3).

A variabilidade explicada pelos eixos pode não ser uma boa alternativa, pois a

forma de calcular a variabilidade total difere entre os métodos.

Quadro 3. Análise mais indicadas em função do tipo de dados e da resposta ao

gradiente

Análise em função dos dados ACP CA

Resposta ao gradiente Linear (gradiente < 3 SD) Unimodal (gradiente >

4 SD)

Tipo de dados Dados absolutos Dados relativos

Dados com unidades diferentes Pode utilizar Não pode usar

A Análise de Componentes Principais (ACP ou ACP) tem, como qualquer

técnica de ordenação, o objetivo de “reduzir” o número de variáveis (= dimensões)

originais e representar as amostras e as espécies num sistema de novas variáveis (os

eixos, aqui denominados de Componentes Principais), sendo a sua estrutura perceptível

e interpretável graficamente. Estes eixos são definidos como combinações lineares das

variáveis originais (as espécies, normalmente variáveis de resposta) e, ao contrário

destas, não podem estar correlacionados.

Geometricamente a ACP pode ser definida como uma rotação rígida da matriz

de dados, de modo que quando a amostras e as espécies sejam projetadas no novo

sistema de eixos, a máxima variabilidade dos dados seja “extraída” ou projetada ao

longo do eixo 1, a máxima variabilidade não correlacionada com o eixo 1 seja projetada

ao longo do eixo 2, e assim sucessivamente. Como cada um dos eixos pode ser definido

como um gradiente ambiental, o eixo 1 representa o gradiente que mais contribui para a

separação das amostras e das espécies associadas, o eixo 2 representa o segundo

gradiente mais importante, etc. No caso da variabilidade extraída pelos primeiros dois

ou três eixos ser elevada, além de se obter uma representação robusta e mais confiável

Page 17: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

17

dos dados, com a redução da sua multidimensionalidade a apenas duas ou três

dimensões (os eixos), obtemos também a separação das amostras e das espécies

associadas ao longo de gradientes ambientais perceptíveis.

Os princípios da ACP serão explorados com exemplos e complementados com

os conceitos de “valores próprios” (valores indicadores da variância explicada por cada

eixo) e de “vetores próprios” (coeficientes indicadores do peso que cada espécie possui

na definição de cada eixo). Estes auxiliares de interpretação numéricos serão ainda

utilizados na compreensão do resultado gráfico da análise.

A ACP é uma técnica de análise intermediária e, não se constituem em um

método final e conclusivo. Na biologia do solo, a ACP se presta fundamentalmente

como um passo intermediário em grandes investigações científicas.

A utilização da Análise de Correspondências (AC ou CA) possui os mesmos

objetivos da ACP, estando particularmente adaptada para trabalhar com dados de

contagens, razão pela qual é amplamente utilizada em ecologia de comunidades.

Entretanto, ao admitir uma resposta unimodal das espécies ao longo do gradiente

ambiental definido pelos eixos, o algoritmo para calcular as coordenadas das espécies e

das amostras neste sistema é distinto, pois a AC utiliza um algoritmo conceitualmente

semelhante com o método das médias ponderadas, denominado de “reciprocal

averaging”. Outra diferença em relação a ACP está relacionada como as amostras e as

espécies estão representadas no sistema de eixos. Na ACP as espécies estão

representadas ao longo de uma gradiente ambiental que é definido pelas amostras; já na

AC as amostras e as espécies estão representadas graficamente num suposto gradiente

ambiental. Neste caso, o “valor próprio” de cada eixo, além de indicar a percentagem da

variabilidade da matriz de dados explicada pelo eixo respectivo, indica também a

correlação entre as coordenadas das espécies e as coordenadas das amostras.

Para facilitar a compreensão estes conceitos serão abordados utilizando

diferentes exemplos, mostrando não só a forma de interpretar os resultados numérico e

o gráfico da análise (comparando com os obtidos na ACP), mas também os problemas

associados a esta técnica, como por exemplo, o “efeito de arco” ou “efeito de Gutman”

e forma de minimizá-los.

A técnica ACP (ordenação) visa ordenar as amostras em função de um critério

[Ex.: n indivíduos de uma espécie (sp.)], ou seja, basicamente posicionar estas

amostras ao longo de um eixo representativo da escala de abundância variável (espécie).

Page 18: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

18

Na Figura 7 segue um exemplo de interpretação do resultado da ACP (Tabela 01)

das cinco amostras no espaço sp.1 e sp.2 e no espaço dos Eixos I e II.

Tabela 01. Mostrando a abundância das espécies 1 (sp.1) e 2 (sp.2) em cada uma das

cinco amostras (n=5).

Amostras sp.1 sp.2

1 2 1

2 3 4

3 5 0

4 7 6

5 9 2

Média 5,2 2,6

Variância 8,2 5,8

0 1 2 3 4 5 6 7 8 9

7

6

5

4

3

2

1

G

Eixo I

Eixo II

Espécie 1

Esp

écie

2

Figura 7. Mostrando a representação gráfica da abundância das espécies 1 (sp.1) e 2

(sp.2), ordenadas nos eixos 1 e 2 (n=5).

A seguir, será apresentado um estudo envolvendo diversidade de colêmbolos

associados às florestas com Araucaria angustifolia (Bert.) O. Kuntze no estado de São

Paulo, onde se objetivou avaliar o potencial da diversidade de famílias de colêmbolos

como bioindicador da qualidade do solo, utilizando atributos químicos e microbiológicos

do solo como variáveis explicativas (Figuras 8 e 9). Como resultados deste estudo,

Page 19: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

19

observou-se que os atributos químicos e microbiológicos do solo foram eficientes como

variáveis explicativas, pois auxiliaram na interpretação das modificações das famílias de

colêmbolos. A ACP mostrou quais foram às famílias de colêmbolos mais associadas a

cada área, o que possibilita a sua utilização como bioindicadores de intervenções

antrópicas, bem como da qualidade do solo. Assim, a ACP também possui a vantagem de

analisar simultaneamente as variáveis de resposta x variáveis explicativas (via gradiente

indireto), e pode ser usada nos estudos envolvendo indicadores de qualidade do solo

(Figura 10)

Figura 8. Esquema da sequência da análise de componentes principais (ACP) usando as

famílias de colêmbolos e as variáveis e as variáveis químicas e microbiológicas

como explicativas em um gradiente indireto.

Page 20: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

20

i a

Figura 9. Relação entre a componente principal 1 (CP 1) e a componente principal 2

(CP 2), discriminando Florestas de Araucária nativa (NF: ), introduzida (R: ■),

introduzida impactada (RF: ♦) e área de pastagem natural com araucárias nativas

impactada pela queima acidental (NPF: ▐ ), famílias de colêmbolos ( ) e as

variáveis químicas e microbiológicas explicativas ( ). Campos do Jordão, SP,

agosto de 2004. pH: Potencial hidrogeniônico; MO: Matéria Orgânica; P: Fósforo;

K: Potássio; Ca: Cálcio; Mg: Magnésio; CBM: Carbono da Biomassa Microbiana;

C-CO2: respiração basal; CBM:COT: relação CBM: Carbono Orgânico Total;

qCO2: quociente metabólico (Fonte: BARETTA et al., 2008).

A Análise de Componentes Principais (ACP) é um dos métodos de ordenação

mais usados em ecologia (Figura 10), sendo indicada para conjuntos de medidas

correlacionadas linearmente, que assim podem ser reduzidas a poucas variáveis

sintéticas, denominadas de componentes principais (PIELOU, 1984; MANLY, 1994).

MO

-1.0 2.0

-1.0

2.0

ParonellidaeKatiannidae

Isotomidae

Entomobryidae

Brachystomellidae

Tomoceridae

Sminthuridae

Hypogastruridae

CBM

C-CO2

qCO2CBM:COT

pH

P

KCaMg

NF

R

RF

NPF

CP 1 (31,2%)

CP

2 (

24

,0%

)

MO

-1.0 2.0

-1.0

2.0

ParonellidaeKatiannidae

Isotomidae

Entomobryidae

Brachystomellidae

Tomoceridae

Sminthuridae

Hypogastruridae

CBM

C-CO2

qCO2CBM:COT

pH

P

KCaMg

NF

R

RF

NPF

CP 1 (31,2%)

CP

2 (

24

,0%

)

Page 21: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

21

Figura 10. Vista geral da aplicação da Análise de Componentes Principais (ACP) no

estudo de indicadores de qualidade com as etapas para criação dos índices (IndVal).

Fonte: Adaptado de VELASQUEZ et al. (2007).

Os autovalores (eingenvalues) correspondem a variância de cada componente

principal (CP) sendo, CP 1 > CP 2 > CP 3 …CPn.

Os eixos ou componentes são combinações lineares das medidas originais, do

tipo:

Y = a1x1 + a2x2 + a3x3 … anxn

Onde xi são as medidas e ai os seus coeficientes lineares, que expressam sua

importância para o eixo ou CP.

A qualidade de representação de uma variável (Ex.: espécie) pode ser avaliada

diretamente traçando o círculo unitário (Figura 11). Os pontos representativos das

variáveis estão na hiperesfera de raio 1.

Page 22: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

22

As espécies sp.1, sp.2, sp.4 e sp.5 estão bem representadas neste plano, pois

encontram-se próximo da circunferência unitária. Logo as espécies sp.1 e sp.2 estão

fortemente correlacionadas entre si, mas são independentes das espécies sp.4 e sp.5, as

quais, entre si apresentam uma correlação negativa forte. Quanto a espécie sp.3 mal

representada neste plano, nada se pode concluir, com valor de correlação muito baixo e

próximo a zero.

U2

U1

x5

x1

x2

x4

x3

-1 -0,5 0 0,5 1

-1

-0,5

0

0

,5 1

Figura 11. Circulo de correlação.

Como em qualquer gráfico derivado de uma ordenação, nos “biplots” derivados

de uma ACP ou de uma AC, uma maior proximidade entre pontos representando

amostras indica uma maior semelhança entre elas (uma composição em espécies

semelhante) e vice-versa (LEPS & SMILAUER, 2003; BARETTA et al., 2007b artigo

aranhas). Partindo deste princípio, um outro método de ordenação que pode ser

utilizado para representar amostras num sistema Cartesiano é o “Multidimentional

Scalling” (MDS). Ao contrário da ACP ou da AC, onde as distâncias entre os pontos

das unidades experimentais são dadas, respectivamente, pelas medidas de distância ou

dissimilaridade Euclidiana e de Chi-quadrado, a técnica de MDS possui a vantagem de

se poder utilizar qualquer outra medida de distância, à escolha do pesquisador. No

Page 23: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

23

entanto, está técnica possui a desvantagem de não possibilitar a representação para a

visualização das espécies.

Neste tipo de técnicas é difícil fazer uma representação das amostras em duas

dimensões totalmente fiel à distância entre elas, tal como descrita numa matriz de

distâncias. Deste modo é essencial avaliar a fidelidade dessa representação no sistema

de eixos, comparando as distâncias entre pontos no gráfico com as distâncias

correspondentes obtidas na matriz de distâncias.

Este grau de fidelidade é denominado de “stress” e, para se obter uma

representação robusta dos dados, o nível de “stress” terá que ser mínimo. Na ACP ou na

AC o cálculo deste nível de “stress” é feito a partir dos valores das distâncias entre

pontos, razão pela qual estas técnicas poderem ser consideradas casos particulares dos

métodos de MDS quando se utilizam as distâncias Euclidiana e de Chi-quadrado. Por

outro lado, se o cálculo dos valores de “stress” forem calculados tendo como base não

os valores reais, mas o ranking das medidas de distância, entramos no campo dos

métodos de “Non-Metric Multidimentional Scalling” (NMDS). Neste caso, uma

representação gráfica fiel é aquela que mantém a mesma ordem das distâncias da

encontrada na matriz de distâncias, originando o menor nível de “stress” possível.

Como o processo de cálculo destas técnicas de ordenação têm como base não a

matriz de dados brutos, mas sim matrizes de distâncias entre as amostras, serão

introduzidos os conceitos de medidas de similaridade e medidas de distância,

abordando-se as métricas mais comuns adotadas em Biologia do solo para dados

quantitativos e dados qualitativos.

Nas técnicas de ordenação disponíveis as variáveis (eixos) não podem estar

correlacionados entre si, caso contrário a análise não resulta.

4. Técnicas de Ordenação II: Discriminação entre grupos de unidades

experimentais.

Após a separação de diferentes grupos de amostras e de espécies associadas, o

passo seguinte na análise dos dados pode ter como objetivo tentar verificar se a

separação entre esses grupos (Ex.: locais ou tratamentos) é significativa e ainda se as

espécies associadas podem servir como variáveis discriminantes desses mesmos grupos.

Neste módulo serão introduzidos os conceitos e modus operandi de duas técnicas que

podem ser utilizadas para alcançar esses objetivos: a Análise Discriminante e a “Non-

Page 24: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

24

Metric Multidimentional Scalling ”. Tal como no item anterior, também aqui serão

utilizados exemplos clássicos em Biologia do Solo.

A análise de agrupamento (Cluster Analysis) também pode ser utilizada na

biologia do solo para discriminar grupos de dados (Figura xx), entretanto conforme

mencionado anteriormente não será discutida e exemplificada, pois apesar de ser uma

técnica bem conhecida apresenta um potencial limitado. Nesta análise podem ser

empregadas aos algoritmos uma medida de similaridade ou de distância estatística entre

os elementos de uma matriz de dados. Dentre as diversas distâncias estatísticas, vem

sendo muito utilizada a “Distância Euclidiana” devido sua facilidade de cálculo,

especialmente quando o propósito é agrupar valores de maneira que os que permanecem

em um mesmo grupo sejam similares e valores de diferentes grupos sejam dissimilares

(Ver BARETTA et al., 2003; BARETTA et al., 2007a). ALVES et al. (2006) utilizaram

a Análise de Agrupamento para discriminar sistemas de plantios direto e convencionais

no município de Campinas-SP, conforme demonstrado na Figura 12.

Figura 12. Dendrograma apresentando a similaridade entre os sistemas de manejo do

solo quanto a abundância dos principais grupos da fauna do solo. Abreviações T1:

Plantio direto desde 1986; T2: Plantio direto desde 1999, T3: Plantio

convencional; T4: Plantio convencional com pousio no outuno-inverno desde

T4 T3 T2 T1

30

40

50

60

70

80

90

100

110

(Dli

nk/D

max)*

100

Page 25: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

25

2000. Média de duas épocas de coleta e 20 repetições. Campinas, SP (2004/2005).

(Fonte: ALVES et al. (2006).

A Análise Discriminante (AD) é uma técnica de ordenação que possui os

seguintes objetivos: (i) encontrar quais as variáveis (Ex.: espécies) que podem

diferenciar ou discriminar dois ou mais grupos de amostras; (ii) com base nestas

variáveis discriminantes criar funções discriminantes (os eixos numa AD) ao longo das

quais irão ser representas as amostras; (iii) utilizar estas funções discriminantes para

discriminar grupos, como por exemplo, avaliar a existência de diferenças estatísticas

entre grupos de amostras e (iv) classificar, a priori, novas amostras nos respectivos

grupos.

Esta técnica é muitas vezes comparada, em termos de objetivo, a uma ACP,

entretanto é bem mais robusta. Tal como na ACP, numa AD as funções discriminantes

são também definidas por combinações lineares entre as variáveis originais. Entretanto,

enquanto que na ACP os eixos são definidos tendo em conta a explicação do máximo de

variância dos dados, na AD os eixos são definidos com base nas variáveis

discriminantes e de forma a maximizar o quociente da “variância entre os grupos” com

a “variância dentro dos grupos” a discriminar. Os procedimentos de cálculo para obter

as variáveis discriminantes (neste caso aquelas que minimizam o quociente entre a

variância dentro dos grupos em relação à variância total) e as funções discriminantes

possuem semelhanças com os princípios de uma ANOVA.

Estes conceitos, assim como a utilização dos auxiliares de interpretação na

seleção e ranking das variáveis discriminantes (respectivamente os valores de de

Wilk´s e os coeficientes associados a cada variável em cada função discriminante), na

obtenção e teste da significância das funções discriminantes (os valores de para cada

eixo e probabilidade associada), e ainda na avaliação da significância estatística da

discriminação dos grupos (distâncias de Mahalanobis entre grupos e valores de

probabilidade associados) serão desenvolvidos com base na apresentação de exemplos

diversos, considerando dados com diferentes tipos de descritores (Ex.: espécies,

parâmetros fisiológicos).

Os conceitos e princípios da utilização do processo “stepwise” para seleção de

variáveis discriminantes, tendo em conta a sua importância em termos de poder

discriminatório serão também apresentados. Maluche et al. (2006) utilizaram a análise

Canônica Discriminante (ACD) para identificar diferenças entre pomares de maçãs nos

Page 26: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

26

sistemas de manejo convencional (PC) e orgânico (PO), com base em atributos

microbiológicos e químicos do solo no municipio de Urupema, SC. Neste estudo foram

amostradas 24 plantas (n=24) distribuídas em uma grade de 45x54 m, em duas épocas

do ano. A ACD separou o PC do PO (Figura 13) e identificou o Carbono da Biomassa

Microbiana do Solo (CBM) como o atributo microbiológico mais importante na

separação entre os pomares, seguido do qCO2 e da relação NBM:NT. Neste estudo, os

autores verificaram que os atributos microbiológicos e químicos relacionados ao

carbono foram mais sensíveis às variações entre os sistemas do que os relacionados ao

nitrogênio.

-4 -2 0 2 4

-4

-2

0

2

4 Pomar Convencional

Pomar Orgânico

Função C

anônic

a

Dis

crim

inante

2

Função Canônica Discriminante 1

Figura 13. Coeficientes canônicos padronizados (CCP) da função canônica

discriminante 1, dos pomares de maçã, conduzidos nos sistemas de produção

convencional (PC) e orgânico (PO), considerando todos os atributos

microbiológicos e químicos relacionados ao C (CBM, COT, relação CBM:COT,

respiração basal e quociente metabólico) e N do solo (NBM, NT e relação

NBM:NT). Fonte: MALUCHE-BARETTA et al. (2006).

No caso da utilização de medidas de similaridade como base para a elaboração

de gráficos de ordenação é o princípio adotado pelas técnicas de “Multidimentional

Scalling”, também denominada de NMDS. Essas técnicas utilizadas para discriminar

Page 27: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

27

amostras (Ex.: distintos locais ou tratamentos) e associar um grau de significância

estatística a essa discriminação tem também como base a utilização de medidas de

distância ou de similaridade.

A técnica de ANOSIM (“Analysis of Similarities”) utiliza a diferença entre

similaridade média (mais especificamente o rank médio de similaridade) entre grupos

de amostras vs. o rank de similaridade médio entre amostras dentro dos grupos para

testar a hipótese de que não existem diferenças entre nenhum dos grupos. O valor desta

diferença (parâmetro R) é comparado com a distribuição de valores de R (obtida pelo

cálculo de diversos valores de R utilizando permutações) e, com base no valor de

probabilidade que lhe está associado, sendo a hipótese aceita ou rejeitada.

5. Técnicas de Ordenação III: Relação entre variáveis de resposta e

variáveis explicativas

Um dos objetivos mais frequentes em Biologia ou Ecologia do Solo é verificar a

influência de variáveis explicativas (Ex.: parâmetros físico-químicos do solo,

concentrações de poluentes, etc) nas variáveis de resposta em análise (Ex.: composição

em espécies, descritores de diversidade, etc). Essa relação pode ser obtida através de

modelos de regressão, caso se considere apenas uma variável de resposta (ver tópico

seguinte) ou, quando temos a presença de múltiplos descritores, por meio de técnicas de

ordenação.

A relação entre os dois tipos de variáveis pode ser realizada por métodos de

análise de gradiente indireta, com a utilização de uma ACP ou de uma AC. Caso as

variáveis ambientais expliquem a maior parte da variação dos dados nos dois ou três

eixos principais, podemos avaliar a influência dessas variáveis ao nível dos descritores

em análise (Ex.: espécies). Entretanto, no caso das variáveis ambientais de interesse não

explicarem a maior parte da variabilidade da composição das espécies (Ex.: a separação

das amostras e das espécies nos primeiros eixos não se fazer com base nas variáveis

ambientais estudadas), teremos que utilizar técnicas de análise de gradientes direta

(técnicas de ordenação Canônica ou ordenação condicionada).

Neste livro texto serão introduzidos os métodos de ordenação Canônica

equivalentes a uma ACP (ou PCA) e a uma AC (ou CA). Estes são a Análise de

Redundância (RDA) e Análise de Correspondências Canônica (ACC ou CCA),

respectivamente.

Page 28: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

28

Ao contrário da ACP e da AC, a realização de uma RDA ou de uma ACC requer

a presença de duas matrizes de dados. Nestes casos teremos que aliar à matriz existente

de amostras vs. variáveis de resposta (Ex.: amostras vs. espécies), a matriz de amostras

vs. variáveis explicativas (Ex.: amostras vs. parâmetros ambientais). Estes métodos

foram desenvolvidos para extrair e trabalhar sobre a variabilidade inerente aos

descritores explicada pelas variáveis ambientais. Com estas técnicas procura-se

igualmente explicar a abundância das espécies (variáveis originais) ao longo de eixos

(novas variáveis, aqui designadas por eixos canônicos), com a diferença que estes são

definidos pelas variáveis ambientais. Ou seja, numa análise de gradientes indireta o

gradiente ambiental não é conhecido a priori (é definido pela análise do gráfico e pelo

posicionamento das amostras e espécies), enquanto numa análise de gradiente direta os

parâmetros ambientais são integrados diretamente na análise (Figura 14). O número de

eixos canônicos é igual ao número de variáveis explicativas, muito embora apenas seja

relevante representar graficamente os dois ou três primeiros eixos, que normalmente

representam a maior parte da variabilidade. O esquema abaixo foi elaborado para

facilitar a compreensão, mostrando as diferenças entre a análise indireta e análise direta.

Figura 14. Esquema resumindo a análise indireta e direta com variáveis de resposta e

explicativas.

A análise de correlação canônica é direcionada para a correlação entre uma

combinação linear das variáveis em um dos grupos com uma outra combinação linear

Page 29: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

29

das variáveis do outro grupo de variáveis. O objetivo principal é, a princípio, determinar

as combinações lineares dos dois grupos que possuem a maior correlação. Em seguida,

é determinado o par de maior correlação que seja, ainda, não correlacionado com o par

selecionado inicialmente. O processo continua até se esgotar as dimensões de ambos os

grupos ou do menor grupo. Os pares de combinações lineares são chamados de

variáveis canônicas e suas correlações são denominadas de correlações canônicas

(FERREIRA, 2008)

Os conceitos e princípios da Análise de Redundância e da Análise de

Correspondências Canônica serão explorados recorrendo a exemplos diversificados

onde se utilizem cada uma destas técnicas. Pretende-se que os exemplos sejam mais

abrangentes do que o clássico “amostras x espécies x parâmetros físico-químicos” e que

incluam, além de variáveis quantitativas, variáveis qualitativas como variáveis

explicativas. Entretanto, são praticamente inexistente no Brasil estudos que analisam no

mesmo ponto de coleta parâmetros físicos, químicos e biológicos do solo. A seleção das

variáveis explicativas ocupa um lugar de destaque neste tipo de análises, pois o

resultado final pode ser altamente influenciado pelas variáveis incluídas no modelo.

As variáveis a incluir no modelo deverão possuir relações com os descritores em

análise; no entanto, também existe a tentação em incluir no modelo variáveis que sejam

fáceis de medir ou pouco dispendiosas de se obter. De qualquer modo, variáveis

redundantes deverão ser eliminadas, pois vão interferir negativamente na análise e

tendem a deixar a análise menos robusta (menos confiável). Neste contexto,

recomenda-se realizar procedimentos relativos à seleção de variáveis explicativas,

nomeadamente seleção manual, incluindo a utilização de critérios de colinearidade, e de

seleção automática (“Forward selection”), com avaliação da significância de cada

variável, como por exemplo, utilizando métodos de permutação de Monte-Carlo, onde

os procedimentos práticos serão destalhados mais a frente. O modo de efetuar a

interpretação das representações gráficas e a utilização dos “outputs” numéricos (Ex.:

percentagem da variabilidade explicada pelas variáveis ambientais, coeficientes

canônicos, “intraset correlations”, avaliação da significância dos eixos) como auxiliares

de interpretação dos diagramas de ordenação serão demonstradas tendo em conta as

especificidades de cada uma das técnicas.

6. Técnicas de Regressão

Page 30: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

30

A avaliação da relação entre variáveis explicativas e variáveis de resposta pode

ser obtida através de modelos de regressão múltipla ou técnicas derivadas, como por

exemplo: Modelos Lineares Generalizados (GLM), Modelos Aditivos (AM) e Modelos

Aditivos Generalizados (GAM). Muito embora sejam consideradas técnicas de análise

univariável (pois nestes casos apenas se trabalha com uma variável de resposta), mas

alguns autores incluem-nas no grupo das técnicas de análise multivariável (XXXXXX;

XXXXX; XXXXX, ver com Paulo para acrescentar alguns autores???), devido ao fato

de serem aplicados com diversas variáveis explicativas.

A utilização de técnicas de regressão em Biologia do Solo é um fenômeno não

tão recente. No entanto, a utilização regular de técnicas mais avançadas, como os GLM

e os GAM, é mais recente. Estas técnicas fornecem os meios para ultrapassar obstáculos

inerentes aos dados (Ex.: não linearidade, violação de pressupostos, probabilidade de

obtenção de valores negativos em contagens) quando as técnicas mais convencionais de

regressão linear (simples ou múltipla) não resultam.

Neste tópico serão exploradas técnicas de Regressão Linear Múltipla e de GLM,

pois são as mais utilizadas em Ciências Biológicas e Ambientais. No entanto, as

técnicas dos Modelos Aditivos (AM) e dos GAM serão brevemente tratadas,

essencialmente a nível de exemplos para mostrar as suas potencialidades.

Sendo a regressão múltipla uma extensão da regressão linear simples, a parte

teórica será iniciada com uma revisão dos principais conceitos e dos resultados

numéricos e gráficos desta técnica. Os mesmos conceitos serão então estendidos para a

técnica de regressão múltipla. Nesta fase, esta técnica será apresentada apenas com um

exemplo simples, dando-se relevância aos resultados numéricos mais importantes para a

interpretação do modelo obtido, como os coeficientes de regressão não padronizados (e

seus níveis de significância estatística), os coeficientes de regressão padronizados

(como medida da importância de cada variável), a análise de resíduos e o cumprimento

dos pressupostos de normalidade e homogeneidade de variâncias, além da significância

do modelo pela análise da tabela da ANOVA, incluindo o valor do coeficiente de

determinação.

Nesta fase será ainda focado o problema da colinearidade (Ex.: por avaliação dos

valores de tolerância e de “variance inflation factor” - VIF) entre variáveis

explicativas como fator de instabilidade na obtenção dos coeficientes de regressão e de

Page 31: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

31

perturbação na interpretação do modelo. Este aspecto servirá de introdução ao processo

e critérios de seleção de variáveis explicativas nos modelos de regressão e ainda da

necessidade em se efetuar uma análise exploratória dos dados antes de se avançar para a

obtenção do modelo de regressão.

A realização de uma análise exploratória desempenha um papel importante em

todo este processo, pois tem como objetivos principais: (i) verificar a existência de

valores “outlier”, (ii) de avaliar o pressuposto da normalidade e indicar o tipo de

transformação adequada a dar à variável de resposta, (iii) de avaliar a necessidade de

transformar as variáveis explicativas, (iv) de avaliar a relação entre as variáveis

explicativas, possibilitando a deteção de variáveis colineares, (v) de avaliar a relação

entre a variável de resposta e cada uma das variáveis explicativas, obtendo-se uma

visualização prévia não só das variáveis que virão a integrar o modelo, mas também da

direção dessa relação e (vi) de avaliar a existência de possíveis interações entre

variáveis explicativas. Estes aspectos serão exemplificados recorrendo a diferentes

técnicas gráficas (Ex.: gráficos de pontos, histogramas, gráficos Q-Q, “pair plots”,

“coplots”) e a um conjunto de dados onde seja possível efetuar todas estas avaliações.

Após a explicação da realização da análise exploratória e da possível

necessidade de adequação dos dados (Ex.: eliminação de variáveis colineares e

transformação de variáveis) a exposição da técnica de regressão múltipla incidirá sobre

os critérios de seleção de variáveis explicativas (procedimentos “setpwise” e critérios de

inclusão/exclusão de variáveis) e sobre a avaliação da robustez dos modelos (“best fit”),

obtidos com diferentes combinações das variáveis explicativas. Neste caso será

explicada a utilização de indicadores de robustez como o valor “Akaike information

criteria” (AIC), o valor do coeficiente de determinação e ainda por comparação direta

utilizando do teste F (com base na comparação da variabilidade explicada entre modelos

reduzidos, com menos variáveis, “nested” dentro de modelos mais completos). Os

exemplos utilizados nesta fase incidirão ainda sobre os procedimentos e interpretação

dos resultados de modelos com variáveis explicativas quantitativas e qualitativas e ainda

modelos com a existência de interações entre variáveis explicativas.

Além da interpretação dos resultados numéricos para a definição do “melhor

modelo” será também dada relevância à interpretação dos auxiliares gráficos,

particularmente a análise de resíduos, como técnica para avaliar a violação dos

pressupostos de distribuição homogênea dos resíduos (em relação aos valores previstos)

Page 32: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

32

e de “linearidade” (existência de um padrão de distribuição dos resíduos em relação aos

valores de cada variável explicativa incluída no modelo).

A violação de um ou dois destes pressupostos (além da óbvia violação do

pressuposto de normalidade dos valores da variável de resposta), pode implicar a

utilização de outro tipo de modelo.

No caso de apenas se verificar uma heterogeneidade na distribuição dos

resíduos, pode recorrer-se à transformação dos valores da variável de resposta e/ou à

adição de outras variáveis ou interações no modelo e repetir-se o processo para se obter

um modelo de regressão linear múltipla. No entanto, além de algumas destas medidas

poderem não resultar, em muitas circunstâncias, especialmente quando a variável de

resposta representa resultados de contagens, alguns dos valores previstos são negativos,

o que não possui relevância em termos biológicos. Nestes casos teremos que utilizar

Modelos Lineares Generalizados (GLM).

No caso do pressuposto violado ser o da linearidade, e quando uma

transformação da variável de resposta e/ou da adição de termos não lineares (Ex.:

quadráticos) das variáveis explicativas não resultarem, recomenda-se avançar-se para

um Modelo Aditivo (AM). Entretanto, quando se verificar a violação dos dois

pressupostos e as medidas de manipulação dos dados não resultarem, pode avançar-se

para Modelos Aditivos Generalizados (GAM).

Ao contrário dos modelos de regressão linear, que possuem apenas o

componente estocástico (ŷ, a variável de resposta) e o componente sistemático ( +

1X1 2X2 pXp, representado pelas variáveis explicativas), os GLM possuem

um terceiro componente, a função de ligação [g(ŷ), “link function”], que liga os dois

componentes anteriores [ 1X1 2X2 pXp]. A utilização desta

função de ligação irá permitir “converter” os valores de cada uma das variáveis

explicativas (que podem variar desde – a +) num intervalo de valores mais realista

para a variável de resposta, como é o caso de “eliminar” a possibilidade de obtenção de

valores previstos negativos no caso de contagens.

A existência de funções de ligação significa ainda que a variável de resposta, por

si, não necessita ser sempre estimada por combinações lineares das variáveis

explicativas (aqui a linearidade é retida através da função de ligação). Além desta

vantagem, os GLM admitem também diferentes tipos de distribuições para os valores da

variável de resposta; além da distribuição normal, estes também podem obedecer a uma

distribuição de Poisson (Ex.: no caso de contagens), Binomial (Ex.: valores binários ou

Page 33: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

33

percentuais) ou Gamma (Ex.: os valores são rácios). Além disso, a distribuição

homogênea dos resíduos (indicadora de homogeneidade de variâncias) deixa de ser

necessária.

Uma outra diferença entre os modelos de regressão linear e os GLM é o fato de

alargarem o conceito de “resíduos” e calcularem a “deviance”, como a diferença entre

os valores da variável de resposta previstos e reais. Deste modo, a qualidade do modelo

é avaliada utilizando uma técnica de análise de “deviance”, processo semelhante à

análise de variância.

Entre os GLM mais utilizados em Ecologia encontram-se a regressão de

Poisson, normalmente aplicada a dados de contagens, como por exemplo, número de

indivíduos por unidade de amostragem. Estes dados possuem habitualmente uma

distribuição de Poisson, onde a média é igual à variância. A função de ligação

normalmente associada a este modelo é a função Log o que implica que log(ŷ) = g(ŷ),

por exemplo, ŷ = Exp 1X1 2X2 pXp). Esta função de ligação irá

converter todos os valores previstos da variável de resposta em valores positivos.

Nos casos em que a variável de resposta apresenta dados binários (Ex.:

presença/ausência, vivo/morto) ou percentuais, o modelo apropriado é a regressão

Logística, que prevê a probabilidade de ocorrência de um evento com base nos valores

das variáveis explicativas. A função de ligação é a Logit, de modo que log[ŷ/(1- ŷ)] =

g(ŷ), ou seja, Pŷ = 1X1 2X2 pXp 1X1 2X2

pXp)]].

Os procedimentos adotados para a seleção das variáveis explicativas e para a

avaliação da robustez dos modelos seguem os mesmos princípios adotados para a

regressão múltipla, e já abordados anteriormente. Assim, os exemplos que servirão para

demonstrar estas duas técnicas irão focar-se essencialmente em aspectos particulares,

nomeadamente o da sobre-dispersão dos valores da variável de resposta. Este fenômeno

é comum numa regressão de Poisson e ocorre quando a variância é superior à média, o

que pode originar uma distorção no cálculo dos valores de significância do modelo.

7. Técnicas de Ordenação IV: Aplicações particulares [técnicas de

decomposição de variância ordenação parcial (utilização de co-variáveis) e curvas

de resposta principais]

Page 34: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

34

Pela análise de ordenação condicionada podemos saber qual a percentagem da

variabilidade associada aos descritores (Ex.: espécies) que é explicada pelas variáveis

ambientais. No entanto, tal como nos métodos univariados, podemos querer saber qual a

importância de determinadas variáveis, ou conjunto de variáveis (Ex.: parâmetros

físico-químicos, técnicas de manejo, estrutura da vegetação, localização). Neste caso, as

técnicas de RDA e CCA são utilizadas como técnicas de decomposição de variância.

Estes procedimentos serão apresentados com exemplos, onde as variáveis

explicativas se podem separar em apenas dois conjuntos (Ex.: parâmetros físico-

químicos e técnicas de manejo). A utilização de todas estas variáveis implica o

conhecimento da variância total explicada pelo modelo canônico (Ex.: CCA). Pela

repetição da análise, considerando apenas um conjunto de variáveis ambientais (Ex.: os

parâmetros físico-químicos), obtém-se a variabilidade explicada por esse conjunto. No

entanto, uma fração dessa variabilidade é partilhada pelo outro conjunto de variáveis

(técnicas de manejo). Assim, para se conhecer a fração de variabilidade explicada

apenas pelos parâmetros físico-químicos necessita-se repetir a análise utilizando as

variáveis relativas às técnicas de manejo como co-variáveis (variáveis cuja influência

será retirada do modelo explicativo). O processo pode ser repetido para se avaliar a

variabilidade explicada pelo outro (ou por cada um dos) conjunto(s) de variáveis

explicativas em análise. Como cada fração de variabilidade obtido possui um valor de

significância acoplado, é possível avaliar a importância de cada conjunto de variáveis

explicativas em explicar os descritores em análise (Ex.: a composição em espécies).

A utilização de co-variáveis é mais abrangente em técnicas de ordenação do que

a explicada atrás, sendo aplicada sempre que pretende retirar a influência de

determinadas variáveis do modelo explicativo. Exemplos comuns são a utilização da

variável tempo ou de variáveis espaciais como co-variáveis, especialmente quando

estamos interessados em avaliar a influência de outro tipo de variáveis e a variabilidade

explicada pelo tempo ou pelo espaço é um fator que interfere no modelo. O mesmo

princípio pode ser aplicado no tratamento de dados resultantes de experiências

manipulativas, com desenhos experimentais em blocos ou em observações repetidas,

onde o interesse é avaliar o efeito de tratamentos e não dos blocos ou do tempo. Estes

conceitos também serão apresentados e discutidos com exemplos.

Um dos exemplos mais recentes da utilização de técnicas de Análise Canônica,

que tem vindo a ganhar relevância em estudos de ecologia, monitorização ambiental e

toxicologia ambiental é a Análise de Curvas de Resposta Principais (“Principal

Page 35: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

35

Response Curves” – PRC). Este método está vocacionado para conjuntos de dados

com variáveis de resposta (Ex.: espécies) obtidos em diferentes amostras de diversos

tratamentos (ou locais) e ao longo do tempo. O objetivo é avaliar a evolução temporal

dos efeitos de diferentes tratamentos (ou das diferenças entre locais) comparando-os

com um tratamento (ou local) de referência.

Este método utiliza a técnica de Análise de Redundância (utilizando os

tratamentos como variáveis explicativas e o tempo como co-variável) para calcular os

coeficientes de resposta de cada tratamento em cada tempo de amostragem, assumindo

que os coeficientes do tratamento de referência possuem sempre o valor 0 em qualquer

dos tempos. Com estes valores é criado um gráfico tendo como ordenadas os valores da

variável tempo e como abcissas os valores dos coeficientes de todos os tratamentos. Os

coeficientes dos demais tratamentos são representados graficamente em relação à reta

de resposta da referência (de valor de abcissa 0), obtendo-se assim as curvas de resposta

de cada tratamento em relação a esta. Este método não exclui a evolução (variação)

temporal nas variáveis de resposta dentro de cada tratamento. No entanto, como a

questão principal é a comparação da evolução temporal das respostas dos tratamentos

em relação à referência, a influência direta do tempo é eliminada do modelo utilizando

essa variável como co-variável. Como se baseia numa técnica de ordenação Canônica, é

ainda possível avaliar a significância do modelo, por exemplo, a significância do efeito

dos tratamentos. O método possibilita ainda conhecer quais as variáveis de resposta (as

espécies) que mais influenciam as diferenças obtidas entre os tratamentos.

Esta técnica será apresentada utilizando exemplos de ecotoxicologia e de

monitorização ambiental. As suas vantagens em relação a outras técnicas de AM são

especialmente a facilidade de interpretação e comunicação dos resultados.

8. OUTRAS CONSIDERAÇÕES IMPORTANTES

Outro aspecto importante que deve ser lembrado é que a pesquisa brasileira é

muito carente em “planejar os experimentos”, especialmente quando se tratam de

estudos com biologia do solo. Nesse sentido, observa-se que certos pesquisadores não

têm o hábito de conversar com o estatístico antes de planejar o experimento e, chegam

ao absurdo de no final do estudo já com os dados querer saber qual é o melhor método

de análise que pode aplicar aos dados. Isso é errado, pois deve-se ter o objetivo,

Page 36: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

36

hipóteses, tratamentos, tamanho de parcelas bem claro, com número de repetições,

delineamento, variáveis analisadas, cronograma de atividades, forma de análise dos

dados bem claros, antes de instalar o experimento.

Uma pergunta bem frequente no final do estudo é: Eu tenho estes dados qual

seria a melhor análise? Porém, a estatística é uma ferramenta integrante do

planejamento do estudo e não a solução dos seus dados!

Como mencionado anteriormente é bem comum na pesquisa nacional a falta de

uma descrição clara sobre o delineamento experimental, sendo que muitos artigos são

rejeitados em função de pouco critério científico e pela falta de planejamento do

experimento”.

Nos periódicos “Ciência Rural”, por exemplo, foram analisados todos os artigos

da secção de Ciência do Solo, de 1994 até 2006, e no Soil Science Society American

Journal (SSSAJ) somente dois números por ano neste mesmo período, sendo um

número referente ao primeiro semestre e outro correspondente ao segundo semestre,

somente os com análise univariada. Observaram-se que em ambos os periódicos, que

mais de 30% dos artigos apresentavam-se sem delineamento ou este não foi declarado

claramente no estudo (Figura 15).

Figura 15. Relação entre o tipo de delineamento e sua ocorrência (%) nos periódicos

Ciência Rural (C. Rural) e Soil Science Society American Journal (SSSAJ)

avaliados de 1994 até 2006 utilizando análise univariada.

Tipo de delineamento

SEM DIA DBA

% de ocorrência

0

10

20

30

40

50

SSSJA

C.Rural

SEM = Sem delineamento ou não declarado

DIA = Inteiramente aleatorizado

DBA = Blocos aleatorizados

Page 37: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

37

Qual é a diferença de repetições e pseudo-repetições?

Para ter validade científica e uma ccoonncclluussããoo mmaaiiss hhoollííssttiiccaa deveriamos ter um

mínimo de três repetições por Tratamento que se compara.

Para exemplificar, visualize a Figura 16 (abaixo) onde foram coletados seis

monólitos em cada parcela, e responda quantas repetições e/ou pseudo-repetições tem?

Figura 16. Vista de três parcelas experimentais com detalhe de seis monólitos retirados

em cada parcela.

Como se trata de uma análise da fauna edáfica em sistemas de manejo do solo

(cada quadrado maior em amarelo é uma parcela experimental), a resposta será “três

repetições verdadeiras de um mesmo sistema, onde foram retiradas seis pseudo-

repetições”.

Ver com José Paulo se ele tem algo mais para inserir

sobre repetições, pseudo-repetições e autocorrelação?

Outro questionamento comum é que distância temos que ter entre as amostras

para evitar autocorrelação?

De maneira geral, a resposta depende dos objetivos do estudo, pois podemos

avaliar a microfauna do solo, por exemplo. Entretanto, na maioria dos estudos de

biologia do solo, especialmente de fauna edáfica nunca recomenda-se uma distância

menor do que 10 metros, repeitando-se assim, a independência estatística entre os

pontos. Entretanto, isso também pode variar dependendo do tipo de sistema e manejo do

solo a ser amostrado.

Page 38: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

38

Como este manual tem o objetivo de facilitar o entendimento, a componente

prática deve funcionar em paralelo com a componente teórica, ou seja, após a

abordagem teórica de cada tópico será apresentado um exemplo prático de aplicação.

Assim, em cada exemplo prático, além de uma breve descrição do estudo será

demonstrado a sequência da análise no software escolhido, sendo recomendado o

acompanhamento do interessado por meio da realização dos exercícios. Isto facilita

compreensão do assunto, com a vantagem de acompanhar (preferencialmente em grupo

de pessoas) a resolução e de responder ao objetivo proposto pelo estudo. Cada um dos

exemplos possui questões associadas ao tema abordado e cuja resolução implica a

aplicação da técnica escolhida.

Como mencionado anteriormente, a abordagem destes conceitos será efetuada

com a apresentação de exemplos de diversos estudos de Biologia do Solo, com o intuito

de mostrar as potencialidades e o uso diversificado das técnicas de AM. A seguir, como

exemplo, serão feitas perguntas frequentes, as quais procuraremos respondê-las com a

resolução via análises de dados.

9.1 Como devo proceder para importar os meus dados para poder

analisá-los no Canoco?

Para responder a essa pergunta, procurou-se introduzir inicialmente, na primeira

parte prática, um breve contato com os diferentes componentes do software Canoco for

Windows 4.5, uma das ferramentas de informática que será muito utilizada.

A seguir serão demonstrados os procedimentos de construção e importação das

matrizes de dados, incluindo o modo como codificar os diferentes tipos de variáveis, em

particular as variáveis qualitativas. Assim, partimos do pré suposto que o software

Canoco for Windows 4.5 foi licenciado e instalado completamente (Figura 17), com o

CanoDraw (http://www.canodraw.com) para elaboração dos gráficos.

9. APRENDER FAZENDO “Colocando a mão na massa”

Page 39: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

39

Figura 17. Vista do software CANOCO versão 4.5, que recomenda-se adquirir a

licença. (Fonte: http://www.microcomputerpower.com)

Para a familiarização com a importação dos dados, recomenda-se acessar os

dados da pasta “Spec_P1.xls” do arquivo Dilmar_Ex3.

Inicialmente deve-se abrir os dados do arquivo indicado, depois selecionar os

dados e clicar com o botão direito do moise e copiar. Em seguida, deve-se abrir o

CanoImp (Figura 18) e se os dados estiver corretos nas linhas e nas colunas clicar em

save e dar um nome ao arquivo (Figura 19).

Page 40: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

40

Figura 18. Vista da importação de dados a partir de uma planilha do Excel, com a

sequência de análises usando o programa Canoco.

Page 41: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

41

Figura 19. Vista da importação de dados a partir de planilha do Excel, com um

exemplo intitulado “Dilmar Ex3”.

9.2 Como devo proceder para verificar o comprimento do gradiente

para saber se a resposta dos meus dados é “linear ou unimodal”?

Na avaliação do tipo de resposta será demonstrada a realização de uma

“Detrended Correspondence Analysis” (DCA), técnica utilizada para verificar o

“comprimento” do gradiente, conforme mencionado no Item 3.

Valores baixos (< 4 desvios padrão) indicam uma resposta linear e valores

superiores a 4 DP indicam um resposta unimodal (Quadro 3). A realização desta análise

será demonstrada “passo a passo”, incluindo a realização da rotina, especialmente com

o CANOCO for Windows 4.5. Particular atenção deve ser dada nesta fase inicial ao

processo de importação da matriz de dados, à construção do projeto de análise, à

transformação dos dados da variável de resposta e, diretamente relacionado com esta

técnica e aos processos de “detrending”.

Uma atenção particular será dada aos diálogos específicos dos modelos de

resposta linear, discutindo-se as opções tomadas ao nível dos processos de “scalling” e

Page 42: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

42

de centragem e padronização das variáveis explicativas. Especial atenção também será

dada também à interpretação dos resultados numéricos (vetores próprios, valores

próprios e percentagem de variabilidade explicada em cada eixo) e gráficos (“biplot”

das amostras vs. espécies).

Neste caso as opções de “scalling” serão discutidas, pois, dependendo da escolha

efetuada, a interpretação dos resultados deverá ser efetuada de modo diferente.

Para facilitar o entendimento elaborou-se um resumo das etapas (Figura 20), já

com uma sequência prévia de análises usando o programa Canoco.

Figura 20. Vista da sequência de análises usando o programa Canoco.

Para exemplificar a aplicação prática da DCA optou-se por usar os dados de

fauna do solo analisada na profundidade 1 (P1, 0-10 cm) da pasta Spec_P1 do arquivo

Dilmar_Ex3_P1.xls, objetivando verificar o “comprimento” do gradiente, via análise

DCA. Este trabalho foi realizado entre agosto de 2004 e janeiro de 2005, no Instituto

Agronômico de Campinas (IAC), em Campinas, SP, onde foram avaliados quatro

Page 43: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

43

sistemas de preparo e cultivo do solo representativos da região, sendo: 1) plantio direto

estabelecido desde 1986 (T1); 2) plantio direto estabelecido desde 1999 (T2); 3) plantio

convencional desde 1999 (T3); e 4) plantio convencional desde 2000 (T4). Para a coleta

da macrofauna do solo, utilizou-se a metodologia TSBF, coletando-se, aleatoriamente

em cada área monólitos de 25 x 25 cm de lado nas profundidade de 0-10 cm (P1) e 10-

20 cm (P2). As amostras para avaliação dos atributos químicos do solo foram coletadas

nas mesmas profundidades. Os resultados deste experimento envolvendo armadilhas de

solo já foram publicados em ALVES et al. (2006).

A seguir podem ser visualizados os passos para realização da DCA.

Passo 1:

Passo 2:

Page 44: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

44

Passo 3:

Passo 4:

Page 45: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

45

Passo 5:

Passo 6:

Page 46: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

46

Passo 7:

Passo 8:

Page 47: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

47

Passo 9:

Passo 10:

Page 48: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

48

Passo 11:

Passo 12: Verificando o comprimento do gradiente

Page 49: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

49

9.3 Como devo proceder para realizar a ACP (ou PCA) no Canoco?

Para exemplificar uma aplicação prática da ACP optamos por fazer o mesmo

exemplo utilizado anteriormente para verificar o comprimento do gradiente via DCA,

ou seja da pasta Spec_P1 do arquivo Dilmar_Ex3.xls, mas neste caso os objetivos

principais dos exercícios são:

a) Verificar associação entre os grupos da macrofauna e os sistemas de preparo e

cultivo do solo em cada uma das profundidades (P1: 0-10 cm; P2: 10-20 cm),

iniciando pela P1 (Spec_P1) ?

b) Fazer como exercício para as duas profundidades juntas (usar dados da pasta

Spec_P1&P2);

c) Verificar se existe relação entre os principais grupos da macrofauna edáfica e os

atributos químicos do solo nos sistemas de plantio direto e convencional, com

todas as variáveis (RDA para P1 e P2);

d) Todas as variáveis e “forward selection”, visando deixar no modelo somente as

variáveis significativas, aumentando a confiabilidade da análise (RDA com

forward selection). Não se esqueça de construir os gráficos.

Passos para realização da ACP na profundidade 1 (0-10 cm), usar a pasta

Spec_P1 do Arquivo intitulado “Dilmar Ex3.xls” .

Passo 1:

Page 50: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

50

Passo 2:

Passo 3:

Page 51: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

51

Passo 4:

Passo 5:

Page 52: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

52

Passo 6:

Passo 7:

Page 53: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

53

Passo 8:

Passo 9:

Page 54: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

54

Passo 10:

Passo 11:

Page 55: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

55

Passo 12:

Na profundidade 1 (P1: 0-10 cm) o resultado da ACP encontra-se abaixo:

Observação:

Cabe destacar que a variabilidade explicada pelos eixos 1 (20,6%) e 2 (17,8%)

foi muito baixa. Quanto maior a variabilidade explicada pelos eixos 1 e 2 melhor e a

confiabilidade dos resultados. Ideal seria que o somatório dos dois primeiros eixos

ficasse acima de 50%. Entretanto, este exemplo serviu apenas para demonstrar os

passos da ACP e também que a análise multivariada não esta para “ajeitar ou melhorar

os dados”, mas ela mostra também a ineficiência da abundância dos principais grupos

da fauna edáfica na profundidade 1 em explicar as diferenças entre os tratamentos.

Page 56: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

56

Passo 13: Fazendo os gráficos: deve-se abrir o CanoDraw e dar um nome ao arquivo

onde será salvo o gráfico.

Passo 15: Criando os gráficos: com o CanoDraw aberto siga os procedimentos

demonstrados abaixo.

Nesta fase sempre que se alteram as definições deve-se fazer um “recreate

graph” (Menu project).

Passo 16: Continuando com o Gráfico da ACP na P1

Page 57: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

57

9.3.1 E se eu quiser verificar se existe relação da fauna com as

variáveis químicas do solo analisadas, como eu vou detectar se

existe colinearidade nos meus dados?

Você pode aproveitar já que esta trabalhando com a Profundidade 1 (0-10 cm) e

é já verificar a existência de “colinearidade” dos dados químicos do solo retirados nos

mesmos pontos da fauna, por meio da realização de uma RDA para a P1 (Usar a pasta

Par_P1 do arquivo Dilmar_Ex3.xls). Caso haja interesse nos passos da RDA, estes serão

demonstrados mais a frente.

Conforme observado abaixo existe alguma colinearidade dos dados, assim

recomenda-se, retirar as variáveis químicas que tem relação direta com outras

variáveis e depois realizar um “for selection”, deixando somente as variáveis

significativas no modelo. Veja os resultados obtidos pela RDA abaixo:

Page 58: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

58

Com os resultados das permutações de Monte Carlo pode-se analisar se os eixos

são significativos ou não, mas esse assunto já foi discutido anteriormente.

Page 59: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

59

Abaixo verifica-se que nos dados químicos do solo (Pasta Par_P1 do arquivo

Dilmar_Ex3.xls) somente o Cálcio (Ca) e a matéria orgânica (MO) foram significativos,

e somente estes devem ser utilizados no modelo.

Page 60: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

60

Abaixo o gráfico já com o forward selection, incluindo somente o Ca e a MO no

modelo.

Para exercitar ainda mais a aplicação prática da DCA e resolver o restante do

exercício, recomenda-se usar os dados de fauna do solo analisada na profundidade 2

(P2, 10-20 cm) da pasta Spec_P2 do arquivo Dilmar_Ex3.xls, objetivando verificar o

“comprimento” do gradiente, via análise DCA. Os procedimentos são os mesmos

utilizados na P1.

Abaixo segue os resultados finais da DCA para a profundidade 2 (P2: 10-20

cm).

Page 61: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

61

Para a ACP e da RDA (incluindo Forward selection) na profundidade 2 deve-se

usar a pasta Spec_P1 do arquivo Dilmar_Ex3.xls. Neste caso como os procedimentos já

foram demonstrados na profundidade 1, assim optou-se por não apresentar todos os

passos. Os resultados da ACP na profundidade 2 encontram-se abaixo.

Page 62: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

62

A seguir encontra-se o gráfico da ACP (ou PCA) na profundidade 2.

A seguir encontram-se os resultados da RDA para todas as variáveis, mostrando

que existe alguma colinearidade (dados em vermelho) também na profundidade 2.

Os resultados das permutações de Monte Carlo para profundidade de 10-20 cm,

indicaram não haver relação entre a abundância dos principais grupos da fauna e as

Page 63: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

63

variáveis quimicas do solo, quando considerou-se no modelo todas as variáveis

analisadas.

Ao realizar o Forward selection, verificou-se que na profundidade de 10-20 cm

somente o pH do solo foi significativo. O pH explicou 5,6% dos dados da fauna e,

quando usou-se somente este parâmetro o resultado foi significativo.

Page 64: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

64

Abaixo o gráfico já com o forward selection, incluindo somente o pH do solo no

modelo. A vantagem de se realizar o forward selection é que a análise fica mais

confiável, eliminando-se aqueles atributos que apresentaram diferença estatística entre

os tratamentos e, portanto, só “poluem” a análise.

Abaixo o resultado da ACP com as duas profundidades (Spec_P1&P2) sem a

realização do centróide. Entretanto, recomenda-se apresentar todos os dados (todos os

pontos) mais a média dos pontos (centróide).

Passo 17:

Page 65: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

65

9.4 Como devo proceder para realizar o centróide?

Para fazer o centróide deve-se seguir os passos abaixo:

1) Fazer o design para os tratamentos (Ver modelo de design nos arquivos). Para

visualizar como se faz, abra a pasta design do arquivo Dilmar_Ex3 e faça a

importação dos dados do design via CanoImp e salvar (Ex.:

DilmarEx3_designP1&P2.dta);

2) Rode normalmente a análise (Ex.: ACP ou AC…), com exemplos do curso, pois

deve-se sempre usar os valores da análise original para apresentar e discutir

os dados (siga os passos de cada análise normalmente);

3) Após rodar análise (CA ou PCA) faça este “truque”, sendo que este deve ser usado

somente para fazer o gráfico com os centróides. Para facilitar a compreensão siga

os passos a seguir:

Passo 1:

Page 66: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

66

Observação: não se esqueça da selecionar análise de gradiente indireto, pois senão o

truque para o centróide não funciona.

Passo 2:

Neste caso usar os dados das pastas “Spec_P1&P2.dta” (nome sugerido para

salvar os dados DilmarEx3_spec_P1&P2.dta) e siga o modelo.

Page 67: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

67

Observações:

O restante dos passos é exatamente igual aos passos da análise (CA, PCA...),

mas lembre-se que este truque é só para fazer o centróide, certo?

Assim, deve-se rodar a ACP normal e após fazer o gráfico com o centróide, mas

deve-se usar os valores originais da primeira análise (ACP normal) para discutir os

dados. Abaixo encontra-se o resultado do centróide realizado com objetivo de mostrar a

média dos sistemas de manejo na profundidade de 0-10 cm (P1) e 10-20 cm (P2).

Legenda: P1 = Profundidade 1 (0-10 cm); P2= Profundidade 2 (10-20 cm); PD1=

Plantio Direto 1; PD2= Plantio Direto 2; PCT: Plantio Convencional com trigo no

inverno; PCPO: Plantio Convencional com pousio no inverno. Outras informações

podem ser obtidas em ALVES et al. (2006).

Caso o interesse fosse utilizar os dados químicos do solo retirados nos mesmos

pontos da fauna como variáveis explicativas e/ou verificar se existe “colinearidade”

e/ou relação com a abundância da fauna, independente da profundidade de coleta,

recomenda-se, para exercitar, realizar uma RDA com este mesmo exemplo (Pastas

Page 68: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

68

Spec_P1&P2e Par_P1&P2). Aqui poderia apresentar os passos para

RDA?

Abaixo encontra-se os resultados da RDA para a profundidades de 0-10 e

10-20 cm (Pastas Spec_P1&P2e Par_P1&P2), já sem colinearidade dos dados. Para

tanto, caso existir colinearidade, recomenda-se retirar as variáveis que tem relação

direta com outras variáveis e depois realizar um “for selection”, deixando somente

as variáveis significativas.

Em seguida pode-se observar os resultados da RDA significativos pelo teste de

Monte Carlo para as profundidades de 0-10 e 10-20 cm (Pastas Spec_P1&P2e

Par_P1&P2), onde as variáveis do solo explicaram 15,4% dos dados da fauna. Destes

58,4% estão representados no eixo 1.

Page 69: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

69

A seguir pode ser visualizado o resultado da abundância de grupos da fauna

edáfica nas duas profundidades (P1 & P2) e sua relação com as variáveis químicas

do solo analisadas.

Page 70: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

70

9.5 Análise de Componentes Principais com variáveis resposta (Fauna

do solo) x variáveis explicativas utilizadas a posteriori.

A ACP e a AC com variáveis ambientais como explicativas são utilizadas para

detectar a estrutura subjacente dos dados (estrutura da comunidade). Inicia com uma

ordenação, onde os valores (coordenadas) de um eixo particular podem ser interpretadas

como um gradiente de uma variável ambiental. Podem ser utilizadas técnicas de

regressão pra analisar esta relação e não há input direto das variáveis explicativas na

fase inicial da análise. Outras particularidades são:

1. Começa com coordenadas arbitrárias das amostras de média zero;

2. Calcula as novas coordenadas das espécies por meio de regressão;

3. Calcula novas coordenadas das amostras por calibração;

4. Remove arbítrio standardizando as coordenadas das amostras;

5. Para na convergência, por exemplo, quando as coordenadas das amostras

ficam iguais após um ciclo.

Caso o objetivo do estudo (Dilmar_Ex3.xls) fosse verificar a associação da

fauna do solo com os sistemas de manejo e usar os atributos químicos a posteriori como

variáveis ambientais explicativas, isto poderia ser resolvido com a ACP. Para isso, após

a verificação da colinearidade e quais são as variáveis químicas do solo significativas

(P≤0,05) o Canoco permite usá-las na ACP “posteriori”, via gradiente indireto (não

participa do cálculo somente são colocadas por cima) somente como explicativas. A

grande vantagem deste procedimento é que pode-se verificar porque tal espécie foi mais

abundante em um determinado sistema de manejo por exemplo, e se a ocorrência de tal

espécie esta relacionada aos maiores conteúdos de matéria orgânica (MO) ou pH

encontrados no tratamento.

Visando facilitar a compreensão, vamos usar os mesmos dados apresentados

anteriormente (Arquivo Dilmar_Ex3.xls, nas pastas Spec_P1&P2 Par_P1 e P2), mas

agora para responder ao novo objetivo proposto acima, independente da profundidade

(assim considera-se P1&P2).

Deve-se tomar cuidado no passo 1 para não confundir com outras análises já

apresentadas, pois agora temos as variáveis respostas (Pasta Spec_P1&P2) e variáveis

químicas do solo utilizadas a “posteriori” como explicativas (Pasta Par_P1&P2), assim

deve-se optar por “Species and environment data available”, conforme demonstrado a

seguir:

Page 71: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

71

Passo 1:

Passo 2:

O restante dos passos são semelhante aos da ACP já apresentados anteriormente.

No final da análise, pode-se abrir o arquivo Log e, o valor encontrado in “Sun of all

canonical” indica o quanto das diferenças entre os tratamentos é explicada pelas

variáveis ambientais. Deste valor, no eixo 1 in “of species-environment relation” indica

a % da variabilidade que é explicada por este eixo 1.

Page 72: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

72

9.6 E se os dados apresentarem resposta unimodal após realizar a DCA

o que devo fazer?

Caso a resposta dos dados for unimodal após a realização de uma (DCA), a

análise mais recomendada é a Análise de Correspondência (AC), pois conforme

apresentado no Quadro 3 o comprimento do gradiente foi maior do que 4 desvios

padrão (SD).

A realização prática da AC também será demonstrada “passo a passo” no

programa CANOCO for Windows 4.5. Neste caso, as opções de “scalling” serão

discutidas, pois, dependendo da escolha a interpretação dos resultados deverá ser

efetuada de modo diferente.

Para exemplificar pela primeira vez a Análise de Correspondência escolheu-se o

trabalho intitulado “Fauna do solo numa área de Sobreiro (Quercus suber) e Eucalipto

(Eucalyptus globulus)” (SOUSA et al., 2003). Este trabalho levantou dados sobre

mesofauna do solo atributos físico-químicos do solo (File Matrizes_CA_CCA.xls) em

duas áreas (Q e E), quatros plots (A, B, G, M), tendo em cada plot quatro cores de solo,

com 32 amostras coletadas e 45 espécies identificadas. O objetivo deste estudo foi

verificar a associação entre as espécies e os locais.

Para realizar a Análise de Correspondência (AC) siga os passos abaixo:

Passo 1: Após importar os dados das espécies da pasta Pontos do arquivo

Matrizes_CA_CCA.xls , faça conforme demonstrado a seguir.

Page 73: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

73

Passo 2:

Passo 3:

Passo 4:

Page 74: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

74

A opção Hill´s scaling na AC é indicada para gradientes longos (> 4SD) e a

interpretação segue o princípio do centróide. Já a opção Biplot scaling é indicada

para gradientes curtos (±3SD) sendo a interpretação via regra do biplot.

Passo 5:

Passo 6:

Page 75: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

75

Passo 7: Analisando os resultados da AC.

Passo 8: Visualizando e interpretando o gráfico da AC.

Page 76: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

76

9.7 Como relacionar as variáveis de resposta com as variáveis

explicativas?

As técnicas de Análise de Correspondência Canônica (ACC ou CCA), Análise

de Redundância (RDA), de Regressão e Modelos Lineares Generalizados podem

relacionar as variáveis de resposta com as variáveis explicativas. Entretanto, a aplicação

de uma ou de outra técnica vai depender do tipo de dados e de sua resposta (linear ou

unimodal?), conforme demonstrado na Figura 21, além dos objetivos e das hipóteses

levantadas.

Como em vários estudos de biologia objetiva-se relacionar a composição de

espécies com as variáveis ambientais, nesta parte será dada particular atenção aos

diálogos relativos à seleção de variáveis explicativas. Isto pode ser efetuado, conforme

discutido na parte teórica, de uma forma manual ou automática por meio de uma

“forward selection”.

Page 77: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

77

Figura 21. Vista da relação entre o tipo de ordenação e o tipo de resposta das variáveis

resposta a um gradiente. Ver se esta figura vem aqui mesmo, ou

antes???

Já interpretação dos resultados numéricos, nomeadamente da percentagem de

variabilidade explicada pelas variáveis ambientais, será discutida com a utilização de

auxiliares de interpretação, nomeadamente a verificação das medidas de colinearidade

(valores do “Variance inflation factor” – VIF) e a interpretação da importância de cada

variável incorporada no modelo em cada eixo (análise dos coeficientes canônicos e dos

coeficientes de correlação entre as variáveis ambientais e os eixos – “intraset correlation

coefficients”).

A representação gráfica de uma CCA difere de uma RDA, mas os processos

específicos utilizados na interpretação dos “biplots” de espécies vs. variáveis ambientais

serão explicados resumidamente, pois alguns destes já foram discutidos em exemplos

anteriores. Entretanto, neste item optou-se por apresentar somente um exemplo da

aplicação da CCA, pois a RDA já foi discutida anteriormente.

A demonstração da técnica da regressão múltipla incidirá sobre a utilização e

eficácia dos critérios de seleção de variáveis (incluindo incorporação de interações entre

variáveis) e sobre os critérios de avaliação da robustez dos modelos obtidos (utilização

dos valores de AIC e de F).

Page 78: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

78

Nas demonstrações das regressões de Poisson e Logística, como os princípios de

análise são semelhantes aos exemplificados para a regressão múltipla, o enfoque será

dado na escolha da função correta de ligação, na avaliação e correção do fenômeno de

sobre-dispersão dos dados e, obviamente, na correta apresentação das equações de

regressão.

A demonstração e realização das técnicas de regressão será efetuada utilizando o

software Brodgar, uma interface desenvolvida na plataforma Windows para trabalhar

com o software R. O exemplos a utilizar na demonstração da Regressão Múltipla,

Regressão de Poisson e Regressão Logística são, respectivamente: (i) Matriz Loyn

(QUIN & KEOUGH, 2002) que inclui a abundância de espécies de aves em 56 manchas

florestais fragmentadas e variáveis ambientais relacionadas com estas manchas: área de

cada mancha, distância à mancha mais próxima, intensidade de pastoreio, altitude e

anos decorridos desde o isolamento; (ii) Matriz Species (HIGHLAND STATISTICS,

2000) que inclui o número de espécies de invertebrados em diferentes locais e, como

variáveis explicativas, os valores médios de pH e de biomassa microbiana desses locais

e (iii) Matriz Polis (QUINN & KEOUGH, 2002) que inclui dados de presença/ausência

de uma espécie de lagartos (género Uta) em 19 ilhas e ainda como variável explicativa a

razão perímetro/área de cada ilha (aqui utilizada como medida da entrada de detritos

marinhos que servem com alimento a esta espécie).

9.7.1 Exemplo prático de aplicação da CCA

ACC é uma generalização da correlação multipla e tem a finalidade de achar as

correlações máximas entre combinações lineares entre dois conjuntos de descritores (x e

y).

Para exemplificar uma aplicação da ACC escolheu-se o mesmo exemplo da AC

discutido anteriormente na AC, do trabalho intitulado “Fauna do solo numa área de

Sobreiro (Quercus suber) e Eucalipto (Eucalyptus globulus)” (SOUSA et al., 2003).

Este trabalho levantou dados sobre mesofauna do solo atributos físico-químicos do solo

(File Matrizes_CA_CCA.xls) em duas áreas (Q e E), quatros plots (A, B, G, M), tendo

em cada plot quatro cores de solo, com 32 amostras coletadas e 45 espécies

identificadas. O novo objetivo neste caso da ACC é verificar se existe associação entre

as espécies e as variáveis físico-químicas do solo. Como a resposta das espécies da

Page 79: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

79

mesofauna frente a um gradiente foi “unimodal” (Figura XX), a ACC serve

perfeitamente para exemplificar.

Para realizar o exemplo da aplicação da ACC siga os passos abaixo:

Passo 1:criando um novo projeto.

Não confundir, pois agora a análise ACC usa gradiente direto.

Passo 2:

Page 80: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

80

Passo 3:

Passo 4:

Page 81: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

81

Passo 5:

Page 82: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

82

Passo 6:

Este último procedimento tem como ideia básica testar a significância do

primeiro e restantes eixos canônicos. As hipóteses as serem testadas são:

a) A hipótese nula (H0): As espécies não estão correlacionadas com as variáveis

ambientais.

b) A relação entre a ocorrência das espécies e as variáveis ambientais é mais

forte do que a esperada por acaso?

Para tanto, deve-se:

• Cacular valor de F para os dados (F0) baseado na % de variância explicada.

• Calcular distribuição de referência dos valores de F por permutação (F1.....Fk)

• Calcular nível de significância, conforme demonstrado abaixo:

P= (1+n)/(1+N); n= número de permutações, onde F>FO; N= número total de

permutações.

Passo 7:

Page 83: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

83

Passo 8:

Passo 9: analisando os resultados da CCA

Page 84: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

84

Passo 10: Este último procedimento tem como ideia básica testar a significância do

primeiro e segundo eixos canônicos.

Passo 11: Analisando o gráfico.

O gráfico abaixo mostra a relação entre as espécies e as variáveis ambientais.

Page 85: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

85

Passo 12: Abrindo o arquivo Log e analisando o resultado, conforme descrito abaixo.

Page 86: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

86

Passo 13: Abrindo o arquivo sol e analisando o resultado, conforme descrito abaixo.

Os “Canonical coefficients” (arquivo sol) definem os eixos como combinações

lineares das variáveis ambientais (+ intraset correlation coefficients, arquivo log são

usados na interpretação da estrutura da comunidade com base nas variáveis ambientais,

medem a contribuição de cada variável).

Passo 14: Analisando se existe multicolinearidade através do indicador VIF

Caso as variáveis estejam correlacionadas umas com as outras NÃO

UTILIZAR OS COEFICIENTES CANÔNICOS!

Page 87: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

87

Passo 15: Refazendo a análise novamente

Após detectar os parâmetros com alto valor de VIF, recomenda-se que estes

sejam retirados do modelo visando eliminar o efeito da colinearidade. Em seguida,

deve-se iniciar novamente análise com os passos semelhantes a CCA, exceto na

“Forward selection”, onde os parâmetros com alto valor de VIF devem ser retirados do

modelo, conforme demonstrado a seguir.

Page 88: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

88

Passo 16: Visualizando o resultado do Forward selection.

Passo 17: Refazendo uma nova ACC “normal” apenas com as variáveis selecionadas,

pois como observado abaixo agora já não existe mais colinearidade.

Page 89: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

89

Passo 18: Visualização do gráfico.

Page 90: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

90

9.8 Como discriminar grupos de amostras com base nos seus

descritores?

A Análise discriminante pode, assim como as demais análise ser realizada em

vários softwares, mas optou-se por usar o Statistica 6.0. Numa primeira fase será

efetuada uma análise com variáveis selecionas a priori. Na explicação dos diálogos

relativos a esta técnica particular atenção será dada à interpretação dos resultados

numéricos, em particular à significância das variáveis escolhidas ( de Wilk´s ou Wilks

Lambda) e das funções discriminantes, à separação dos diferentes grupos e nível de

significância associada (distâncias de Mahalanobis), à correta classificação das

diferentes amostras e a robustez da análise.

Como esta análise permite verificar se existe diferenças entre as áreas de

amostragem com base em funções canônicas discriminantes, recomenda-se realizar o

teste de comparação de médias nos valores dos coeficientes canônicos homogeneizados

(CCH), nas distintas funções canônicas, por meio de um teste (Ex.: LSD, P < 0,05),

conforme detalhado em CRUZ-CASTILLO et al. (1994) e BARETTA et al. (2006).

Cabe salientar que a Análise Discriminante é uma análise mais robusta e

necessita de um número maior de amostras analisadas, para estudo envolvendo a fauna

do solo recomenda-se mais do que dez amostras (n de no mínimo 10 por tratamento

(MALUCHE-BARETTA et al., 2006; BARETTA et al., 2006; BARETTA et al., 2008;

BARETTA et al., 2010). A representação gráfica derivada será comparada a seguir com

as obtidas em outras técnicas, nomeadamente na ACP.

Numa segunda fase far-se-á uma análise “stepwise” como forma de comparar os

resultados obtidos. Particular atenção será dada aos critérios de significância para

inclusão de variáveis. Quando aparecerem variáveis biológicas com relação de divisão

direta e altamente influenciada por outras e que, possivelmente, influenciem num

fenômeno tendencioso sobre a análise multivariada, estas devem ser retiradas do

modelo de análise (BARETTA et al., 2005).

A ANOSIM pode ser efetuada utilizando o software Primer 5 tendo como base a

matriz de similaridade obtida anteriormente. Os diálogos relativos à definição dos

grupos a discriminar e à realização da análise serão explicados e complementados com a

interpretação dos resultados numéricos, por exemplo, a significância estatística da

análise resultante das permutações e os resultados das comparações múltiplas efetuadas.

Vamos fazer um exemplo? Qual deles?

Page 91: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

91

9.8.1 Comparação entre Análise Canônica Discriminante (ACD) e de

Componentes Principais (ACP)

Em termos de diferenças, é importante salientar que a ACP ignora a estrutura

dos grupos dos dados e calcula combinações lineares das variáveis originais (Figura 22),

enquanto a Análise Discriminante objetiva encontrar poucas dimensões do número de

variáveis originais para explicar a variação total dos dados, alocando uma outra função

discriminante (Figura 23).

A AD maximiza a variação entre os grupos de indivíduos, enquanto minimiza a

variação dentro dos grupos para as variáveis, sendo recomendado apresentar o valor da

média (centróide), conforme demonstrado na Figura 23. Recomenda-se neste tópico

consultar as referências sobre o assunto (CRUZ-CASTILLO et al ., 1994; BARETTA et

al., 2006; BARETTA et al., 2008; BARETTA et al., 2010).

(Altura)

(Ma

ss

a)

(Tamanho)

Componente

Principal

Figura 22. Relação entre a altura de plantas e a massa seca na ACP. (Fonte da Figura:

C.V.T. AMARANTE, UDESC/CAV, Lages, SC).

Page 92: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

92

Figura 23. Relação entre a altura de plantas e a massa seca, com mais a Função

Canônica Discriminante (Fonte da Figura: C.V.T. Amarante, UDESC/CAV, Lages,

SC).

Quando utiliza-se os mesmos dados com objetivo de verificar a separação entre

os tratamentos, verifica-se que a ACD discrimina muito melhor os sistemas, em

comparação com a ACP (Figura 24), e ainda fornece um teste de comparação de média

dos coeficientes canônicos padronizados denominado de “WWiillkkss’’ LLaammbbddaa ((pp00,,00000011))””

((BBAARREETTTTAA eett aall..,, 22000055;; MMAALLUUCCHHEE--BBAARREETTTTAA eett aall..,, 22000066))..

Page 93: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

93

Figura 24. Comparação entre ACP e ACD com os mesmos dados, demostrando a

separação entre o Pomar Orgânico e Convencional. (Fonte dos dados utilizados:

MALUCHE-BARETTA; AMARANTE & KLAUBERG-FILHO, 2006).

As variáveis ambientais (físico-quimicas e biológicas do solo) também podem

ser submetidas a canônica discriminante (ACD) para identificar se existe diferenças

entre os tratamentos via o teste estatístico multivariado de Wilks’ Lambda (p0,0001)

quanto à função canônica discriminante 1 (FCD1) e 2 (FCD2), além de quais das

variáveis foram mais relevantes na separação dos tratamentos (Baretta et al., 2010). Para

as variáveis, deve-se, conforme comentado anteriormente, tomar o cuidado de não

utilizar no modelo variáveis com relações de divisão direta e altamente influenciadas

por outras, recomendando-se que sejam retiradas da ACD, aumentando a confiabilidade

e eliminando o efeito de colinearidade dos dados (BARETTA et al., 2005).

Outras diferenças entre a ACD e a ACP podem ser visualizadas no esquema da

Figura 25.

Page 94: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

94

Figura 25. Comparação entre ACD e ACP em termos de objetivos e variações dentro

grupos.

Como exemplo das potencialidades da ACD em estudos ecológicos, vamos

utilizar o estudo de Baretta et al. (2010), onde o modelo estatístico utilizado na ACD

explicou boa parte da variabilidade presente nas áreas analisadas, uma vez que a

Funções Canônicas Discriminantes 1 e 2 (FCD1 e FCD2) apresentaram correlações

canônicas de maiores do que 50 e 28% na média de três épocas de amostragens

(setembro de 2004, fevereiro de 2005 e agosto de 2005) (Figura 25). Essas duas

funções foram ajustáveis para explicar as variações encontradas nos valores dos

atributos ambientais e da macrofauna do solo nas três épocas de avaliação.

Altos valores de correlação também indicam elevada associação entre os

atributos analisados e as áreas de coleta desses atributos. Neste estudo, estão indicados

no artigo publicado por Baretta et al. (2010) os coeficientes canônicos padronizados

(CCP) da FCD1 e FCD2, para as quatro áreas com araucária amostradas, considerando

todos os atributos ambientais e da macrofauna analisados em cada época de

amostragem.

O CCP explica o comportamento multivariado dos diferentes atributos para

promover a separação entre as áreas, em resposta ao estudo das variáveis independentes,

analisadas simultaneamente (BARETTA et al., 2005).

Page 95: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

95

No mesmo estudo, os autores usaram o Coeficiente da Taxa de Discriminação

Paralela (TDP) para avaliar a qualidade do solo (Figura 26). O valor de TDP resulta do

produto entre os coeficientes canônicos padronizados (CCP) e de correlação (r), sendo

que o r mostra informações univariadas (contribuição individual) de cada atributo,

independente dos demais. Contudo, o melhor parâmetro para avaliação do efeito de

separação gerada pelos atributos dentro das áreas é o TDP (Baretta et al., 2005).

Figura 26. Vista geral das etapas para criação do valor indicador de qualidade do solo,

usando o programa SAS. (Fonte: BARETTA et al., 2010).

No caso de valores positivos de TDP, estes indicam efeito de separação entre as

áreas, enquanto valores negativos semelhanças entre as mesmas quanto a esse atributo.

No estudo de Baretta et al. (2010), observou-se através dos valores de TDP, que

somente alguns atributos ambientais e da macrofauna do solo foram eficientes para

separar as áreas amostradas, apresentando certo potencial (maior valor de TDP) como

indicadores (Recomenda-se ver as quatro tabelas do artigo), independente da época de

amostragem, pois promoveram uma boa separação entre as áreas analisadas. Desta

forma, a aplicação do TDP permitiu obter um valor indicador para os atributos

Page 96: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

96

estudados, e os autores propuseram a separação dos indicadores em seis classes, de

acordo com seu valor de indicador de TDP (Tabela xx).

Tabela XX. Classes de indicadores de qualidade do solo definidas a partir do valor da

taxa de discriminação paralela (TDP) resultante da análise canônica discriminante

(ACD) quanto as funções canônicas 1 e 2 (FCD1 e FCD2), para cada atributo em

áreas com araucária sob diferentes estados de conservação, independente do

tratamento, na região de Campo do Jordão, SP. (Fonte: BARETTA et al., 2010)

Valor de TDP do atributo Classe de qualidade Valor indicador

0,03* I Baixo

0,04-0,09 II Médio

0,10-0,20 III Bom

0,21-0,41 IV Muito Bom

0,42-0,80 V Ótimo

> 0,81 VI Excelente

*Valores podem variar de acordo com o ecossistema amostrado e o número de atributos

químicos, físicos e biológicos do solo incluídos no modelo.

Entretanto, os autores recomendam complementar estes estudos por meio da

inclusão de outros atributos químicos, físicos e biológicos do solo no modelo da ACD e

medir estes parâmetros com vários métodos de coleta em outros ecossistemas

brasileiros, a fim de validar potencial indicador de cada atributo edáfico.

9.8.2 Exemplo de aplicação da Análise Canônica Discriminante (ACD)

para discriminação de tratamentos

Ver com Paulo sobre essa parte inicial

Para exemplificar uma aplicação prática da ACD recomenda-se usar o arquivo

intitulado “DADOS ANALISE MULTIVARIAVEL SADO.xls” e seguir os

procedimentos que serão detalhados a seguir. Neste arquivo encontram-se os resultados

referentes a um estudo realizado em XXX com objetivo de avaliar as funções

fisiológicas no polychaete Hediste diversicolor, com medidas de vários biomarcadores

de enzima (neurotransmissão, condição metabólica, processos de desintoxicação,

defesas com antioxidante). Para tanto, foram coletadas amostras do Rio Mira (estuário

de referência) e Rio Sado (Estuário Impactado), em vários locais com vários animais em

cada um deles, conforme demostrado na Figura 27. Este artigo já foi publicado na

Revista “Aquatic toxicology” (MOREIRA et al., 2006), e tem como objetivo principal

Page 97: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

97

verificar a resposta dos dados entre grupos de fauna e os parâmetros ambientais

xxxxxxxxx…..

Ou verificar se há separação entre os tratamentos (xxx) e quais são as

variáveis que mais contribuem para esta separação??????

Figura 27. Vista dos Rios Sado e Mira no canto superior direito e dos pontos de

amostragem (S1, S2, S3, S4 e S5) ao logo do Rio XX.

Os dados do arquivo intitulado “DADOS ANALISE MULTIVARIAVEL

SADO.xls” (Tabela xx) serão utilizados para demonstrar a aplicação desta técnica no

programa Statistica 6.0.

Tabela XX. Valores usados no exemplo da Análise Discriminante, constantes no

arquivo a ser importado intitulado “DADOS ANALISE MULTIVARIAVEL”.

Page 98: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

98

STATION Estuary ACHE LDH GST SOD CAT GPX GR TBARS

R1 1 81.11 169.95 42.53 14.98 13.79 7.37 7.75 0.59

R1 1 82.36 149.19 40.73 14.68 19.21 8.67 9.87 0.58

R1 1 88.46 157.54 39.95 15.46 18.29 8.95 9.26 0.54

R1 1 91.88 126.71 34.33 17.90 13.57 7.16 7.35 0.32

R1 1 88.25 155.70 42.14 17.60 18.97 7.76 7.74 0.52

R2 2 86.29 136.63 36.62 15.28 14.96 6.09 7.25 0.56

R2 2 86.09 138.67 45.02 11.20 16.82 8.35 6.30 0.65

R2 2 80.14 129.89 42.43 13.18 16.01 7.39 8.37 0.62

R2 2 93.45 126.54 40.51 10.95 18.82 7.31 6.35 0.32

R2 2 84.54 151.77 39.88 17.17 14.31 7.34 9.36 0.24

R3 3 88.36 136.63 35.70 7.88 13.70 8.02 6.10 0.42

R3 3 84.79 138.67 38.56 13.23 17.65 6.80 7.84 0.31

R3 3 87.81 129.89 39.45 12.96 17.37 8.16 6.88 0.55

R3 3 93.63 126.54 39.14 11.95 13.76 7.65 6.62 0.54

R3 3 90.06 149.45 41.22 20.14 13.83 7.74 9.27 0.41

S1 4 86.23 136.11 45.15 23.75 19.04 6.43 6.43 0.44

S1 4 92.65 135.83 39.04 17.60 13.78 6.54 8.01 0.46

S1 4 79.78 164.13 43.07 19.80 14.51 8.69 9.00 0.46

S1 4 76.52 148.61 36.09 12.99 14.27 5.92 6.40 0.51

S1 4 88.83 152.64 38.52 23.05 13.34 8.83 7.24 0.59

S2 5 91.02 214.79 42.19 46.06 23.85 9.12 6.44 0.74

S2 5 93.88 178.86 39.69 41.72 22.26 11.31 8.21 0.77

S2 5 83.59 213.75 45.53 44.91 21.79 10.96 8.75 1.15

S2 5 89.84 179.34 43.09 40.18 20.25 9.70 5.66 0.75

S2 5 85.38 212.68 43.54 35.14 36.37 9.25 7.32 1.31

S3 6 95.19 186.09 60.22 23.33 13.68 9.92 8.71 0.93

S3 6 92.80 176.05 57.64 27.92 18.10 16.68 9.24 0.63

S3 6 80.34 161.48 65.47 24.45 13.80 16.70 12.86 0.66

S3 6 94.12 151.72 58.85 22.32 17.25 13.51 8.31 0.74

S3 6 90.74 176.42 53.50 16.95 22.33 17.74 11.12 0.61

S4 7 87.62 239.14 41.39 44.13 21.11 7.15 6.56 1.04

S4 7 87.99 203.09 44.94 38.91 28.12 8.85 6.03 1.43

S4 7 85.20 224.67 41.68 31.19 25.25 8.53 7.76 0.88

S4 7 89.96 212.72 50.28 29.36 21.43 6.23 7.74 1.01

S4 7 93.16 195.57 41.63 38.37 21.62 8.10 6.85 1.14

S5 8 94.50 163.50 55.20 28.02 20.89 8.77 5.08 0.57

S5 8 89.79 193.78 45.47 26.06 29.43 7.56 7.89 0.82

S5 8 92.86 169.26 47.32 15.38 25.36 9.06 6.53 0.71

S5 8 85.48 201.99 53.49 19.96 20.03 6.37 8.63 0.87

S5 8 88.57 160.37 44.86 17.07 16.37 8.70 10.05 1.29

Para realizar o exemplo da aplicação da AD siga os passos abaixo:

Passo 1:

Para ajudar na familiarização com o programa Statistica, elaborou-se o esquema

demonstrado na Figura 28.

Page 99: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

99

Figura 28. Esquema detalhado da importação de dados a partir de planilha do Excel do

arquivo intitulado “DADOS ANALISE MULTIVARAVEL.xls”, usando o programa

Statistica.

Passo 2: Abrindo o programa Statistica e iniciando a AD.

Page 100: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

100

Passo 3: Selecionando variáveis a serem incluídas no modelo com os códigos.

Passo 4: Rodando a análise

Page 101: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

101

Passo 5: Visualização dos resultados da análise

Passo 6: verificando a colinearidade e a significância

Page 102: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

102

Passo 7: Descobrindo o que é cada valor

Caso o pesquisador queira calcular o Coeficiente da Taxa de Discriminação

Paralela (TDP) para avaliar a qualidade do solo, basta multiplicar o valor dos

coeficientes canônicos padronizados (CCP) e de correlação (r). A interpretação do TDP

já foi discutida anteriormente no item 9.8.1.

Page 103: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

103

Passo 8: Descobrindo o que é cada valor

Passo 9: Construindo o gráfico

Paulo dar uma explicada nos dados?

Page 104: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

104

Passo 9: analisando os dados e descobrindo se pode ter uma discriminação melhor?

Passo 10: fazendo análise “setpwise” e retirando as variáveis não significativas do

modelo.

Deve-se realizar uma análise de “setpwise” com todas as variáveis analisadas,

deixando no modelo somente as significativas, com vistas a uma melhor discriminação

dos tratamentos. As variáveis não significativas indicadas abaixo devem ser retiradas do

modelo, assim haverá uma melhor discriminação dos tratamentos.

Page 105: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

105

Passo 11: Voltando a analisar se há significância.

Passo 12: Analisando os coeficientes

Page 106: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

106

Passo 13: Visualizando o gráfico já com “setpwise”.

Resultado da análise de “setpwise” deixando somente as variáveis significativas,

demostrando uma melhor discriminação dos tratamentos.

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx,

Paulo dar uma explicada nos dados?

9.9 Como avaliar a diversidade da fauna do solo quando temos

amostras ao longo do tempo?

Quando tem-se resultados de avaliações de biologia do solo com amostragens

ao longo do tempo a análise de Curvas de Resposta Principais (PRC) é um método

apropriado, especialmente quando temos um tratamento/local como controle

(referência ou testemunha) e um ou outros tratamentos/locais. Nestas condições o

tempo complica a interpretação nos diagramas de ordenação, especialmente quando

os dados são analisados com ACP, conforme pode ser observado na Figura 29.

Page 107: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

107

Por isso a demonstração deste método irá incidir na forma de derivar as curvas de

resposta de cada tratamento utilizando os resultados numéricos da RDA e na

apresentação gráfica e interpretação das curvas de resposta calculadas. Assim, a PRC é

uma forma especial de RDA (Figura 30), onde o modelo utilizado é: yd(i)tk = y0tk +

bk* cdt +ed(i)tk, em que: yd(i)tk = abundâncias; y0tk = abundância média no controle

(testemunha); cdt = padrão de resposta básico (PRC); bk = peso de cada espécie com

cdt; ed(i)tk = erro.

Abaixo pode-se visualizar o resultado da ACP com o resultado do efeito de

diferentes doses de herbicida sobre a diversidade de Fictoplancton XXX (Figura

29).

Figura 29. Resultado da ACP, mostrando a resposta dos macroinvertebrados a

aplicação de herbicida ao logo do tempo (ver com J.P. Sousa a fonte e

ano, e se ele tem gráfico original sem esse fundo azul.)

Entretanto, abaixo pode-se visualizar com os mesmos dados utilizados na Figura

29, o resultado da PRC mostrando a resposta da diversidade de Fitoplancton frente a

diferentes doses de herbicida já com um padrão de resposta diferenciado, sendo

realmente este um método apropriado, pois melhora muito a visualização do

Page 108: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

108

comportamento e a interpretação no diagrama de ordenação, conforme pode ser

observado na Figura 30.

Portanto, a PRC é um método de ordenação conhecido como análise de

redundância parcial (pRDA), que é indicada para avaliar o efeito de um determinado

fator sobre uma comunidade ao longo do tempo. Esse método resume os efeitos de cada

tratamento em relação ao controle sobre os grupos funcionais de organismos edáficos e

possibilita exibí-los em um único diagrama. Entretanto, a PRC somente extrai a

informação de parte da variância que é explicada pelo fator empregado como tratamento

e o tempo (épocas de amostragens), que é utilizado como co-variável. O tempo na PRC

é disposto no eixo x e o coeficiente canônico, também denominado de coeficiente

canônico padronizado, relativo ao tratamento controle, no eixo y. Assim, os outros

coeficientes dos tratamentos são apresentados como desvios em relação ao controle,

para cada tempo avaliado.

Com o gráfico da PRC é apresentado um diagrama onde são plotados os pesos

(valores positivos e negativos) do grupos funcionais analisados, e o peso dos grupos

funcionais pode ser interpretado como o peso de cada grupo único para a resposta dos

tratamentos na PRC. Assim, o maior valor de peso para um determinado grupo

funcional (Ex.: da fauna) indica uma maior contribuição desse grupo para as diferenças

(Ex. doses de um produto) na PRC. Adicionalmente, é fornecida uma estatística

correspondente a qualidade do ajuste e do potencial explicativo da RDA. Uma razão F é

obtida e um valor de P, por meio dos testes de permutação de Monte Carlo (LEPS &

SMILAUER, 2003)

Page 109: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

109

Figura 30. Resultado da PRC, mostrando a resposta da diversidade de Fitoplancton

frente a diferentes doses de herbicida (ver com J.P. Sousa a fonte e ano,

e se ele tem gráfico original sem esse fundo azul.)

Para exemplificar uma aplicação prática da PRC recomenda-se usar o arquivo

intitulado “StreanData.xls” e seguir os procedimentos que serão detalhados a seguir.

Neste arquivo encontram-se os resultados referentes a um estudo realizado em que

foram coletadas amostras ao longo de quatro tempos em um rio contaminado

(especialmente com Endossulfan) + um rio de referência. Este artigo já foi publicado na

Revista “Aquatic toxicology” (MOREIRA et al., 2006), e tem como objetivo principal

verificar o efeito da ocorrência de água contaminada de campos agrícolas na

comunidade de invertebrados aquáticos ao longo do tempo. Enfim, ver com José

Paulo esta parte dos dados de StreanDataxls

Os procedimentos para executar a PRC são:

Passo 1:

Page 110: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

110

Passo 2:

Passo 3:

Page 111: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

111

Passo 4:

Passo 5:

Page 112: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

112

Passo 6:

Passo 7:

Page 113: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

113

Passo 8:

Passo 9:

Page 114: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

114

Passo 10:

Passo 11: Calculando o Cdt

Para calcular o Cdt (PRC do tratamento) precisamos de:

Coeficientes canônicos dos tratamentos (Arquivo .SOL). Deve-se abrir o

arquivo com extensão “.sol”e ver se os resultados batem com os do arquivo

“StreanData.xls” na pasta PRC. Caso sejam os mesmos parabéns você acertou os

procedimentos.

Page 115: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

115

SD dos tratamentos (Arquivo .LOG). Deve-se abrir o arquivo com extensão

“.log”e ver se os resultados batem com os do arquivo “StreanData.xls” na pasta

PRC. Caso sejam os mesmos parabéns você acertou os procedimentos.

TAU - SD total das espécies (Arquivo .LOG).

Cdt = (CanCoef*TAU)/SD. Na pasta PRC, encontram-se esses valores e

também esta fórmula, isso para facilitar o entendimento.

O Cdt do Controle ao longo do tempo é sempre “0”

Para se construir o auxiliar d interpretação ao nível das espécies, necessitamos

dos Bk das espécies (Species scores do arquivo .SOL). Deve-se abrir o arquivo

com extensão “.sol” ver se os resultados batem com os do arquivo

“StreanData.xls” na pasta PRC. Caso sejam os mesmos parabéns você acertou os

procedimentos. Depois pegue esses resultados e e tente fazer como na pasta PRC

(spec) doa arquivo “StreamData.xls”.

Abaixo encontra-se os resultados do efeito da ocorrência de água contaminada

sobre a comunidade de invertebrados aquáticos em um rio contaminado (especialmente

com Endossulfan) comparado com um rio de referência ao longo dos quatro tempos de

amostragens. As espécies com maiores valores de bk (Jap_kut; Che_sp e Ate_aus)

foram as mais afetadas pelo rio contaminando ao longo do tempo, enquanto as espécies

menos influenciadas pelo rio contaminado apresentam menores valore de bk (Chi_spp;

Ptrat ya…). Outras informações sobre a interpretação deste trabalho podem ser obtidas

em xxxx et al. (xxx) e sobre a PRC em (PARDAL et al., 2004). ver com J.P.

Sousa a fonte e ano do trabalho publicado e ajudar na

apresentação do gráfico)

Page 116: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

116

Jap_ Kut

Che_ sp

Ate_ aus

Olig och

Othe r Prat yaChi_ spp

Moll usc

Ecn_ sp Bae_ sp Tas_ sp

0

0.5

1

1.5

2

bk

Jap_ Kut

Che_ sp

Ate_ aus

Olig och

Othe r Prat yaChi_ spp

Moll usc

Ecn_ sp Bae_ sp Tas_ sp

0

0.5

1

1.5

2

bk

-2

-1.5

-1

-0.5

0

1 2 3 4

Sampling date

Cd

t

Reference Endosulfan

Figura 31. Resultado da PRC, mostrando o efeito da ocorrência de água contaminada

sobre a comunidade de invertebrados aquáticos em um rio contaminado (especialmente

com Endossulfan) comparado com um rio de referência ao longo de quatro tempos de

amostragens.

Partição da variabilidade exemplo do BIOACESSS Paulo vai fazer aqui o resto

Os procedimentos para efetuar uma partição de variância e avaliar a importância

de cada conjunto de variáveis em explicar a composição das variáveis de resposta

seguem os mesmos princípios das análises de ordenação Canônica demonstradas

Page 117: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

117

anteriormente. Assim, o ficheiro Dune será de novo utilizado para demonstrar a

aplicação desta técnica.

Exemplo do Paulo

Na realização das diversas CCA’s (cada uma para avaliar a influência de um

conjunto de variáveis) atenção particular será dada à utilização de co-variáveis e à

interpretação do respectivo resultado numérico em termos de variabilidade explicada

(quer pelas variáveis explicativas a serem testadas quer pelas co-variáveis). Será dada

também uma importância especial à apresentação dos resultados das análises, ou seja, a

construção da tabela de partição da variabilidade.

Aqui entre A NON-METRIC MULTIDIMENTIONAL SCALLING

A realização de uma “Non-Metric Multidimentional Scalling” será demonstrada

utilizando um exemplo de separação de espécies de Escrofulariáceas com base em

características morfológicas (Leps e Smilauer, 2003). A matriz de dados (designada por

Melampyrum), é composta por diferentes espécies deste género (incluindo híbridos)

recolhidas em diferentes locais da Europa Central e por diferentes variáveis

morfológicas.

Está técnica será efetuada utilizando o software Primer 5 (Que pode ser

adquirido no site Site). Os procedimentos relacionados com a importação de matrizes de

dados e com a realização desta técnica também serão demonstrados “passo a passo”.

Uma atenção particular será dada à escolha da medida de similaridade (ou distância),

obtenção da matriz de similaridade (ou distância) e para à interpretação do resultado

gráfico e valores de “stress”. Como exercício, recomenda-se aplicar esta técnica aos

exemplos já trabalhos anteriormente com o objetivo de comparar e discutir o

desempenho das três técnicas abordadas.

ESTA FALTANDO 1) Partição da variabilidade ao nível de paisagem. Exemplo do Paulo. Você tem um

exemplo clássico daquele artigo seu acho que na Pedologia.

2) Exemplo de corredores ecológicos (Paulo tem este), VEREMOS AINDA SE VAMOS

COLOCAR

3) Exemplo do número ideal de amostras (Paulo tem algo bem funcional e simples) Paulo

tem pronto

4) Delineamentos expereimentais, com mais exemplos de pseudorepetições o Paulo tirará

da dissertação de mestrado dele.

Page 118: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

118

O Solo não é mais complexo do que pensamos…

O Solo é mais complexo do que nós PODEMOS pensar…!

Page 119: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

119

11. Bibliografia

BARETTA, D.; BROWN, G.G. & CARDOSO, E.J.B.N. Potencial da macrofauna e

outras variáveis edáficas como indicadores de qualidade do solo em áreas com

Araucaria angustifolia. Acta Zool. Mex., (n.s), v.2, p.135-150, 2010.

BARETTA, D.; FERREIRA, C.S.; SOUSA, J.P. & CARDOSO, E.J.B.N. Colêmbolos

(Hexapoda: Collembola) como bioindicadores de qualidade do solo em áreas com

Araucaria angustifolia. R. Bras. Ci. Solo., v.32, p.2693-2699, 2008.

BARETTA, D.; MAFRA, Á.L.; SANTOS, J.C.P.; AMARANTE, C.V.T.; BERTOL, I.

Análise multivariada da fauna edáfica em diferentes sistemas de preparo e cultivo do

solo. Pesq. Agropec. Bras., Brasília, v.41, p.1675-1679, 2006.

BARETTA, D.; SANTOS, J.C.P.; FIGUEIREDO, S.R. & KLAUBERG-FILHO, O.

Efeito do monocultivo de pinus e da queima do campo nativo em atributos biológicos

do solo no planalto sul catarinense. R. Bras. Ci. Solo, v.29, n.5, p.715-724, 2005.

BARETTA, D.; SANTOS, J.C.P.; SEGAT, J.C.; GEREMIA, E.V.; OLIVEIRA FILHO,

L.I.de. & ALVES, M.V. Fauna edáfica e qualidade do solo. In: KLAUERG-FILHO

(Coords.). Tópicos Especiais em Ciência do Solo. SBCS:Viçosa, MG. p.xx-xx, prelo,

2011.

CLARKE, K.R. & GORLEY, R.N. Primer v5: User manual/tutorial. Primer-E Ld,

Plymouth. 2001 PÁG?

CLARKE, K.R. & WARWICK, R.M. Change in marine communities: An approach do

statistical analysis and interpretation (2nd

ed). Primer-E Ld, Plymouth. 2001 PÁG?

CRUZ-CASTILLO, J.G.; GANESHANANDAM, S.; MAcKAY, B.R.; LAWES, G.S.;

LAWOKO, C.R.O.O. & WOOLLEY, D.J. Applications of canonical discriminant

analysis in horticultural research. HortScience, v.29, p.1115-1119, 1994.

FERREIRA, D.F. Estatística multivariada. (1.ed.). Lavras: Editora UFLA, 2008. 662 p.

il.

FRIGHETTO, R.T.S.; VALARINI, P.J. (Cord.). Indicadores biológicos e bioquímicos

da qualidade do solo: manual técnico. Jaguariúna: EMA, 2000. 198 p. (Documentos, 21)

GAUCH, H.G. Multivariate analysis in community ecology. Cambridge University

Press, Cambridge.1982. 298 p.

Page 120: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

120

HAIR, J.F.; ANDERSON, R.E. & TATHAM, R.L. Multivariate data analysis with

readings. 2nd

ed. New York: Macmillan, 1987. 449 p.

HIGHLAND STATISTICS, Ltd. Brodgar: Software package for multivariate analysis

and multivariate time series analysis. Highland Statistics Ltd, Aberdeen. 2000 132 pp.

JONGMAN, R.H.G.; tER BRAAK, C..J.F. & VAN TONGEREN, O.F.R. (Eds.) Data

analysis in community and landscape ecology. Cambridge University Press, Cambridge.

1995. 299 pp.

LEPS, J. & SMILAUER, P. Multivariate analysis of ecological data using Canoco.

Cambridge University Press, Cambridge. 2003. 269 p.

MALUCHE-BARETTA, C.R.D.; AMARANTE, C.V.T. & KLAUBERG-FILHO, O.

Análise multivariada de atributos do solo em sistemas convencional e orgânico de

produção de maças. Pesq. agropec. bras., 41:1531-1539, 2006.

MANLY, B.F.J. Multivariate statistical methods: a primer. Chapman & Hall, London.

1994. 215 pp.

MAROCO, J. Análise estatística com utilização do SPSS (2ª ed.). Edições Sílabo,

Lisboa. 2003. 508 p.

MARRIOTT, F.H.C. The interpretation of multiple observations. London, Academic

Press, 1974.

MOREIRA et al., 2006 (ver com Paulo).

PARDAL, M.A.; CARDOSO, P.G.; SOUSA, J.P.; MARQUES, J.C. & RAFFAELLI,

D. Assessing environmental quality: a novel approach. Marine ecology Progress Series,

v. 267, p. 1–8, 2004.

POPPI, R.J. & SENA, M.M.de. Métodos quimiométricos na análise integrada de

dados. In: FRIGUETTO, R.T.S. & VALARINI, P.J. (Coords.). Indicadores biológicos e

bioquímicos da qualidade do solo : manual técnico. Jaguariúva: Embrapa Meio

Ambiente, 2000. 198p. (Embrapa Meio Ambiente. Documentos, 21).

QUINN, G.P. & KEOUGH, M.J. Experimental design and data analysis for biologists.

Cambridge University Press, Cambridge. 2002. 537 p.

SAS INSTITUTE. SAS: User’s guide: statistics. 6th

ed. Cary: Institute Inc. 2002.

Page 121: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

121

SCHEEREN, L.W.; GEHRARDT, E.J.; FINGER, C.A.G.; LONGHI, S.J. &

SCHNEIDER, P.R. Agrupamento de unidades amostrais de Araucaria angustifolia

(Bert.) O. Ktze, em função de variáveis do solo, da serapilheira e das acículas, na região

de Canela, RS. Ci. Fl., v.1, p.39-57, 2000.

tER BRAAK, C.J.F. Canonical community ordination. Part I: basic theory and linear

methods. Ecoscience, v.1, p.127-140, 1994.

tER BRAAK, C.J.F. & SMILAUER, P. CANOCO Reference manual and CanoDraw

for Windows User’s guide: Software for Canonical Community Ordination (version

4.5). Microcomputer Power, Ithaca, New York. 2002. 500 p.

VAN DEN BRINK, P.J. & TER BRAAK, C.J.F. Multivariate analysis of stress in

experimental ecosystems by Principal Response Curves and similarity analysis. Aquatic

Ecology, v.32, 161-178, 1998

VAN DEN BRINK, P.J. & TER BRAAK, C.J.F. Principal response curves: Analysis of

time-dependent multivariate responses of biological community to stress.

Environmental Toxicology and Chemistry, v.18, p.138-148, 1999

VAN DEN BRINK, P.J.; VAN DEN BRINK, N.W. & TER BRAAK, C.J.F.

Multivariate analysis of ecotoxicological data using ordination: demonstrations of utility

on the basis of various examples. Australasian Journal of Ecotoxicology, v.9, p.141-

156, 2003.

BIBLIOGRAFIA ADICIONAL

ANDERSON, T.W. An introduction to multivariate statistical analysis. 2nd Ed. New

York, John Wiley.1984. 675p.

ANDERSON, T.W. The asymptotic theory for principal components analysis, Annals

of Mathematical Statistics, v.34, p.122-148, 1963.

BARTLETT, M.S. A note on multiplying factors for various Chi-Square

approximations. Journal of the royal Statistical Society –Series B. v.16, p.296-298,

1954.

BARTLETT, M.S. A note on tests of significance in multivariate analysis. Proceedings

of the Cambridge Philosophical Society, v.35, p.180-185, 1939.

Page 122: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

122

BARTLETT, M.S. Further aspects of the theory of multiple regression. Proceedings of

the Cambridge Philosophical Society, v.34, p.33-40, 1938.

BARTLETT, M.S. The statistical conception of mental factors. British Journal of

Psychology, v.28, p.97-104, 1937.

DOBSON, A.J. An introduction to generalized linear models. Chapman & Hall/CRC,

Boca Raton. 2001. 225 p.

SILESHI, G.T. The excess-zero problem in soil animal count data and choice of

appropriate models for statistical inference. Pedobiologia, v.52, p.1-17, 2008.

tER BRAAK, C.J.F. Canonical correspondence analysis: a new eigenvector technique

for multivariate direct gradient analysis. Ecology, v.67, p.1167-1179, 1986.

tER BRAAK, C.J.F. The analysis of vegetation-environment relationships by canonical

correspondence analysis. Vegetatio, v.69, p.69-77, 1987.

tER BRAAK, C.J.F. & VERDONSCHOT, P.F.M. Canonical correspondence analysis

and related multivariate methods in aquatic ecology. Aquatic Sciences, v.57, p.255-

289, 1995.

CASOS DE ESTUDO (exceto casos incluídos em referencias indicadas anteriormente)

LEONARD, A.W; HYNE, R.V.; LIM, R.P.; PABLO, F.; & VAN DEN BRINK, P.J.

Riverine Endosulfan concentrations in the Namoi river, Australia: link to cotton field

runoff and macroinvertebrate population densities. Environmental Toxicology and

Chemistry, v.19, p.1540-1551. 2000.

MOREIRA, S.M.; LIMA, I.; RIBEIRO, R. & GUILHERMINO, L. Effects of estuarine

sediment contamination on feeding and on key physiological functions of the

polychaete Hediste diversicolor: Laboratory and in situ assays. Aquatic Toxicology (em

publicação). 2006

PARDAL, M.A.; CARDOSO, P.G.; SOUSA, J.P.; MARQUES, J.C. & RAFFAELLI,

D. Assessing environmental quality: a novel approach. Marine Ecology Progress Series.

267, v.1-8, 2004

PEREIRA, R.; SOUSA, J.P.; RIBEIRO, R. & GONÇALVES, F. Microbial indicators in

mine soils (S. Domingos Mine, Portugal). Soil & Sediment Contamination, v.15, v.147-

167, 2006.

Page 123: Livro Princpios...Multivariada_20_janeiro_2011 Apos Reunio Paulo

123

PONGE, J.-F.; GILLET, S.; DUBS, F.; FEDOROFF, E.; HAESE, L; SOUSA, J.P. &

LAVELLE, P. Collembolan communities as indicators of land use intensification. Soil

Biology and Biochemistry, v.35, 813-826, 2003.

SOUSA, J.P. & GAMA, M.M. da. Rupture in a Collembola community structure from a

Quercus rotundifolia Lam. forest due to reafforestation with Eucalyptus globulus

Labill. European Journal of Soil Biology, v.30, p.71-78, 1994.

SOUSA, J.P.; BOLGER, T.; GAMA, M.M.; LUKKARI, T.; PONGE, J.-F.; SOMÓN,

C.; TRASER, G.; VANBERGEN, A.J.; BRENNAN, A.; DUBS, F.; IVITIS, E.;

KEATING, A.; STOFER, S. & WATT, A.D. Changes in Collembola richness and

diversity along a gradient of land-use intensity: a pan European study. Pedobiologia (em

publicação).

SOUSA, J.P.; GAMA, M.M. da; PINTO, C.; KEATING, A.; CALHÔA, C.; LEMOS,

M.; CASTRO, C.; LUZ, T.; LEITÃO, P. & DIAS, S. Effects of land-use on Collembola

diversity patterns in Mediterranean landscape. Pedobiologia, v.48, p.609-622, 2004.

VANBERGEN, A.J.; WATT, A.D.; MITCHELL, R.; TRUSCOTT, A.-M.; PALMER,

S.C.F.; IVITS, E.; EGGLETON, P.; JONES, H. & SOUSA, J.P. Landscape structure,

plant diversity and resources structure soil fauna diversity along a land-use

intensification gradient. Oecologia (submetido).

SITES RECOMENDADOS

Manchester Metropolitan University

http://149.170.199.144/multivar/intro.htm

Ohio State University

http://ordination.okstate.edu/

University of Glasgow

http://www.stats.gla.ac.uk/~mitchum/courses/Multivariate/