livro princpios...multivariada_20_janeiro_2011 apos reunio paulo
Post on 12-Aug-2015
127 Views
Preview:
TRANSCRIPT
PRINCÍPIOS E APLICAÇÕES DA
ANÁLISE MULTIVARIADA NOS
ESTUDOS DE BIOLOGIA DO SOLO
José Paulo SOUSA
George Gardner BROWN
Dilmar BARETTA
Coimbra, fevereiro de 2010
APRESENTAÇÃO
Este manual trata-se de um trabalho preparado sob encomenda e com finalidades
bem definidas: estimular a maior utilização das técnicas de análises multivariadas
disponíveis, provocando uma reflexão crítica sobre este tema de inegável relevância
para o avanço da Biologia do Solo no Brasil. Isso porque a comunidade científica
brasileira é muito carente, em planejamento e tratamento de dados obtidos pela
pesquisa, tema este que deve ser estimulado e não tratado isoladamente, pois vêm
provocando controvérsias no ambiente acadêmico.
A intenção, ao elaborar esta primeira versão, com base em alguns poucos autores
especialistas nos vários assuntos abordados, foi principalmente organizar algumas
informações de cursos ministrados no Brasil e de publicações envolvendo técnicas de
análises multivariada. Portanto, não existe a pretensão de esgotar nenhum tema e nem
de apresentar todas as soluções sobre assuntos polêmicos, mas sim demonstrar o
potencial de ferramentas que são muito relevantes.
O texto mostra também as aplicações, potencialidades e amplia o debate para
além da visão dos “iniciados”; para aqueles que trabalham com biologia do solo,
indicadores de qualidade e nos levantamentos de biodiversidade. Este manual não visa
lucratividade com as vendas, pois é custeado por recursos públicos da EMBRAPA e do
CNPq, que motiva a refletir criticamente sobre a realidade da pesquisa brasileira.
Talvez os dois parágrafos abaixo tenham que ir no início
Com os avanços da ciência moderna, o grande desafio é aplicar métodos para
avaliar as intervenções antrópica sobre os processos biológicos do solo, em condições
de campo. Dada a complexidade das propriedades biológicas do solo, devido à alta
variabilidade dos dados, com grande frequência de zero e, na maioria das vezes
distribuição não normal, qualquer análise estatística, mesmo a multivariada deve
atender aos pressupostos de homogeneidade de variância, delineamentos com repetições
verdadeiras, dentre outros princípios para sua aplicação.
Parece evidente que a aplicação da análise multivariada em dados biológicos
pode, de fato, contribuir positivamente para uma melhor visualização e a interpretação
dos resultados obtidos. Mas importa esclarecer que não pretendemos invalidar a análise
univariada e sim apresentar as vantagens e o potencial da multivariada, seja por causa
das pressuposições que são semelhantes, seja em razão da pouca ou incorreta utilização
dos recursos que temos disponíveis hoje. O relato de alunos, professores e colegas
pesquisadores, de certa forma, nos incentivaram e influenciaram na redação do presente
texto, desde a escolha dos tópicos até apresentação dos exemplos práticos.
O presente livro descreve os principais métodos e técnicas de análise de dados,
especialmente envolvendo biologia do solo, provenientes de estudos, como análise e
previsão de riscos causados por agrotóxicos e resíduos, compostos, etc.; monitoramento
do impacto causado pelo uso da terra e da qualidade do solo antes ou após sua
recuperação e numa visão mais holística, usando sempre análises não só de um
parâmetro físico ou químico, mas métodos que utilizem um conjunto de variáveis
ambientais, teste suas relações e ou utilize como explicativas das modificações de uso
do solo, cujos resultados experimentais foram planejados para tal finalidade.
Essa é a primeira versão do Livro e dada a urgência necessária para sua
confecção já esclarecemos que, em breve será publicada uma nova versão revisada e
atualizada, com mais exemplos de estudos de biologia do solo.
Índice
1. Introdução
A maioria dos dados recolhidos em estudos de Ecologia possui uma natureza
multivariável ou multidimensional. Sejam estudos autoecológicos ou sinecológicos,
baseados em experiências mensurativas ou manipulativas e a informação recolhida em
cada unidade experimental (ou objeto) compreende diversas variáveis. Caso as unidades
experimentais sejam indivíduos ou espécies, estas variáveis podem ser, por exemplo,
medidas morfológicas, parâmetros fisiológicos ou respostas comportamentais. No caso
de objetos serem amostras ou locais, as variáveis podem consistir em espécies ou
parâmetros ambientais (sensu latu).
Este cariz multivariável, aliado ao tipo de questões que normalmente estão
associadas a estes estudos, necessita de ser tido em conta quando da análise dos
resultados obtidos. Esteja o interesse na interpretação da estrutura dos dados ou na
busca de relações causa-efeito entre as diversas variáveis, a visão reducionista de
procurar padrões para cada variável isoladamente não resulta na maior parte dos casos.
A natureza multidimensional dos dados faz com que as matrizes de resultados
sejam (i) extensas, apresentando muitas entradas (Exemplo: um estudo com 50 amostras
e 100 espécies possui 50.000 entradas) e (ii) complexas, com os dados a apresentarem,
na maior parte dos casos, elevados níveis de ruído, redundância e valores “outlier”.
Estes fatos fazem com que a utilização de técnicas de análise multivariável sejam as
ferramentas indicadas para trabalhar este tipo de dados.
A sua utilização em Ecologia iniciou-se com a busca de padrões de distribuição
de espécies de plantas e animais, em estudos de Ecologia de Comunidades, e remonta
ao início da segunda metade do século XX. Os métodos utilizados na época eram algo
incipientes, não permitindo, essencialmente por limitações de ordem tecnológica,
explorar diversos aspectos de tratamento dos resultados e responder a muitas das
questões pretendidas. Atualmente, devido aos avanços a nível informático, aliados ao
desenvolvimento dos métodos matemáticos, as ferramentas de análise multivariada são
já mais eficientes, existindo soluções apropriadas para responder às diferentes questões
levantadas em estudos ecológicos. Além disso, a facilidade de comunicação dos
resultados, em virtude das diferentes possibilidades de visualização gráfica aliadas aos
respectivos “outputs” numéricos, e ainda a possibilidade de se testarem hipóteses de
trabalho, acoplando-lhes níveis de significância estatística, contribuem para a extensa
utilização deste tipo de métodos.
6
Portanto, devido ao crescente avanço das técnicas instrumentais de análise
biológica do solo, impulsionada pelo avanço de microcomputadores, ferramentas novas
de tratamento de dados das mais variadas e complexas do ponto de vista estatístico e
matemático tornam-se uma realidade (POPPI & SENA, 2000).
Até a segunda metade da década de 90, a presença da Análise Multivariada
(AM) na literatura brasileira era praticamente inexistente. A partir da segunda metade
da década de 90, nota-se um aumento significativo de sua utilização, aumentando a
capacidade de se extrair informações de dados biológicos do solo. Contudo, pode
afirmar que as pesquisas na área de biologia do solo no Brasil estão em processo de
substituição de muitos métodos tradicionais de análise univariados por métodos
multivariados. Mas a experiência adquirida durante os cursos avançados ministrados em
várias Universidades Brasileiras e Européias, especialmente envolvendo mestrandos,
doutorandos, pesquisadores e professores serviu muito para elaboração deste livro.
Entretanto, esperamos que haja uma ampla divulgação na “Ciência do Solo” e que mais
pessoas tomem contato com esta ferramenta muito útil, que é a AM.
1.1 Pré-requisitos básicos para introdução a AM
Partindo do pressuposto de que o iniciante possui noções básicas de Matemática
e Estatística Básica (univariada), ao nível de cálculo matricial (matrizes), estatística
descritiva e estatística inferencial (especialmente ANOVA e regressão), e ainda devido
ao tipo de estudos efetuados, dados recolhidos e questões em análise, o ensino de
técnicas de AM é normalmente efetuado ao nível da pós-graduação. Atualmente, o
oferecimento de disciplinas nesta linha é efetuado, em poucos Cursos Avançados e
integrados nos programas nacionais de Mestrado e Doutorado.
A proposta deste livro é um texto voltado para pessoas que desejam ou estejam
cursando Programas de Pós-graduação, especialmente em Biologia e ou Ecologia do
solo. Portanto, recomenda-se que os interessados nesta área do conhecimento também
cursem disciplinas que podemos chamar de pré-requisitos ou obrigatórias para o bom
aproveitamento deste livro. Assim, pretendemos não só fornecer princípios básicos de
Técnicas de AM de dados, mas também promover e estimular as suas capacidades
científicas e o seu espírito crítico de forma que possam compreender, trabalhar e
7
encontrar soluções adequadas para as questões relacionadas com a análise de dados
biológicos. Além disso, fornecer a possibilidade de compreender e aplicar de forma
correta os métodos de AM, desde a obtenção dos resultados até a forma de interpretação
dos resultados.
Um aspecto importante se refere ao estudo em grupos de pessoas, pois isso é
fundamental para o bom aproveitamento do conteúdo. Assim sendo, haverá uma grande
interligação entre a teórica e a prática e as dificuldades de um, podem ser, na maioria
dos casos, sanadas pelos seus colegas.
Para facilitar a compreensão das diversas ferramentas disponíveis, logo após a
fundamentação teórica se apresentará um exemplo prático de aplicação de um estudo de
caso com a sequência da análise e ou programação para o software específico. Como o
diferencial é a demostração prática de fácil entendimento, recomendamos que o leitor
resolva os exercícios e discuta com seu colega(s) os exemplos. No site
www.ceo.udesc.br/pesquisa (Paulo talvez coloque no site pessoal, ver podemos deixar
num extensão pt ou embrapa como preferirem?) podem baixar e fazer cópias, em
formato eletrônico deste livro, bem como dos dados em Excel (Arquivos em formato
“.xls”) que foram usados, além dos exemplos para resolverem. Assim, recomenda-se
fazer no mínimo duas vezes cada exercício indicado.
2. Conceitos básicos sobre técnicas de AM
A aplicação da AM se justifica em função de que a maioria dos trabalhos na área
de “Ciência do Solo”:
a) estudam aspectos específicos de sistemas complexos, que envolvem muitas
variáveis intercorrelacionadas;
b) apresentam e discutem os resultados de cada variável quantificada
isoladamente;
c) ignoram a relação entre variáveis e a sua estrutura multivariada, e de uma
forma simplista, apresentam uma visão univariada do sistema em estudo;
d) não detectam e representam a estrutura subjacente aos dados (Amostras x
varáveis de reposta) ou seja, “ver a floresta a partir das árvores” (J. P. Souza, 2006,
comunicação pessoal);
e) não ordenam e agrupam objetos (tratamentos) ou variáveis similares;
8
f) não analisam conjuntamente dados físicos, químicos e biológicos como
indicadores de qualidade do solo, e quando analisam não consideram estas três
dimensões em conjunto;
g) informações importantes quanto à interação holística entre as variáveis não
são consideradas;
h) isto tudo representa uma perda de oportunidades na interpretação global dos
variáveis estudadas, levando muitas vezes ao uso ineficiente dos recursos empregados
na condução do trabalho de investigação.
Portanto, a natureza multidimensional dos dados obtidos na maioria dos estudos
biológicos deve ser levada em conta quando da análise dos seus resultados, visando
obter respostas para às hipótese e ou questões técnico-científicas.
Desse modo a AM corresponde a um grande número de métodos e técnicas que
utilizam simultaneamente todas as variáveis na interpretação teórica do conjunto de
dados obtidos.
A necessidade de utilizar técnicas adequadas de AM em estudos de biologia do
solo será apresentada com exemplos de diferentes estudos de caso, especialmente ao
nível da ecologia de comunidades e de avaliação de impactos ambientais. Para tanto,
serão apresentados diferentes tipos de matrizes de dados de modo a mostrar-se a
quantidade e a natureza multidimensional dos dados obtidos. Serão ainda fornecidos
exemplos de diferentes questões que estiveram na origem da coleta desses mesmos
dados, notadamente as relacionadas com a compreensão da sua estrutura intrínseca e
separação das diferentes unidades experimentais ou com a distribuição de espécies ao
longo de gradientes ambientais, e cuja resolução requer a utilização de métodos de AM.
Antes de abordar as técnicas de AM, será introduzida a terminologia importante
utilizada neste tipo de análise, os conceitos de: variável de resposta, variável explicativa
e de co-variável, com diferentes matrizes de dados, levando em conta o tipo de questões
em análise.
Como forma de facilitar a compreensão destes conceitos serão apresentados
exemplos onde, dependendo do objetivo do estudo, os dados de uma mesma matriz
podem funcionar como variáveis de resposta (Ex.: DilmarEx3.xls) e no outro caso,
como variáveis explicativas (Ex.: DilmarEx3.xls). O conceito de co-variável será
abordado em exemplos de partição de variância, nos estudos onde se objetiva avaliar a
contribuição de diferentes variáveis ambientais na explicação da variabilidade inerente
às variáveis de resposta extraída pela análise (Exemplo José Paulo intitulado??).
9
Quando da utilização de técnicas de AM com objetivo de que esta, de acordo
com as suas necessidades, possam resolver questões que estejam a analisar, a
abordagem dos diferentes métodos será efetuada tendo em conta os três grandes
grupos de questões normalmente formuladas em Biologia do Solo:
1) compreender a estrutura intrínseca dos dados, avaliando a separação das
diferentes unidades experimentais (Ex.: amostras) e as respectivas variáveis de resposta
associadas (Ex.: espécies ou parâmetros físico-químicos do solo);
2) avaliar estatisticamente as diferenças entre grupos de unidades experimentais
(Ex.: amostras pertencentes a locais ou tratamentos diferentes);
3) avaliar a relação entre variáveis de resposta e variáveis ambientais (Ex.:
relacionar espécies com parâmetros físico-químicos ou espécies com descritores de
paisagem).
Ao analisar somente os resumos (Abstracts) nos períodicos CAPES de 1997 até
2007, buscando quais artigos usam ferramentas multivariadas nos estudos de biologia
do solo, verificou-se que mais ou menos 4% utilizam algum tipo de técnica multivariada
(Figura 1). Entretanto, nota-se que após o ano de 2007 essa porcentagem de utilização
de AM parece ter aumentado, mas as informações em termos de valor infelizmente não
foram obtidas nesta pesquisa.
Ao fazermos a porcentagem de utilização somente dos 4% que utilizam alguma
técnica de AM, percebeu-se que a maioria dos estudos (40%) utiliza a Análise de
Componentes Principais (ACP), seguidos pela Análise de Agrupamento (34%), Análise
de Correspondência (22%) e Análise Canônica Discriminante (4%), sendo esta última
bem menos adotada (Figura 1), talvez por ser mais robusta em termos de número de
repetições (ideal é no mínimo n=10, dependendo do estudo biológico) e pelo pouco
conhecimento dos pesquisadores.
10
Análise de
Componentes
Principais
40%
Análise de Agrupamento
34%
Análise de
Correspondência
22%
Análise Canônica
Discriminante (n=10)
4%
Figura 1. Frequência relativa de utilização de cada técnica de Análise Multivariada em
estudos de Biologia do Solo de 1997 até 2007.
Devido às potencialidades em termos metodológicos, as técnicas de ordenação
são, atualmente, as mais utilizadas. Por essa razão, e também por limitações de ordem
temporal, a análise de cluster (Cluster Analysis) não será abordada em detalhe. Exceção
feita às medidas de similaridade, pois são necessárias para a elaboração dos gráficos de
ordenação de NMDS (Non-Metric Multidimentional Scalling) e para a realização da
ANOSIM.
No caso do primeiro ponto serão introduzidos os conceitos de ordenação em
espaço reduzido (denominada simplesmente de “ordenação”) e de classificação (ou
análise de cluster), abordando-se sucintamente quais as estratégias adotadas por cada
um destes dois tipos de análise para cumprirem um objetivo comum, por exemplo,
formar grupos entre as diferentes unidades experimentais e saber quais as variáveis de
resposta associadas. O passo seguinte passa por discriminar os diferentes grupos de
unidades experimentais (Exemplos: amostras de diferentes tratamentos). Ainda reduzem
a complexidade dos dados e representam-na num sistema de novas variáveis ou novas
dimensões (eixos).
No segundo tópico serão introduzidos conceitos de análise discriminante (AD) e
de ANOSIM (“analysis of similarities”). A AD é também recomendada quando o
objetivo é verificar se há separação entre os tratamentos, mas ela nos fornece ainda qual
foi o parâmetro físico, químico ou biológico do solo que mais contribuiu para esta
separação (BARETTA et al., 2005).
11
No terceiro ponto serão abordados os conceitos de ordenação condicionada
(“constrained ordination”) e de regressão linear múltipla e modelos lineares
generalizados, como estratégias para relacionar variáveis de resposta com variáveis
explicativas.
O Quadro 1 faz uma comparação entre a análise univariada e multivariada
mostrando as particularidades de cada técnica.
Quadro 1. Comparação entre análise univariada e multivariada.
Parâmetro analisado Univariada Multivariada
N de publicações Maior Menor
Facilidade Mais simples Mais complexas
Tipo de dados Esperimentos
clássicos
Experimentos complexos
Programa de computador Mais simples Mais poderosos e complexos
Variabilidade dos dados Menor Maior
Confiabilidade Recomendada para
experimentos
clássicos
Indicada para dados
biológicos
Facilidade de publicação na
área de ecologia
Certa barreira Aumentando
progressivamente
Conhecimento Mais conhecida Menos conhecida
Divulgação Mais divulgada Menos divulgada
Recomendação em estudos
de ecologia
Menos recomendada Mais recomendada
Aceitação Não conhece Quem usa recomenda
A Figura 1 e Quadro 1 facilitam o entendimento da frase abaixo dita pela
primeira vez no Brasil no ano de 2006, num dos cursos de análise multivariada
ministrado na EMBRAPA Agrobiologia (Seropédica, RJ):
Se o único instrumento que conheceres for um martelo (Figura 2a), tenderás a
ver todos os teus problemas como pregos (Figura 2b) ! (J.P. Sousa, comunicação
pessoal).
12
Figura 2. Vista do instrumento martelo (a) e dos pregos (b).
No caso das variações nos dados, verifica-se que num experimento clássico
simples de avaliação de altura de plantas de milho (cm), no mesmo tratamento as
repetições apresentam certa variabilidade em relação a média (Ex.: 200 cm, Figura 3),
mas esta normalmente bem menor do que em experimentos envolvendo biodiversidade
do solo (Ex.: número de indíviduos, Figura 4).
Figura 3. Representação da altura de plantas de milho (Zea mays) em cada repetição,
das sete repetições de um estudo clássico.
Experimento Simples
190
200
210
0 2 4 6 8
Ordem
Alt
ura
de
pla
nta
s (
cm
)
13
Experimento ecologia
0
200
400
600
800
1000
1200
1400
0 5 10 15 20 25
Ordem
Nú
mer
o in
div
ídu
os
Figura 4. Representação do número de indivíduos em cada repetição de um
experimento de biodiversidade do solo, mostrando as variabilidade em relação a
média.
A AM possui o propósito de testar ou inferir a respeito de uma hipótese sobre
um determinado fenômeno e sua adequada utilização depende do bom conhecimento
das técnicas e das suas limitações.
“Não há mágica com os métodos numéricos e, apesar de serem uma importante
ferramenta para análise e interpretação de dados, não devem ser utilizados como
máquinas automáticas de encher lingüiça, transformando massas numéricas em
pacotes de fatos científicos” (MARRIOTT, 1974).
3. Técnicas de Ordenação I: Representação da estrutura intrínseca dos
dados.
Neste tópico o conceito de ordenação será explicado e serão exploradas apenas
três técnicas de ordenação para representar a estrutura intrínseca dos dados biológicos.
Para melhor compreensão destes conceitos serão utilizados exemplos clássicos de
ecologia de comunidades, com exemplos de matrizes de amostras retiradas em
diferentes locais ou de diferentes tratamentos vs. espécies, e exemplos de amostras vs.
variáveis físico-químicas do solo.
Um dos objetivos em ecologia de comunidades é compreender a estrutura
inerente aos dados, ou seja, se existe algum tipo de associação entre espécies e amostras
14
ou entre espécies entre si. Os métodos de ordenação, ao “ordenarem” amostras e
espécies ao longo de eixos e ao agruparem as amostras com base na sua composição em
espécies, vão permitir uma representação desse padrão. Na maior parte dos casos os
eixos de um gráfico de ordenação representam gradientes que podem ser reconhecidos,
como por exemplo a variação de um ou mais parâmetros químicos (Ex.: pH) ou da
concentração de um poluente. Isso significa que o posicionamento das amostras no
diagrama é condicionado pelo comportamento das espécies ao gradiente identificado.
Este princípio servirá para introduzir os modelos de resposta de espécies a
gradientes e o conceito de análise de gradientes. A forma como as espécies reagem a um
gradiente contínuo pode ser muito variada. No entanto, em AM, os dois modelos mais
utilizados assumem que as espécies possuem uma resposta linear (Figura 5) ou
unimodal (Figura 6), muito embora se assuma que estes sejam apenas aproximações à
realidade.
No caso da resposta linear, cada espécie assume uma resposta linear em relação
ao eixo (gradiente) e a coordenada é o declive da linha (Figura 5). Mesmo numa
resposta unimodal se o comprimento do gradiente for pequeno, a resposta é linear.
Neste caso a forma recomendada de interpretação do gráfico segue os princípios da
regra do Biplot. Por outro lado, se a resposta for unimodal, cada espécie assume uma
resposta unimodal em relação ao eixo (gradiente) e a coordenada é o centro da curva e
não o declive da linha. Este modelo assume que cada espécie possui um ótimo no
gradiente ambiental, e neste caso, a forma recomendada de interpretação do gráfico
segue os princípios da regra do centróide.
Em dados biológicos, a forma como as espécies irão responder a um
determinado gradiente definido pelos eixos, irá condicionar o modo de cálculo das
coordenadas das espécies nos eixos, logo a escolha da técnica a utilizar (resposta linear:
Análise de Componente Principal; resposta unimodal: Análise de Correspondência)
(Quadro 2).
15
Gradiente (Ex.: pH)
Re
sp
os
ta
Figura 5. Representação da resposta linear das espécies em função de um gradiente de
pH do solo.
Gradiente (Ex.: pH)
Res
po
sta
Figura 6. Representação da resposta unimodal das espécies em função de um gradiente
de pH do solo.
A técnica utilizada para detectar o padrão de resposta das espécies adequado aos
dados em análise, a “Detrended Correspondence Analysis” (DCA) será explicada com
exemplos.
Quadro 2. Relação entre o tipo de ordenação e o tipo de resposta das variáveis resposta
a um gradiente.
Tipo de ordenação/resposta Resposta linear Resposta unimodal
Ordenação simples (não
condicionada)
Análise em Componentes
Principais (ACP)
Análise de
correspondência (CA)
Ordenação canônica
(condicionada)
Análise de redundância
(RDA)
Análise de Correlações
Canônicas (CCA)
16
Uma pergunta que normalmente surge após os conhecimentos dos principais
adotados é qual a técnica mais recomendada para o meu estudo? Isso depende do
conjunto de variáveis e do comportamento desta, assim a resposta pode ser obtida
através do conhecimento do comprimento do gradiente, pois dependendo do tipo de
dados e deste gradiente obtido via DCA, sabemos se a resposta é linear ou unimodal e a
indicação da melhor análise (Quadro 3).
A variabilidade explicada pelos eixos pode não ser uma boa alternativa, pois a
forma de calcular a variabilidade total difere entre os métodos.
Quadro 3. Análise mais indicadas em função do tipo de dados e da resposta ao
gradiente
Análise em função dos dados ACP CA
Resposta ao gradiente Linear (gradiente < 3 SD) Unimodal (gradiente >
4 SD)
Tipo de dados Dados absolutos Dados relativos
Dados com unidades diferentes Pode utilizar Não pode usar
A Análise de Componentes Principais (ACP ou ACP) tem, como qualquer
técnica de ordenação, o objetivo de “reduzir” o número de variáveis (= dimensões)
originais e representar as amostras e as espécies num sistema de novas variáveis (os
eixos, aqui denominados de Componentes Principais), sendo a sua estrutura perceptível
e interpretável graficamente. Estes eixos são definidos como combinações lineares das
variáveis originais (as espécies, normalmente variáveis de resposta) e, ao contrário
destas, não podem estar correlacionados.
Geometricamente a ACP pode ser definida como uma rotação rígida da matriz
de dados, de modo que quando a amostras e as espécies sejam projetadas no novo
sistema de eixos, a máxima variabilidade dos dados seja “extraída” ou projetada ao
longo do eixo 1, a máxima variabilidade não correlacionada com o eixo 1 seja projetada
ao longo do eixo 2, e assim sucessivamente. Como cada um dos eixos pode ser definido
como um gradiente ambiental, o eixo 1 representa o gradiente que mais contribui para a
separação das amostras e das espécies associadas, o eixo 2 representa o segundo
gradiente mais importante, etc. No caso da variabilidade extraída pelos primeiros dois
ou três eixos ser elevada, além de se obter uma representação robusta e mais confiável
17
dos dados, com a redução da sua multidimensionalidade a apenas duas ou três
dimensões (os eixos), obtemos também a separação das amostras e das espécies
associadas ao longo de gradientes ambientais perceptíveis.
Os princípios da ACP serão explorados com exemplos e complementados com
os conceitos de “valores próprios” (valores indicadores da variância explicada por cada
eixo) e de “vetores próprios” (coeficientes indicadores do peso que cada espécie possui
na definição de cada eixo). Estes auxiliares de interpretação numéricos serão ainda
utilizados na compreensão do resultado gráfico da análise.
A ACP é uma técnica de análise intermediária e, não se constituem em um
método final e conclusivo. Na biologia do solo, a ACP se presta fundamentalmente
como um passo intermediário em grandes investigações científicas.
A utilização da Análise de Correspondências (AC ou CA) possui os mesmos
objetivos da ACP, estando particularmente adaptada para trabalhar com dados de
contagens, razão pela qual é amplamente utilizada em ecologia de comunidades.
Entretanto, ao admitir uma resposta unimodal das espécies ao longo do gradiente
ambiental definido pelos eixos, o algoritmo para calcular as coordenadas das espécies e
das amostras neste sistema é distinto, pois a AC utiliza um algoritmo conceitualmente
semelhante com o método das médias ponderadas, denominado de “reciprocal
averaging”. Outra diferença em relação a ACP está relacionada como as amostras e as
espécies estão representadas no sistema de eixos. Na ACP as espécies estão
representadas ao longo de uma gradiente ambiental que é definido pelas amostras; já na
AC as amostras e as espécies estão representadas graficamente num suposto gradiente
ambiental. Neste caso, o “valor próprio” de cada eixo, além de indicar a percentagem da
variabilidade da matriz de dados explicada pelo eixo respectivo, indica também a
correlação entre as coordenadas das espécies e as coordenadas das amostras.
Para facilitar a compreensão estes conceitos serão abordados utilizando
diferentes exemplos, mostrando não só a forma de interpretar os resultados numérico e
o gráfico da análise (comparando com os obtidos na ACP), mas também os problemas
associados a esta técnica, como por exemplo, o “efeito de arco” ou “efeito de Gutman”
e forma de minimizá-los.
A técnica ACP (ordenação) visa ordenar as amostras em função de um critério
[Ex.: n indivíduos de uma espécie (sp.)], ou seja, basicamente posicionar estas
amostras ao longo de um eixo representativo da escala de abundância variável (espécie).
18
Na Figura 7 segue um exemplo de interpretação do resultado da ACP (Tabela 01)
das cinco amostras no espaço sp.1 e sp.2 e no espaço dos Eixos I e II.
Tabela 01. Mostrando a abundância das espécies 1 (sp.1) e 2 (sp.2) em cada uma das
cinco amostras (n=5).
Amostras sp.1 sp.2
1 2 1
2 3 4
3 5 0
4 7 6
5 9 2
Média 5,2 2,6
Variância 8,2 5,8
0 1 2 3 4 5 6 7 8 9
7
6
5
4
3
2
1
G
Eixo I
Eixo II
Espécie 1
Esp
écie
2
Figura 7. Mostrando a representação gráfica da abundância das espécies 1 (sp.1) e 2
(sp.2), ordenadas nos eixos 1 e 2 (n=5).
A seguir, será apresentado um estudo envolvendo diversidade de colêmbolos
associados às florestas com Araucaria angustifolia (Bert.) O. Kuntze no estado de São
Paulo, onde se objetivou avaliar o potencial da diversidade de famílias de colêmbolos
como bioindicador da qualidade do solo, utilizando atributos químicos e microbiológicos
do solo como variáveis explicativas (Figuras 8 e 9). Como resultados deste estudo,
19
observou-se que os atributos químicos e microbiológicos do solo foram eficientes como
variáveis explicativas, pois auxiliaram na interpretação das modificações das famílias de
colêmbolos. A ACP mostrou quais foram às famílias de colêmbolos mais associadas a
cada área, o que possibilita a sua utilização como bioindicadores de intervenções
antrópicas, bem como da qualidade do solo. Assim, a ACP também possui a vantagem de
analisar simultaneamente as variáveis de resposta x variáveis explicativas (via gradiente
indireto), e pode ser usada nos estudos envolvendo indicadores de qualidade do solo
(Figura 10)
Figura 8. Esquema da sequência da análise de componentes principais (ACP) usando as
famílias de colêmbolos e as variáveis e as variáveis químicas e microbiológicas
como explicativas em um gradiente indireto.
20
i a
Figura 9. Relação entre a componente principal 1 (CP 1) e a componente principal 2
(CP 2), discriminando Florestas de Araucária nativa (NF: ), introduzida (R: ■),
introduzida impactada (RF: ♦) e área de pastagem natural com araucárias nativas
impactada pela queima acidental (NPF: ▐ ), famílias de colêmbolos ( ) e as
variáveis químicas e microbiológicas explicativas ( ). Campos do Jordão, SP,
agosto de 2004. pH: Potencial hidrogeniônico; MO: Matéria Orgânica; P: Fósforo;
K: Potássio; Ca: Cálcio; Mg: Magnésio; CBM: Carbono da Biomassa Microbiana;
C-CO2: respiração basal; CBM:COT: relação CBM: Carbono Orgânico Total;
qCO2: quociente metabólico (Fonte: BARETTA et al., 2008).
A Análise de Componentes Principais (ACP) é um dos métodos de ordenação
mais usados em ecologia (Figura 10), sendo indicada para conjuntos de medidas
correlacionadas linearmente, que assim podem ser reduzidas a poucas variáveis
sintéticas, denominadas de componentes principais (PIELOU, 1984; MANLY, 1994).
MO
-1.0 2.0
-1.0
2.0
ParonellidaeKatiannidae
Isotomidae
Entomobryidae
Brachystomellidae
Tomoceridae
Sminthuridae
Hypogastruridae
CBM
C-CO2
qCO2CBM:COT
pH
P
KCaMg
NF
R
RF
NPF
CP 1 (31,2%)
CP
2 (
24
,0%
)
MO
-1.0 2.0
-1.0
2.0
ParonellidaeKatiannidae
Isotomidae
Entomobryidae
Brachystomellidae
Tomoceridae
Sminthuridae
Hypogastruridae
CBM
C-CO2
qCO2CBM:COT
pH
P
KCaMg
NF
R
RF
NPF
CP 1 (31,2%)
CP
2 (
24
,0%
)
21
Figura 10. Vista geral da aplicação da Análise de Componentes Principais (ACP) no
estudo de indicadores de qualidade com as etapas para criação dos índices (IndVal).
Fonte: Adaptado de VELASQUEZ et al. (2007).
Os autovalores (eingenvalues) correspondem a variância de cada componente
principal (CP) sendo, CP 1 > CP 2 > CP 3 …CPn.
Os eixos ou componentes são combinações lineares das medidas originais, do
tipo:
Y = a1x1 + a2x2 + a3x3 … anxn
Onde xi são as medidas e ai os seus coeficientes lineares, que expressam sua
importância para o eixo ou CP.
A qualidade de representação de uma variável (Ex.: espécie) pode ser avaliada
diretamente traçando o círculo unitário (Figura 11). Os pontos representativos das
variáveis estão na hiperesfera de raio 1.
22
As espécies sp.1, sp.2, sp.4 e sp.5 estão bem representadas neste plano, pois
encontram-se próximo da circunferência unitária. Logo as espécies sp.1 e sp.2 estão
fortemente correlacionadas entre si, mas são independentes das espécies sp.4 e sp.5, as
quais, entre si apresentam uma correlação negativa forte. Quanto a espécie sp.3 mal
representada neste plano, nada se pode concluir, com valor de correlação muito baixo e
próximo a zero.
U2
U1
x5
x1
x2
x4
x3
-1 -0,5 0 0,5 1
-1
-0,5
0
0
,5 1
Figura 11. Circulo de correlação.
Como em qualquer gráfico derivado de uma ordenação, nos “biplots” derivados
de uma ACP ou de uma AC, uma maior proximidade entre pontos representando
amostras indica uma maior semelhança entre elas (uma composição em espécies
semelhante) e vice-versa (LEPS & SMILAUER, 2003; BARETTA et al., 2007b artigo
aranhas). Partindo deste princípio, um outro método de ordenação que pode ser
utilizado para representar amostras num sistema Cartesiano é o “Multidimentional
Scalling” (MDS). Ao contrário da ACP ou da AC, onde as distâncias entre os pontos
das unidades experimentais são dadas, respectivamente, pelas medidas de distância ou
dissimilaridade Euclidiana e de Chi-quadrado, a técnica de MDS possui a vantagem de
se poder utilizar qualquer outra medida de distância, à escolha do pesquisador. No
23
entanto, está técnica possui a desvantagem de não possibilitar a representação para a
visualização das espécies.
Neste tipo de técnicas é difícil fazer uma representação das amostras em duas
dimensões totalmente fiel à distância entre elas, tal como descrita numa matriz de
distâncias. Deste modo é essencial avaliar a fidelidade dessa representação no sistema
de eixos, comparando as distâncias entre pontos no gráfico com as distâncias
correspondentes obtidas na matriz de distâncias.
Este grau de fidelidade é denominado de “stress” e, para se obter uma
representação robusta dos dados, o nível de “stress” terá que ser mínimo. Na ACP ou na
AC o cálculo deste nível de “stress” é feito a partir dos valores das distâncias entre
pontos, razão pela qual estas técnicas poderem ser consideradas casos particulares dos
métodos de MDS quando se utilizam as distâncias Euclidiana e de Chi-quadrado. Por
outro lado, se o cálculo dos valores de “stress” forem calculados tendo como base não
os valores reais, mas o ranking das medidas de distância, entramos no campo dos
métodos de “Non-Metric Multidimentional Scalling” (NMDS). Neste caso, uma
representação gráfica fiel é aquela que mantém a mesma ordem das distâncias da
encontrada na matriz de distâncias, originando o menor nível de “stress” possível.
Como o processo de cálculo destas técnicas de ordenação têm como base não a
matriz de dados brutos, mas sim matrizes de distâncias entre as amostras, serão
introduzidos os conceitos de medidas de similaridade e medidas de distância,
abordando-se as métricas mais comuns adotadas em Biologia do solo para dados
quantitativos e dados qualitativos.
Nas técnicas de ordenação disponíveis as variáveis (eixos) não podem estar
correlacionados entre si, caso contrário a análise não resulta.
4. Técnicas de Ordenação II: Discriminação entre grupos de unidades
experimentais.
Após a separação de diferentes grupos de amostras e de espécies associadas, o
passo seguinte na análise dos dados pode ter como objetivo tentar verificar se a
separação entre esses grupos (Ex.: locais ou tratamentos) é significativa e ainda se as
espécies associadas podem servir como variáveis discriminantes desses mesmos grupos.
Neste módulo serão introduzidos os conceitos e modus operandi de duas técnicas que
podem ser utilizadas para alcançar esses objetivos: a Análise Discriminante e a “Non-
24
Metric Multidimentional Scalling ”. Tal como no item anterior, também aqui serão
utilizados exemplos clássicos em Biologia do Solo.
A análise de agrupamento (Cluster Analysis) também pode ser utilizada na
biologia do solo para discriminar grupos de dados (Figura xx), entretanto conforme
mencionado anteriormente não será discutida e exemplificada, pois apesar de ser uma
técnica bem conhecida apresenta um potencial limitado. Nesta análise podem ser
empregadas aos algoritmos uma medida de similaridade ou de distância estatística entre
os elementos de uma matriz de dados. Dentre as diversas distâncias estatísticas, vem
sendo muito utilizada a “Distância Euclidiana” devido sua facilidade de cálculo,
especialmente quando o propósito é agrupar valores de maneira que os que permanecem
em um mesmo grupo sejam similares e valores de diferentes grupos sejam dissimilares
(Ver BARETTA et al., 2003; BARETTA et al., 2007a). ALVES et al. (2006) utilizaram
a Análise de Agrupamento para discriminar sistemas de plantios direto e convencionais
no município de Campinas-SP, conforme demonstrado na Figura 12.
Figura 12. Dendrograma apresentando a similaridade entre os sistemas de manejo do
solo quanto a abundância dos principais grupos da fauna do solo. Abreviações T1:
Plantio direto desde 1986; T2: Plantio direto desde 1999, T3: Plantio
convencional; T4: Plantio convencional com pousio no outuno-inverno desde
T4 T3 T2 T1
30
40
50
60
70
80
90
100
110
(Dli
nk/D
max)*
100
25
2000. Média de duas épocas de coleta e 20 repetições. Campinas, SP (2004/2005).
(Fonte: ALVES et al. (2006).
A Análise Discriminante (AD) é uma técnica de ordenação que possui os
seguintes objetivos: (i) encontrar quais as variáveis (Ex.: espécies) que podem
diferenciar ou discriminar dois ou mais grupos de amostras; (ii) com base nestas
variáveis discriminantes criar funções discriminantes (os eixos numa AD) ao longo das
quais irão ser representas as amostras; (iii) utilizar estas funções discriminantes para
discriminar grupos, como por exemplo, avaliar a existência de diferenças estatísticas
entre grupos de amostras e (iv) classificar, a priori, novas amostras nos respectivos
grupos.
Esta técnica é muitas vezes comparada, em termos de objetivo, a uma ACP,
entretanto é bem mais robusta. Tal como na ACP, numa AD as funções discriminantes
são também definidas por combinações lineares entre as variáveis originais. Entretanto,
enquanto que na ACP os eixos são definidos tendo em conta a explicação do máximo de
variância dos dados, na AD os eixos são definidos com base nas variáveis
discriminantes e de forma a maximizar o quociente da “variância entre os grupos” com
a “variância dentro dos grupos” a discriminar. Os procedimentos de cálculo para obter
as variáveis discriminantes (neste caso aquelas que minimizam o quociente entre a
variância dentro dos grupos em relação à variância total) e as funções discriminantes
possuem semelhanças com os princípios de uma ANOVA.
Estes conceitos, assim como a utilização dos auxiliares de interpretação na
seleção e ranking das variáveis discriminantes (respectivamente os valores de de
Wilk´s e os coeficientes associados a cada variável em cada função discriminante), na
obtenção e teste da significância das funções discriminantes (os valores de para cada
eixo e probabilidade associada), e ainda na avaliação da significância estatística da
discriminação dos grupos (distâncias de Mahalanobis entre grupos e valores de
probabilidade associados) serão desenvolvidos com base na apresentação de exemplos
diversos, considerando dados com diferentes tipos de descritores (Ex.: espécies,
parâmetros fisiológicos).
Os conceitos e princípios da utilização do processo “stepwise” para seleção de
variáveis discriminantes, tendo em conta a sua importância em termos de poder
discriminatório serão também apresentados. Maluche et al. (2006) utilizaram a análise
Canônica Discriminante (ACD) para identificar diferenças entre pomares de maçãs nos
26
sistemas de manejo convencional (PC) e orgânico (PO), com base em atributos
microbiológicos e químicos do solo no municipio de Urupema, SC. Neste estudo foram
amostradas 24 plantas (n=24) distribuídas em uma grade de 45x54 m, em duas épocas
do ano. A ACD separou o PC do PO (Figura 13) e identificou o Carbono da Biomassa
Microbiana do Solo (CBM) como o atributo microbiológico mais importante na
separação entre os pomares, seguido do qCO2 e da relação NBM:NT. Neste estudo, os
autores verificaram que os atributos microbiológicos e químicos relacionados ao
carbono foram mais sensíveis às variações entre os sistemas do que os relacionados ao
nitrogênio.
-4 -2 0 2 4
-4
-2
0
2
4 Pomar Convencional
Pomar Orgânico
Função C
anônic
a
Dis
crim
inante
2
Função Canônica Discriminante 1
Figura 13. Coeficientes canônicos padronizados (CCP) da função canônica
discriminante 1, dos pomares de maçã, conduzidos nos sistemas de produção
convencional (PC) e orgânico (PO), considerando todos os atributos
microbiológicos e químicos relacionados ao C (CBM, COT, relação CBM:COT,
respiração basal e quociente metabólico) e N do solo (NBM, NT e relação
NBM:NT). Fonte: MALUCHE-BARETTA et al. (2006).
No caso da utilização de medidas de similaridade como base para a elaboração
de gráficos de ordenação é o princípio adotado pelas técnicas de “Multidimentional
Scalling”, também denominada de NMDS. Essas técnicas utilizadas para discriminar
27
amostras (Ex.: distintos locais ou tratamentos) e associar um grau de significância
estatística a essa discriminação tem também como base a utilização de medidas de
distância ou de similaridade.
A técnica de ANOSIM (“Analysis of Similarities”) utiliza a diferença entre
similaridade média (mais especificamente o rank médio de similaridade) entre grupos
de amostras vs. o rank de similaridade médio entre amostras dentro dos grupos para
testar a hipótese de que não existem diferenças entre nenhum dos grupos. O valor desta
diferença (parâmetro R) é comparado com a distribuição de valores de R (obtida pelo
cálculo de diversos valores de R utilizando permutações) e, com base no valor de
probabilidade que lhe está associado, sendo a hipótese aceita ou rejeitada.
5. Técnicas de Ordenação III: Relação entre variáveis de resposta e
variáveis explicativas
Um dos objetivos mais frequentes em Biologia ou Ecologia do Solo é verificar a
influência de variáveis explicativas (Ex.: parâmetros físico-químicos do solo,
concentrações de poluentes, etc) nas variáveis de resposta em análise (Ex.: composição
em espécies, descritores de diversidade, etc). Essa relação pode ser obtida através de
modelos de regressão, caso se considere apenas uma variável de resposta (ver tópico
seguinte) ou, quando temos a presença de múltiplos descritores, por meio de técnicas de
ordenação.
A relação entre os dois tipos de variáveis pode ser realizada por métodos de
análise de gradiente indireta, com a utilização de uma ACP ou de uma AC. Caso as
variáveis ambientais expliquem a maior parte da variação dos dados nos dois ou três
eixos principais, podemos avaliar a influência dessas variáveis ao nível dos descritores
em análise (Ex.: espécies). Entretanto, no caso das variáveis ambientais de interesse não
explicarem a maior parte da variabilidade da composição das espécies (Ex.: a separação
das amostras e das espécies nos primeiros eixos não se fazer com base nas variáveis
ambientais estudadas), teremos que utilizar técnicas de análise de gradientes direta
(técnicas de ordenação Canônica ou ordenação condicionada).
Neste livro texto serão introduzidos os métodos de ordenação Canônica
equivalentes a uma ACP (ou PCA) e a uma AC (ou CA). Estes são a Análise de
Redundância (RDA) e Análise de Correspondências Canônica (ACC ou CCA),
respectivamente.
28
Ao contrário da ACP e da AC, a realização de uma RDA ou de uma ACC requer
a presença de duas matrizes de dados. Nestes casos teremos que aliar à matriz existente
de amostras vs. variáveis de resposta (Ex.: amostras vs. espécies), a matriz de amostras
vs. variáveis explicativas (Ex.: amostras vs. parâmetros ambientais). Estes métodos
foram desenvolvidos para extrair e trabalhar sobre a variabilidade inerente aos
descritores explicada pelas variáveis ambientais. Com estas técnicas procura-se
igualmente explicar a abundância das espécies (variáveis originais) ao longo de eixos
(novas variáveis, aqui designadas por eixos canônicos), com a diferença que estes são
definidos pelas variáveis ambientais. Ou seja, numa análise de gradientes indireta o
gradiente ambiental não é conhecido a priori (é definido pela análise do gráfico e pelo
posicionamento das amostras e espécies), enquanto numa análise de gradiente direta os
parâmetros ambientais são integrados diretamente na análise (Figura 14). O número de
eixos canônicos é igual ao número de variáveis explicativas, muito embora apenas seja
relevante representar graficamente os dois ou três primeiros eixos, que normalmente
representam a maior parte da variabilidade. O esquema abaixo foi elaborado para
facilitar a compreensão, mostrando as diferenças entre a análise indireta e análise direta.
Figura 14. Esquema resumindo a análise indireta e direta com variáveis de resposta e
explicativas.
A análise de correlação canônica é direcionada para a correlação entre uma
combinação linear das variáveis em um dos grupos com uma outra combinação linear
29
das variáveis do outro grupo de variáveis. O objetivo principal é, a princípio, determinar
as combinações lineares dos dois grupos que possuem a maior correlação. Em seguida,
é determinado o par de maior correlação que seja, ainda, não correlacionado com o par
selecionado inicialmente. O processo continua até se esgotar as dimensões de ambos os
grupos ou do menor grupo. Os pares de combinações lineares são chamados de
variáveis canônicas e suas correlações são denominadas de correlações canônicas
(FERREIRA, 2008)
Os conceitos e princípios da Análise de Redundância e da Análise de
Correspondências Canônica serão explorados recorrendo a exemplos diversificados
onde se utilizem cada uma destas técnicas. Pretende-se que os exemplos sejam mais
abrangentes do que o clássico “amostras x espécies x parâmetros físico-químicos” e que
incluam, além de variáveis quantitativas, variáveis qualitativas como variáveis
explicativas. Entretanto, são praticamente inexistente no Brasil estudos que analisam no
mesmo ponto de coleta parâmetros físicos, químicos e biológicos do solo. A seleção das
variáveis explicativas ocupa um lugar de destaque neste tipo de análises, pois o
resultado final pode ser altamente influenciado pelas variáveis incluídas no modelo.
As variáveis a incluir no modelo deverão possuir relações com os descritores em
análise; no entanto, também existe a tentação em incluir no modelo variáveis que sejam
fáceis de medir ou pouco dispendiosas de se obter. De qualquer modo, variáveis
redundantes deverão ser eliminadas, pois vão interferir negativamente na análise e
tendem a deixar a análise menos robusta (menos confiável). Neste contexto,
recomenda-se realizar procedimentos relativos à seleção de variáveis explicativas,
nomeadamente seleção manual, incluindo a utilização de critérios de colinearidade, e de
seleção automática (“Forward selection”), com avaliação da significância de cada
variável, como por exemplo, utilizando métodos de permutação de Monte-Carlo, onde
os procedimentos práticos serão destalhados mais a frente. O modo de efetuar a
interpretação das representações gráficas e a utilização dos “outputs” numéricos (Ex.:
percentagem da variabilidade explicada pelas variáveis ambientais, coeficientes
canônicos, “intraset correlations”, avaliação da significância dos eixos) como auxiliares
de interpretação dos diagramas de ordenação serão demonstradas tendo em conta as
especificidades de cada uma das técnicas.
6. Técnicas de Regressão
30
A avaliação da relação entre variáveis explicativas e variáveis de resposta pode
ser obtida através de modelos de regressão múltipla ou técnicas derivadas, como por
exemplo: Modelos Lineares Generalizados (GLM), Modelos Aditivos (AM) e Modelos
Aditivos Generalizados (GAM). Muito embora sejam consideradas técnicas de análise
univariável (pois nestes casos apenas se trabalha com uma variável de resposta), mas
alguns autores incluem-nas no grupo das técnicas de análise multivariável (XXXXXX;
XXXXX; XXXXX, ver com Paulo para acrescentar alguns autores???), devido ao fato
de serem aplicados com diversas variáveis explicativas.
A utilização de técnicas de regressão em Biologia do Solo é um fenômeno não
tão recente. No entanto, a utilização regular de técnicas mais avançadas, como os GLM
e os GAM, é mais recente. Estas técnicas fornecem os meios para ultrapassar obstáculos
inerentes aos dados (Ex.: não linearidade, violação de pressupostos, probabilidade de
obtenção de valores negativos em contagens) quando as técnicas mais convencionais de
regressão linear (simples ou múltipla) não resultam.
Neste tópico serão exploradas técnicas de Regressão Linear Múltipla e de GLM,
pois são as mais utilizadas em Ciências Biológicas e Ambientais. No entanto, as
técnicas dos Modelos Aditivos (AM) e dos GAM serão brevemente tratadas,
essencialmente a nível de exemplos para mostrar as suas potencialidades.
Sendo a regressão múltipla uma extensão da regressão linear simples, a parte
teórica será iniciada com uma revisão dos principais conceitos e dos resultados
numéricos e gráficos desta técnica. Os mesmos conceitos serão então estendidos para a
técnica de regressão múltipla. Nesta fase, esta técnica será apresentada apenas com um
exemplo simples, dando-se relevância aos resultados numéricos mais importantes para a
interpretação do modelo obtido, como os coeficientes de regressão não padronizados (e
seus níveis de significância estatística), os coeficientes de regressão padronizados
(como medida da importância de cada variável), a análise de resíduos e o cumprimento
dos pressupostos de normalidade e homogeneidade de variâncias, além da significância
do modelo pela análise da tabela da ANOVA, incluindo o valor do coeficiente de
determinação.
Nesta fase será ainda focado o problema da colinearidade (Ex.: por avaliação dos
valores de tolerância e de “variance inflation factor” - VIF) entre variáveis
explicativas como fator de instabilidade na obtenção dos coeficientes de regressão e de
31
perturbação na interpretação do modelo. Este aspecto servirá de introdução ao processo
e critérios de seleção de variáveis explicativas nos modelos de regressão e ainda da
necessidade em se efetuar uma análise exploratória dos dados antes de se avançar para a
obtenção do modelo de regressão.
A realização de uma análise exploratória desempenha um papel importante em
todo este processo, pois tem como objetivos principais: (i) verificar a existência de
valores “outlier”, (ii) de avaliar o pressuposto da normalidade e indicar o tipo de
transformação adequada a dar à variável de resposta, (iii) de avaliar a necessidade de
transformar as variáveis explicativas, (iv) de avaliar a relação entre as variáveis
explicativas, possibilitando a deteção de variáveis colineares, (v) de avaliar a relação
entre a variável de resposta e cada uma das variáveis explicativas, obtendo-se uma
visualização prévia não só das variáveis que virão a integrar o modelo, mas também da
direção dessa relação e (vi) de avaliar a existência de possíveis interações entre
variáveis explicativas. Estes aspectos serão exemplificados recorrendo a diferentes
técnicas gráficas (Ex.: gráficos de pontos, histogramas, gráficos Q-Q, “pair plots”,
“coplots”) e a um conjunto de dados onde seja possível efetuar todas estas avaliações.
Após a explicação da realização da análise exploratória e da possível
necessidade de adequação dos dados (Ex.: eliminação de variáveis colineares e
transformação de variáveis) a exposição da técnica de regressão múltipla incidirá sobre
os critérios de seleção de variáveis explicativas (procedimentos “setpwise” e critérios de
inclusão/exclusão de variáveis) e sobre a avaliação da robustez dos modelos (“best fit”),
obtidos com diferentes combinações das variáveis explicativas. Neste caso será
explicada a utilização de indicadores de robustez como o valor “Akaike information
criteria” (AIC), o valor do coeficiente de determinação e ainda por comparação direta
utilizando do teste F (com base na comparação da variabilidade explicada entre modelos
reduzidos, com menos variáveis, “nested” dentro de modelos mais completos). Os
exemplos utilizados nesta fase incidirão ainda sobre os procedimentos e interpretação
dos resultados de modelos com variáveis explicativas quantitativas e qualitativas e ainda
modelos com a existência de interações entre variáveis explicativas.
Além da interpretação dos resultados numéricos para a definição do “melhor
modelo” será também dada relevância à interpretação dos auxiliares gráficos,
particularmente a análise de resíduos, como técnica para avaliar a violação dos
pressupostos de distribuição homogênea dos resíduos (em relação aos valores previstos)
32
e de “linearidade” (existência de um padrão de distribuição dos resíduos em relação aos
valores de cada variável explicativa incluída no modelo).
A violação de um ou dois destes pressupostos (além da óbvia violação do
pressuposto de normalidade dos valores da variável de resposta), pode implicar a
utilização de outro tipo de modelo.
No caso de apenas se verificar uma heterogeneidade na distribuição dos
resíduos, pode recorrer-se à transformação dos valores da variável de resposta e/ou à
adição de outras variáveis ou interações no modelo e repetir-se o processo para se obter
um modelo de regressão linear múltipla. No entanto, além de algumas destas medidas
poderem não resultar, em muitas circunstâncias, especialmente quando a variável de
resposta representa resultados de contagens, alguns dos valores previstos são negativos,
o que não possui relevância em termos biológicos. Nestes casos teremos que utilizar
Modelos Lineares Generalizados (GLM).
No caso do pressuposto violado ser o da linearidade, e quando uma
transformação da variável de resposta e/ou da adição de termos não lineares (Ex.:
quadráticos) das variáveis explicativas não resultarem, recomenda-se avançar-se para
um Modelo Aditivo (AM). Entretanto, quando se verificar a violação dos dois
pressupostos e as medidas de manipulação dos dados não resultarem, pode avançar-se
para Modelos Aditivos Generalizados (GAM).
Ao contrário dos modelos de regressão linear, que possuem apenas o
componente estocástico (ŷ, a variável de resposta) e o componente sistemático ( +
1X1 2X2 pXp, representado pelas variáveis explicativas), os GLM possuem
um terceiro componente, a função de ligação [g(ŷ), “link function”], que liga os dois
componentes anteriores [ 1X1 2X2 pXp]. A utilização desta
função de ligação irá permitir “converter” os valores de cada uma das variáveis
explicativas (que podem variar desde – a +) num intervalo de valores mais realista
para a variável de resposta, como é o caso de “eliminar” a possibilidade de obtenção de
valores previstos negativos no caso de contagens.
A existência de funções de ligação significa ainda que a variável de resposta, por
si, não necessita ser sempre estimada por combinações lineares das variáveis
explicativas (aqui a linearidade é retida através da função de ligação). Além desta
vantagem, os GLM admitem também diferentes tipos de distribuições para os valores da
variável de resposta; além da distribuição normal, estes também podem obedecer a uma
distribuição de Poisson (Ex.: no caso de contagens), Binomial (Ex.: valores binários ou
33
percentuais) ou Gamma (Ex.: os valores são rácios). Além disso, a distribuição
homogênea dos resíduos (indicadora de homogeneidade de variâncias) deixa de ser
necessária.
Uma outra diferença entre os modelos de regressão linear e os GLM é o fato de
alargarem o conceito de “resíduos” e calcularem a “deviance”, como a diferença entre
os valores da variável de resposta previstos e reais. Deste modo, a qualidade do modelo
é avaliada utilizando uma técnica de análise de “deviance”, processo semelhante à
análise de variância.
Entre os GLM mais utilizados em Ecologia encontram-se a regressão de
Poisson, normalmente aplicada a dados de contagens, como por exemplo, número de
indivíduos por unidade de amostragem. Estes dados possuem habitualmente uma
distribuição de Poisson, onde a média é igual à variância. A função de ligação
normalmente associada a este modelo é a função Log o que implica que log(ŷ) = g(ŷ),
por exemplo, ŷ = Exp 1X1 2X2 pXp). Esta função de ligação irá
converter todos os valores previstos da variável de resposta em valores positivos.
Nos casos em que a variável de resposta apresenta dados binários (Ex.:
presença/ausência, vivo/morto) ou percentuais, o modelo apropriado é a regressão
Logística, que prevê a probabilidade de ocorrência de um evento com base nos valores
das variáveis explicativas. A função de ligação é a Logit, de modo que log[ŷ/(1- ŷ)] =
g(ŷ), ou seja, Pŷ = 1X1 2X2 pXp 1X1 2X2
pXp)]].
Os procedimentos adotados para a seleção das variáveis explicativas e para a
avaliação da robustez dos modelos seguem os mesmos princípios adotados para a
regressão múltipla, e já abordados anteriormente. Assim, os exemplos que servirão para
demonstrar estas duas técnicas irão focar-se essencialmente em aspectos particulares,
nomeadamente o da sobre-dispersão dos valores da variável de resposta. Este fenômeno
é comum numa regressão de Poisson e ocorre quando a variância é superior à média, o
que pode originar uma distorção no cálculo dos valores de significância do modelo.
7. Técnicas de Ordenação IV: Aplicações particulares [técnicas de
decomposição de variância ordenação parcial (utilização de co-variáveis) e curvas
de resposta principais]
34
Pela análise de ordenação condicionada podemos saber qual a percentagem da
variabilidade associada aos descritores (Ex.: espécies) que é explicada pelas variáveis
ambientais. No entanto, tal como nos métodos univariados, podemos querer saber qual a
importância de determinadas variáveis, ou conjunto de variáveis (Ex.: parâmetros
físico-químicos, técnicas de manejo, estrutura da vegetação, localização). Neste caso, as
técnicas de RDA e CCA são utilizadas como técnicas de decomposição de variância.
Estes procedimentos serão apresentados com exemplos, onde as variáveis
explicativas se podem separar em apenas dois conjuntos (Ex.: parâmetros físico-
químicos e técnicas de manejo). A utilização de todas estas variáveis implica o
conhecimento da variância total explicada pelo modelo canônico (Ex.: CCA). Pela
repetição da análise, considerando apenas um conjunto de variáveis ambientais (Ex.: os
parâmetros físico-químicos), obtém-se a variabilidade explicada por esse conjunto. No
entanto, uma fração dessa variabilidade é partilhada pelo outro conjunto de variáveis
(técnicas de manejo). Assim, para se conhecer a fração de variabilidade explicada
apenas pelos parâmetros físico-químicos necessita-se repetir a análise utilizando as
variáveis relativas às técnicas de manejo como co-variáveis (variáveis cuja influência
será retirada do modelo explicativo). O processo pode ser repetido para se avaliar a
variabilidade explicada pelo outro (ou por cada um dos) conjunto(s) de variáveis
explicativas em análise. Como cada fração de variabilidade obtido possui um valor de
significância acoplado, é possível avaliar a importância de cada conjunto de variáveis
explicativas em explicar os descritores em análise (Ex.: a composição em espécies).
A utilização de co-variáveis é mais abrangente em técnicas de ordenação do que
a explicada atrás, sendo aplicada sempre que pretende retirar a influência de
determinadas variáveis do modelo explicativo. Exemplos comuns são a utilização da
variável tempo ou de variáveis espaciais como co-variáveis, especialmente quando
estamos interessados em avaliar a influência de outro tipo de variáveis e a variabilidade
explicada pelo tempo ou pelo espaço é um fator que interfere no modelo. O mesmo
princípio pode ser aplicado no tratamento de dados resultantes de experiências
manipulativas, com desenhos experimentais em blocos ou em observações repetidas,
onde o interesse é avaliar o efeito de tratamentos e não dos blocos ou do tempo. Estes
conceitos também serão apresentados e discutidos com exemplos.
Um dos exemplos mais recentes da utilização de técnicas de Análise Canônica,
que tem vindo a ganhar relevância em estudos de ecologia, monitorização ambiental e
toxicologia ambiental é a Análise de Curvas de Resposta Principais (“Principal
35
Response Curves” – PRC). Este método está vocacionado para conjuntos de dados
com variáveis de resposta (Ex.: espécies) obtidos em diferentes amostras de diversos
tratamentos (ou locais) e ao longo do tempo. O objetivo é avaliar a evolução temporal
dos efeitos de diferentes tratamentos (ou das diferenças entre locais) comparando-os
com um tratamento (ou local) de referência.
Este método utiliza a técnica de Análise de Redundância (utilizando os
tratamentos como variáveis explicativas e o tempo como co-variável) para calcular os
coeficientes de resposta de cada tratamento em cada tempo de amostragem, assumindo
que os coeficientes do tratamento de referência possuem sempre o valor 0 em qualquer
dos tempos. Com estes valores é criado um gráfico tendo como ordenadas os valores da
variável tempo e como abcissas os valores dos coeficientes de todos os tratamentos. Os
coeficientes dos demais tratamentos são representados graficamente em relação à reta
de resposta da referência (de valor de abcissa 0), obtendo-se assim as curvas de resposta
de cada tratamento em relação a esta. Este método não exclui a evolução (variação)
temporal nas variáveis de resposta dentro de cada tratamento. No entanto, como a
questão principal é a comparação da evolução temporal das respostas dos tratamentos
em relação à referência, a influência direta do tempo é eliminada do modelo utilizando
essa variável como co-variável. Como se baseia numa técnica de ordenação Canônica, é
ainda possível avaliar a significância do modelo, por exemplo, a significância do efeito
dos tratamentos. O método possibilita ainda conhecer quais as variáveis de resposta (as
espécies) que mais influenciam as diferenças obtidas entre os tratamentos.
Esta técnica será apresentada utilizando exemplos de ecotoxicologia e de
monitorização ambiental. As suas vantagens em relação a outras técnicas de AM são
especialmente a facilidade de interpretação e comunicação dos resultados.
8. OUTRAS CONSIDERAÇÕES IMPORTANTES
Outro aspecto importante que deve ser lembrado é que a pesquisa brasileira é
muito carente em “planejar os experimentos”, especialmente quando se tratam de
estudos com biologia do solo. Nesse sentido, observa-se que certos pesquisadores não
têm o hábito de conversar com o estatístico antes de planejar o experimento e, chegam
ao absurdo de no final do estudo já com os dados querer saber qual é o melhor método
de análise que pode aplicar aos dados. Isso é errado, pois deve-se ter o objetivo,
36
hipóteses, tratamentos, tamanho de parcelas bem claro, com número de repetições,
delineamento, variáveis analisadas, cronograma de atividades, forma de análise dos
dados bem claros, antes de instalar o experimento.
Uma pergunta bem frequente no final do estudo é: Eu tenho estes dados qual
seria a melhor análise? Porém, a estatística é uma ferramenta integrante do
planejamento do estudo e não a solução dos seus dados!
Como mencionado anteriormente é bem comum na pesquisa nacional a falta de
uma descrição clara sobre o delineamento experimental, sendo que muitos artigos são
rejeitados em função de pouco critério científico e pela falta de planejamento do
experimento”.
Nos periódicos “Ciência Rural”, por exemplo, foram analisados todos os artigos
da secção de Ciência do Solo, de 1994 até 2006, e no Soil Science Society American
Journal (SSSAJ) somente dois números por ano neste mesmo período, sendo um
número referente ao primeiro semestre e outro correspondente ao segundo semestre,
somente os com análise univariada. Observaram-se que em ambos os periódicos, que
mais de 30% dos artigos apresentavam-se sem delineamento ou este não foi declarado
claramente no estudo (Figura 15).
Figura 15. Relação entre o tipo de delineamento e sua ocorrência (%) nos periódicos
Ciência Rural (C. Rural) e Soil Science Society American Journal (SSSAJ)
avaliados de 1994 até 2006 utilizando análise univariada.
Tipo de delineamento
SEM DIA DBA
% de ocorrência
0
10
20
30
40
50
SSSJA
C.Rural
SEM = Sem delineamento ou não declarado
DIA = Inteiramente aleatorizado
DBA = Blocos aleatorizados
37
Qual é a diferença de repetições e pseudo-repetições?
Para ter validade científica e uma ccoonncclluussããoo mmaaiiss hhoollííssttiiccaa deveriamos ter um
mínimo de três repetições por Tratamento que se compara.
Para exemplificar, visualize a Figura 16 (abaixo) onde foram coletados seis
monólitos em cada parcela, e responda quantas repetições e/ou pseudo-repetições tem?
Figura 16. Vista de três parcelas experimentais com detalhe de seis monólitos retirados
em cada parcela.
Como se trata de uma análise da fauna edáfica em sistemas de manejo do solo
(cada quadrado maior em amarelo é uma parcela experimental), a resposta será “três
repetições verdadeiras de um mesmo sistema, onde foram retiradas seis pseudo-
repetições”.
Ver com José Paulo se ele tem algo mais para inserir
sobre repetições, pseudo-repetições e autocorrelação?
Outro questionamento comum é que distância temos que ter entre as amostras
para evitar autocorrelação?
De maneira geral, a resposta depende dos objetivos do estudo, pois podemos
avaliar a microfauna do solo, por exemplo. Entretanto, na maioria dos estudos de
biologia do solo, especialmente de fauna edáfica nunca recomenda-se uma distância
menor do que 10 metros, repeitando-se assim, a independência estatística entre os
pontos. Entretanto, isso também pode variar dependendo do tipo de sistema e manejo do
solo a ser amostrado.
38
Como este manual tem o objetivo de facilitar o entendimento, a componente
prática deve funcionar em paralelo com a componente teórica, ou seja, após a
abordagem teórica de cada tópico será apresentado um exemplo prático de aplicação.
Assim, em cada exemplo prático, além de uma breve descrição do estudo será
demonstrado a sequência da análise no software escolhido, sendo recomendado o
acompanhamento do interessado por meio da realização dos exercícios. Isto facilita
compreensão do assunto, com a vantagem de acompanhar (preferencialmente em grupo
de pessoas) a resolução e de responder ao objetivo proposto pelo estudo. Cada um dos
exemplos possui questões associadas ao tema abordado e cuja resolução implica a
aplicação da técnica escolhida.
Como mencionado anteriormente, a abordagem destes conceitos será efetuada
com a apresentação de exemplos de diversos estudos de Biologia do Solo, com o intuito
de mostrar as potencialidades e o uso diversificado das técnicas de AM. A seguir, como
exemplo, serão feitas perguntas frequentes, as quais procuraremos respondê-las com a
resolução via análises de dados.
9.1 Como devo proceder para importar os meus dados para poder
analisá-los no Canoco?
Para responder a essa pergunta, procurou-se introduzir inicialmente, na primeira
parte prática, um breve contato com os diferentes componentes do software Canoco for
Windows 4.5, uma das ferramentas de informática que será muito utilizada.
A seguir serão demonstrados os procedimentos de construção e importação das
matrizes de dados, incluindo o modo como codificar os diferentes tipos de variáveis, em
particular as variáveis qualitativas. Assim, partimos do pré suposto que o software
Canoco for Windows 4.5 foi licenciado e instalado completamente (Figura 17), com o
CanoDraw (http://www.canodraw.com) para elaboração dos gráficos.
9. APRENDER FAZENDO “Colocando a mão na massa”
39
Figura 17. Vista do software CANOCO versão 4.5, que recomenda-se adquirir a
licença. (Fonte: http://www.microcomputerpower.com)
Para a familiarização com a importação dos dados, recomenda-se acessar os
dados da pasta “Spec_P1.xls” do arquivo Dilmar_Ex3.
Inicialmente deve-se abrir os dados do arquivo indicado, depois selecionar os
dados e clicar com o botão direito do moise e copiar. Em seguida, deve-se abrir o
CanoImp (Figura 18) e se os dados estiver corretos nas linhas e nas colunas clicar em
save e dar um nome ao arquivo (Figura 19).
40
Figura 18. Vista da importação de dados a partir de uma planilha do Excel, com a
sequência de análises usando o programa Canoco.
41
Figura 19. Vista da importação de dados a partir de planilha do Excel, com um
exemplo intitulado “Dilmar Ex3”.
9.2 Como devo proceder para verificar o comprimento do gradiente
para saber se a resposta dos meus dados é “linear ou unimodal”?
Na avaliação do tipo de resposta será demonstrada a realização de uma
“Detrended Correspondence Analysis” (DCA), técnica utilizada para verificar o
“comprimento” do gradiente, conforme mencionado no Item 3.
Valores baixos (< 4 desvios padrão) indicam uma resposta linear e valores
superiores a 4 DP indicam um resposta unimodal (Quadro 3). A realização desta análise
será demonstrada “passo a passo”, incluindo a realização da rotina, especialmente com
o CANOCO for Windows 4.5. Particular atenção deve ser dada nesta fase inicial ao
processo de importação da matriz de dados, à construção do projeto de análise, à
transformação dos dados da variável de resposta e, diretamente relacionado com esta
técnica e aos processos de “detrending”.
Uma atenção particular será dada aos diálogos específicos dos modelos de
resposta linear, discutindo-se as opções tomadas ao nível dos processos de “scalling” e
42
de centragem e padronização das variáveis explicativas. Especial atenção também será
dada também à interpretação dos resultados numéricos (vetores próprios, valores
próprios e percentagem de variabilidade explicada em cada eixo) e gráficos (“biplot”
das amostras vs. espécies).
Neste caso as opções de “scalling” serão discutidas, pois, dependendo da escolha
efetuada, a interpretação dos resultados deverá ser efetuada de modo diferente.
Para facilitar o entendimento elaborou-se um resumo das etapas (Figura 20), já
com uma sequência prévia de análises usando o programa Canoco.
Figura 20. Vista da sequência de análises usando o programa Canoco.
Para exemplificar a aplicação prática da DCA optou-se por usar os dados de
fauna do solo analisada na profundidade 1 (P1, 0-10 cm) da pasta Spec_P1 do arquivo
Dilmar_Ex3_P1.xls, objetivando verificar o “comprimento” do gradiente, via análise
DCA. Este trabalho foi realizado entre agosto de 2004 e janeiro de 2005, no Instituto
Agronômico de Campinas (IAC), em Campinas, SP, onde foram avaliados quatro
43
sistemas de preparo e cultivo do solo representativos da região, sendo: 1) plantio direto
estabelecido desde 1986 (T1); 2) plantio direto estabelecido desde 1999 (T2); 3) plantio
convencional desde 1999 (T3); e 4) plantio convencional desde 2000 (T4). Para a coleta
da macrofauna do solo, utilizou-se a metodologia TSBF, coletando-se, aleatoriamente
em cada área monólitos de 25 x 25 cm de lado nas profundidade de 0-10 cm (P1) e 10-
20 cm (P2). As amostras para avaliação dos atributos químicos do solo foram coletadas
nas mesmas profundidades. Os resultados deste experimento envolvendo armadilhas de
solo já foram publicados em ALVES et al. (2006).
A seguir podem ser visualizados os passos para realização da DCA.
Passo 1:
Passo 2:
44
Passo 3:
Passo 4:
45
Passo 5:
Passo 6:
46
Passo 7:
Passo 8:
47
Passo 9:
Passo 10:
48
Passo 11:
Passo 12: Verificando o comprimento do gradiente
49
9.3 Como devo proceder para realizar a ACP (ou PCA) no Canoco?
Para exemplificar uma aplicação prática da ACP optamos por fazer o mesmo
exemplo utilizado anteriormente para verificar o comprimento do gradiente via DCA,
ou seja da pasta Spec_P1 do arquivo Dilmar_Ex3.xls, mas neste caso os objetivos
principais dos exercícios são:
a) Verificar associação entre os grupos da macrofauna e os sistemas de preparo e
cultivo do solo em cada uma das profundidades (P1: 0-10 cm; P2: 10-20 cm),
iniciando pela P1 (Spec_P1) ?
b) Fazer como exercício para as duas profundidades juntas (usar dados da pasta
Spec_P1&P2);
c) Verificar se existe relação entre os principais grupos da macrofauna edáfica e os
atributos químicos do solo nos sistemas de plantio direto e convencional, com
todas as variáveis (RDA para P1 e P2);
d) Todas as variáveis e “forward selection”, visando deixar no modelo somente as
variáveis significativas, aumentando a confiabilidade da análise (RDA com
forward selection). Não se esqueça de construir os gráficos.
Passos para realização da ACP na profundidade 1 (0-10 cm), usar a pasta
Spec_P1 do Arquivo intitulado “Dilmar Ex3.xls” .
Passo 1:
50
Passo 2:
Passo 3:
51
Passo 4:
Passo 5:
52
Passo 6:
Passo 7:
53
Passo 8:
Passo 9:
54
Passo 10:
Passo 11:
55
Passo 12:
Na profundidade 1 (P1: 0-10 cm) o resultado da ACP encontra-se abaixo:
Observação:
Cabe destacar que a variabilidade explicada pelos eixos 1 (20,6%) e 2 (17,8%)
foi muito baixa. Quanto maior a variabilidade explicada pelos eixos 1 e 2 melhor e a
confiabilidade dos resultados. Ideal seria que o somatório dos dois primeiros eixos
ficasse acima de 50%. Entretanto, este exemplo serviu apenas para demonstrar os
passos da ACP e também que a análise multivariada não esta para “ajeitar ou melhorar
os dados”, mas ela mostra também a ineficiência da abundância dos principais grupos
da fauna edáfica na profundidade 1 em explicar as diferenças entre os tratamentos.
56
Passo 13: Fazendo os gráficos: deve-se abrir o CanoDraw e dar um nome ao arquivo
onde será salvo o gráfico.
Passo 15: Criando os gráficos: com o CanoDraw aberto siga os procedimentos
demonstrados abaixo.
Nesta fase sempre que se alteram as definições deve-se fazer um “recreate
graph” (Menu project).
Passo 16: Continuando com o Gráfico da ACP na P1
57
9.3.1 E se eu quiser verificar se existe relação da fauna com as
variáveis químicas do solo analisadas, como eu vou detectar se
existe colinearidade nos meus dados?
Você pode aproveitar já que esta trabalhando com a Profundidade 1 (0-10 cm) e
é já verificar a existência de “colinearidade” dos dados químicos do solo retirados nos
mesmos pontos da fauna, por meio da realização de uma RDA para a P1 (Usar a pasta
Par_P1 do arquivo Dilmar_Ex3.xls). Caso haja interesse nos passos da RDA, estes serão
demonstrados mais a frente.
Conforme observado abaixo existe alguma colinearidade dos dados, assim
recomenda-se, retirar as variáveis químicas que tem relação direta com outras
variáveis e depois realizar um “for selection”, deixando somente as variáveis
significativas no modelo. Veja os resultados obtidos pela RDA abaixo:
58
Com os resultados das permutações de Monte Carlo pode-se analisar se os eixos
são significativos ou não, mas esse assunto já foi discutido anteriormente.
59
Abaixo verifica-se que nos dados químicos do solo (Pasta Par_P1 do arquivo
Dilmar_Ex3.xls) somente o Cálcio (Ca) e a matéria orgânica (MO) foram significativos,
e somente estes devem ser utilizados no modelo.
60
Abaixo o gráfico já com o forward selection, incluindo somente o Ca e a MO no
modelo.
Para exercitar ainda mais a aplicação prática da DCA e resolver o restante do
exercício, recomenda-se usar os dados de fauna do solo analisada na profundidade 2
(P2, 10-20 cm) da pasta Spec_P2 do arquivo Dilmar_Ex3.xls, objetivando verificar o
“comprimento” do gradiente, via análise DCA. Os procedimentos são os mesmos
utilizados na P1.
Abaixo segue os resultados finais da DCA para a profundidade 2 (P2: 10-20
cm).
61
Para a ACP e da RDA (incluindo Forward selection) na profundidade 2 deve-se
usar a pasta Spec_P1 do arquivo Dilmar_Ex3.xls. Neste caso como os procedimentos já
foram demonstrados na profundidade 1, assim optou-se por não apresentar todos os
passos. Os resultados da ACP na profundidade 2 encontram-se abaixo.
62
A seguir encontra-se o gráfico da ACP (ou PCA) na profundidade 2.
A seguir encontram-se os resultados da RDA para todas as variáveis, mostrando
que existe alguma colinearidade (dados em vermelho) também na profundidade 2.
Os resultados das permutações de Monte Carlo para profundidade de 10-20 cm,
indicaram não haver relação entre a abundância dos principais grupos da fauna e as
63
variáveis quimicas do solo, quando considerou-se no modelo todas as variáveis
analisadas.
Ao realizar o Forward selection, verificou-se que na profundidade de 10-20 cm
somente o pH do solo foi significativo. O pH explicou 5,6% dos dados da fauna e,
quando usou-se somente este parâmetro o resultado foi significativo.
64
Abaixo o gráfico já com o forward selection, incluindo somente o pH do solo no
modelo. A vantagem de se realizar o forward selection é que a análise fica mais
confiável, eliminando-se aqueles atributos que apresentaram diferença estatística entre
os tratamentos e, portanto, só “poluem” a análise.
Abaixo o resultado da ACP com as duas profundidades (Spec_P1&P2) sem a
realização do centróide. Entretanto, recomenda-se apresentar todos os dados (todos os
pontos) mais a média dos pontos (centróide).
Passo 17:
65
9.4 Como devo proceder para realizar o centróide?
Para fazer o centróide deve-se seguir os passos abaixo:
1) Fazer o design para os tratamentos (Ver modelo de design nos arquivos). Para
visualizar como se faz, abra a pasta design do arquivo Dilmar_Ex3 e faça a
importação dos dados do design via CanoImp e salvar (Ex.:
DilmarEx3_designP1&P2.dta);
2) Rode normalmente a análise (Ex.: ACP ou AC…), com exemplos do curso, pois
deve-se sempre usar os valores da análise original para apresentar e discutir
os dados (siga os passos de cada análise normalmente);
3) Após rodar análise (CA ou PCA) faça este “truque”, sendo que este deve ser usado
somente para fazer o gráfico com os centróides. Para facilitar a compreensão siga
os passos a seguir:
Passo 1:
66
Observação: não se esqueça da selecionar análise de gradiente indireto, pois senão o
truque para o centróide não funciona.
Passo 2:
Neste caso usar os dados das pastas “Spec_P1&P2.dta” (nome sugerido para
salvar os dados DilmarEx3_spec_P1&P2.dta) e siga o modelo.
67
Observações:
O restante dos passos é exatamente igual aos passos da análise (CA, PCA...),
mas lembre-se que este truque é só para fazer o centróide, certo?
Assim, deve-se rodar a ACP normal e após fazer o gráfico com o centróide, mas
deve-se usar os valores originais da primeira análise (ACP normal) para discutir os
dados. Abaixo encontra-se o resultado do centróide realizado com objetivo de mostrar a
média dos sistemas de manejo na profundidade de 0-10 cm (P1) e 10-20 cm (P2).
Legenda: P1 = Profundidade 1 (0-10 cm); P2= Profundidade 2 (10-20 cm); PD1=
Plantio Direto 1; PD2= Plantio Direto 2; PCT: Plantio Convencional com trigo no
inverno; PCPO: Plantio Convencional com pousio no inverno. Outras informações
podem ser obtidas em ALVES et al. (2006).
Caso o interesse fosse utilizar os dados químicos do solo retirados nos mesmos
pontos da fauna como variáveis explicativas e/ou verificar se existe “colinearidade”
e/ou relação com a abundância da fauna, independente da profundidade de coleta,
recomenda-se, para exercitar, realizar uma RDA com este mesmo exemplo (Pastas
68
Spec_P1&P2e Par_P1&P2). Aqui poderia apresentar os passos para
RDA?
Abaixo encontra-se os resultados da RDA para a profundidades de 0-10 e
10-20 cm (Pastas Spec_P1&P2e Par_P1&P2), já sem colinearidade dos dados. Para
tanto, caso existir colinearidade, recomenda-se retirar as variáveis que tem relação
direta com outras variáveis e depois realizar um “for selection”, deixando somente
as variáveis significativas.
Em seguida pode-se observar os resultados da RDA significativos pelo teste de
Monte Carlo para as profundidades de 0-10 e 10-20 cm (Pastas Spec_P1&P2e
Par_P1&P2), onde as variáveis do solo explicaram 15,4% dos dados da fauna. Destes
58,4% estão representados no eixo 1.
69
A seguir pode ser visualizado o resultado da abundância de grupos da fauna
edáfica nas duas profundidades (P1 & P2) e sua relação com as variáveis químicas
do solo analisadas.
70
9.5 Análise de Componentes Principais com variáveis resposta (Fauna
do solo) x variáveis explicativas utilizadas a posteriori.
A ACP e a AC com variáveis ambientais como explicativas são utilizadas para
detectar a estrutura subjacente dos dados (estrutura da comunidade). Inicia com uma
ordenação, onde os valores (coordenadas) de um eixo particular podem ser interpretadas
como um gradiente de uma variável ambiental. Podem ser utilizadas técnicas de
regressão pra analisar esta relação e não há input direto das variáveis explicativas na
fase inicial da análise. Outras particularidades são:
1. Começa com coordenadas arbitrárias das amostras de média zero;
2. Calcula as novas coordenadas das espécies por meio de regressão;
3. Calcula novas coordenadas das amostras por calibração;
4. Remove arbítrio standardizando as coordenadas das amostras;
5. Para na convergência, por exemplo, quando as coordenadas das amostras
ficam iguais após um ciclo.
Caso o objetivo do estudo (Dilmar_Ex3.xls) fosse verificar a associação da
fauna do solo com os sistemas de manejo e usar os atributos químicos a posteriori como
variáveis ambientais explicativas, isto poderia ser resolvido com a ACP. Para isso, após
a verificação da colinearidade e quais são as variáveis químicas do solo significativas
(P≤0,05) o Canoco permite usá-las na ACP “posteriori”, via gradiente indireto (não
participa do cálculo somente são colocadas por cima) somente como explicativas. A
grande vantagem deste procedimento é que pode-se verificar porque tal espécie foi mais
abundante em um determinado sistema de manejo por exemplo, e se a ocorrência de tal
espécie esta relacionada aos maiores conteúdos de matéria orgânica (MO) ou pH
encontrados no tratamento.
Visando facilitar a compreensão, vamos usar os mesmos dados apresentados
anteriormente (Arquivo Dilmar_Ex3.xls, nas pastas Spec_P1&P2 Par_P1 e P2), mas
agora para responder ao novo objetivo proposto acima, independente da profundidade
(assim considera-se P1&P2).
Deve-se tomar cuidado no passo 1 para não confundir com outras análises já
apresentadas, pois agora temos as variáveis respostas (Pasta Spec_P1&P2) e variáveis
químicas do solo utilizadas a “posteriori” como explicativas (Pasta Par_P1&P2), assim
deve-se optar por “Species and environment data available”, conforme demonstrado a
seguir:
71
Passo 1:
Passo 2:
O restante dos passos são semelhante aos da ACP já apresentados anteriormente.
No final da análise, pode-se abrir o arquivo Log e, o valor encontrado in “Sun of all
canonical” indica o quanto das diferenças entre os tratamentos é explicada pelas
variáveis ambientais. Deste valor, no eixo 1 in “of species-environment relation” indica
a % da variabilidade que é explicada por este eixo 1.
72
9.6 E se os dados apresentarem resposta unimodal após realizar a DCA
o que devo fazer?
Caso a resposta dos dados for unimodal após a realização de uma (DCA), a
análise mais recomendada é a Análise de Correspondência (AC), pois conforme
apresentado no Quadro 3 o comprimento do gradiente foi maior do que 4 desvios
padrão (SD).
A realização prática da AC também será demonstrada “passo a passo” no
programa CANOCO for Windows 4.5. Neste caso, as opções de “scalling” serão
discutidas, pois, dependendo da escolha a interpretação dos resultados deverá ser
efetuada de modo diferente.
Para exemplificar pela primeira vez a Análise de Correspondência escolheu-se o
trabalho intitulado “Fauna do solo numa área de Sobreiro (Quercus suber) e Eucalipto
(Eucalyptus globulus)” (SOUSA et al., 2003). Este trabalho levantou dados sobre
mesofauna do solo atributos físico-químicos do solo (File Matrizes_CA_CCA.xls) em
duas áreas (Q e E), quatros plots (A, B, G, M), tendo em cada plot quatro cores de solo,
com 32 amostras coletadas e 45 espécies identificadas. O objetivo deste estudo foi
verificar a associação entre as espécies e os locais.
Para realizar a Análise de Correspondência (AC) siga os passos abaixo:
Passo 1: Após importar os dados das espécies da pasta Pontos do arquivo
Matrizes_CA_CCA.xls , faça conforme demonstrado a seguir.
73
Passo 2:
Passo 3:
Passo 4:
74
A opção Hill´s scaling na AC é indicada para gradientes longos (> 4SD) e a
interpretação segue o princípio do centróide. Já a opção Biplot scaling é indicada
para gradientes curtos (±3SD) sendo a interpretação via regra do biplot.
Passo 5:
Passo 6:
75
Passo 7: Analisando os resultados da AC.
Passo 8: Visualizando e interpretando o gráfico da AC.
76
9.7 Como relacionar as variáveis de resposta com as variáveis
explicativas?
As técnicas de Análise de Correspondência Canônica (ACC ou CCA), Análise
de Redundância (RDA), de Regressão e Modelos Lineares Generalizados podem
relacionar as variáveis de resposta com as variáveis explicativas. Entretanto, a aplicação
de uma ou de outra técnica vai depender do tipo de dados e de sua resposta (linear ou
unimodal?), conforme demonstrado na Figura 21, além dos objetivos e das hipóteses
levantadas.
Como em vários estudos de biologia objetiva-se relacionar a composição de
espécies com as variáveis ambientais, nesta parte será dada particular atenção aos
diálogos relativos à seleção de variáveis explicativas. Isto pode ser efetuado, conforme
discutido na parte teórica, de uma forma manual ou automática por meio de uma
“forward selection”.
77
Figura 21. Vista da relação entre o tipo de ordenação e o tipo de resposta das variáveis
resposta a um gradiente. Ver se esta figura vem aqui mesmo, ou
antes???
Já interpretação dos resultados numéricos, nomeadamente da percentagem de
variabilidade explicada pelas variáveis ambientais, será discutida com a utilização de
auxiliares de interpretação, nomeadamente a verificação das medidas de colinearidade
(valores do “Variance inflation factor” – VIF) e a interpretação da importância de cada
variável incorporada no modelo em cada eixo (análise dos coeficientes canônicos e dos
coeficientes de correlação entre as variáveis ambientais e os eixos – “intraset correlation
coefficients”).
A representação gráfica de uma CCA difere de uma RDA, mas os processos
específicos utilizados na interpretação dos “biplots” de espécies vs. variáveis ambientais
serão explicados resumidamente, pois alguns destes já foram discutidos em exemplos
anteriores. Entretanto, neste item optou-se por apresentar somente um exemplo da
aplicação da CCA, pois a RDA já foi discutida anteriormente.
A demonstração da técnica da regressão múltipla incidirá sobre a utilização e
eficácia dos critérios de seleção de variáveis (incluindo incorporação de interações entre
variáveis) e sobre os critérios de avaliação da robustez dos modelos obtidos (utilização
dos valores de AIC e de F).
78
Nas demonstrações das regressões de Poisson e Logística, como os princípios de
análise são semelhantes aos exemplificados para a regressão múltipla, o enfoque será
dado na escolha da função correta de ligação, na avaliação e correção do fenômeno de
sobre-dispersão dos dados e, obviamente, na correta apresentação das equações de
regressão.
A demonstração e realização das técnicas de regressão será efetuada utilizando o
software Brodgar, uma interface desenvolvida na plataforma Windows para trabalhar
com o software R. O exemplos a utilizar na demonstração da Regressão Múltipla,
Regressão de Poisson e Regressão Logística são, respectivamente: (i) Matriz Loyn
(QUIN & KEOUGH, 2002) que inclui a abundância de espécies de aves em 56 manchas
florestais fragmentadas e variáveis ambientais relacionadas com estas manchas: área de
cada mancha, distância à mancha mais próxima, intensidade de pastoreio, altitude e
anos decorridos desde o isolamento; (ii) Matriz Species (HIGHLAND STATISTICS,
2000) que inclui o número de espécies de invertebrados em diferentes locais e, como
variáveis explicativas, os valores médios de pH e de biomassa microbiana desses locais
e (iii) Matriz Polis (QUINN & KEOUGH, 2002) que inclui dados de presença/ausência
de uma espécie de lagartos (género Uta) em 19 ilhas e ainda como variável explicativa a
razão perímetro/área de cada ilha (aqui utilizada como medida da entrada de detritos
marinhos que servem com alimento a esta espécie).
9.7.1 Exemplo prático de aplicação da CCA
ACC é uma generalização da correlação multipla e tem a finalidade de achar as
correlações máximas entre combinações lineares entre dois conjuntos de descritores (x e
y).
Para exemplificar uma aplicação da ACC escolheu-se o mesmo exemplo da AC
discutido anteriormente na AC, do trabalho intitulado “Fauna do solo numa área de
Sobreiro (Quercus suber) e Eucalipto (Eucalyptus globulus)” (SOUSA et al., 2003).
Este trabalho levantou dados sobre mesofauna do solo atributos físico-químicos do solo
(File Matrizes_CA_CCA.xls) em duas áreas (Q e E), quatros plots (A, B, G, M), tendo
em cada plot quatro cores de solo, com 32 amostras coletadas e 45 espécies
identificadas. O novo objetivo neste caso da ACC é verificar se existe associação entre
as espécies e as variáveis físico-químicas do solo. Como a resposta das espécies da
79
mesofauna frente a um gradiente foi “unimodal” (Figura XX), a ACC serve
perfeitamente para exemplificar.
Para realizar o exemplo da aplicação da ACC siga os passos abaixo:
Passo 1:criando um novo projeto.
Não confundir, pois agora a análise ACC usa gradiente direto.
Passo 2:
80
Passo 3:
Passo 4:
81
Passo 5:
82
Passo 6:
Este último procedimento tem como ideia básica testar a significância do
primeiro e restantes eixos canônicos. As hipóteses as serem testadas são:
a) A hipótese nula (H0): As espécies não estão correlacionadas com as variáveis
ambientais.
b) A relação entre a ocorrência das espécies e as variáveis ambientais é mais
forte do que a esperada por acaso?
Para tanto, deve-se:
• Cacular valor de F para os dados (F0) baseado na % de variância explicada.
• Calcular distribuição de referência dos valores de F por permutação (F1.....Fk)
• Calcular nível de significância, conforme demonstrado abaixo:
P= (1+n)/(1+N); n= número de permutações, onde F>FO; N= número total de
permutações.
Passo 7:
83
Passo 8:
Passo 9: analisando os resultados da CCA
84
Passo 10: Este último procedimento tem como ideia básica testar a significância do
primeiro e segundo eixos canônicos.
Passo 11: Analisando o gráfico.
O gráfico abaixo mostra a relação entre as espécies e as variáveis ambientais.
85
Passo 12: Abrindo o arquivo Log e analisando o resultado, conforme descrito abaixo.
86
Passo 13: Abrindo o arquivo sol e analisando o resultado, conforme descrito abaixo.
Os “Canonical coefficients” (arquivo sol) definem os eixos como combinações
lineares das variáveis ambientais (+ intraset correlation coefficients, arquivo log são
usados na interpretação da estrutura da comunidade com base nas variáveis ambientais,
medem a contribuição de cada variável).
Passo 14: Analisando se existe multicolinearidade através do indicador VIF
Caso as variáveis estejam correlacionadas umas com as outras NÃO
UTILIZAR OS COEFICIENTES CANÔNICOS!
87
Passo 15: Refazendo a análise novamente
Após detectar os parâmetros com alto valor de VIF, recomenda-se que estes
sejam retirados do modelo visando eliminar o efeito da colinearidade. Em seguida,
deve-se iniciar novamente análise com os passos semelhantes a CCA, exceto na
“Forward selection”, onde os parâmetros com alto valor de VIF devem ser retirados do
modelo, conforme demonstrado a seguir.
88
Passo 16: Visualizando o resultado do Forward selection.
Passo 17: Refazendo uma nova ACC “normal” apenas com as variáveis selecionadas,
pois como observado abaixo agora já não existe mais colinearidade.
89
Passo 18: Visualização do gráfico.
90
9.8 Como discriminar grupos de amostras com base nos seus
descritores?
A Análise discriminante pode, assim como as demais análise ser realizada em
vários softwares, mas optou-se por usar o Statistica 6.0. Numa primeira fase será
efetuada uma análise com variáveis selecionas a priori. Na explicação dos diálogos
relativos a esta técnica particular atenção será dada à interpretação dos resultados
numéricos, em particular à significância das variáveis escolhidas ( de Wilk´s ou Wilks
Lambda) e das funções discriminantes, à separação dos diferentes grupos e nível de
significância associada (distâncias de Mahalanobis), à correta classificação das
diferentes amostras e a robustez da análise.
Como esta análise permite verificar se existe diferenças entre as áreas de
amostragem com base em funções canônicas discriminantes, recomenda-se realizar o
teste de comparação de médias nos valores dos coeficientes canônicos homogeneizados
(CCH), nas distintas funções canônicas, por meio de um teste (Ex.: LSD, P < 0,05),
conforme detalhado em CRUZ-CASTILLO et al. (1994) e BARETTA et al. (2006).
Cabe salientar que a Análise Discriminante é uma análise mais robusta e
necessita de um número maior de amostras analisadas, para estudo envolvendo a fauna
do solo recomenda-se mais do que dez amostras (n de no mínimo 10 por tratamento
(MALUCHE-BARETTA et al., 2006; BARETTA et al., 2006; BARETTA et al., 2008;
BARETTA et al., 2010). A representação gráfica derivada será comparada a seguir com
as obtidas em outras técnicas, nomeadamente na ACP.
Numa segunda fase far-se-á uma análise “stepwise” como forma de comparar os
resultados obtidos. Particular atenção será dada aos critérios de significância para
inclusão de variáveis. Quando aparecerem variáveis biológicas com relação de divisão
direta e altamente influenciada por outras e que, possivelmente, influenciem num
fenômeno tendencioso sobre a análise multivariada, estas devem ser retiradas do
modelo de análise (BARETTA et al., 2005).
A ANOSIM pode ser efetuada utilizando o software Primer 5 tendo como base a
matriz de similaridade obtida anteriormente. Os diálogos relativos à definição dos
grupos a discriminar e à realização da análise serão explicados e complementados com a
interpretação dos resultados numéricos, por exemplo, a significância estatística da
análise resultante das permutações e os resultados das comparações múltiplas efetuadas.
Vamos fazer um exemplo? Qual deles?
91
9.8.1 Comparação entre Análise Canônica Discriminante (ACD) e de
Componentes Principais (ACP)
Em termos de diferenças, é importante salientar que a ACP ignora a estrutura
dos grupos dos dados e calcula combinações lineares das variáveis originais (Figura 22),
enquanto a Análise Discriminante objetiva encontrar poucas dimensões do número de
variáveis originais para explicar a variação total dos dados, alocando uma outra função
discriminante (Figura 23).
A AD maximiza a variação entre os grupos de indivíduos, enquanto minimiza a
variação dentro dos grupos para as variáveis, sendo recomendado apresentar o valor da
média (centróide), conforme demonstrado na Figura 23. Recomenda-se neste tópico
consultar as referências sobre o assunto (CRUZ-CASTILLO et al ., 1994; BARETTA et
al., 2006; BARETTA et al., 2008; BARETTA et al., 2010).
(Altura)
(Ma
ss
a)
(Tamanho)
Componente
Principal
Figura 22. Relação entre a altura de plantas e a massa seca na ACP. (Fonte da Figura:
C.V.T. AMARANTE, UDESC/CAV, Lages, SC).
92
Figura 23. Relação entre a altura de plantas e a massa seca, com mais a Função
Canônica Discriminante (Fonte da Figura: C.V.T. Amarante, UDESC/CAV, Lages,
SC).
Quando utiliza-se os mesmos dados com objetivo de verificar a separação entre
os tratamentos, verifica-se que a ACD discrimina muito melhor os sistemas, em
comparação com a ACP (Figura 24), e ainda fornece um teste de comparação de média
dos coeficientes canônicos padronizados denominado de “WWiillkkss’’ LLaammbbddaa ((pp00,,00000011))””
((BBAARREETTTTAA eett aall..,, 22000055;; MMAALLUUCCHHEE--BBAARREETTTTAA eett aall..,, 22000066))..
93
Figura 24. Comparação entre ACP e ACD com os mesmos dados, demostrando a
separação entre o Pomar Orgânico e Convencional. (Fonte dos dados utilizados:
MALUCHE-BARETTA; AMARANTE & KLAUBERG-FILHO, 2006).
As variáveis ambientais (físico-quimicas e biológicas do solo) também podem
ser submetidas a canônica discriminante (ACD) para identificar se existe diferenças
entre os tratamentos via o teste estatístico multivariado de Wilks’ Lambda (p0,0001)
quanto à função canônica discriminante 1 (FCD1) e 2 (FCD2), além de quais das
variáveis foram mais relevantes na separação dos tratamentos (Baretta et al., 2010). Para
as variáveis, deve-se, conforme comentado anteriormente, tomar o cuidado de não
utilizar no modelo variáveis com relações de divisão direta e altamente influenciadas
por outras, recomendando-se que sejam retiradas da ACD, aumentando a confiabilidade
e eliminando o efeito de colinearidade dos dados (BARETTA et al., 2005).
Outras diferenças entre a ACD e a ACP podem ser visualizadas no esquema da
Figura 25.
94
Figura 25. Comparação entre ACD e ACP em termos de objetivos e variações dentro
grupos.
Como exemplo das potencialidades da ACD em estudos ecológicos, vamos
utilizar o estudo de Baretta et al. (2010), onde o modelo estatístico utilizado na ACD
explicou boa parte da variabilidade presente nas áreas analisadas, uma vez que a
Funções Canônicas Discriminantes 1 e 2 (FCD1 e FCD2) apresentaram correlações
canônicas de maiores do que 50 e 28% na média de três épocas de amostragens
(setembro de 2004, fevereiro de 2005 e agosto de 2005) (Figura 25). Essas duas
funções foram ajustáveis para explicar as variações encontradas nos valores dos
atributos ambientais e da macrofauna do solo nas três épocas de avaliação.
Altos valores de correlação também indicam elevada associação entre os
atributos analisados e as áreas de coleta desses atributos. Neste estudo, estão indicados
no artigo publicado por Baretta et al. (2010) os coeficientes canônicos padronizados
(CCP) da FCD1 e FCD2, para as quatro áreas com araucária amostradas, considerando
todos os atributos ambientais e da macrofauna analisados em cada época de
amostragem.
O CCP explica o comportamento multivariado dos diferentes atributos para
promover a separação entre as áreas, em resposta ao estudo das variáveis independentes,
analisadas simultaneamente (BARETTA et al., 2005).
95
No mesmo estudo, os autores usaram o Coeficiente da Taxa de Discriminação
Paralela (TDP) para avaliar a qualidade do solo (Figura 26). O valor de TDP resulta do
produto entre os coeficientes canônicos padronizados (CCP) e de correlação (r), sendo
que o r mostra informações univariadas (contribuição individual) de cada atributo,
independente dos demais. Contudo, o melhor parâmetro para avaliação do efeito de
separação gerada pelos atributos dentro das áreas é o TDP (Baretta et al., 2005).
Figura 26. Vista geral das etapas para criação do valor indicador de qualidade do solo,
usando o programa SAS. (Fonte: BARETTA et al., 2010).
No caso de valores positivos de TDP, estes indicam efeito de separação entre as
áreas, enquanto valores negativos semelhanças entre as mesmas quanto a esse atributo.
No estudo de Baretta et al. (2010), observou-se através dos valores de TDP, que
somente alguns atributos ambientais e da macrofauna do solo foram eficientes para
separar as áreas amostradas, apresentando certo potencial (maior valor de TDP) como
indicadores (Recomenda-se ver as quatro tabelas do artigo), independente da época de
amostragem, pois promoveram uma boa separação entre as áreas analisadas. Desta
forma, a aplicação do TDP permitiu obter um valor indicador para os atributos
96
estudados, e os autores propuseram a separação dos indicadores em seis classes, de
acordo com seu valor de indicador de TDP (Tabela xx).
Tabela XX. Classes de indicadores de qualidade do solo definidas a partir do valor da
taxa de discriminação paralela (TDP) resultante da análise canônica discriminante
(ACD) quanto as funções canônicas 1 e 2 (FCD1 e FCD2), para cada atributo em
áreas com araucária sob diferentes estados de conservação, independente do
tratamento, na região de Campo do Jordão, SP. (Fonte: BARETTA et al., 2010)
Valor de TDP do atributo Classe de qualidade Valor indicador
0,03* I Baixo
0,04-0,09 II Médio
0,10-0,20 III Bom
0,21-0,41 IV Muito Bom
0,42-0,80 V Ótimo
> 0,81 VI Excelente
*Valores podem variar de acordo com o ecossistema amostrado e o número de atributos
químicos, físicos e biológicos do solo incluídos no modelo.
Entretanto, os autores recomendam complementar estes estudos por meio da
inclusão de outros atributos químicos, físicos e biológicos do solo no modelo da ACD e
medir estes parâmetros com vários métodos de coleta em outros ecossistemas
brasileiros, a fim de validar potencial indicador de cada atributo edáfico.
9.8.2 Exemplo de aplicação da Análise Canônica Discriminante (ACD)
para discriminação de tratamentos
Ver com Paulo sobre essa parte inicial
Para exemplificar uma aplicação prática da ACD recomenda-se usar o arquivo
intitulado “DADOS ANALISE MULTIVARIAVEL SADO.xls” e seguir os
procedimentos que serão detalhados a seguir. Neste arquivo encontram-se os resultados
referentes a um estudo realizado em XXX com objetivo de avaliar as funções
fisiológicas no polychaete Hediste diversicolor, com medidas de vários biomarcadores
de enzima (neurotransmissão, condição metabólica, processos de desintoxicação,
defesas com antioxidante). Para tanto, foram coletadas amostras do Rio Mira (estuário
de referência) e Rio Sado (Estuário Impactado), em vários locais com vários animais em
cada um deles, conforme demostrado na Figura 27. Este artigo já foi publicado na
Revista “Aquatic toxicology” (MOREIRA et al., 2006), e tem como objetivo principal
97
verificar a resposta dos dados entre grupos de fauna e os parâmetros ambientais
xxxxxxxxx…..
Ou verificar se há separação entre os tratamentos (xxx) e quais são as
variáveis que mais contribuem para esta separação??????
Figura 27. Vista dos Rios Sado e Mira no canto superior direito e dos pontos de
amostragem (S1, S2, S3, S4 e S5) ao logo do Rio XX.
Os dados do arquivo intitulado “DADOS ANALISE MULTIVARIAVEL
SADO.xls” (Tabela xx) serão utilizados para demonstrar a aplicação desta técnica no
programa Statistica 6.0.
Tabela XX. Valores usados no exemplo da Análise Discriminante, constantes no
arquivo a ser importado intitulado “DADOS ANALISE MULTIVARIAVEL”.
98
STATION Estuary ACHE LDH GST SOD CAT GPX GR TBARS
R1 1 81.11 169.95 42.53 14.98 13.79 7.37 7.75 0.59
R1 1 82.36 149.19 40.73 14.68 19.21 8.67 9.87 0.58
R1 1 88.46 157.54 39.95 15.46 18.29 8.95 9.26 0.54
R1 1 91.88 126.71 34.33 17.90 13.57 7.16 7.35 0.32
R1 1 88.25 155.70 42.14 17.60 18.97 7.76 7.74 0.52
R2 2 86.29 136.63 36.62 15.28 14.96 6.09 7.25 0.56
R2 2 86.09 138.67 45.02 11.20 16.82 8.35 6.30 0.65
R2 2 80.14 129.89 42.43 13.18 16.01 7.39 8.37 0.62
R2 2 93.45 126.54 40.51 10.95 18.82 7.31 6.35 0.32
R2 2 84.54 151.77 39.88 17.17 14.31 7.34 9.36 0.24
R3 3 88.36 136.63 35.70 7.88 13.70 8.02 6.10 0.42
R3 3 84.79 138.67 38.56 13.23 17.65 6.80 7.84 0.31
R3 3 87.81 129.89 39.45 12.96 17.37 8.16 6.88 0.55
R3 3 93.63 126.54 39.14 11.95 13.76 7.65 6.62 0.54
R3 3 90.06 149.45 41.22 20.14 13.83 7.74 9.27 0.41
S1 4 86.23 136.11 45.15 23.75 19.04 6.43 6.43 0.44
S1 4 92.65 135.83 39.04 17.60 13.78 6.54 8.01 0.46
S1 4 79.78 164.13 43.07 19.80 14.51 8.69 9.00 0.46
S1 4 76.52 148.61 36.09 12.99 14.27 5.92 6.40 0.51
S1 4 88.83 152.64 38.52 23.05 13.34 8.83 7.24 0.59
S2 5 91.02 214.79 42.19 46.06 23.85 9.12 6.44 0.74
S2 5 93.88 178.86 39.69 41.72 22.26 11.31 8.21 0.77
S2 5 83.59 213.75 45.53 44.91 21.79 10.96 8.75 1.15
S2 5 89.84 179.34 43.09 40.18 20.25 9.70 5.66 0.75
S2 5 85.38 212.68 43.54 35.14 36.37 9.25 7.32 1.31
S3 6 95.19 186.09 60.22 23.33 13.68 9.92 8.71 0.93
S3 6 92.80 176.05 57.64 27.92 18.10 16.68 9.24 0.63
S3 6 80.34 161.48 65.47 24.45 13.80 16.70 12.86 0.66
S3 6 94.12 151.72 58.85 22.32 17.25 13.51 8.31 0.74
S3 6 90.74 176.42 53.50 16.95 22.33 17.74 11.12 0.61
S4 7 87.62 239.14 41.39 44.13 21.11 7.15 6.56 1.04
S4 7 87.99 203.09 44.94 38.91 28.12 8.85 6.03 1.43
S4 7 85.20 224.67 41.68 31.19 25.25 8.53 7.76 0.88
S4 7 89.96 212.72 50.28 29.36 21.43 6.23 7.74 1.01
S4 7 93.16 195.57 41.63 38.37 21.62 8.10 6.85 1.14
S5 8 94.50 163.50 55.20 28.02 20.89 8.77 5.08 0.57
S5 8 89.79 193.78 45.47 26.06 29.43 7.56 7.89 0.82
S5 8 92.86 169.26 47.32 15.38 25.36 9.06 6.53 0.71
S5 8 85.48 201.99 53.49 19.96 20.03 6.37 8.63 0.87
S5 8 88.57 160.37 44.86 17.07 16.37 8.70 10.05 1.29
Para realizar o exemplo da aplicação da AD siga os passos abaixo:
Passo 1:
Para ajudar na familiarização com o programa Statistica, elaborou-se o esquema
demonstrado na Figura 28.
99
Figura 28. Esquema detalhado da importação de dados a partir de planilha do Excel do
arquivo intitulado “DADOS ANALISE MULTIVARAVEL.xls”, usando o programa
Statistica.
Passo 2: Abrindo o programa Statistica e iniciando a AD.
100
Passo 3: Selecionando variáveis a serem incluídas no modelo com os códigos.
Passo 4: Rodando a análise
101
Passo 5: Visualização dos resultados da análise
Passo 6: verificando a colinearidade e a significância
102
Passo 7: Descobrindo o que é cada valor
Caso o pesquisador queira calcular o Coeficiente da Taxa de Discriminação
Paralela (TDP) para avaliar a qualidade do solo, basta multiplicar o valor dos
coeficientes canônicos padronizados (CCP) e de correlação (r). A interpretação do TDP
já foi discutida anteriormente no item 9.8.1.
103
Passo 8: Descobrindo o que é cada valor
Passo 9: Construindo o gráfico
Paulo dar uma explicada nos dados?
104
Passo 9: analisando os dados e descobrindo se pode ter uma discriminação melhor?
Passo 10: fazendo análise “setpwise” e retirando as variáveis não significativas do
modelo.
Deve-se realizar uma análise de “setpwise” com todas as variáveis analisadas,
deixando no modelo somente as significativas, com vistas a uma melhor discriminação
dos tratamentos. As variáveis não significativas indicadas abaixo devem ser retiradas do
modelo, assim haverá uma melhor discriminação dos tratamentos.
105
Passo 11: Voltando a analisar se há significância.
Passo 12: Analisando os coeficientes
106
Passo 13: Visualizando o gráfico já com “setpwise”.
Resultado da análise de “setpwise” deixando somente as variáveis significativas,
demostrando uma melhor discriminação dos tratamentos.
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx,
Paulo dar uma explicada nos dados?
9.9 Como avaliar a diversidade da fauna do solo quando temos
amostras ao longo do tempo?
Quando tem-se resultados de avaliações de biologia do solo com amostragens
ao longo do tempo a análise de Curvas de Resposta Principais (PRC) é um método
apropriado, especialmente quando temos um tratamento/local como controle
(referência ou testemunha) e um ou outros tratamentos/locais. Nestas condições o
tempo complica a interpretação nos diagramas de ordenação, especialmente quando
os dados são analisados com ACP, conforme pode ser observado na Figura 29.
107
Por isso a demonstração deste método irá incidir na forma de derivar as curvas de
resposta de cada tratamento utilizando os resultados numéricos da RDA e na
apresentação gráfica e interpretação das curvas de resposta calculadas. Assim, a PRC é
uma forma especial de RDA (Figura 30), onde o modelo utilizado é: yd(i)tk = y0tk +
bk* cdt +ed(i)tk, em que: yd(i)tk = abundâncias; y0tk = abundância média no controle
(testemunha); cdt = padrão de resposta básico (PRC); bk = peso de cada espécie com
cdt; ed(i)tk = erro.
Abaixo pode-se visualizar o resultado da ACP com o resultado do efeito de
diferentes doses de herbicida sobre a diversidade de Fictoplancton XXX (Figura
29).
Figura 29. Resultado da ACP, mostrando a resposta dos macroinvertebrados a
aplicação de herbicida ao logo do tempo (ver com J.P. Sousa a fonte e
ano, e se ele tem gráfico original sem esse fundo azul.)
Entretanto, abaixo pode-se visualizar com os mesmos dados utilizados na Figura
29, o resultado da PRC mostrando a resposta da diversidade de Fitoplancton frente a
diferentes doses de herbicida já com um padrão de resposta diferenciado, sendo
realmente este um método apropriado, pois melhora muito a visualização do
108
comportamento e a interpretação no diagrama de ordenação, conforme pode ser
observado na Figura 30.
Portanto, a PRC é um método de ordenação conhecido como análise de
redundância parcial (pRDA), que é indicada para avaliar o efeito de um determinado
fator sobre uma comunidade ao longo do tempo. Esse método resume os efeitos de cada
tratamento em relação ao controle sobre os grupos funcionais de organismos edáficos e
possibilita exibí-los em um único diagrama. Entretanto, a PRC somente extrai a
informação de parte da variância que é explicada pelo fator empregado como tratamento
e o tempo (épocas de amostragens), que é utilizado como co-variável. O tempo na PRC
é disposto no eixo x e o coeficiente canônico, também denominado de coeficiente
canônico padronizado, relativo ao tratamento controle, no eixo y. Assim, os outros
coeficientes dos tratamentos são apresentados como desvios em relação ao controle,
para cada tempo avaliado.
Com o gráfico da PRC é apresentado um diagrama onde são plotados os pesos
(valores positivos e negativos) do grupos funcionais analisados, e o peso dos grupos
funcionais pode ser interpretado como o peso de cada grupo único para a resposta dos
tratamentos na PRC. Assim, o maior valor de peso para um determinado grupo
funcional (Ex.: da fauna) indica uma maior contribuição desse grupo para as diferenças
(Ex. doses de um produto) na PRC. Adicionalmente, é fornecida uma estatística
correspondente a qualidade do ajuste e do potencial explicativo da RDA. Uma razão F é
obtida e um valor de P, por meio dos testes de permutação de Monte Carlo (LEPS &
SMILAUER, 2003)
109
Figura 30. Resultado da PRC, mostrando a resposta da diversidade de Fitoplancton
frente a diferentes doses de herbicida (ver com J.P. Sousa a fonte e ano,
e se ele tem gráfico original sem esse fundo azul.)
Para exemplificar uma aplicação prática da PRC recomenda-se usar o arquivo
intitulado “StreanData.xls” e seguir os procedimentos que serão detalhados a seguir.
Neste arquivo encontram-se os resultados referentes a um estudo realizado em que
foram coletadas amostras ao longo de quatro tempos em um rio contaminado
(especialmente com Endossulfan) + um rio de referência. Este artigo já foi publicado na
Revista “Aquatic toxicology” (MOREIRA et al., 2006), e tem como objetivo principal
verificar o efeito da ocorrência de água contaminada de campos agrícolas na
comunidade de invertebrados aquáticos ao longo do tempo. Enfim, ver com José
Paulo esta parte dos dados de StreanDataxls
Os procedimentos para executar a PRC são:
Passo 1:
110
Passo 2:
Passo 3:
111
Passo 4:
Passo 5:
112
Passo 6:
Passo 7:
113
Passo 8:
Passo 9:
114
Passo 10:
Passo 11: Calculando o Cdt
Para calcular o Cdt (PRC do tratamento) precisamos de:
Coeficientes canônicos dos tratamentos (Arquivo .SOL). Deve-se abrir o
arquivo com extensão “.sol”e ver se os resultados batem com os do arquivo
“StreanData.xls” na pasta PRC. Caso sejam os mesmos parabéns você acertou os
procedimentos.
115
SD dos tratamentos (Arquivo .LOG). Deve-se abrir o arquivo com extensão
“.log”e ver se os resultados batem com os do arquivo “StreanData.xls” na pasta
PRC. Caso sejam os mesmos parabéns você acertou os procedimentos.
TAU - SD total das espécies (Arquivo .LOG).
Cdt = (CanCoef*TAU)/SD. Na pasta PRC, encontram-se esses valores e
também esta fórmula, isso para facilitar o entendimento.
O Cdt do Controle ao longo do tempo é sempre “0”
Para se construir o auxiliar d interpretação ao nível das espécies, necessitamos
dos Bk das espécies (Species scores do arquivo .SOL). Deve-se abrir o arquivo
com extensão “.sol” ver se os resultados batem com os do arquivo
“StreanData.xls” na pasta PRC. Caso sejam os mesmos parabéns você acertou os
procedimentos. Depois pegue esses resultados e e tente fazer como na pasta PRC
(spec) doa arquivo “StreamData.xls”.
Abaixo encontra-se os resultados do efeito da ocorrência de água contaminada
sobre a comunidade de invertebrados aquáticos em um rio contaminado (especialmente
com Endossulfan) comparado com um rio de referência ao longo dos quatro tempos de
amostragens. As espécies com maiores valores de bk (Jap_kut; Che_sp e Ate_aus)
foram as mais afetadas pelo rio contaminando ao longo do tempo, enquanto as espécies
menos influenciadas pelo rio contaminado apresentam menores valore de bk (Chi_spp;
Ptrat ya…). Outras informações sobre a interpretação deste trabalho podem ser obtidas
em xxxx et al. (xxx) e sobre a PRC em (PARDAL et al., 2004). ver com J.P.
Sousa a fonte e ano do trabalho publicado e ajudar na
apresentação do gráfico)
116
Jap_ Kut
Che_ sp
Ate_ aus
Olig och
Othe r Prat yaChi_ spp
Moll usc
Ecn_ sp Bae_ sp Tas_ sp
0
0.5
1
1.5
2
bk
Jap_ Kut
Che_ sp
Ate_ aus
Olig och
Othe r Prat yaChi_ spp
Moll usc
Ecn_ sp Bae_ sp Tas_ sp
0
0.5
1
1.5
2
bk
-2
-1.5
-1
-0.5
0
1 2 3 4
Sampling date
Cd
t
Reference Endosulfan
Figura 31. Resultado da PRC, mostrando o efeito da ocorrência de água contaminada
sobre a comunidade de invertebrados aquáticos em um rio contaminado (especialmente
com Endossulfan) comparado com um rio de referência ao longo de quatro tempos de
amostragens.
Partição da variabilidade exemplo do BIOACESSS Paulo vai fazer aqui o resto
Os procedimentos para efetuar uma partição de variância e avaliar a importância
de cada conjunto de variáveis em explicar a composição das variáveis de resposta
seguem os mesmos princípios das análises de ordenação Canônica demonstradas
117
anteriormente. Assim, o ficheiro Dune será de novo utilizado para demonstrar a
aplicação desta técnica.
Exemplo do Paulo
Na realização das diversas CCA’s (cada uma para avaliar a influência de um
conjunto de variáveis) atenção particular será dada à utilização de co-variáveis e à
interpretação do respectivo resultado numérico em termos de variabilidade explicada
(quer pelas variáveis explicativas a serem testadas quer pelas co-variáveis). Será dada
também uma importância especial à apresentação dos resultados das análises, ou seja, a
construção da tabela de partição da variabilidade.
Aqui entre A NON-METRIC MULTIDIMENTIONAL SCALLING
A realização de uma “Non-Metric Multidimentional Scalling” será demonstrada
utilizando um exemplo de separação de espécies de Escrofulariáceas com base em
características morfológicas (Leps e Smilauer, 2003). A matriz de dados (designada por
Melampyrum), é composta por diferentes espécies deste género (incluindo híbridos)
recolhidas em diferentes locais da Europa Central e por diferentes variáveis
morfológicas.
Está técnica será efetuada utilizando o software Primer 5 (Que pode ser
adquirido no site Site). Os procedimentos relacionados com a importação de matrizes de
dados e com a realização desta técnica também serão demonstrados “passo a passo”.
Uma atenção particular será dada à escolha da medida de similaridade (ou distância),
obtenção da matriz de similaridade (ou distância) e para à interpretação do resultado
gráfico e valores de “stress”. Como exercício, recomenda-se aplicar esta técnica aos
exemplos já trabalhos anteriormente com o objetivo de comparar e discutir o
desempenho das três técnicas abordadas.
ESTA FALTANDO 1) Partição da variabilidade ao nível de paisagem. Exemplo do Paulo. Você tem um
exemplo clássico daquele artigo seu acho que na Pedologia.
2) Exemplo de corredores ecológicos (Paulo tem este), VEREMOS AINDA SE VAMOS
COLOCAR
3) Exemplo do número ideal de amostras (Paulo tem algo bem funcional e simples) Paulo
tem pronto
4) Delineamentos expereimentais, com mais exemplos de pseudorepetições o Paulo tirará
da dissertação de mestrado dele.
118
O Solo não é mais complexo do que pensamos…
O Solo é mais complexo do que nós PODEMOS pensar…!
119
11. Bibliografia
BARETTA, D.; BROWN, G.G. & CARDOSO, E.J.B.N. Potencial da macrofauna e
outras variáveis edáficas como indicadores de qualidade do solo em áreas com
Araucaria angustifolia. Acta Zool. Mex., (n.s), v.2, p.135-150, 2010.
BARETTA, D.; FERREIRA, C.S.; SOUSA, J.P. & CARDOSO, E.J.B.N. Colêmbolos
(Hexapoda: Collembola) como bioindicadores de qualidade do solo em áreas com
Araucaria angustifolia. R. Bras. Ci. Solo., v.32, p.2693-2699, 2008.
BARETTA, D.; MAFRA, Á.L.; SANTOS, J.C.P.; AMARANTE, C.V.T.; BERTOL, I.
Análise multivariada da fauna edáfica em diferentes sistemas de preparo e cultivo do
solo. Pesq. Agropec. Bras., Brasília, v.41, p.1675-1679, 2006.
BARETTA, D.; SANTOS, J.C.P.; FIGUEIREDO, S.R. & KLAUBERG-FILHO, O.
Efeito do monocultivo de pinus e da queima do campo nativo em atributos biológicos
do solo no planalto sul catarinense. R. Bras. Ci. Solo, v.29, n.5, p.715-724, 2005.
BARETTA, D.; SANTOS, J.C.P.; SEGAT, J.C.; GEREMIA, E.V.; OLIVEIRA FILHO,
L.I.de. & ALVES, M.V. Fauna edáfica e qualidade do solo. In: KLAUERG-FILHO
(Coords.). Tópicos Especiais em Ciência do Solo. SBCS:Viçosa, MG. p.xx-xx, prelo,
2011.
CLARKE, K.R. & GORLEY, R.N. Primer v5: User manual/tutorial. Primer-E Ld,
Plymouth. 2001 PÁG?
CLARKE, K.R. & WARWICK, R.M. Change in marine communities: An approach do
statistical analysis and interpretation (2nd
ed). Primer-E Ld, Plymouth. 2001 PÁG?
CRUZ-CASTILLO, J.G.; GANESHANANDAM, S.; MAcKAY, B.R.; LAWES, G.S.;
LAWOKO, C.R.O.O. & WOOLLEY, D.J. Applications of canonical discriminant
analysis in horticultural research. HortScience, v.29, p.1115-1119, 1994.
FERREIRA, D.F. Estatística multivariada. (1.ed.). Lavras: Editora UFLA, 2008. 662 p.
il.
FRIGHETTO, R.T.S.; VALARINI, P.J. (Cord.). Indicadores biológicos e bioquímicos
da qualidade do solo: manual técnico. Jaguariúna: EMA, 2000. 198 p. (Documentos, 21)
GAUCH, H.G. Multivariate analysis in community ecology. Cambridge University
Press, Cambridge.1982. 298 p.
120
HAIR, J.F.; ANDERSON, R.E. & TATHAM, R.L. Multivariate data analysis with
readings. 2nd
ed. New York: Macmillan, 1987. 449 p.
HIGHLAND STATISTICS, Ltd. Brodgar: Software package for multivariate analysis
and multivariate time series analysis. Highland Statistics Ltd, Aberdeen. 2000 132 pp.
JONGMAN, R.H.G.; tER BRAAK, C..J.F. & VAN TONGEREN, O.F.R. (Eds.) Data
analysis in community and landscape ecology. Cambridge University Press, Cambridge.
1995. 299 pp.
LEPS, J. & SMILAUER, P. Multivariate analysis of ecological data using Canoco.
Cambridge University Press, Cambridge. 2003. 269 p.
MALUCHE-BARETTA, C.R.D.; AMARANTE, C.V.T. & KLAUBERG-FILHO, O.
Análise multivariada de atributos do solo em sistemas convencional e orgânico de
produção de maças. Pesq. agropec. bras., 41:1531-1539, 2006.
MANLY, B.F.J. Multivariate statistical methods: a primer. Chapman & Hall, London.
1994. 215 pp.
MAROCO, J. Análise estatística com utilização do SPSS (2ª ed.). Edições Sílabo,
Lisboa. 2003. 508 p.
MARRIOTT, F.H.C. The interpretation of multiple observations. London, Academic
Press, 1974.
MOREIRA et al., 2006 (ver com Paulo).
PARDAL, M.A.; CARDOSO, P.G.; SOUSA, J.P.; MARQUES, J.C. & RAFFAELLI,
D. Assessing environmental quality: a novel approach. Marine ecology Progress Series,
v. 267, p. 1–8, 2004.
POPPI, R.J. & SENA, M.M.de. Métodos quimiométricos na análise integrada de
dados. In: FRIGUETTO, R.T.S. & VALARINI, P.J. (Coords.). Indicadores biológicos e
bioquímicos da qualidade do solo : manual técnico. Jaguariúva: Embrapa Meio
Ambiente, 2000. 198p. (Embrapa Meio Ambiente. Documentos, 21).
QUINN, G.P. & KEOUGH, M.J. Experimental design and data analysis for biologists.
Cambridge University Press, Cambridge. 2002. 537 p.
SAS INSTITUTE. SAS: User’s guide: statistics. 6th
ed. Cary: Institute Inc. 2002.
121
SCHEEREN, L.W.; GEHRARDT, E.J.; FINGER, C.A.G.; LONGHI, S.J. &
SCHNEIDER, P.R. Agrupamento de unidades amostrais de Araucaria angustifolia
(Bert.) O. Ktze, em função de variáveis do solo, da serapilheira e das acículas, na região
de Canela, RS. Ci. Fl., v.1, p.39-57, 2000.
tER BRAAK, C.J.F. Canonical community ordination. Part I: basic theory and linear
methods. Ecoscience, v.1, p.127-140, 1994.
tER BRAAK, C.J.F. & SMILAUER, P. CANOCO Reference manual and CanoDraw
for Windows User’s guide: Software for Canonical Community Ordination (version
4.5). Microcomputer Power, Ithaca, New York. 2002. 500 p.
VAN DEN BRINK, P.J. & TER BRAAK, C.J.F. Multivariate analysis of stress in
experimental ecosystems by Principal Response Curves and similarity analysis. Aquatic
Ecology, v.32, 161-178, 1998
VAN DEN BRINK, P.J. & TER BRAAK, C.J.F. Principal response curves: Analysis of
time-dependent multivariate responses of biological community to stress.
Environmental Toxicology and Chemistry, v.18, p.138-148, 1999
VAN DEN BRINK, P.J.; VAN DEN BRINK, N.W. & TER BRAAK, C.J.F.
Multivariate analysis of ecotoxicological data using ordination: demonstrations of utility
on the basis of various examples. Australasian Journal of Ecotoxicology, v.9, p.141-
156, 2003.
BIBLIOGRAFIA ADICIONAL
ANDERSON, T.W. An introduction to multivariate statistical analysis. 2nd Ed. New
York, John Wiley.1984. 675p.
ANDERSON, T.W. The asymptotic theory for principal components analysis, Annals
of Mathematical Statistics, v.34, p.122-148, 1963.
BARTLETT, M.S. A note on multiplying factors for various Chi-Square
approximations. Journal of the royal Statistical Society –Series B. v.16, p.296-298,
1954.
BARTLETT, M.S. A note on tests of significance in multivariate analysis. Proceedings
of the Cambridge Philosophical Society, v.35, p.180-185, 1939.
122
BARTLETT, M.S. Further aspects of the theory of multiple regression. Proceedings of
the Cambridge Philosophical Society, v.34, p.33-40, 1938.
BARTLETT, M.S. The statistical conception of mental factors. British Journal of
Psychology, v.28, p.97-104, 1937.
DOBSON, A.J. An introduction to generalized linear models. Chapman & Hall/CRC,
Boca Raton. 2001. 225 p.
SILESHI, G.T. The excess-zero problem in soil animal count data and choice of
appropriate models for statistical inference. Pedobiologia, v.52, p.1-17, 2008.
tER BRAAK, C.J.F. Canonical correspondence analysis: a new eigenvector technique
for multivariate direct gradient analysis. Ecology, v.67, p.1167-1179, 1986.
tER BRAAK, C.J.F. The analysis of vegetation-environment relationships by canonical
correspondence analysis. Vegetatio, v.69, p.69-77, 1987.
tER BRAAK, C.J.F. & VERDONSCHOT, P.F.M. Canonical correspondence analysis
and related multivariate methods in aquatic ecology. Aquatic Sciences, v.57, p.255-
289, 1995.
CASOS DE ESTUDO (exceto casos incluídos em referencias indicadas anteriormente)
LEONARD, A.W; HYNE, R.V.; LIM, R.P.; PABLO, F.; & VAN DEN BRINK, P.J.
Riverine Endosulfan concentrations in the Namoi river, Australia: link to cotton field
runoff and macroinvertebrate population densities. Environmental Toxicology and
Chemistry, v.19, p.1540-1551. 2000.
MOREIRA, S.M.; LIMA, I.; RIBEIRO, R. & GUILHERMINO, L. Effects of estuarine
sediment contamination on feeding and on key physiological functions of the
polychaete Hediste diversicolor: Laboratory and in situ assays. Aquatic Toxicology (em
publicação). 2006
PARDAL, M.A.; CARDOSO, P.G.; SOUSA, J.P.; MARQUES, J.C. & RAFFAELLI,
D. Assessing environmental quality: a novel approach. Marine Ecology Progress Series.
267, v.1-8, 2004
PEREIRA, R.; SOUSA, J.P.; RIBEIRO, R. & GONÇALVES, F. Microbial indicators in
mine soils (S. Domingos Mine, Portugal). Soil & Sediment Contamination, v.15, v.147-
167, 2006.
123
PONGE, J.-F.; GILLET, S.; DUBS, F.; FEDOROFF, E.; HAESE, L; SOUSA, J.P. &
LAVELLE, P. Collembolan communities as indicators of land use intensification. Soil
Biology and Biochemistry, v.35, 813-826, 2003.
SOUSA, J.P. & GAMA, M.M. da. Rupture in a Collembola community structure from a
Quercus rotundifolia Lam. forest due to reafforestation with Eucalyptus globulus
Labill. European Journal of Soil Biology, v.30, p.71-78, 1994.
SOUSA, J.P.; BOLGER, T.; GAMA, M.M.; LUKKARI, T.; PONGE, J.-F.; SOMÓN,
C.; TRASER, G.; VANBERGEN, A.J.; BRENNAN, A.; DUBS, F.; IVITIS, E.;
KEATING, A.; STOFER, S. & WATT, A.D. Changes in Collembola richness and
diversity along a gradient of land-use intensity: a pan European study. Pedobiologia (em
publicação).
SOUSA, J.P.; GAMA, M.M. da; PINTO, C.; KEATING, A.; CALHÔA, C.; LEMOS,
M.; CASTRO, C.; LUZ, T.; LEITÃO, P. & DIAS, S. Effects of land-use on Collembola
diversity patterns in Mediterranean landscape. Pedobiologia, v.48, p.609-622, 2004.
VANBERGEN, A.J.; WATT, A.D.; MITCHELL, R.; TRUSCOTT, A.-M.; PALMER,
S.C.F.; IVITS, E.; EGGLETON, P.; JONES, H. & SOUSA, J.P. Landscape structure,
plant diversity and resources structure soil fauna diversity along a land-use
intensification gradient. Oecologia (submetido).
SITES RECOMENDADOS
Manchester Metropolitan University
http://149.170.199.144/multivar/intro.htm
Ohio State University
http://ordination.okstate.edu/
University of Glasgow
http://www.stats.gla.ac.uk/~mitchum/courses/Multivariate/
top related