introdução à análise de dados agronômicos e uso do...

23

Upload: truongkhuong

Post on 28-Aug-2018

232 views

Category:

Documents


0 download

TRANSCRIPT

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Introdução à análise de dados agronômicos e uso do software R

Anderson R Silva

Programa de Pós-Graduação em Estatística e Experimentação AgronômicaESALQ/USP

25 a 30 de novembro de 2013

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Parte 6 - Conteúdo

1 Introdução à estatística multivariada

2 Análise exploratóriaMétodos grá�cosACPPCR

3 Inferências para vetores de médiasMANOVAExemplo de aplicaçãoVariável canônica

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Dados multivariados

• Estrutura: n observações tomadas de p variáveis resposta.

• É imprescindível a presença de correlação entre as respostas.

• Divide-se em: análise exploratória ou de simpli�cação (ACP, AF ...) e técnicasde inferência (teste T2, MANOVA, ...).

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Análise exploratória

• Grande apelo prático.

• Divide-se basicamente em: métodos grá�cos e métodos matemáticos deredução dimensional.

• Muitas vezes dispensam procedimentos inferenciais!

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Métodos grá�cos

Três métodos grá�cos bastante úteis são:

• Draftsman

• Faces de Cherno�1

• Grá�co de estrelas2

1 Pacote R: TeachingDemos2 Pacote R: graphics

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Exemplo 1

Considere dados de 20 acessos de alho cujas seguintes variáveis foram mensuradas:diâmetro, comprimento, peso médio do bulbo e área foliar.Visualmente, é possível caracterizar os acessos?

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Técnicas de redução dimensional

• Solução para o problema de representar muitas (digamos >10) variáveis.

• Construção de variáveis índices, da forma:

Z = a1X1 + a2X2 + ...+ apXp

• São exemplos: componentes principais, análise de fatores, análisediscriminante, escalonamento multidimensional, etc.

• Em geral, objetiva-se representar os n objetos com os valores de 2 ou 3variáveis índices com a menor perda possível da informação das p variáveis.

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

ACP

• Provavelmente o mais simples e mais utilizado dos métodos multivariados.

• O objetivo é, a partir de p variáveis resposta, construir p variáveis índices(chamados componentes principais) que sejam não correlacionadas e quedescrevam a variação dos dados.

• A falta de correlação signi�ca que os dados estão medindo diferentesdimensões dos dados.

• A ordem de importância dos componentes principais (Z) é tal que:

Var(Z1) ≥ Var(Z2) ≥ ... ≥ Var(Zp)

sendo Var(Zj) = λj , o autovalor do j-ésimo componente principal.

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Procedimento da ACP

Seja X (n × p) a matriz de dados. O primeiro componente principal é a seguintecombinação linear:

Z1 = a11X1 + a12X2 + ...+ a1pXp

sujeito à norma:a211 + a212 + ...+ a21p = 1

Analogamente, o segundo componente principal é:

Z2 = a21X1 + a22X2 + ...+ a2pXp

também sujeito a mesma norma, e assim por diante.

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Procedimento da ACP

O problema consiste em determinar os coe�cientes a que constituem os autovetoresdos CP's. Os cálculos são baseados na matriz R de correlações entre as p variáveis(ou na matriz S de covariâncias), a partir da equação característica:

(R − λj I )aj = 0

Os escores dos CP's são obtidos por:

Z j = Xaj

A proporção da variância total de X que é explicada pelo j-ésimo CP é de�nida por:

Var(Zj)

Var .total(X )=

λj∑pj λj

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Interpretando uma ACP

A interpretação dos CP's deve ser feita em termos das magnitudes dos coe�cientesa, isto é, do seu autovetor.É esperado que, quando a análise tenha sido bem suscedida, os 2 ou 3 primeirosCP's expliquem conjuntamente 80 ou 90% da variação dos dados (não é umaregra!).Quando se realiza a análise a partir da matriz de correlações, outro critério éescolher áqueles componentes cujo autovalor é maior que 1.Os escores dos CP's retidos podem ser plotados em grá�cos 2 ou 3D para o estudodas relações entre os n indivíduos.

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Exercício

Utilize os dados de alho (Exemplo 1) para realizar a ACP a partir da matriz decorrelações.

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

PCR: principal component regression

• Consiste em ajustar modelos de regressão linear em função dos escores doscomponentes principais

• Indicado quando há problemas de multicolinearidade

• Indicado quando o número de variáveis é grande ou mesmo superior ao n

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

PCR - exemplo

Supõe-se que a produtividade de alho possa ser explicada por variáveis morfológicas.Utilize os dados do exemplo 1 (dados de alho) para ajustar um modelo PCR parapredizer a produtividade de alho.

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

MANOVA: Análise de variância multivariada

• ANOVA aplicada simultaneamente à todas as variáveis resposta.

• No caso univariado decompoe-se somas de quadrados, no caso multivariado oprocedimento é análogo, com a diferença que a variabilidade é computada edecomposta em matrizes de somas de quadrados e produtos cruzados

(MSQPC).

Por exemplo, para 3 variáveis resposta tem-se a seguinte matriz de MSQPC:

MSQPCTotal =

SQtotal(y1) SPtotal(y1, y2) SPtotal(y1, y3)SPtotal(y2, y1) SQtotal(y2) SPtotal(y2, y3)SPtotal(y3, y1) SPtotal(y3, y2) SQtotal(y3)

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

MANOVA: Análise de variância multivariada

Modelo estatístico de um experimento em DIC:

Y ij = µ+ t i + εij

Exigências semelhantes ao caso univariado são feitas.

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Tabela da MANOVA

FV GL MSQPCTratamento t − 1 B

Resíduo n − t W

Total n − 1 T

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Hipótese em teste

H0 : µ1 = µ2 = ... = µt

No caso univariado a estatística F é usada para testar H0. No multivariado, quatroestatísticas são comumente usadas.

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Estatísticas teste

• Lambda de Wilks

• Maior raiz de Roy

• Traço de Pillai

• Traço de Lawley-Hotelling

Para todas elas, aproximações pela distribuição F são feitas para testar H0

apresentada.Embora o lambda de Wilks seja bastante popular, nenhuma delas pode serconsiderada como a melhor.

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Maior raiz de Roy

Aproximação pela estatística F

F =ν2ν1λ1

d→ F (ν1, ν2)

em queν1 = max(p, t − 1),ν2 = n − t − ν1 − 1,λ1 é o maior autovalor da matriz W−1

B.

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Exemplo 2

Descrição do experimento:

• Tratamento: 6 cultivares de alho

• 4 repetições

• Delineamento: inteiramente ao acaso

• Respostas: diâmetro, comprimento, peso médio do bulbo e área foliar.

Há diferenças signi�cativas entre os vetores de médias de tratamentos.

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Variável canônica

Dada uma MANOVA para p variáveis resposta (Y1,Y2, ...,Yp), uma funçãodiscriminante canônica ou variável canônica, uma combinação linear das variáveisresposta da forma

Z = a1Y1 + a2Y2 + ...+ apYp

Introdução àanálise dedados

agronômicose uso dosoftware R

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Métodosgrá�cosACPPCR

Inferênciaspara vetoresde médias

MANOVAExemplo deaplicaçãoVariávelcanônica

Testes post-hoc via função discriminante canônica

Quando a variável canônica retém grande parte da proporção, digamos 70 ou 80%,uma análise de variância univariada pode ser realizada utilizando os valores dessavariável e o quadrado médio do resíduo para realizar testes de médias.