introdução à análise de dados...

21

Upload: truongque

Post on 18-Jan-2019

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Introdução à análise de dados agronômicos

Anderson R Silva

Programa de Pós-Graduação em Estatística e Experimentação AgronômicaESALQ/USP

29 e 30 de julho de 2013

Page 2: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Dia 2 - Conteúdo

1 Introdução à estatística multivariada

2 Análise exploratória

3 Inferências para vetores de médias

Page 3: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Dados multivariados

• Estrutura: n observações tomadas de p variáveis resposta.

• É imprescindível a presença de correlação entre as respostas.

• Divide-se em: análise exploratória ou de simpli�cação (ACP, AF ...) e técnicasde inferência (teste T2, MANOVA, ...).

Obs.: regressão múltipla não signi�ca regressão multivariada!

Page 4: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Análise exploratória

• Grande apelo prático.

• Divide-se basicamente em: métodos grá�cos e métodos matemáticos deredução dimensional.

• Muitas vezes dispensam procedimentos inferenciais!

Page 5: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Métodos grá�cos

Três métodos grá�cos bastante úteis são:

• Draftsman

• Faces de Cherno�1

• Grá�co de estrelas2

1 Pacote R: �TeachingDemos�2 Pacote R: �graphics�

Page 6: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Exemplo 1

Considere dados de 20 acessos de alho cujas seguintes variáveis foram mensuradas:diâmetro, comprimento, peso médio do bulbo e área foliar.Visualmente, é possível caracterizar os acessos?

Page 7: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Técnicas de redução dimensional

• Solução para o problema de representar muitas (digamos >10) variáveis.

• Construção de variáveis índices, da forma:

Z = a1X1 + a2X2 + ...+ apXp

• São exemplos: componentes principais, análise de fatores, análisediscriminante, escalonamento multidimensional, etc.

• Em geral, objetiva-se representar os n objetos com os valores de 2 ou 3variáveis índices com a menor perda possível da informação das p variáveis.

Page 8: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

ACP

• Provavelmente o mais simples e mais utilizado dos métodos multivariados.

• O objetivo é, a partir de p variáveis resposta, construir p variáveis índices(chamados componentes principais) que sejam não correlacionadas e quedescrevam a variação dos dados.

• A falta de correlação signi�ca que os dados estão medindo diferentesdimensões dos dados.

• A ordem de importância dos componentes principais (Z) é tal que:

Var(Z1) ≥ Var(Z2) ≥ ... ≥ Var(Zp)

sendo Var(Zj) = λj , o autovalor do j-ésimo componente principal.

Page 9: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Procedimento da ACP

Seja X (n × p) a matriz de dados. O primeiro componente principal é a seguintecombinação linear:

Z1 = a11X1 + a12X2 + ...+ a1pXp

sujeito à norma:a211 + a212 + ...+ a21p = 1

Analogamente, o segundo componente principal é:

Z2 = a21X1 + a22X2 + ...+ a2pXp

também sujeito a mesma norma, e assim por diante.

Page 10: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Procedimento da ACP

O problema consiste em determinar os coe�cientes a que constituem os autovetoresdos CP's. Os cálculos são baseados na matriz R de correlações entre as p variáveis(ou na matriz S de covariâncias), a partir da equação característica:

(R − λj I )aj = 0

Os escores dos CP's são obtidos por:

Z j = Xaj

A proporção da variância total de X que é explicada pelo j-ésimo CP é de�nida por:

Var(Zj)

Var .total(X )=

λj∑pj λj

Page 11: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Interpretando uma ACP

A interpretação dos CP's deve ser feita em termos das magnitudes dos coe�cientesa, isto é, do seu autovetor.É esperado que, quando a análise tenha sido bem suscedida, os 2 ou 3 primeirosCP's expliquem conjuntamente 80 ou 90% da variação dos dados (não é umaregra!).Quando se realiza a análise a partir da matriz de correlações, outro critério éescolher áqueles componentes cujo autovalor é maior que 1.Os escores dos CP's retidos podem ser plotados em grá�cos 2 ou 3D para o estudodas relações entre os n indivíduos.

Page 12: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Exemplo 2

Utilize os dados de alho (Exemplo 1) para realizar a ACP a partir da matriz decorrelações.

Page 13: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

MANOVA: Análise de variância multivariada

• ANOVA aplicada simultaneamente à todas as variáveis resposta.

• No caso univariado decompoe-se somas de quadrados, no caso multivariado oprocedimento é análogo, com a diferença que a variabilidade é computada edecomposta em matrizes de somas de quadrados e produtos cruzados

(MSQPC).

Por exemplo, para 3 variáveis resposta tem-se a seguinte matriz de MSQPC:SQtotal(y1) aSPtotal(y1, y2)SPtotal(y1, y3)

SPtotal(y2, y1) aSQtotal(y2)SPtotal(y2, y3)SPtotal(y3, y1) aSPtotal(y3, y2)SQtotal(y3)

Page 14: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

MANOVA: Análise de variância multivariada

Modelo estatístico de um experimento em DIC:

Y ij = µ+ t i + εij

Exigências semelhantes ao caso univariado são feitas.

Page 15: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Tabela da MANOVA

FV GL MSQPCTratamento t − 1 B

Resíduo n − t W

Total n − 1 T

Page 16: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Hipótese em teste

H0 : µ1 = µ2 = ... = µt

No caso univariado a estatística F é usada para testar H0. No multivariado, quatroestatísticas são comumente usadas.

Page 17: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Estatísticas teste

• Lambda de Wilks

• Maior raiz de Roy

• Traço de Pillai

• Traço de Lawley-Hotelling

Para todas elas, aproximações pela distribuição F são feitas para testar H0

apresentada.Embora o lambda de Wilks seja bastante popular, nenhuma delas pode serconsiderada como a melhor.

Page 18: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Maior raiz de Roy

Aproximação pela estatística F

F =ν2ν1λ1

d→ F (ν1, ν2)

em queν1 = max(p, t − 1),ν2 = n − t − ν1 − 1,λ1 é o maior autovalor da matriz W−1

B.

Page 19: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Exemplo 3

Descrição do experimento:

• Tratamento: 6 cultivares de alho

• 4 repetições

• Delineamento: inteiramente ao acaso

• Respostas: diâmetro, comprimento, peso médio do bulbo e área foliar.

Há diferenças signi�cativas entre os vetores de médias de tratamentos.

Page 20: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Função discriminante

Dada uma MANOVA para p variáveis resposta (Y1,Y2, ...,Yp), uma funçãodiscriminante canônica ou variável canônica, uma combinação linear das variáveisresposta da forma

Z = a1Y1 + a2Y2 + ...+ apYp

Page 21: Introdução à análise de dados agronômicosarsilva.weebly.com/.../_curso_analise_dados_dia2.pdfIntrodução à análise de dados agronômicos Anderson R Silva Introdução à estatística

Introdução àanálise dedados

agronômicos

Anderson RSilva

Introdução àestatísticamultivariada

Análiseexploratória

Inferênciaspara vetoresde médias

Testes post-hoc via função discriminante

Quando a variável canônica retém grande parte da proporção, digamos 70 ou 80%,uma análise de variância univariada pode ser realizada utilizando os valores dessavariável e o quadrado médio do resíduo para realizar testes de médias.