introdução à análise de dados...

22

Upload: truongdung

Post on 27-Dec-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Introdução à análise de dados agronômicos

Anderson R Silva

Programa de Pós-Graduação em Estatística e Experimentação AgronômicaESALQ/USP

29 e 30 de julho de 2013

Page 2: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Dia 1 - Conteúdo

1 Softwares estatísticos

2 ANOVA e testes post-hoc

3 Correlação e Regressão

Page 3: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Softwares

Alguns softwares recomendados:

• R (Livre) /www.r-project.org/

• SAS (SAS Institute Inc.) /www.sas.com/

• Statistica (StatSoft Inc.) /www.statsoft.com/

• Minitab (Minitab Inc.) /www.minitab.com/

• Action = Excel + R (Livre) /www.portalaction.com.br/

Page 4: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Software R

Porque usar o R?

• Gratuito

• Linguagem de programação

• Grá�cos1 de alta qualidade em 2 e 3D

• Suporta grandes bancos de dados

• Grande quantidade de pacotes disponíveis (atual: 4689)

• Maior �exibilidade de análise

• Grande aceitação pela comunidade cientí�ca

1Para demonstrações grá�cas, digite os comandos

demo(graphics) e demo(persp)

Page 5: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Pacotes do R

Alguns pacotes recomendados para análise de dados experimentais:

• ExpDes (Ferreira, et al. 2013)

• agricolae (Mendiburu, 2012)

Use o comando para saber como citar...

• o software R: citation()

• um pacote do R: citation(�nome do pacote�)

Page 6: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Exemplo 1: fatorial

Descrição do experimento:

• Fator 1: 2 sistemas de irrigação

• Fator 2: 5 cultivares de milho

• 4 repetições

• Delineamento: blocos casualizados

• Respostas: altura das plantas (cm) e rendimento de grãos (kg/ha)

Os fatores 1 e 2 afetam signi�cativamente a altura de plantas? e o rendimento degrãos?Existe interação entre os fatores? Se sim, como ela ocorre?

Page 7: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Exemplo 2: split plot

Descrição do experimento:

• Fator primário: 2 sistemas de irrigação

• Fator secundário: 3 cultivares de milho

• 4 repetições

• Delineamento: blocos casualizados

• Respostas: altura das plantas (cm) e rendimento de grãos (kg/ha)

Os fatores 1 e 2 afetam signi�cativamente a altura de plantas? e o rendimento degrãos?Existe interação entre os fatores? Se sim, como ela ocorre?

Page 8: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Correlação

A correlação é uma medida do grau de associação linear entre duas variáveis X e Y .Na análise de correlação não há diferenciação da variáveis, isto é, ambas sãotratadas como dependentes ou resposta.Dados n pares de valores (xi , yi ), o coe�ciente de correlação de Pearson2 é dado por:

r =

∑ni=1 xiyi − nx y∑ni=1 x

2i − nx2

No R, use a função: cor(x, y).

2Esse coe�ciente é indicado para variáveis normais ou, no mínimo, contínuas.

Para variáveis discretas ou categóricas são indicadas as correlações não paramétricas de Spearman

ou de Kendall.

Page 9: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Correlação

O valor da correlação amostral pode ser testado usando a estatística t-Student:

t =r√n − 2√1− r2

∼ t(n − 2)

cujas hipóteses associadas são:

H0 : ρ = 0

H1 : ρ 6= 0

No R, use a função: cor.test(x, y).

Page 10: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Exemplo 3

Considere os dados de rotação do motor (em rpm) e consumo de combustível (emL) de um trator acoplado a algum implemento agrícola:

Rotação Consumo

1600 5.581700 7.711900 9.242000 9.732200 10.44

Pode-se a�rmar que a verdadeira correlação (ρ) entre essas variáveis é não nula?

Page 11: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Correlação de dados experimentais

Ver script �cor_experimental.r�

Page 12: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Correlação de dados experimentais

Sejam as variáveis resposta altura de plantas (cm) e rendimento de grãos (kg/ha),obtidas do experimento descrito no Exemplo 1.

• Qual é o valor da correlação de Pearson entre essas variáveis resposta?

• Esse valor é signi�cativo com α = 0, 05?

Page 13: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Regressão linear simples

Aos dados do Exemplo 3, veri�que (via grá�co de dispersão) se é razoável ajustar omodelo de regressão linear simples:

Yi = β0 + β1Xi + εi

Interprete os valores das estimativas β0 e β1.

Page 14: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Exemplo 4

Descrição do experimento:

• Tratamento: Doses de biofertilizante (0, 8.5, 17, 34, 68, 136 L)

• 4 repetições

• Delineamento: blocos casualizados

• Resposta: produção de feijão (kg/ha)

Ajustar um modelo de regressão para explicar a variação das médias de tratamentoem função da dose.

Page 15: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Regressão linear múltipla

Modelo estatístico

Yi = β0 + β1X1i + β2X2i + ...+ βkXki + εi

Estimador de mínimos quadrados:

β = (X′X)−1X′Y

Page 16: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Page 17: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Regressão linear múltipla

Teste t para os parâmetros

t =βj√

Var(βj)∼ tGLres

em que: Var(βj) = (X′X)−1jj QMres

Hipóteses

H0 : βj = 0

H1 : βj 6= 0

Page 18: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Superfície de resposta

De forma geral, um modelo de superfície de resposta é um modelo de regressãolinear múltiplo.Seja Y a variável resposta e sejam duas variáveis explanatórias X1 e X2. O modelode superfície de resposta de primeira ordem é dado por:

Yi = β0 + β1X1i + β2X2i + εi

O modelo de segunda ordem é:

Yi = β0 + β1X1i + β2X2i + β3X21i + β4X

22i + β5X1iX2i + εi

Page 19: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Page 20: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Exemplo 5

Descrição do experimento:

• Tratamentos (variáveis explanatórias): Doses de... biofertilizante, N, K, P e Ca.

• 4 repetições

• Delineamento: blocos casualizados

• Resposta: produção de feijão (kg/ha)

Ajustar um modelo de superfície de resposta com aquelas variáveis explanatóriasque afetam signi�cativamente a produção de feijão.

Page 21: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Exemplo 6: regressão no fatorial do Exemplo 1

Descrição do experimento:

• Fator 1: 2 sistemas de irrigação

• Fator 2: 5 lâminas de irrigação

• 4 repetições

• Delineamento: blocos casualizados

• Respostas: altura das plantas (cm)

Os fatores 1 e 2 afetam signi�cativamente a altura de plantas?Existe interação entre os fatores? Se sim, como ela ocorre?

Page 22: Introdução à análise de dados agronômicosarsilva.weebly.com/uploads/2/1/0/0/21008856/curso_analise_dados.pdf · Introdução à análise de dados agronômicos Anderson R Silva

Introdução àanálise dedados

agronômicos

Anderson RSilva

Softwaresestatísticos

ANOVA etestespost-hoc

Correlação eRegressão

Exemplo 7: Regressão não-linear

Modelo estatísticoY = f (X , β) + ε

Condição de não linearidade

∂f (X , βj)

∂βj= f (βj)

Modelo para a tensão de préconsolidação do solo:

TP = 10β0+β1Umidade + ε