verificando as pressuposições do modelo estatístico · 2) erros devem ser independentes até...
TRANSCRIPT
Verificando as pressuposições
do modelo estatístico
1
Prof.a Dr.a Simone Daniela Sartorio de Medeiros
DTAiSeR-Ar
As pressuposições do modelo estatístico:
1) os efeitos do modelo estatístico devem ser aditivos;
2) os erros experimentais devem ser independentes;
3) os erros experimentais devem ser normalmente distribuídos;
4) os erros experimentais tem variâncias iguais.
5) Não ter a presença de outliers.
),0(~ 2Neij
2
Assim, se o modelo for apropriado, os resíduos devem refletir as propriedades
impostas pelo termo de erro do modelo.
As técnicas utilizadas para verificar as suposições podem ser informais (como
gráficos) ou formais (como testes). As técnicas gráficas, por serem visuais,
podem ser subjetivas e por isso técnicas formais são mais indicadas para a
tomada de decisão.
O ideal é combinar as técnicas formais e informais para o
diagnóstico de problemas nas suposições do modelo.
a) Análise de resíduos
4
Chamamos de Análise dos Resíduos um conjunto de técnicas
utilizadas para investigar a adequabilidade de um modelo com
base nos resíduos.
Resíduos ordinários
Resíduo padronizado
Resíduo estudentizado
é estimativa da variância residual sem a observação i.
Rsi ~ t (n–p–1) , onde n é o número de observações e p número de parâmetros.
iijij
iijiijijijij
mye
mmmytmyyye
ˆˆ
)ˆˆ(ˆ)ˆˆ(ˆˆ
Valor predito:
s
e
s
e
sQM
ed
ijijij
ij 2Re
)()( iji
ij
i
eV
eRs
)(ˆ)( ii rV
mmt iiˆˆˆ
iij tmy ˆˆˆ
5
Alguns tipos de Resíduos
0
–3
3
dij
ijy
Condição ideal: indica homogeneidade de variâncias (ou
homocedasticidade) e não apresenta outlier(s).
6
Análise de resíduos
A característica do gráfico construído, com os resíduos obtidos, pode fornecer
as orientações ou padrões quanto à identificação de possíveis inadequações do
modelo adotado, quando comparados com os gráficos apresentados a seguir:
Figura 1. Gráfico dos resíduos padronizados valores preditos
8
Normal
(proximidade da reta)
Gráfico quantil-quantil com envelope simulado
OBS:
Os erros para seguirem a
distribuição normal com média
zero e variância constante
devem estar próximos a reta
identidade e dentro do envelope
simulado.
1) Aditividade do modelo
Condição imposta pelo modelo, em que os diversos efeitos se somam.
A aditividade possibilita que os dados observados sejam sempre combinações
lineares dos efeitos investigados.
11
2) Erros devem ser independentes
Até certo ponto é garantido pela casualização.
Os efeitos de tratamentos sejam independentes, que não haja correlação
entre eles. Que uma parcela não influencie a outra. Isso significa que não se
pode dizer, em função da resposta obtida numa parcela, que a(s) parcela(s)
vizinha(as) terá(ão) respostas mais alta(s) ou mais baixa(s), a priori.
OBS1: Isso não ocorre quando os tratamentos são doses crescentes de proteína, fósforo,
fibra, adubos, inseticidas, fungicidas, herbicidas, etc. ocasião em que a análise de variância
deve ser feita estudando-se a regressão.
OBS2: Isso também não é verdade quando medimos na mesma parcela dados ao longo do
tempo.
OBS3: O simples fato de aleatorizar (sortear) as parcelas que receberão os tratamentos
diminui a dependência entre os erros.
OBS4: O sinal dos desvios no croqui experimental pode indicar dependência dos erros eij.
13
0
–3
0
–3
3 3
dij dij
ijy ijy
a) Os erros não são independentes,
correlação positiva entre os erros.
b) Os erros não são independentes,
correlação negativa entre os erros.
v
v v
14
Análise de resíduos
15
2.1.) Teste de Durbin-Watson
É utilizado para detectar a presença de autocorrelação (dependência) nos
resíduos de uma análise de regressão. Este teste é baseado na suposição de
que os erros no modelo de regressão são gerados por um processo
autoregressivo de primeira ordem.
Tarefa 1.
Pesquise e responda:
a) Quais são as hipóteses desse teste Durbin-Watson?
b) Qual é a estatística do teste?
c) Qual é a distribuição de probabilidade da estatística do teste?
d) Como se faz a decisão do teste?
Teste de independência
3) Erros normais
Os erros (eij) devem ser normalmente distribuídos. Isto implica em que as
observações (yij) se ajustam a uma distribuição normal dentro de cada
tratamento.
Isso pode ser verificado através de um teste de normalidade, como por
exemplo: a) Shapiro-Wilk; b) Lilliefors; c) Kolmogorov-Smirnov; e d) Teste
qui-quadrado, entre outros.
H0: os erros são normais
Ha: os erros não são normais
As hipóteses, em geral, desses testes são:
Decisão pelo valor-p - Regra prática:
Se o valor-p < Rejeita-se H0
Se o valor-p > Aceita-se H0
17
Nos software R avaliamos o valor da probabilidade (valor-p). Se o valor da
probabilidade for menor que o nível de significância (α) rejeitamos a hipótese
H0. Caso contrário, aceitamos H0.
O teste de Shapiro-Wilk é baseado na estatística W (0 < W ≤ 1). Valores
pequenos da estatística W levam a rejeitar a hipótese H0.
Conclusão:
Portanto, como o valor-p é 0,2359 > 0,05,
então, não rejeita-se H0, ou seja, os resíduos
padronizados seguem uma distribuição
Normal ao nível de 5% de significância.
No R:
shapiro.test(rstudent(mod))
Shapiro-Wilk normality test
Data: rstudent(mod)
W = 0.9396, p-value = 0.2359
18
3.1.) Teste de Shapiro-Wilk
Tarefa 2. Pesquise e responda:
a) Quais são as hipóteses desse teste Shapiro-Wilk?
b) Qual é a estatística do teste?
c) Qual é a distribuição de probabilidade da estatística do teste?
d) Como se faz a decisão do teste?
Teste de normalidade
19
3.2.) Teste de Lilliefors
3.3.) Teste Anderson-Darling
3.4.) Teste de Kolmogorov-Smirnov
3.5.) Teste Cramer-von Mises
3.6.) Teste de Shapiro-Francia
3.7.) Teste qui-quadrado para normalidade
Tarefa 3.
Pesquise e responda sobre os testes 3.2.); 3.3.); 3.4.); 3.5.); 3.6.) e 3.7.):
a) Quais são as hipóteses desse teste?
b) Qual é a estatística do teste?
c) Qual é a distribuição de probabilidade da estatística do teste?
d) Como se faz a decisão do teste?
Teste de normalidade
No R:
# Teste de Lilliefors (Kolmogorov-Smirnov)
require(nortest)
lillie.test(rstudent(mod))
# Teste Anderson-Darling
require(nortest)
ad.test(rstudent(mod))
# Teste de Kolmogorov-Smirnov
ks.test(rstudent(mod), "pnorm", mean(rstudent(mod)),
sd(rstudent(mod)))
# Teste Cramer-von Mises
cvm.test(rstudent(mod))
# Teste de Shapiro-Francia
sf.test(rstudent(mod))
20
Teste de normalidade
Pode ser verificada por um dos seguintes testes, dentre outros:
Teste de Hartley (ou Razão máxima, ou Teste F máximo)
Teste de Cochran
Teste de Bartlett
Teste de Levene
A variabilidade de um tratamento deve ser
semelhante à dos outros.
4) Homogeneidade de variâncias (ou homocedasticidade)
Os erros ou desvios (eij), devem possuir uma variância comum 2. Em outras
palavras,
Todos os
tratamentos
devem ter o
mesmo n.o de
repetições. Usado mesmo quando se tem
n.o diferente de repetições por
tratamento, mas exige
normalidade dos dados.
IiiiiH
H
ii
I
,...,2,1',,',!:
...:
2
'
2
1
22
2
2
10
(Variâncias homogêneas)
(Variâncias heterogêneas)
As hipóteses desses testes são:
22
4.1.) Teste de Hartley
(ou Razão máxima, ou Teste F máximo)
2
min
2
s
sF máx
calc
Calcula-se as variâncias dentro de cada tratamento e faz-se a razão máxima:
Considerando um nível α de significância, consulta-se a tabela específica do
Teste de Hartley com:
Ftab = H(I,J –1),
onde I é o número de tratamentos e J é número de repetições. Considerando um
nível α de significância, consulta-se a tabela específica com:
Fcalc ≥ Ftab Rejeita H0 ao nível..., concluindo que....
Fcalc < Ftab Aceita H0 ao nível..., concluindo que....
Regra prática:
4 para 1
Ou
7 para 1
OBS: Todos os tratamentos
devem ter o mesmo n.o de
repetições.
23
Tarefa 4:
Faça o teste para o experimento com as 4 variedades de milho (DIC),
feito em sala. Apresente as hipóteses, etc...e conclua o teste.
Teste de homocedasticidade
I
i
i
máxcalc
s
sC
1
2
2
4.2.) Teste de Cochran
Considerando um nível α de significância, consulta-se a tabela específica do
Teste de Cochran com I e (n – 1) graus de liberdade associado a essas
estimativas. Assim, se:
Ccalc ≥ Ctab Rejeita H0 ao nível..., concluindo que....
Ccalc < Ctab Aceita H0 ao nível..., concluindo que....
OBS: Todos os tratamentos
devem ter o mesmo n.o de
repetições.
24
Tarefa 5: Faça o teste para o experimento com as 4 variedades de milho (DIC),
feito em sala. Apresente as hipóteses, etc...e conclua o teste.
Teste de homocedasticidade
2
)1(
1
2
1
2
~1
1
1
)1(3
11
log1log3026,2
II
i i
i
I
i
i
InnI
snsIn
K
4.3.) Teste de Bartlett
Sendo α o nível de significância; I é o número de estimativas de variâncias; é a
média ponderada dos . Temos que a estatística do teste é dada por:
Se Kcalc ≥ Rejeita H0 ao nível..., concluindo que....
Caso, contrárioKcalc < Aceita H0 ao nível..., concluindo que....
OBS: Usado
mesmo quando se
têm n.o diferentes de
repetições por
tratamento, mas
exige normalidade
dos dados.
2
);1( I
2
);1( I
2s2
is
25
Tarefa 6:
Faça o teste para o experimento com as 4 variedades de milho
(DIC), feito em sala. Apresente as hipóteses, etc...e conclua o teste.
No R:
bartlett.test(y ~ trat, data=DIC)
Bartlett test of homogeneity of variances
data: y by trat
Bartlett's K-squared= 6.2881, df= 8, p-value= 0.615
No R:
require(car)
leveneTest(y ~ trat, data=DIC)
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 8 0.2901 0.9604
18
26
4.4.) Teste de Levene
OBS: O teste de Levene é mais eficiente que o teste de Bartlett quando
rejeitamos a hipótese de normalidade dos dados.
Este teste foi proposto por Levene em 1960. O procedimento consiste em fazer uma
transformação dos dados originais e aplicar aos dados transformados o teste da ANOVA.
Tarefa 7. Pesquise e responda:
a) Quais são as hipóteses desse teste de Levene?
b) Qual é a estatística do teste?
c) Qual é a distribuição de probabilidade da estatística do teste?
d) Como se faz a decisão do teste?
e) Considere a saída do software R acima e conclua o teste.
Análise de resíduos
0
–3
0
–3
3 3
dij dij
ijy ijy
a) Heterocedasticidade, a variância
decresce com .
b) Heterocedasticidade, a variância
cresce com .
v
v
v
v
ijy ijy
27
Padrão que indica heterogeneidade de variância
d) Heterocedasticidade, a variância
decresce quando tende para a média.
0
–3
0
–3
3 3
dij dij
ijy ijy
c) Heterocedasticidade, a variância
cresce quando tende para a média. ijy
ijy
28
Análise de resíduos
• Possíveis inadequações podem ser identificadas abaixo.
Itens:
a) situação ideal, b) e c) modelo não linear; d) elemento atípico,
e), f) e g) heterocedasticidade e h) não-normalidade 29
Figura 1. Boxplot sem observações
atípicas.
a) Boxplot
31
8 10 12 14
Figura 2. Boxplot com observações
atípicas.
32
Normal
(proximidade da reta)
b) Gráfico quantil-quantil com
envelope simulado c) Predito Resíduo
Aleatório, sem padrão