ANOVA: Análise de VariânciaComparação entre tratamentos
Prof. Hani Camille Yehia
Alunos: Augusto Filho
Cléia do N. Cavalcante
Programa de Pós-Graduação em Engenharia Elétrica
Disciplina: Introdução ao Processo Estocástico
Roteiro1. Introduçao
2. Modelo de ANOVA
3. Verificaçao da suposiçoes do Modelo
4. Estimaçao dos parametros do Modelo
5. Métodos de Comparaçao Múltipla
6. Exemplo
Comparação entre tratamentosÉ uma técnica de teste de hipóteses usada para comparar as médias de três ou mais populações.
ANOVA
Sir Ronald A. Fisher (1890-1962)
A técnica de análise de variância foi desenvolvida principalmente pelo
estatístico inglês Ronald A. Fisher, a partir de 1918.
PREVISÍVEL: é expressada por uma função matemática com
parâmetros desconhecidos.
ALEATÓRIO: assumimos uma estrutura de probabilidade; um
modelo de probabilidade conhecido.
OBSERVAÇÃO = PREVISÍVEL + ALEATÓRIO
Uma das preocupações estatísticas ao analisar dados, é a de criar modelos
que explicitem estruturas do fenômeno em observação. A identificação
dessas estruturas permite conhecer melhor o fenômeno, bem como fazer
afirmações sobre possíveis comportamento do mesmo.
A Análise de VariânciaSuponha que tenhamos k populações envolvidas, sendo extraída de cada
uma delas amostras aleatória de tamanho n. A resposta para cada um dos
tratamentos é uma variável aleatória.
Tratamento Observações Soma Médias
1 y11 y12 ... y1n y1.
2 y21 y22 ... y2n y2.
. . . … . . .
. . . ... . . .
. . . … . . .
k yk1 yk2 ... ykn Yk .
y.. ..y
.1y
.2y
.ky
Modelo ANOVA
Yij ; é valor da variável resposta na j-ésima observação do i-ésimo tratamento.
: é a a média geral de todos os tratamentos;
i : é o efeito do i-ésimo tratamento;
eij: é o erro aleatório.
ijiij ey i = 1, 2, 3, ...,kj = 1, 2, ..., n
As amostra são aleatórias e independentes;
As populações têm distribuições normais;
As populações têm a mesma variância.
Pressuposições Básicas:
Suposições adotadas para o comportamento das populações
Hipóteses
Testar se as medias são iguais ou não:
H0 = 1 = 2 = ... = k = 0
H1 = i 0 , para pelo menos um i
ijiij ey ijij ey
As observaçõesSob H1:Sob H0:
Hipóteses e modelo subjacente
Sob H0: 1 = 2 =...= k = 0
ijiij ey ijij ey
Hipóteses e modelo subjacente
Sob H1: i 0 para algum i
ijiij ey
Para testar as hipóteses anteriores, baseia-se em uma análise da
variabilidade total dos dados das k amostras, dado pela soma de
quadrados total.
Decomposição da soma de quadrados total
k
1i
k
1i
n
1j
2.
2...
k
1i
n
1j
2..ij )()(n )yy( iiji yyyy
SQTOTAL = SQTRAT + SQERRO
k
i
n
jijTot N
yySQ
1 1
2..2 gl = N - 1
onde: N = nk
Soma de quadrados total: Graus de liberdade:
Decomposição da soma de quadrados total
Soma de quadrados dos tratamentos: Graus de liberdade:
N
y
n
ySQ
k
i i
iTRAT
2..
1
2.
gl = k - 1
Graus de liberdade:
gl = k(n-1)
Soma de quadrados do erro:
SQERRO = SQTotal - SQTRAT
SQTOTAL = SQTrat + SQERRO
Graus de liberdade:
SQT tem kn-1 graus de liberdade;
SQTratamentos tem K-1 g.l.
SQerro tem k(n-1) g.l.
Quadrados médios: )1(
1
nk
SQQM
k
SQQM ERRO
ERROTRAT
TRAT
Estatística de Teste:
ERRO
TRAT
QM
QMF
Tabela de Análise de Variância – (ANOVA)
Fonte de Variação
Soma de Quadrados
glQuadrados
MédiosF
Tratamentos k-1
Erro K(n-1)
Total Kn -1
N
y
n
ySQ
k
i i
iTRAT
2..
1
2.
k
i
n
jijTotal N
yySQ
1 1
2..2
1
k
SQQM TRAT
TRAT
)1(
nk
SQQM ERRO
ERRO
ERRO
TRAT
QM
QMF
SQERRO = SQTotal - SQTRAT
Rejeito Ho se: F > F (k – 1; k(n - 1)
Não rejeita Ho se: F F (k – 1; k(n - 1)
Valor-p
Regra de decisão: Abordagem Clássica
Regra de decisão: Abordagem Valor-p
Valor-p
Valor-p >
rejeita H0 (prova-se estatisticamente H1)
Não rejeita H0 (os dados não mostram evidência para afirmar H1)
= nível de significância (probab. tolerável de se rejeitar Ho quando esta for verdadeira)
Usual: = 5%
Estimação Pontual
k
iik
y1
...
1ˆ
n
iijii y
ny
1.
1̂
.. jiji yy
ErroQM2̂
Média Geral:
Média do Tratamento:
Diferença entre a Média do
Tratamento:
Variância:
Estimação Intervalar
i)1(,2/. Média nty RESQM
nki
médias entre Diferença)(2
)1(,2/.. ntyy RESQM
nkji
Métodos de Comparações Múltiplas Métodos de Duncan
1. Ordenar de forma crescente as k médias amostrais dos tratamentos.
2 Estimar o desvio padrão de cada média.
3. Obter da tabela de Duncan os valores de:
onde: = nível de significância
f = nº de graus de liberdade de SQerro
p = nº de médias envolvidas na
comparação
Procedimento
n
QMS ERRO
iy
.
),( fpv
Métodos de Duncan 4. Calcular as amplitudes mínimas:
5. Testar as diferenças observadas entre as médias, fazendo as seguintes comparações:
.),(
iypSfpvR
kmenormaior Ryy )(
1ª2 )( kmenormaior Ryy
2/)1(ª2 )( kkmenormaior Ryy
6. Regra de Decisão:
Se a diferença observada entre elas for > que Rp, concluir que as
médias médias que constituem um par são significativamente
diferentes.
Verificação da Adequação do Modelo
Um resíduo é definido como:
Resíduo: A diferença entre uma observação e a média do
tratamento correspondente.
iijij yye
As suposições associadas ao modelo, é feita através da analise dos resíduos:
1. Os erros tem média zero e a mesma variância 2;
2. Os erros são independentes, ou seja, um valor de um erro não depende
de qualquer outro erro;
3. Os erros têm distribuição normal.
Logo, os erros são iid N(0, 2).
Verificação da Adequação do Modelo
• Suposição de Independência
Gráfico de Resíduos vs Ordem
• Suposição de Igualdade de Variância
Gráfico de Resíduos vs Médias dos
Tratamentos
• Suposição de Normalidade
Gráfico de Probabilidade Normal
ExemploUm trabalho no periódico Journal of the Association of Asphalt Paving Technologists (Vol. 59, 1990) descreve um experimento com o ojbetivo de determinar o efeito de bolhas de ar sobre a percentagem da resistência residual do asfalto. Para finalidades do experimento, bolhas de ar são controladas em três níveis: baixo (2-4%), médio (4-6%) e alto (6-8%). Os dados são mostrados na seguinte tabela:
Bolhas de Ar Resistência Residual (%)
Baixa 106 90 103 90 79 88 92 95
Média 80 69 94 91 70 83 87 83
Alta 78 80 62 69 76 85 69 85
Os diferentes níveis de bolhas de ar afetam significativamente a resistência média ?
Boxplot
Niveis
resi
stenci
a
MédiaBaixaAlta
110
100
90
80
70
60
Boxplot of resistencia vs Niveis
1 – Passo: Formulação das Hipóteses
2 – Passo: Fixar o nível de significância do teste e encontrar o
valor de F_tab com 2 g.l no numerador e 21 g.l no denominador.
Logo o valor tabela foi encontrado como
Tabela F
Ftab
3 – Passo: Definir a região crítica e a região de não rejeição:
4 – Passo: O cálculo da Estatística de Teste:
erro
tratcal QM
QMF
Para encontrarmos o F calculado, será criada uma tabela de análise de variância.
A soma quadrática entre tratamentos é:
A soma quadrática do erro é obtida pela subração como:
5 – Passo: Conclusão
Podemos também encontrar um valor P para essa estatística de teste.
Ao nível de 1% de significância existem evidências amostrais que nos levam a rejeição da hipótese nula, ou seja, os diferentes níveis de bolhas de ar afetam significativamente a resistência média retida.
Já que p=0,001 e menor que 0,01, temos evidencias que nos levam a rejeição de Ho
Tabela da ANOVA
O gráfico ao lado mostra a região crítica ao nível de 1% de significância, e a região de não rejeição ao nível de 99% de confiança. É possível vermos o p-valor calculado manualmente. O MINITAB, obtém o mesmo resultado.
Estimação Pontual
Com o objetivo de obter mais informações sobre a diferença existente nos efeitos da bolha de ar sobre a percentagem da resistência residual do asfalto, calculou-se as seguintes estimativas para os parâmetros de interesse:
Niveis
resi
stenci
a
MédiaBaixaAlta
100
95
90
85
80
75
70
Interval Plot of resistencia vs Niveis95% CI for the Mean
Diferenças entre as Resistências médias residuais por níveis:
Intervalos de Confiança para a diferença entre médias
Se o intervalo contiver o valor zero, podemos concluir com 100(1-alpha)% de confiança que não há diferença estatisticamente significativa entre as médias consideradas.
Baixo e Médio
O intervalo contém o valor zero, o que nos leva a concluir com 99% de confiança que a média da resistência Residual Baixa não difere estatísticamente da resistência Residual Média.
Baixo e Alta
Como o intervalo não contém o zero, rejeita-se a hipótese nula, ou seja, podemos concluir com 99% de significância que a média da resistência residual baixa é maior que a média da resistência residual alta.
Média e Alta
Como o intervalo contém o zero, o que nos permite concluir com 99% de confiança que a resistência residual média não difere estatisticamente da resistência residual alta.
Método de Comparações MúltiplasMétodo de Duncan
1 – Passo: Médias em Ordem Crescente
2 – Passo: Calcular o desvio padrão
3 – Passo: Ver valor tabelado de Duncan
4 – Passo: Calcular as amplitudes significativas mínimas (Rp)
5 – Passo: Testar as diferenças observadas entre as médias
6 – Passo: Conclusão
A partir da utilização do Método de Duncan, foi possível concluir com 99% de confiança que a média de Resistëncia Residual para os níveis MÉDIA e ALTO são equivalentes e INFERIORES a dureza média da resistência residual para o nível BAIXO.
Suposições do Modelo
Residual
Perc
ent
20100-10-20
99
90
50
10
1
Fitted Value
Resi
dual
9590858075
10
0
-10
Residual
Fre
quency
12840-4-8-12
4
3
2
1
0
Observation Order
Resi
dual
24222018161412108642
10
0
-10
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
Residual Plots for resistencia
Referência:Analysis of Variance Tables Based on Experimental Structure C. J. Brien, Biometrics, Vol. 39, No. 1 (Mar., 1983), pp. 53-59 FISHER, R. A. The logic of inductive inference. J. R. Stat. Soc., v.98, p.34-54, 1935. MONTGOMERY, D.C. 1988. Design and analysis of experiments. 2nd. John Wiley & Sons, New York, USA. SNEDECOR, C.W. and W.G. COCHRAN, 1980. Statistical Methods. 7ed. Iowa State University Press, Amer. Iowa. USA. FISHER, R.A. Statistical Methods for Research Workers. 11ª ed. Oliver & Boyd, Edinburgo. 1950. Gamerman, D. & Migon, H. (1993). Inferência estatística: uma abordagem integrada, Textos de métodos matemáticos, UFRJ. James F. Reed III: Analysis of Variance (ANOVA) Models in Emergency Medicine. The Internet Journal of Emergency and Intensive Care Medicine. 2004. Volume 7 Number 2. http://www.ispub.com/ostia/index.php?xmlFilePath=journals/ijeicm/vol7n2/anova.xml