de/ufpb - universidade federal motivaÇÃo da paraÍba › ~tarciana › mpie › aula18.pdf ·...
TRANSCRIPT
1
UNIVERSIDADE FEDERALDA PARAÍBA
Departamento de EstatísticaLuiz Medeiros
Modelos de Probabilidade e Inferência Estatística
Análise de Variância – Parte 1
MOTIVAÇÃO
� Em uma experiência para comparar a eficiência dediversas técnicas no tratamento da dor produzida poruma intervenção cirúrgica superficial, 28 pacientesforam agrupados, ao acaso, em quatro grupos de setepacientes, tratando-se o primeiro com placebo e, osdemais, com dois tipos de analgésicos (A e B) eacupuntura.
� Os tratamentos são equivalentes?
� Que conclusões podem ser obtidas desta experiência?
� Situações frequentemente ocorrem nas quais em lugar deduas médias deseja-se comparar várias médias.
� Um dos métodos mais utilizados para resolver problemasdeste tipo é a análise de variância (ANOVA). Trata-se de ummétodo estatístico que por meio de teste de igualdade demédias, verifica se fatores produzem mudanças em algumavariável de interesse. Pode ser considerada uma extensão doteste t.
� Esse método consiste em analisar a variância entre as médiasdas populações com a variância dentro das populações.
EXPERIMENTOS COM UM ÚNICO FATOR: A ANÁLISE DE VARIÂNCIA (ANOVA) EXEMPLOS:
� Testar um determinado efeito terapêutico de trêsmétodos (GI, GII e GIII) de administração de uma drogaflebotrópica.
� Verificar se o grau de ansiedade é o mesmo, em trêsenfermidades diferentes.
� Verificar se três diferentes dietas surtem o mesmoefeito.
ALTERNATIVA:
� Testar 4 drogas diferentes (diuréticos) ao mesmo tempo eavaliar o efeito de cada droga sobre o débito urinário em16 voluntários.
� É possível realizar o teste t para comparar osgrupos 2 a 2 (6 testes separados)?
i) Perda de tempoii) Erro tipo I maior que o desejado
Obs: Não é adequado realizar o teste de igualdade demédia de várias amostras através de uma multiplicidadede testes de igualdade de médias de duas em duasamostras.
ANÁLISE DE VARIÂNCIA
Tabela 1- Dados gerais de um experimento com um único fator
Tratamentos
(níveis)
Observações Totais Médias
1
y11
y12
.
.
.
y1n
y1.
y1
2
y21
y22
.
.
.
y2n
y2.
y2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
g
yg1
yg2
.
.
.
ygn
yg.
yg
Obs: O número de observações em cada tratamento não precisam ser iguais.
2
Modelo estatístico
ijiij ετµy ++=i=1,2,...,g
j=1,2,...,n
yij= é a ij-ésima observação;
µ é uma constante para todas as observações (média geral);
τi é o efeito do i-ésimo tratamento;
εij é o erro aleatório(erros de medida, fatores não controláveis,
diferenças entre as unidades experimentais, etc.).
Pressuposições:
1) As observações devem ser independentes;
2) As variâncias populacionais devem ser iguais nos grupos;
3) A distribuição das observações em cada grupo deve ser normal.
PASSOS PARA CONSTRUÇÃO DA ANOVA
� Realizar um estudo descritivo da variável de interesse com o intuitode compreender melhor o seu comportamento nos diversostratamentos e possíveis violações das suposições do modelo.
� Verificar, através da ANOVA, se existe diferença entre a média dosfatores.
� Realizar um teste para verificar se o resíduo do modelo seguedistribuição normal.
� Realizar um teste para verificar a igualdade das variâncias entre osníveis. Essa condição é fundamental na análise de variância.
� Realizar um teste de aleatoriedade.
� Se existir diferença entre os níveis do tratamento, onde ocorre adiferença. (Ex: Teste de Tukey)
� Conclusão.
BOX PLOT BOX PLOT: COMANDOS NO R
� boxplot(count ~ spray, data = InsectSprays, col ="lightgray")
� boxplot(decrease ~ treatment, data = OrchardSprays, col= "bisque ", xlab = "Eixo X", ylab = "Eixo Y")title("Modelos de Decisão em Saúde")
3
HISTOGRAMA HISTOGRAMA: COMANDOS NO R
� hist(islands)
� x <- rchisq(100, df = 4)hist(x, freq = FALSE, ylim = c(0, 0.2))curve(dchisq(x, df = 4), col = 2, lty = 2, lwd = 2, add =TRUE)
SIMETRIA TESTE DE NORMALIDADE:.
KOLMOGOROV-SMIRNOV (K-S)
� Compara a distribuição real dos dados (amostra) com umadistribuição normal gerada por uma média e um desviopadrão supostamente conhecidos.
� O teste K-S também pode ser efetuado sob a suposição de queos parâmetros da normal são desconhecidos. Esse processo éconhecido como probabilidade de Lillefors. Neste caso, osparâmetros da normal são estimados a partir dos dados.
� O teste de normalidade é formulada da seguinte forma:
� H0: Os dados provem de uma distribuição normal
� H1: Os dados não provem de uma distribuição normal
TESTE DE NORMALIDADE:.
SHAPIRO-WILKS(S-W)
� O teste de Shapiro-Wilks, assim como o de Lillefors,estima os parâmetros da Normal através dos dadosamostrais.
� O teste pode ser efetuado em amostras de até 2000observações.
� Nos últimos anos, o teste S-W tem sido preferido aoteste K-S pela sua capacidade de adaptação a umavariada gama de problemas sobre avaliação denormalidade.
EXEMPLO:
� set.seed(33)y<-rnorm(100, mean = 5, sd = 3)ks.test(y,"pnorm",5,3)library(nortest)lillie.test(y)shapiro.test(y)
� y<-rgamma(200, 5, 3)ks.test(y,"pnorm",5,3)library(nortest)lillie.test(y)shapiro.test(y)
4
TESTE DE HOMOCEDASTICIDADE
DE BARTLETT
� O teste de homoscedasticidade é utilizado quando se teminteresse em testar:
� Este teste tem como pressuposto a normalidade daspopulações.
� Só é aplicável quando se tem no mínimo 4 observaçõesem cada tratamento.
� H0:
� H1:
22
2
2
1 gσσσ === L
lilili ≠≠ que tais algum e algum para ,22σσ
EXEMPLO
� plot(count ~ spray, data = InsectSprays)bartlett.test(InsectSprays$count, InsectSprays$spray)bartlett.test(count ~ spray, data = InsectSprays)
� plot(obs ~ type, data = pot)bartlett.test(pot$obs, pot$type)bartlett.test(obs ~ type, data = pot)
ANOVA
o Após checar os pressupostos do modelo, é dado continuidade aoprocesso de comparação de médias.
ANOVA
ANOVA
5
);;1( αgNgF−−
29 30
6
EXEMPLO: 3 GRUPOS DE CRIANÇAS RECEBERAM DIFERENTES
NÍVIES DE MOTIVAÇÃO PARA A MATEMÁTICA. DEPOIS SE FEZ UM
EXAME. HÁ DIFERENÇAS SIGNIFICATIVAS ENTRE OS 3 NÍVEIS DE
MOTIVAÇÃO (BAIXA, MÉDIA E ALTA)?
Grupo 1 Grupo 2 Grupo 3
4 16 12 144 1 1
5 25 8 64 3 9
4 16 10 100 4 16
3 9 5 25 6 36
6 36 7 49 8 64
10 100 9 81 5 25
1 1 14 196 3 9
8 64 9 81 2 4
5 25 4 16 2 4
X1 X12 X2 X2
2 X3 X32
Média = 5,11 Média = 8,67 Média = 3,78
Realizando os cálculos, temos:
Cálculo de SQTrat (entre os grupos)
SQTrat = (46)2 + (78)2 + (34)2 - (158)2 = 235,11 + 676 + 128,49 - 924,609 9 9 27
SQTrat = 114,96
Cálculo de SQT (total dos grupos)
SQT = 292 + 756 + 168 - (46+78+34)2 = 1216 – 924,627
SQT = 291,4
Cálculo de SQErro (dentro dos grupos)
SQErro = SQT – SQTrat = 291,4 – 114,96 = 176,45
QMTrat = SQTrat = 114,96 = 57,48g – 1 3 – 1
QMErro = SQErro = 176,45 = 7,35N – g 27 - 3
Fcalc = QMTrat = 57,48 = 7,82 Ftab (g-1; N-g; α) = Ftab (2; 24; 0,05) = 3,40 QMErro 7,35
Concluindo, Fcalc > Ftab , portanto, rejeita-se H0, ou seja, os níveis de motivaçãonão surtiram o mesmo efeito.
EXEMPLO: UMA BIOQUÍMICA (TECNOLOGIA DE ALIMENTOS) ESTÁ INTERESSADA EM
ESTUDAR A EXTRAÇÃO DE PIGMENTOS NATURAIS, COM APLICAÇÃO COMO CORANTE EM
ALIMENTOS. NUMA PRIMEIRA ETAPA TEM-SE A NECESSIDADE DE ESCOLHER O MELHOR
SOLVENTE EXTRATOR. A ESCOLHA DO(S) MELHOR(ES) SOLVENTES FOI REALIZADA
ATRAVÉS DA MEDIDA DA ABSORBÂNCIA DE UM PIGMENTO NATURAL DO FRUTO DE
BAGUAÇÚ. HÁ DIFERENÇAS SIGNIFICATIVAS ENTRE OS 5 NÍVEIS DE CORANTE AO NÍVEL
DE SIGNIFICÂNCIA DE 1%?
Solventes Observações Total Média Desvio
Padrão
Variância
1 2 3 4 5
E50 0,5553 0,5623 0,5585 0,5096 0,5110 2,6967 0,5393 0,0266 0,0007
EAW 0,5436 0,5660 0,5860 0,5731 0,5656 2,8343 0,5669 0,0154 0,0002
MAW 0,4748 0,4321 0,4309 0,5010 0,4094 2,2482 0,4496 0,0372 0,0014
E70 0,6286 0,6143 0,5826 0,6079 0,6060 3,0394 0,6078 0,0166 0,0003
M1M 0,1651 0,1840 0,2144 0,2249 0,1954 0,9838 0,1968 0,0238 0,0006
BOX PLOT DA ABSORBÂNCIA DE CADA SOLVENTE
� Existe uma forte suspeita de que o tipo de solvente esteja afetando a absorbância.
� Distribuições simétricas.
� Sem presença de valor discrepante.
� Conclui-se, através do teste, que pelo menos uma médiase difere das demais.
� É possível determinar em quantos tratamentosocorreram essa diferença?
� Em quais tratamentos ocorreram essa diferença?
� Uma vez constatado que existe diferenças significativas,é interessante conhecer quais níveis do fator são os quemais influíram mais. Assim, se faz necessário um novoteste para detectar onde ocorreram as diferenças.