de/ufpb - universidade federal motivaÇÃo da paraÍba › ~tarciana › mpie › aula18.pdf ·...

1

UNIVERSIDADE FEDERALDA PARAÍBA

Departamento de EstatísticaLuiz Medeiros

Modelos de Probabilidade e Inferência Estatística

Análise de Variância – Parte 1

MOTIVAÇÃO

� Em uma experiência para comparar a eficiência dediversas técnicas no tratamento da dor produzida poruma intervenção cirúrgica superficial, 28 pacientesforam agrupados, ao acaso, em quatro grupos de setepacientes, tratando-se o primeiro com placebo e, osdemais, com dois tipos de analgésicos (A e B) eacupuntura.

� Os tratamentos são equivalentes?

� Que conclusões podem ser obtidas desta experiência?

� Situações frequentemente ocorrem nas quais em lugar deduas médias deseja-se comparar várias médias.

� Um dos métodos mais utilizados para resolver problemasdeste tipo é a análise de variância (ANOVA). Trata-se de ummétodo estatístico que por meio de teste de igualdade demédias, verifica se fatores produzem mudanças em algumavariável de interesse. Pode ser considerada uma extensão doteste t.

� Esse método consiste em analisar a variância entre as médiasdas populações com a variância dentro das populações.

EXPERIMENTOS COM UM ÚNICO FATOR: A ANÁLISE DE VARIÂNCIA (ANOVA) EXEMPLOS:

� Testar um determinado efeito terapêutico de trêsmétodos (GI, GII e GIII) de administração de uma drogaflebotrópica.

� Verificar se o grau de ansiedade é o mesmo, em trêsenfermidades diferentes.

� Verificar se três diferentes dietas surtem o mesmoefeito.

ALTERNATIVA:

� Testar 4 drogas diferentes (diuréticos) ao mesmo tempo eavaliar o efeito de cada droga sobre o débito urinário em16 voluntários.

� É possível realizar o teste t para comparar osgrupos 2 a 2 (6 testes separados)?

i) Perda de tempoii) Erro tipo I maior que o desejado

Obs: Não é adequado realizar o teste de igualdade demédia de várias amostras através de uma multiplicidadede testes de igualdade de médias de duas em duasamostras.

ANÁLISE DE VARIÂNCIA

Tabela 1- Dados gerais de um experimento com um único fator

Tratamentos

(níveis)

Observações Totais Médias

1

y11

y12

.

.

.

y1n

y1.

y1

2

y21

y22

.

.

.

y2n

y2.

y2

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

g

yg1

yg2

.

.

.

ygn

yg.

yg

Obs: O número de observações em cada tratamento não precisam ser iguais.

2

Modelo estatístico

ijiij ετµy ++=i=1,2,...,g

j=1,2,...,n

yij= é a ij-ésima observação;

µ é uma constante para todas as observações (média geral);

τi é o efeito do i-ésimo tratamento;

εij é o erro aleatório(erros de medida, fatores não controláveis,

diferenças entre as unidades experimentais, etc.).

Pressuposições:

1) As observações devem ser independentes;

2) As variâncias populacionais devem ser iguais nos grupos;

3) A distribuição das observações em cada grupo deve ser normal.

PASSOS PARA CONSTRUÇÃO DA ANOVA

� Realizar um estudo descritivo da variável de interesse com o intuitode compreender melhor o seu comportamento nos diversostratamentos e possíveis violações das suposições do modelo.

� Verificar, através da ANOVA, se existe diferença entre a média dosfatores.

� Realizar um teste para verificar se o resíduo do modelo seguedistribuição normal.

� Realizar um teste para verificar a igualdade das variâncias entre osníveis. Essa condição é fundamental na análise de variância.

� Realizar um teste de aleatoriedade.

� Se existir diferença entre os níveis do tratamento, onde ocorre adiferença. (Ex: Teste de Tukey)

� Conclusão.

BOX PLOT BOX PLOT: COMANDOS NO R

� boxplot(count ~ spray, data = InsectSprays, col ="lightgray")

� boxplot(decrease ~ treatment, data = OrchardSprays, col= "bisque ", xlab = "Eixo X", ylab = "Eixo Y")title("Modelos de Decisão em Saúde")

3

HISTOGRAMA HISTOGRAMA: COMANDOS NO R

� hist(islands)

� x <- rchisq(100, df = 4)hist(x, freq = FALSE, ylim = c(0, 0.2))curve(dchisq(x, df = 4), col = 2, lty = 2, lwd = 2, add =TRUE)

SIMETRIA TESTE DE NORMALIDADE:.

KOLMOGOROV-SMIRNOV (K-S)

� Compara a distribuição real dos dados (amostra) com umadistribuição normal gerada por uma média e um desviopadrão supostamente conhecidos.

� O teste K-S também pode ser efetuado sob a suposição de queos parâmetros da normal são desconhecidos. Esse processo éconhecido como probabilidade de Lillefors. Neste caso, osparâmetros da normal são estimados a partir dos dados.

� O teste de normalidade é formulada da seguinte forma:

� H0: Os dados provem de uma distribuição normal

� H1: Os dados não provem de uma distribuição normal

TESTE DE NORMALIDADE:.

SHAPIRO-WILKS(S-W)

� O teste de Shapiro-Wilks, assim como o de Lillefors,estima os parâmetros da Normal através dos dadosamostrais.

� O teste pode ser efetuado em amostras de até 2000observações.

� Nos últimos anos, o teste S-W tem sido preferido aoteste K-S pela sua capacidade de adaptação a umavariada gama de problemas sobre avaliação denormalidade.

EXEMPLO:

� set.seed(33)y<-rnorm(100, mean = 5, sd = 3)ks.test(y,"pnorm",5,3)library(nortest)lillie.test(y)shapiro.test(y)

� y<-rgamma(200, 5, 3)ks.test(y,"pnorm",5,3)library(nortest)lillie.test(y)shapiro.test(y)

4

TESTE DE HOMOCEDASTICIDADE

DE BARTLETT

� O teste de homoscedasticidade é utilizado quando se teminteresse em testar:

� Este teste tem como pressuposto a normalidade daspopulações.

� Só é aplicável quando se tem no mínimo 4 observaçõesem cada tratamento.

� H0:

� H1:

22

2

2

1 gσσσ === L

lilili ≠≠ que tais algum e algum para ,22σσ

EXEMPLO

� plot(count ~ spray, data = InsectSprays)bartlett.test(InsectSprays$count, InsectSprays$spray)bartlett.test(count ~ spray, data = InsectSprays)

� plot(obs ~ type, data = pot)bartlett.test(pot$obs, pot$type)bartlett.test(obs ~ type, data = pot)

ANOVA

o Após checar os pressupostos do modelo, é dado continuidade aoprocesso de comparação de médias.

ANOVA

ANOVA

5

);;1( αgNgF−−

29 30

6

EXEMPLO: 3 GRUPOS DE CRIANÇAS RECEBERAM DIFERENTES

NÍVIES DE MOTIVAÇÃO PARA A MATEMÁTICA. DEPOIS SE FEZ UM

EXAME. HÁ DIFERENÇAS SIGNIFICATIVAS ENTRE OS 3 NÍVEIS DE

MOTIVAÇÃO (BAIXA, MÉDIA E ALTA)?

Grupo 1 Grupo 2 Grupo 3

4 16 12 144 1 1

5 25 8 64 3 9

4 16 10 100 4 16

3 9 5 25 6 36

6 36 7 49 8 64

10 100 9 81 5 25

1 1 14 196 3 9

8 64 9 81 2 4

5 25 4 16 2 4

X1 X12 X2 X2

2 X3 X32

Média = 5,11 Média = 8,67 Média = 3,78

Realizando os cálculos, temos:

Cálculo de SQTrat (entre os grupos)

SQTrat = (46)2 + (78)2 + (34)2 - (158)2 = 235,11 + 676 + 128,49 - 924,609 9 9 27

SQTrat = 114,96

Cálculo de SQT (total dos grupos)

SQT = 292 + 756 + 168 - (46+78+34)2 = 1216 – 924,627

SQT = 291,4

Cálculo de SQErro (dentro dos grupos)

SQErro = SQT – SQTrat = 291,4 – 114,96 = 176,45

QMTrat = SQTrat = 114,96 = 57,48g – 1 3 – 1

QMErro = SQErro = 176,45 = 7,35N – g 27 - 3

Fcalc = QMTrat = 57,48 = 7,82 Ftab (g-1; N-g; α) = Ftab (2; 24; 0,05) = 3,40 QMErro 7,35

Concluindo, Fcalc > Ftab , portanto, rejeita-se H0, ou seja, os níveis de motivaçãonão surtiram o mesmo efeito.

EXEMPLO: UMA BIOQUÍMICA (TECNOLOGIA DE ALIMENTOS) ESTÁ INTERESSADA EM

ESTUDAR A EXTRAÇÃO DE PIGMENTOS NATURAIS, COM APLICAÇÃO COMO CORANTE EM

ALIMENTOS. NUMA PRIMEIRA ETAPA TEM-SE A NECESSIDADE DE ESCOLHER O MELHOR

SOLVENTE EXTRATOR. A ESCOLHA DO(S) MELHOR(ES) SOLVENTES FOI REALIZADA

ATRAVÉS DA MEDIDA DA ABSORBÂNCIA DE UM PIGMENTO NATURAL DO FRUTO DE

BAGUAÇÚ. HÁ DIFERENÇAS SIGNIFICATIVAS ENTRE OS 5 NÍVEIS DE CORANTE AO NÍVEL

DE SIGNIFICÂNCIA DE 1%?

Solventes Observações Total Média Desvio

Padrão

Variância

1 2 3 4 5

E50 0,5553 0,5623 0,5585 0,5096 0,5110 2,6967 0,5393 0,0266 0,0007

EAW 0,5436 0,5660 0,5860 0,5731 0,5656 2,8343 0,5669 0,0154 0,0002

MAW 0,4748 0,4321 0,4309 0,5010 0,4094 2,2482 0,4496 0,0372 0,0014

E70 0,6286 0,6143 0,5826 0,6079 0,6060 3,0394 0,6078 0,0166 0,0003

M1M 0,1651 0,1840 0,2144 0,2249 0,1954 0,9838 0,1968 0,0238 0,0006

BOX PLOT DA ABSORBÂNCIA DE CADA SOLVENTE

� Existe uma forte suspeita de que o tipo de solvente esteja afetando a absorbância.

� Distribuições simétricas.

� Sem presença de valor discrepante.

� Conclui-se, através do teste, que pelo menos uma médiase difere das demais.

� É possível determinar em quantos tratamentosocorreram essa diferença?

� Em quais tratamentos ocorreram essa diferença?

� Uma vez constatado que existe diferenças significativas,é interessante conhecer quais níveis do fator são os quemais influíram mais. Assim, se faz necessário um novoteste para detectar onde ocorreram as diferenças.

de/ufpb - universidade federal motivaÇÃo da paraÍba › ~tarciana › mpie › aula18.pdf ·...

Documents