a) uma população b) duas populações c) três ou mais populações · a) amostras dependentes...
TRANSCRIPT
3
Teste bilateral
H0: 1 = 2
H1: 1 2
Teste unilateral à direita
H0: 1 = 2
H1: 1 > 2
Teste unilateral à esquerda
H0: 1 = 2
H1: 1 < 2
H0: 1 – 2 = 0
H1: 1 – 2 0
H0: 1 – 2 = 0
H1: 1 – 2 > 0
H0: 1 – 2 = 0
H1: 1 – 2 < 0
t 0
t 0
t
Objetivo:
Comparar as médias amostrais de duas populações.
1º passo: Verificar se as variáveis estão ou não relacionadas.
2º passo: Considerar a variabilidade associada aos valores populacionais
e amostrais.
a) dependentes
Var desconhecida
b) independentes
Var conhecida 2 amostras
b.2) variâncias diferentes
b.1) variâncias iguais
b.2) 4
a) Amostras dependentes
observações pareadas
(teste t-pareado)
São comparadas duas médias populacionais sendo que, para
cada unidade amostral, realizou-se duas medições da
característica de interesse.
Correspondem a medidas tomadas antes e após uma dada
intervenção.
Teste para comparação de duas médias
populações normais
5
Exemplo Uma distribuidora de combustíveis deseja verificar se um novo tipo de gasolina é
eficaz na revitalização de motores velhos. Selecionou-se 12 automóveis de um
mesmo modelo com mais de 8 anos de uso e, após regulagem dos motores,
verifica-se a quilometragem média percorrida com 1 litro de combustível.
Em seguida, o carro é abastecido com o novo tipo de combustível durante 15
semanas e uma nova aferição é feita. As medidas tomadas antes e após a
intervenção realizada serão representadas pelas v.a.s X e Y.
6
Automóveis
Km/L 1 2 3 4 5 6 7 8 9 10 11 12
Antes (X) 8,1 7,9 6,8 7,8 7,6 7,9 5,7 8,4 8,0 9,5 8,0 6,8
Após (Y) 11,6 8,8 9,9 9,5 11,6 9,1 10,6 10,8 13,4 10,6 10,5 11,4
Como o desempenho dos automóveis foi
medido antes e depois das 15 semanas,
é razoável assumir que exista alguma
dependência entre as variáveis.
Essa é a típica situação
que o teste t-pareado
deve ser utilizado.
Supondo, para i = 1, ..., n, assumimos,
por hipótese, que:
Estima-se a média e variância populacional de D por:
• A estatística do teste é dada por:
1
ˆ1
2
2
n
md
s
n
i
Di
D
)1(0 ~
ˆ
n
D
DD t
n
s
mmt
7
n
d
m
n
i
i
D
1ˆ
nmNm D
D
2
,~ˆ
O efeito produzido pelo i-ésimo
indivíduo, pode ser representado
pela variável:
Di= Yi – Xi 2,~ DDi mND
n
stmmIC D
nDD
2
)2/;1( 1ˆ%;
8
Automóveis
1 2 3 4 5 6 7 8 9 10 11 12
Antes (X) 8,1 7,9 6,8 7,8 7,6 7,9 5,7 8,4 8,0 9,5 8,0 6,8
Após (Y) 11,6 8,8 9,9 9,5 11,6 9,1 10,6 10,8 13,4 10,6 10,5 11,4
D = Y – X 3,5 0,9 3,1 1,7 4,0 1,2 4,9 2,4 5,4 1,1 2,5 4,6
As hipóteses:
H0: D = 0 (O novo combustível não aumenta o rendimento)
Ha: D > 0 (O novo combustível aumenta o rendimento)
Obtendo a variável diferença: Di= Yi – Xi
Fixando =5%, determina-se a região crítica, com base na hipótese alternativa:
D
ttab = t(11; 5%) =1,796
4846,6
124,2
09,2
calct
Ao nível de 5% de significância, como tcalc > ttab , rejeitamos H0 e
concluímos que o novo combustível é eficaz na melhora do
rendimento, ou seja, aumenta a km.
9
• A média e a variância amostrais de D são:
mD = 2,9 e s2=2,4.
t(11)
ttab 0
Aumenta quanto? Responda essa pergunta ao pesquisador fazendo a tarefa:
Tarefa: Determine o IC(mD, 95%) = IC[(m1 – m2), 95%]
para esse exemplo.
^
### 2 pop - pareado
X <- c(8.1, 7.9, 6.8, 7.8, 7.6, 7.9, 5.7, 8.4, 8.0, 9.5, 8.0, 6.8) # antes
Y <- c(11.6, 8.8, 9.9, 9.5, 11.6, 9.1, 10.6, 10.8, 13.4, 10.6, 10.5, 11.4) # apos
D <- Y-X # Diferença
t.test(D, paired = F, conf.level = 0.95, alternative='greater')
# One Sample t-test
#
# data: D
# t = 6.5396, df = 11, p-value = 2.097e-05
# alternative hypothesis: true mean is greater than 0
# 95 percent confidence interval:
# 2.133833 Inf
# sample estimates:
# mean of x
# 2.941667
10
2 populações dependentes
Exemplo 2: Desempenho dos automóveis medido antes (X) e após (Y) a aplicação do
novo tipo de combustível. α = 5%.
221
220
:
:
YX
YX
H
H
221
220
:
:
YX
YX
H
H
1.O Passo: Defina as hipóteses
2.O Passo: A estatística dos teste
Teste para comparação das variância de duas populações normais
Sejam e as variâncias amostrais. Sob H0
2Xs 2
Ys
Temos uma amostra de uma população ; e ),( 2XXN ),...,,( 21 nXXX
uma amostra de uma população ,
sendo e amostras independentes.
),( 2YYN ),...,,( 21 mYYY
),...,,( 21 nXXX ),...,,( 21 mYYY
)1;1(2
2
~ mn
Y
X Fs
sF
13
3.O Passo: Dado o nível de significância , estabelecer a RR do teste
Teste para comparação das variância de duas populações normais
4.O Passo: Determinar os pontos críticos.
5.O Passo: Concluir o teste.
RR de H0 RA de H0
cv
1 V
1cvV
1 2
2
RR de
H0
RA de H0 RR de
H0
2cv
14
2
)1( nV ~
Exemplo 6) (Bussab e Morettin, 2010)
Queremos verificar se duas máquinas produzem peças com a mesma
homogeneidade quanto à resistência à tensão. Para isso, sorteamos duas
amostras de seis peças de cada máquina, e obtivemos as seguintes
resistências:
Teste para comparação das variâncias de duas populações normais
Compare as variâncias das duas máquinas usando α = 10%.
Máquina A 145 127 136 142 141 137
Máquina B 143 128 132 138 142 132
15
b) Amostras independentes
b.1) Variâncias desconhecidas, mas iguais
Teste para comparação de duas médias
populações normais
16
Exemplo:
Digitadores são treinados em uma empresa em duas turmas distintas. Na
primeira (Turma J) utiliza-se um método japonês, na segunda (Turma A) utiliza-
se um método alemão. Deseja-se comparar os dois métodos ao nível de
significância de 1%.
Foram escolhidas duas amostras aleatoriamente (uma de cada turma) e mediu-se
o tempo gasto na realização de uma tarefa para cada aluno.
Apesar de não conhecidas, as variâncias populacionais para as duas turmas são
consideradas iguais com base em estudos anteriores.
Os dados obtidos foram:
17
Portanto
Formalizando o problema temos:
Supomos que os dados apresentados para as turmas J e A são variáveis aleatórias
independentes (X1, ..., Xn1) e (Y1, ..., Yn2), respectivamente e que seguem a
distribuição Normal.
OBS: Para ambas as populações temos a mesma variância (desconhecida!!!)
Queremos testar se existe diferença entre o tempo médio de digitação dos dois
métodos, ou seja:
18
Testar se as médias populacionais são iguais é equivalente a testar se a diferença
entre elas é “estatisticamente” igual a 0. Logo podemos reescrever as hipóteses
em termos de D = X – Y .
Como as amostras são independentes:
Como X e Y têm distribuição normal (se n>30) então:
2
2
1
2
,~nn
ND YX
YXYEXE
YEXEYXEYXEDE
)()(
)()1()())1(()(
2
2
1
2
2
)()(
)()1()())1(()(
nnYVarXVar
YVarXVarYXVarYXVarDVar
20
Como 2 é desconhecida, precisará ser estimada.
Como e são estimadores não viciados dessa variância, usaremos
como estimativa para 2 uma combinação deles dada por:
2
Xs 2
Ys
11
11
2
)()(
21
2
22
2
11
21
1
2
1
2
2
21
nn
snsn
nn
YYXX
s
n
j
j
n
i
i
C
é uma média ponderada
entre as variâncias das
duas populações e é um
estimador não viciado!!!
21
)2(
21
2
020121
21~
11
ˆˆ
nn
C
t
nns
mmmmt
21
2
)2/;2(2121
11ˆˆ%;
21 nnstmmmmIC Cnn
A estatística do teste é dada por:
Voltando ao exemplo:
• As amostras forneceram os seguintes valores:
Turma J: n1 = 14, x = 11,57 e s2X = 4,1
Turma A: n2 = 13, y = 15,38 e s2Y = 4,3
Então:
d = 11,57 – 15,38 = – 3,81
2,425
3,4*121,4*13
11
11
21
2
2
2
12
nn
snsns YX
C
22
Fixando = 0,01, como a hipótese alternativa é bilateral e n < 30, a região
crítica tem a forma:
Usando a estatística do teste temos:
Como -4,83 pertence a região crítica, concluímos que os métodos de fato
diferem a um nível de significância de 1%.
23
83,4
13
1
14
12,4
081,3
11
21
2
0
nns
Dt
C
Dcalc
-ttab ttab
ttab = t(25) = 2,787
### 2 pop – indep, com var =
tempo<- c(10, 13, 9, 10, 14, 13, 10, 15, 12, 10, 9, 10, 13, 14,
15, 12, 18, 16, 15, 17, 17, 15, 16, 17, 11, 17, 14)
turma<- factor(c(rep("J",14), rep("A",13))); turma
tapply(tempo, turma, mean)
tapply(tempo, turma, var)
t.test(tempo ~ turma, paired = F, var.equal = T,
alternative="two.sided", conf.level =0.99)
Two Sample t-test
#
# data: tempo by turma
# t = 4.7965, df = 25, p-value = 6.313e-05
# alternative hypothesis: true difference in means is not equal to 0
# 99 percent confidence interval:
# 1.597201 6.029173
# sample estimates:
# mean in group A mean in group J
# 15.38462 11.57143 24
2 populações independentes
com variâncias iguais
Exemplo 3: Deseja-se comparar os dois métodos de digitação ao nível = 1%: método
japonês com o método alemão.
b) Amostras independentes
b.2) Variâncias desconhecidas, mas diferentes
Teste para comparação de duas médias
populações normais
25
O teste para o caso com as variâncias desconhecidas e desiguais é semelhante
ao anterior, mas a quantidade a ser usada para aceitar ou rejeitar H0 é:
26
)(
2
2
2
1
2
1
020121 ~ˆˆ
t
n
s
n
s
mmmmt
11 2
2
2
2
2
2
1
1
2
1
2
2
2
2
1
2
1
n
n
s
n
n
s
n
s
n
s
, sendo
2
2
2
1
2
1)2/;(2121
ˆˆ%;n
s
n
stmmmmIC
### 2 pop – indep, com var diferentes
Y <- c( )
pop <- factor(c(rep(“pop1",n1), rep(“pop2",n2)))
t.test(Y ~ pop,
paired = F,
var.equal = FALSE,
conf.level =0.95)
27
2 populações independentes
com variâncias diferentes
Exemplo 4: Sendo Y a variável resposta observada 2 populações (pop),
usando α = 5%
28
Teste de hipótese
a) Uma população
b) Duas populações
c) Três ou mais populações
???? O que fazer ????