a) uma população b) duas populações c) três ou mais populações · a) amostras dependentes...

29
1 Teste de hipótese a) Uma população b) Duas populações c) Três ou mais populações

Upload: hoangnga

Post on 16-Nov-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

1

Teste de hipótese

a) Uma população

b) Duas populações

c) Três ou mais populações

6) Teste para comparação

de duas médias de

populações normais

2

3

Teste bilateral

H0: 1 = 2

H1: 1 2

Teste unilateral à direita

H0: 1 = 2

H1: 1 > 2

Teste unilateral à esquerda

H0: 1 = 2

H1: 1 < 2

H0: 1 – 2 = 0

H1: 1 – 2 0

H0: 1 – 2 = 0

H1: 1 – 2 > 0

H0: 1 – 2 = 0

H1: 1 – 2 < 0

t 0

t 0

t

Objetivo:

Comparar as médias amostrais de duas populações.

1º passo: Verificar se as variáveis estão ou não relacionadas.

2º passo: Considerar a variabilidade associada aos valores populacionais

e amostrais.

a) dependentes

Var desconhecida

b) independentes

Var conhecida 2 amostras

b.2) variâncias diferentes

b.1) variâncias iguais

b.2) 4

a) Amostras dependentes

observações pareadas

(teste t-pareado)

São comparadas duas médias populacionais sendo que, para

cada unidade amostral, realizou-se duas medições da

característica de interesse.

Correspondem a medidas tomadas antes e após uma dada

intervenção.

Teste para comparação de duas médias

populações normais

5

Exemplo Uma distribuidora de combustíveis deseja verificar se um novo tipo de gasolina é

eficaz na revitalização de motores velhos. Selecionou-se 12 automóveis de um

mesmo modelo com mais de 8 anos de uso e, após regulagem dos motores,

verifica-se a quilometragem média percorrida com 1 litro de combustível.

Em seguida, o carro é abastecido com o novo tipo de combustível durante 15

semanas e uma nova aferição é feita. As medidas tomadas antes e após a

intervenção realizada serão representadas pelas v.a.s X e Y.

6

Automóveis

Km/L 1 2 3 4 5 6 7 8 9 10 11 12

Antes (X) 8,1 7,9 6,8 7,8 7,6 7,9 5,7 8,4 8,0 9,5 8,0 6,8

Após (Y) 11,6 8,8 9,9 9,5 11,6 9,1 10,6 10,8 13,4 10,6 10,5 11,4

Como o desempenho dos automóveis foi

medido antes e depois das 15 semanas,

é razoável assumir que exista alguma

dependência entre as variáveis.

Essa é a típica situação

que o teste t-pareado

deve ser utilizado.

Supondo, para i = 1, ..., n, assumimos,

por hipótese, que:

Estima-se a média e variância populacional de D por:

• A estatística do teste é dada por:

1

ˆ1

2

2

n

md

s

n

i

Di

D

)1(0 ~

ˆ

n

D

DD t

n

s

mmt

7

n

d

m

n

i

i

D

nmNm D

D

2

,~ˆ

O efeito produzido pelo i-ésimo

indivíduo, pode ser representado

pela variável:

Di= Yi – Xi 2,~ DDi mND

n

stmmIC D

nDD

2

)2/;1( 1ˆ%;

8

Automóveis

1 2 3 4 5 6 7 8 9 10 11 12

Antes (X) 8,1 7,9 6,8 7,8 7,6 7,9 5,7 8,4 8,0 9,5 8,0 6,8

Após (Y) 11,6 8,8 9,9 9,5 11,6 9,1 10,6 10,8 13,4 10,6 10,5 11,4

D = Y – X 3,5 0,9 3,1 1,7 4,0 1,2 4,9 2,4 5,4 1,1 2,5 4,6

As hipóteses:

H0: D = 0 (O novo combustível não aumenta o rendimento)

Ha: D > 0 (O novo combustível aumenta o rendimento)

Obtendo a variável diferença: Di= Yi – Xi

Fixando =5%, determina-se a região crítica, com base na hipótese alternativa:

D

ttab = t(11; 5%) =1,796

4846,6

124,2

09,2

calct

Ao nível de 5% de significância, como tcalc > ttab , rejeitamos H0 e

concluímos que o novo combustível é eficaz na melhora do

rendimento, ou seja, aumenta a km.

9

• A média e a variância amostrais de D são:

mD = 2,9 e s2=2,4.

t(11)

ttab 0

Aumenta quanto? Responda essa pergunta ao pesquisador fazendo a tarefa:

Tarefa: Determine o IC(mD, 95%) = IC[(m1 – m2), 95%]

para esse exemplo.

^

### 2 pop - pareado

X <- c(8.1, 7.9, 6.8, 7.8, 7.6, 7.9, 5.7, 8.4, 8.0, 9.5, 8.0, 6.8) # antes

Y <- c(11.6, 8.8, 9.9, 9.5, 11.6, 9.1, 10.6, 10.8, 13.4, 10.6, 10.5, 11.4) # apos

D <- Y-X # Diferença

t.test(D, paired = F, conf.level = 0.95, alternative='greater')

# One Sample t-test

#

# data: D

# t = 6.5396, df = 11, p-value = 2.097e-05

# alternative hypothesis: true mean is greater than 0

# 95 percent confidence interval:

# 2.133833 Inf

# sample estimates:

# mean of x

# 2.941667

10

2 populações dependentes

Exemplo 2: Desempenho dos automóveis medido antes (X) e após (Y) a aplicação do

novo tipo de combustível. α = 5%.

b) Amostras independentes

Teste para comparação de duas médias

populações normais

11

5) Teste para comparação

de variância de duas

populações normais

12

221

220

:

:

YX

YX

H

H

221

220

:

:

YX

YX

H

H

1.O Passo: Defina as hipóteses

2.O Passo: A estatística dos teste

Teste para comparação das variância de duas populações normais

Sejam e as variâncias amostrais. Sob H0

2Xs 2

Ys

Temos uma amostra de uma população ; e ),( 2XXN ),...,,( 21 nXXX

uma amostra de uma população ,

sendo e amostras independentes.

),( 2YYN ),...,,( 21 mYYY

),...,,( 21 nXXX ),...,,( 21 mYYY

)1;1(2

2

~ mn

Y

X Fs

sF

13

3.O Passo: Dado o nível de significância , estabelecer a RR do teste

Teste para comparação das variância de duas populações normais

4.O Passo: Determinar os pontos críticos.

5.O Passo: Concluir o teste.

RR de H0 RA de H0

cv

1 V

1cvV

1 2

2

RR de

H0

RA de H0 RR de

H0

2cv

14

2

)1( nV ~

Exemplo 6) (Bussab e Morettin, 2010)

Queremos verificar se duas máquinas produzem peças com a mesma

homogeneidade quanto à resistência à tensão. Para isso, sorteamos duas

amostras de seis peças de cada máquina, e obtivemos as seguintes

resistências:

Teste para comparação das variâncias de duas populações normais

Compare as variâncias das duas máquinas usando α = 10%.

Máquina A 145 127 136 142 141 137

Máquina B 143 128 132 138 142 132

15

b) Amostras independentes

b.1) Variâncias desconhecidas, mas iguais

Teste para comparação de duas médias

populações normais

16

Exemplo:

Digitadores são treinados em uma empresa em duas turmas distintas. Na

primeira (Turma J) utiliza-se um método japonês, na segunda (Turma A) utiliza-

se um método alemão. Deseja-se comparar os dois métodos ao nível de

significância de 1%.

Foram escolhidas duas amostras aleatoriamente (uma de cada turma) e mediu-se

o tempo gasto na realização de uma tarefa para cada aluno.

Apesar de não conhecidas, as variâncias populacionais para as duas turmas são

consideradas iguais com base em estudos anteriores.

Os dados obtidos foram:

17

Portanto

Formalizando o problema temos:

Supomos que os dados apresentados para as turmas J e A são variáveis aleatórias

independentes (X1, ..., Xn1) e (Y1, ..., Yn2), respectivamente e que seguem a

distribuição Normal.

OBS: Para ambas as populações temos a mesma variância (desconhecida!!!)

Queremos testar se existe diferença entre o tempo médio de digitação dos dois

métodos, ou seja:

18

Testar se as médias populacionais são iguais é equivalente a testar se a diferença

entre elas é “estatisticamente” igual a 0. Logo podemos reescrever as hipóteses

em termos de D = X – Y .

Desta forma, usaremos o estimador (intuitivo)

Do TLC tem-se que se n>30

19

Como as amostras são independentes:

Como X e Y têm distribuição normal (se n>30) então:

2

2

1

2

,~nn

ND YX

YXYEXE

YEXEYXEYXEDE

)()(

)()1()())1(()(

2

2

1

2

2

)()(

)()1()())1(()(

nnYVarXVar

YVarXVarYXVarYXVarDVar

20

Como 2 é desconhecida, precisará ser estimada.

Como e são estimadores não viciados dessa variância, usaremos

como estimativa para 2 uma combinação deles dada por:

2

Xs 2

Ys

11

11

2

)()(

21

2

22

2

11

21

1

2

1

2

2

21

nn

snsn

nn

YYXX

s

n

j

j

n

i

i

C

é uma média ponderada

entre as variâncias das

duas populações e é um

estimador não viciado!!!

21

)2(

21

2

020121

21~

11

ˆˆ

nn

C

t

nns

mmmmt

21

2

)2/;2(2121

11ˆˆ%;

21 nnstmmmmIC Cnn

A estatística do teste é dada por:

Voltando ao exemplo:

• As amostras forneceram os seguintes valores:

Turma J: n1 = 14, x = 11,57 e s2X = 4,1

Turma A: n2 = 13, y = 15,38 e s2Y = 4,3

Então:

d = 11,57 – 15,38 = – 3,81

2,425

3,4*121,4*13

11

11

21

2

2

2

12

nn

snsns YX

C

22

Fixando = 0,01, como a hipótese alternativa é bilateral e n < 30, a região

crítica tem a forma:

Usando a estatística do teste temos:

Como -4,83 pertence a região crítica, concluímos que os métodos de fato

diferem a um nível de significância de 1%.

23

83,4

13

1

14

12,4

081,3

11

21

2

0

nns

Dt

C

Dcalc

-ttab ttab

ttab = t(25) = 2,787

### 2 pop – indep, com var =

tempo<- c(10, 13, 9, 10, 14, 13, 10, 15, 12, 10, 9, 10, 13, 14,

15, 12, 18, 16, 15, 17, 17, 15, 16, 17, 11, 17, 14)

turma<- factor(c(rep("J",14), rep("A",13))); turma

tapply(tempo, turma, mean)

tapply(tempo, turma, var)

t.test(tempo ~ turma, paired = F, var.equal = T,

alternative="two.sided", conf.level =0.99)

Two Sample t-test

#

# data: tempo by turma

# t = 4.7965, df = 25, p-value = 6.313e-05

# alternative hypothesis: true difference in means is not equal to 0

# 99 percent confidence interval:

# 1.597201 6.029173

# sample estimates:

# mean in group A mean in group J

# 15.38462 11.57143 24

2 populações independentes

com variâncias iguais

Exemplo 3: Deseja-se comparar os dois métodos de digitação ao nível = 1%: método

japonês com o método alemão.

b) Amostras independentes

b.2) Variâncias desconhecidas, mas diferentes

Teste para comparação de duas médias

populações normais

25

O teste para o caso com as variâncias desconhecidas e desiguais é semelhante

ao anterior, mas a quantidade a ser usada para aceitar ou rejeitar H0 é:

26

)(

2

2

2

1

2

1

020121 ~ˆˆ

t

n

s

n

s

mmmmt

11 2

2

2

2

2

2

1

1

2

1

2

2

2

2

1

2

1

n

n

s

n

n

s

n

s

n

s

, sendo

2

2

2

1

2

1)2/;(2121

ˆˆ%;n

s

n

stmmmmIC

### 2 pop – indep, com var diferentes

Y <- c( )

pop <- factor(c(rep(“pop1",n1), rep(“pop2",n2)))

t.test(Y ~ pop,

paired = F,

var.equal = FALSE,

conf.level =0.95)

27

2 populações independentes

com variâncias diferentes

Exemplo 4: Sendo Y a variável resposta observada 2 populações (pop),

usando α = 5%

28

Teste de hipótese

a) Uma população

b) Duas populações

c) Três ou mais populações

???? O que fazer ????

2. Teste de Hipótese:

a) Paramétrico;

b) Não paramétrico.

29