planejamento de experimentos - ufrj · suponha que os esp ecimes foram cortados de barras de...

Planejamento de Experimentos

2.2 Comparacoes Pareadas: Duas amostras.

Exemplo: Deseja-se testar a forca de uma ma-

quina sobre placas de metal. Dispoe-se de dois

tipos de varetas que serao usadas para pres-

sionar a placa com o auxılio da maquina. A de-

pressao causada pela vareta e medida. Apesar

da precisao das medidas feitas pelas duas vare-

tas parecerem ser iguais, suspeita-se que uma

vareta produza uma depressao media diferente

da outra.

Uma forma de proceder e a seguinte. Selecione

n especimes do metal ao acaso. Por exemplo

n = 20. Designe 10, a vareta 1 e, 10, a vareta

2, de forma aleatoria.

1

Este e um experimento completamente aleato-

rizado. Entao podemos obter as medias cor-

respondentes a cada vareta para entao com-

para-las usando o teste t para duas amostras

que acabamos de estudar.

Porem, ha uma desvantagem em usar o plano

completamente aleatorizado neste problema.

Suponha que os especimes foram cortados de

barras de estoques diferentes que foram pro-

duzidos em fornos diferentes ou que nao sao

exatamente homogenenos de alguma outra for-

ma que pode afetar a medida de interesse.

Esta falta de homogeneidade entre especimes

contribuira na variabilidade das medidas de re-

sistencia e tendera a inflacionar o erro expe-

rimental, tornando assim mais difıcil detectar

uma verdadeira diferenca nas medias resultan-

te das diferentes varetas.2

Para nos protegermos desta possibilidade, con-

sidere um plano alternativo. Suponha que cada

especime e grande o suficiente para que sejam

feitas duas determinacoes sobre ele.

Este plano consiste em dividir cada especime

em duas partes e, entao, aleatoriamente, de-

signar uma vareta a uma parte e, a outra, a

parte restante.

A ordem na qual as varetas sao testadas para

um especime em particular tambem deve ser

aleatoria.

O experimento, quando realizado de acordo

com este plano com 10 especimes, produziu

os resultados na tabela a seguir.

3

MODELO ESTATISTICO

Yij = µi + βj + εij, i = 1,2 j = 1,2, ...,10

Yij - representa a j-esima medida correspon-dente ao i-esimo tratamento (aqui a i-esimavareta)

µi - representa a verdadeira media correspon-dente ao i-esimo tratamento

βj - representa o efeito sobre a resposta devidoa j-esima unidade experimental (aqui o j-esimoespecime).

εij - representa o erro experimental aleatoriotal que

E[εij] = 0 e Var(εij) = σ2i , ou seja, σ2

1 e avariancia produzida pelas medidas feitas coma vareta 1 e σ2

2 e a variancia produzida pelasmedidas feitas com a vareta 2.

5

Em geral adota-se a restricaon∑

j=1

βj = 0 tal

que E[Yi.] = µi, Yi. = 1n

n∑j=1

Yij =1

nYi.

Se calcularmos as diferencas devidas aos pares

dj = Y1j − Y2j, j = 1,2, ...,10 temos

µd = E[dj] = E[Y1j − Y2j] = µ1 + βj − (µ2 + βj) = µ1− µ2.

Assim, o efeito devido ao especime e eliminado

sob o modelo aqui considerado.

Observe tambem que

Var(dj) = Var(Y1j−Y2j) = Var(Y1j) + Var(Y2j)−2Cov(Y1j, Y2j) = σ2d

Para a realizacao do teste de comparacao de

medias nesse caso nao sera necessario supor

que as variancias correspondentes as medidas

feitas por cada tipo de vareta sao iguais. Para

fins de comparacao das medias no modelo pa-

reado, a variancia de interesse sera σ2d .

6

Testar H0 : µ1 = µ2 versus H1 : µ1 6= µ2 e

equivalente a testar

H0 : µd = 0 versus H1 : µd 6= 0.

Estatıstica de teste: T0 = dsd/√n

com

d = 1n

n∑j=1

dj e s2d = 1

n−1

n∑j=1

(dj − d)2.

Suposicao: dj ∼ NID(µd, σ2d).

Ao nıvel de significancia α, rejeitaremos H0, se

|T0| ≥ t(1−α/2),n−1.

Vantagens do plano pareado:

Este plano ilustra de forma bem simples o princı-

pio de blocagem.

7

De fato, e um caso particular do tipo mais

geral de plano conhecido como plano em blo-

cos aleatorizados, que iremos tratar no capıtulo

4.

O termo bloco refere-se a uma unidade ex-

perimental relativamente homogenea e o bloco

representa uma restricao sobre a aleatorizacao

completa, pois as combinacoes de tratamento

sao somente aleatorizadas dentro dos blocos.

No capıtulo 4 veremos outros experimentos

deste tipo.

Observacoes importantes:

1. Apesar de 2n = 2(10) = 20 observacoes

terem sido feitas, somente n− 1 = 9 graus de

liberdade estao disponıveis para a estatıstica t.

Sabe-se que quanto maior e o numero de graus

de liberdade, mais sensıvel e o teste.

8

Com o pareamento, perde-se n − 1 graus de

liberdade, mas espera-se ganhar um conheci-

mento melhor da situacao eliminando uma fon-

te de variacao adicional.

2. Podemos obter uma indicacao da qualidade

da informacao produzida pelo plano pareado,

comparando o desvio-padrao das diferencas sdcom o desvio padrao combinado sp, que seria

resultante se o experimento tivesse sido con-

duzido de forma completamente aleatorizada e

tivesse produzido os dados da tabela 2.5.

sp ' 2,32 e sd ' 1,20

Observacao: a comparacao destes dois valores

nao e justa, pois, ou bem os dados foram obti-

dos de forma pareada, ou de forma totalmente

independente (aleatoria). Mas, de fato, um

dos objetivos de se usar blocagem e que ela

reduz a variabilidade.9

Quando os dados sao pareados (ou estao emblocos) S2

d sera um estimador nao viciado davariancia das diferencas σ2

d , enquando que S2p

sera um estimador viciado da variancia σ2 dasobservacoes (supondo variancias iguais entreos diferentes tratamentos).

De fato, considere o modelo pareado

Yij = µi + βj + εij, i = 1,2 j = 1,2, ..., n,

com εij ∼ NID(0, σ2) e defina dj = Y1j − Y2j,j = 1,2, ..., n.

Adotando-se a restricaon∑

j=1

βj = 0 tem-se

Yi. ∼ N(µi,σ2

n ).

σ2d = Var(Y1j − Y 2j).

10

Sejam S2d = 1

n−1

n∑j=1

(dj − d)2 um estimador de

σ2d , a variancia das diferencas,

e S2p =

(n−1)S21+(n−1)S2

2n−1+n−1 =

S21+S2

22 , um esti-

mador de σ2, a variancia das observacoes.

E[S2d ] = 1

n−1E

n∑j=1

d2j − nd

2

Mas,

E[d2j ] = Var(dj) + E[dj]

2 = σ2d + (µ1 − µ2)2 e

nE[d2] = n[Var(d) + E[d]2

].

11

Logo,

E[S2d ] = 1

n−1

{nσ2

d + n(µ1 − µ2)2 − σ2d − n(µ1 − µ2)2

}= σ2

d

tal que S2d , sob este modelo, e um estimador

nao-viciado da variancia das diferencas.

E[S2p ] =

1

2E[S2

1 + S22],

pois sao duas amostras de tamanhos iguais.

Como estamos supondo variancias iguais temosE[S2

1] = E[S22] tal que

E[S2p ] = E[S2

1].

E[S21] = 1

n−1E

2∑j=1

(Y1j − Y1.)2

= 1n−1

n∑j=1

E[Y 21j]− nE[Y 2

1.]

E[Y 2

1j] = Var(Y1j) + E[Y1j]2 = σ2 + (µ1 + βj)2 e

E[Y 21.] = Var(Y1.) + E[Y1.]

2 =σ2

n+ µ2

1.

12

Assim,

E[S2p ] = E[S2

1] = 1n−1

nσ2 + nµ21 + 2nµ1

n∑j=1

βj︸︷︷︸=0

+

n∑j=1

β2j − σ2 − nµ2

1

= σ2 +

n∑j=1

β2j

n−1 ,

tal que S2p , sob este modelo, e um estimador

viciado da variancia das observacoes.

13

Usando o R para realizar o teste desses dados:

> vareta=read.table(“c://dox//vareta.txt”,header=T)

> t.test(vareta$v1,vareta$v2,paired=T)

Paired t-test

data: vareta$v1 and vareta$v2

t = -0.2641, df = 9, p-value = 0.7976

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-0.9564389 0.7564389

sample estimates: mean of the differences -0.1

Conclusao: Como o p-valor e alto, nao rejeitamos a hipotese nulade que as medias sao iguais.

14

Exemplo: (Bussab e Morettin, 2002) Um medi-

co deseja saber se uma certa droga reduz a

pressao arterial media. Para isso, mediu a

pressao arterial em cinco voluntarios, antes e

depois da ingestao da droga, obtendo os dados

do quadro a seguir.

Voce acha que existe evidencia estatıstica de

que a droga realmente reduz a pressao arterial

media?

Que suposicoes voce fez para resolver este pro-

blema?

voluntario antes depois1 68 602 80 713 90 884 72 745 80 76

15

Trata-se de um experimento comparativo sim-

ples envolvendo duas amostras. A questao

mais importante aqui e identificar se as amos-

tras sao independentes para entao usarmos o

teste t de amostras independentes ou se as

amostras sao pareadas e entao usarmos o teste

t sobre as diferencas.

Observe que em geral quando comparamos du-

as medias e simples identificar qual e a situacao.

No caso deste exemplo, claramente trata-se de

amostras pareadas.

Uma observacao tambem importante do Plane-

jamento de Experimentos e que como ja vimos

na primeira aula, ele nao esta focado somente

na analise dos dados obtidos. Faz parte do

Planejamento todo o processo de construcao

do problema, inclusive a producao dos dados.

16

Nessa fase o experimentador devera decidir,

com base no problema a ser resolvido, se sera

melhor trabalhar com amostras independentes

ou pareadas ou, mais geralmente, com expe-

rimentos completamente aleatorizados ou ex-

perimentos em blocos aleatorizados.

Voltando aos dados do problema

t0 =d

sd/√

5' 2.09

Ao nıvel de significancia de 5%, rejeita-se H0

a hipotese de que nao ha diferenca nas medias

de pressao arterial antes e depois da ingestao

da droga, se |t0| ≥ 2,78. Logo, ao nıvel de 5%

nao rejeitamos H0, concluindo que a droga nao

reduz a pressao arterial.

17

O p-valor desse teste e: 0.1048807' 10,5%.

Lembre que para usar este teste estamos su-

pondo que as diferencas de pressao antes e

depois sao geradas por uma distribuicao nor-

mal.

Usando o R:

> antes=c(68,80,90,72,80)

> depois=c(60,71,88,74,76)

> t.test(antes,depois,paired=T)

Paired t-test

data: antes and depois

t = 2.0896, df = 4, p-value = 0.1049

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval: -1.380586 9.780586

sample estimates: mean of the differences 4.2

18

Inferencias sobre variancias na normal

Y1, Y2, ..., Ynind∼ N(µ, σ2)

(n−1)S2

σ2 ∼ χ2n−1, S2 = 1

n−1∑nj=1(Yj − Y )2

IC(σ2,1− α) : (n−1)S2

χ2(1−α/2),n−1

≤ σ2 ≤ (n−1)S2

χ2(α/2),n−1

Teste da Hipotese H0 : σ2 = σ20 versus

H1 : σ2 6= σ20 ao nıvel de significancia α.

Estatıstica de teste: χ20 = (n−1)S2

σ20

Regiao crıtica; χ20 ≤ χ

2(α/2),n−1 ou

χ20 ≥ χ

2(1−α/2),n−1.

19

Considere agora o problema de comparacao de

variancias de duas amostras independentes da

distribuicao normal.

H0 : σ21 = σ2

2 versus H1 : σ21 6= σ2

2.

Neste caso, sob H0, amostras aleatorias inde-

pendentes de populacoes normais a estatıstica

de teste e

F0 =S2

1

S22

que sob H0 tem distribuicao F com n1 − 1 e

n2 − 1 graus de liberdade.

Recomendacao: Resolver os exercıcios do capıtu-

lo 2.

20

Interpretacao do p-valor

Fisher (1954) sugeriu uma escala de evidencia

com base no p-valor

p-valor Natureza da evidenciacontra H0

0,10 marginal0,05 moderada

0,025 substancial0,01 forte

0,005 muito forte0,001 fortıssima

21

A maioria dos softwares estatısticos retornam

o p-valor dos testes executados. Por isso e

fundamental saber interpreta-lo.

Assim, lembre-se de em todo teste ter clareza

de quem e a hipotese nula e quem e a hipotese

alternativa. Alem disso, lembre que o p-valor

fornece um grau de evidencia amostral contra

H0, no sentido de quanto menor ele e, mais

forte e a evidencia contra a hipotese nula.

Lembre: podemos pensar no p-valor como uma

medida de adesao dos dados amostrais a hipo-

tese nula. Se ele nao e muito pequeno e porque

e razoavel que eles tenham sido gerados pela

distribuicao proposta por H0.

22

Exercıcio 2.27 O diametro de rolamento de

uma bola foi medido por 12 inspetores, cada

um usando dois diferentes tipos de instrumento

de medida. Os resultados obtidos estao na

tabela a seguir.

Inspetor Instrumento I Instrumento II1 0,265 0,2642 0,265 0,2653 0,266 0,2644 0,267 0,2665 0,267 0,2676 0,265 0,2687 0,267 0,2648 0,267 0,2659 0,265 0,265

10 0,268 0,26711 0,268 0,26812 0,265 0,269

23

(a) Ha diferenca significativa entre as duas

medias das populacoes das quais foram obtidas

as amostras? Use α = 0,05.

(b) Qual e o P-valor desse teste?

(c) Construa um intervalo de 95% de confianca

para a diferenca entre as medias produzidas

pelos dois intrumentos.

24

medidas=read.table(”c://dox//diametro.txt”, header=T)

d=medidas$I-medidas$II

shapiro.test(d)

Shapiro-Wilk normality test

data: d W = 0.8815, p-value = 0.09172 ' 9,2%

Logo, ha evidencia entre moderada a marginal (mais para marginal),contra a hipotese de normalidade. Portanto, nao devemos rejeitaressa hipotese.

25

t.test(medidas$I, medidas$II,paired=T)

Paired t-test

data: medidas$I and medidas$II

t = 0.4318, df = 11, p-value = 0.6742

alternative hypothesis: true difference in means

is not equal to 0

95 percent confidence interval: -0.001024344

0.001524344 (-0.0010, 0.0015)

sample estimates: mean of the differences 0.00025

26

Concluımos que nao ha diferenca significativa

entre as medias das medidas produzidas pelos

diferentes instrumentos ao nıvel de significancia

de 5%. O p-valor desse teste e alto, em torno

de 67%. O intervalo de 95% de confianca para

a diferenca entre as duas medias e dado por

(−0.0010,0.0015).

27

Exercıcio 2.32 Dois medicamentos populares

para dor estao sendo comparados com base na

velocidade de absorcao pelo corpo. Especifi-

camente, afirma-se que o tablete I e absorvido

duas vezes mais rapidamente do que o tablete

II. Assuma que σ21 e σ2

2 sao conhecidas.

Desenvolva um teste estatıstico para testar as

hipoteses

{H0 : 2µ1 = µ2H1 : 2µ1 6= µ2

.

Suponha duas amostras aleatorias independen-

tes Y11, Y12, ..., Y1n1de N(µ1, σ

21) e

Y21, Y22, ..., Y2n2de N(µ2, σ

22)

Como as amostras sao independentes e as va-

riancias sao conhecidas temos

2Y1 − Y2 ∼ N(

2µ1 − µ2,4σ2

1

n1+σ2

2

n2

)

28

Logo,

Z =2Y1 − Y2 − (2µ1 − µ2)√

4σ2

1n1

+σ2

2n2

∼ N(0,1)

E, sob H0, Z0 = 2Y1−Y2√4σ2

1n1

+σ2

2n2

∼ N(0,1).

Assim, a um nıvel de significancia α, rejeitare-

mos H0 se |Z0| ≥ z1−α/2 em que z1−α/2 e o

quantil acumulado de 1-α/2 da normal padrao.

29

Para entregar na aula de terca-feira, dia 29 de

setembro.

aluno nome exercıcios1 Aline 20 e 272 Andre 21 e 383 Carolina 22 e 254 Felipe 11 e 335 Fernanda 7 e 366 Igor 9 e 357 Laura 15 e 168 Mariana 17 e 189 Michele 6 e 26

10 Pedro 23 e 2411 Sandra 3 e 4012 Veronica 10 e 3413 Priscila 4 e 3914 Dimas 12 e 3115 Thaıs 13 e 29

30

planejamento de experimentos - ufrj · suponha que os esp ecimes foram cortados de barras de...

Documents