planejamento de experimentos - ufrj · suponha que os esp ecimes foram cortados de barras de...
TRANSCRIPT
Planejamento de Experimentos
2.2 Comparacoes Pareadas: Duas amostras.
Exemplo: Deseja-se testar a forca de uma ma-
quina sobre placas de metal. Dispoe-se de dois
tipos de varetas que serao usadas para pres-
sionar a placa com o auxılio da maquina. A de-
pressao causada pela vareta e medida. Apesar
da precisao das medidas feitas pelas duas vare-
tas parecerem ser iguais, suspeita-se que uma
vareta produza uma depressao media diferente
da outra.
Uma forma de proceder e a seguinte. Selecione
n especimes do metal ao acaso. Por exemplo
n = 20. Designe 10, a vareta 1 e, 10, a vareta
2, de forma aleatoria.
1
Este e um experimento completamente aleato-
rizado. Entao podemos obter as medias cor-
respondentes a cada vareta para entao com-
para-las usando o teste t para duas amostras
que acabamos de estudar.
Porem, ha uma desvantagem em usar o plano
completamente aleatorizado neste problema.
Suponha que os especimes foram cortados de
barras de estoques diferentes que foram pro-
duzidos em fornos diferentes ou que nao sao
exatamente homogenenos de alguma outra for-
ma que pode afetar a medida de interesse.
Esta falta de homogeneidade entre especimes
contribuira na variabilidade das medidas de re-
sistencia e tendera a inflacionar o erro expe-
rimental, tornando assim mais difıcil detectar
uma verdadeira diferenca nas medias resultan-
te das diferentes varetas.2
Para nos protegermos desta possibilidade, con-
sidere um plano alternativo. Suponha que cada
especime e grande o suficiente para que sejam
feitas duas determinacoes sobre ele.
Este plano consiste em dividir cada especime
em duas partes e, entao, aleatoriamente, de-
signar uma vareta a uma parte e, a outra, a
parte restante.
A ordem na qual as varetas sao testadas para
um especime em particular tambem deve ser
aleatoria.
O experimento, quando realizado de acordo
com este plano com 10 especimes, produziu
os resultados na tabela a seguir.
3
4
MODELO ESTATISTICO
Yij = µi + βj + εij, i = 1,2 j = 1,2, ...,10
Yij - representa a j-esima medida correspon-dente ao i-esimo tratamento (aqui a i-esimavareta)
µi - representa a verdadeira media correspon-dente ao i-esimo tratamento
βj - representa o efeito sobre a resposta devidoa j-esima unidade experimental (aqui o j-esimoespecime).
εij - representa o erro experimental aleatoriotal que
E[εij] = 0 e Var(εij) = σ2i , ou seja, σ2
1 e avariancia produzida pelas medidas feitas coma vareta 1 e σ2
2 e a variancia produzida pelasmedidas feitas com a vareta 2.
5
Em geral adota-se a restricaon∑
j=1
βj = 0 tal
que E[Yi.] = µi, Yi. = 1n
n∑j=1
Yij =1
nYi.
Se calcularmos as diferencas devidas aos pares
dj = Y1j − Y2j, j = 1,2, ...,10 temos
µd = E[dj] = E[Y1j − Y2j] = µ1 + βj − (µ2 + βj) = µ1− µ2.
Assim, o efeito devido ao especime e eliminado
sob o modelo aqui considerado.
Observe tambem que
Var(dj) = Var(Y1j−Y2j) = Var(Y1j) + Var(Y2j)−2Cov(Y1j, Y2j) = σ2d
Para a realizacao do teste de comparacao de
medias nesse caso nao sera necessario supor
que as variancias correspondentes as medidas
feitas por cada tipo de vareta sao iguais. Para
fins de comparacao das medias no modelo pa-
reado, a variancia de interesse sera σ2d .
6
Testar H0 : µ1 = µ2 versus H1 : µ1 6= µ2 e
equivalente a testar
H0 : µd = 0 versus H1 : µd 6= 0.
Estatıstica de teste: T0 = dsd/√n
com
d = 1n
n∑j=1
dj e s2d = 1
n−1
n∑j=1
(dj − d)2.
Suposicao: dj ∼ NID(µd, σ2d).
Ao nıvel de significancia α, rejeitaremos H0, se
|T0| ≥ t(1−α/2),n−1.
Vantagens do plano pareado:
Este plano ilustra de forma bem simples o princı-
pio de blocagem.
7
De fato, e um caso particular do tipo mais
geral de plano conhecido como plano em blo-
cos aleatorizados, que iremos tratar no capıtulo
4.
O termo bloco refere-se a uma unidade ex-
perimental relativamente homogenea e o bloco
representa uma restricao sobre a aleatorizacao
completa, pois as combinacoes de tratamento
sao somente aleatorizadas dentro dos blocos.
No capıtulo 4 veremos outros experimentos
deste tipo.
Observacoes importantes:
1. Apesar de 2n = 2(10) = 20 observacoes
terem sido feitas, somente n− 1 = 9 graus de
liberdade estao disponıveis para a estatıstica t.
Sabe-se que quanto maior e o numero de graus
de liberdade, mais sensıvel e o teste.
8
Com o pareamento, perde-se n − 1 graus de
liberdade, mas espera-se ganhar um conheci-
mento melhor da situacao eliminando uma fon-
te de variacao adicional.
2. Podemos obter uma indicacao da qualidade
da informacao produzida pelo plano pareado,
comparando o desvio-padrao das diferencas sdcom o desvio padrao combinado sp, que seria
resultante se o experimento tivesse sido con-
duzido de forma completamente aleatorizada e
tivesse produzido os dados da tabela 2.5.
sp ' 2,32 e sd ' 1,20
Observacao: a comparacao destes dois valores
nao e justa, pois, ou bem os dados foram obti-
dos de forma pareada, ou de forma totalmente
independente (aleatoria). Mas, de fato, um
dos objetivos de se usar blocagem e que ela
reduz a variabilidade.9
Quando os dados sao pareados (ou estao emblocos) S2
d sera um estimador nao viciado davariancia das diferencas σ2
d , enquando que S2p
sera um estimador viciado da variancia σ2 dasobservacoes (supondo variancias iguais entreos diferentes tratamentos).
De fato, considere o modelo pareado
Yij = µi + βj + εij, i = 1,2 j = 1,2, ..., n,
com εij ∼ NID(0, σ2) e defina dj = Y1j − Y2j,j = 1,2, ..., n.
Adotando-se a restricaon∑
j=1
βj = 0 tem-se
Yi. ∼ N(µi,σ2
n ).
σ2d = Var(Y1j − Y 2j).
10
Sejam S2d = 1
n−1
n∑j=1
(dj − d)2 um estimador de
σ2d , a variancia das diferencas,
e S2p =
(n−1)S21+(n−1)S2
2n−1+n−1 =
S21+S2
22 , um esti-
mador de σ2, a variancia das observacoes.
E[S2d ] = 1
n−1E
n∑j=1
d2j − nd
2
Mas,
E[d2j ] = Var(dj) + E[dj]
2 = σ2d + (µ1 − µ2)2 e
nE[d2] = n[Var(d) + E[d]2
].
11
Logo,
E[S2d ] = 1
n−1
{nσ2
d + n(µ1 − µ2)2 − σ2d − n(µ1 − µ2)2
}= σ2
d
tal que S2d , sob este modelo, e um estimador
nao-viciado da variancia das diferencas.
E[S2p ] =
1
2E[S2
1 + S22],
pois sao duas amostras de tamanhos iguais.
Como estamos supondo variancias iguais temosE[S2
1] = E[S22] tal que
E[S2p ] = E[S2
1].
E[S21] = 1
n−1E
2∑j=1
(Y1j − Y1.)2
= 1n−1
n∑j=1
E[Y 21j]− nE[Y 2
1.]
E[Y 2
1j] = Var(Y1j) + E[Y1j]2 = σ2 + (µ1 + βj)2 e
E[Y 21.] = Var(Y1.) + E[Y1.]
2 =σ2
n+ µ2
1.
12
Assim,
E[S2p ] = E[S2
1] = 1n−1
nσ2 + nµ21 + 2nµ1
n∑j=1
βj︸ ︷︷ ︸=0
+
n∑j=1
β2j − σ2 − nµ2
1
= σ2 +
n∑j=1
β2j
n−1 ,
tal que S2p , sob este modelo, e um estimador
viciado da variancia das observacoes.
13
Usando o R para realizar o teste desses dados:
> vareta=read.table(“c://dox//vareta.txt”,header=T)
> t.test(vareta$v1,vareta$v2,paired=T)
Paired t-test
data: vareta$v1 and vareta$v2
t = -0.2641, df = 9, p-value = 0.7976
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.9564389 0.7564389
sample estimates: mean of the differences -0.1
Conclusao: Como o p-valor e alto, nao rejeitamos a hipotese nulade que as medias sao iguais.
14
Exemplo: (Bussab e Morettin, 2002) Um medi-
co deseja saber se uma certa droga reduz a
pressao arterial media. Para isso, mediu a
pressao arterial em cinco voluntarios, antes e
depois da ingestao da droga, obtendo os dados
do quadro a seguir.
Voce acha que existe evidencia estatıstica de
que a droga realmente reduz a pressao arterial
media?
Que suposicoes voce fez para resolver este pro-
blema?
voluntario antes depois1 68 602 80 713 90 884 72 745 80 76
15
Trata-se de um experimento comparativo sim-
ples envolvendo duas amostras. A questao
mais importante aqui e identificar se as amos-
tras sao independentes para entao usarmos o
teste t de amostras independentes ou se as
amostras sao pareadas e entao usarmos o teste
t sobre as diferencas.
Observe que em geral quando comparamos du-
as medias e simples identificar qual e a situacao.
No caso deste exemplo, claramente trata-se de
amostras pareadas.
Uma observacao tambem importante do Plane-
jamento de Experimentos e que como ja vimos
na primeira aula, ele nao esta focado somente
na analise dos dados obtidos. Faz parte do
Planejamento todo o processo de construcao
do problema, inclusive a producao dos dados.
16
Nessa fase o experimentador devera decidir,
com base no problema a ser resolvido, se sera
melhor trabalhar com amostras independentes
ou pareadas ou, mais geralmente, com expe-
rimentos completamente aleatorizados ou ex-
perimentos em blocos aleatorizados.
Voltando aos dados do problema
t0 =d
sd/√
5' 2.09
Ao nıvel de significancia de 5%, rejeita-se H0
a hipotese de que nao ha diferenca nas medias
de pressao arterial antes e depois da ingestao
da droga, se |t0| ≥ 2,78. Logo, ao nıvel de 5%
nao rejeitamos H0, concluindo que a droga nao
reduz a pressao arterial.
17
O p-valor desse teste e: 0.1048807' 10,5%.
Lembre que para usar este teste estamos su-
pondo que as diferencas de pressao antes e
depois sao geradas por uma distribuicao nor-
mal.
Usando o R:
> antes=c(68,80,90,72,80)
> depois=c(60,71,88,74,76)
> t.test(antes,depois,paired=T)
Paired t-test
data: antes and depois
t = 2.0896, df = 4, p-value = 0.1049
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: -1.380586 9.780586
sample estimates: mean of the differences 4.2
18
Inferencias sobre variancias na normal
Y1, Y2, ..., Ynind∼ N(µ, σ2)
(n−1)S2
σ2 ∼ χ2n−1, S2 = 1
n−1∑nj=1(Yj − Y )2
IC(σ2,1− α) : (n−1)S2
χ2(1−α/2),n−1
≤ σ2 ≤ (n−1)S2
χ2(α/2),n−1
Teste da Hipotese H0 : σ2 = σ20 versus
H1 : σ2 6= σ20 ao nıvel de significancia α.
Estatıstica de teste: χ20 = (n−1)S2
σ20
Regiao crıtica; χ20 ≤ χ
2(α/2),n−1 ou
χ20 ≥ χ
2(1−α/2),n−1.
19
Considere agora o problema de comparacao de
variancias de duas amostras independentes da
distribuicao normal.
H0 : σ21 = σ2
2 versus H1 : σ21 6= σ2
2.
Neste caso, sob H0, amostras aleatorias inde-
pendentes de populacoes normais a estatıstica
de teste e
F0 =S2
1
S22
que sob H0 tem distribuicao F com n1 − 1 e
n2 − 1 graus de liberdade.
Recomendacao: Resolver os exercıcios do capıtu-
lo 2.
20
Interpretacao do p-valor
Fisher (1954) sugeriu uma escala de evidencia
com base no p-valor
p-valor Natureza da evidenciacontra H0
0,10 marginal0,05 moderada
0,025 substancial0,01 forte
0,005 muito forte0,001 fortıssima
21
A maioria dos softwares estatısticos retornam
o p-valor dos testes executados. Por isso e
fundamental saber interpreta-lo.
Assim, lembre-se de em todo teste ter clareza
de quem e a hipotese nula e quem e a hipotese
alternativa. Alem disso, lembre que o p-valor
fornece um grau de evidencia amostral contra
H0, no sentido de quanto menor ele e, mais
forte e a evidencia contra a hipotese nula.
Lembre: podemos pensar no p-valor como uma
medida de adesao dos dados amostrais a hipo-
tese nula. Se ele nao e muito pequeno e porque
e razoavel que eles tenham sido gerados pela
distribuicao proposta por H0.
22
Exercıcio 2.27 O diametro de rolamento de
uma bola foi medido por 12 inspetores, cada
um usando dois diferentes tipos de instrumento
de medida. Os resultados obtidos estao na
tabela a seguir.
Inspetor Instrumento I Instrumento II1 0,265 0,2642 0,265 0,2653 0,266 0,2644 0,267 0,2665 0,267 0,2676 0,265 0,2687 0,267 0,2648 0,267 0,2659 0,265 0,265
10 0,268 0,26711 0,268 0,26812 0,265 0,269
23
(a) Ha diferenca significativa entre as duas
medias das populacoes das quais foram obtidas
as amostras? Use α = 0,05.
(b) Qual e o P-valor desse teste?
(c) Construa um intervalo de 95% de confianca
para a diferenca entre as medias produzidas
pelos dois intrumentos.
24
medidas=read.table(”c://dox//diametro.txt”, header=T)
d=medidas$I-medidas$II
shapiro.test(d)
Shapiro-Wilk normality test
data: d W = 0.8815, p-value = 0.09172 ' 9,2%
Logo, ha evidencia entre moderada a marginal (mais para marginal),contra a hipotese de normalidade. Portanto, nao devemos rejeitaressa hipotese.
25
t.test(medidas$I, medidas$II,paired=T)
Paired t-test
data: medidas$I and medidas$II
t = 0.4318, df = 11, p-value = 0.6742
alternative hypothesis: true difference in means
is not equal to 0
95 percent confidence interval: -0.001024344
0.001524344 (-0.0010, 0.0015)
sample estimates: mean of the differences 0.00025
26
Concluımos que nao ha diferenca significativa
entre as medias das medidas produzidas pelos
diferentes instrumentos ao nıvel de significancia
de 5%. O p-valor desse teste e alto, em torno
de 67%. O intervalo de 95% de confianca para
a diferenca entre as duas medias e dado por
(−0.0010,0.0015).
27
Exercıcio 2.32 Dois medicamentos populares
para dor estao sendo comparados com base na
velocidade de absorcao pelo corpo. Especifi-
camente, afirma-se que o tablete I e absorvido
duas vezes mais rapidamente do que o tablete
II. Assuma que σ21 e σ2
2 sao conhecidas.
Desenvolva um teste estatıstico para testar as
hipoteses
{H0 : 2µ1 = µ2H1 : 2µ1 6= µ2
.
Suponha duas amostras aleatorias independen-
tes Y11, Y12, ..., Y1n1de N(µ1, σ
21) e
Y21, Y22, ..., Y2n2de N(µ2, σ
22)
Como as amostras sao independentes e as va-
riancias sao conhecidas temos
2Y1 − Y2 ∼ N(
2µ1 − µ2,4σ2
1
n1+σ2
2
n2
)
28
Logo,
Z =2Y1 − Y2 − (2µ1 − µ2)√
4σ2
1n1
+σ2
2n2
∼ N(0,1)
E, sob H0, Z0 = 2Y1−Y2√4σ2
1n1
+σ2
2n2
∼ N(0,1).
Assim, a um nıvel de significancia α, rejeitare-
mos H0 se |Z0| ≥ z1−α/2 em que z1−α/2 e o
quantil acumulado de 1-α/2 da normal padrao.
29
Para entregar na aula de terca-feira, dia 29 de
setembro.
aluno nome exercıcios1 Aline 20 e 272 Andre 21 e 383 Carolina 22 e 254 Felipe 11 e 335 Fernanda 7 e 366 Igor 9 e 357 Laura 15 e 168 Mariana 17 e 189 Michele 6 e 26
10 Pedro 23 e 2411 Sandra 3 e 4012 Veronica 10 e 3413 Priscila 4 e 3914 Dimas 12 e 3115 Thaıs 13 e 29
30