2.5 inferÊncias sobre a diferenÇa nas mÉdias, comparaÇÕes emparelhadas
TRANSCRIPT
2.5 INFERÊNCIAS SOBRE A DIFERENÇA NAS MÉDIAS,
COMPARAÇÕES EMPARELHADAS
2.5.1 O problema da comparação emparelhada/pareada
• Exemplo: Considere uma máquina de teste de resistência que pressiona uma vareta com uma ponta fina em um metal com uma força conhecida.
• Medindo o comprimento da depressão causada pela vareta, a resistência do metal é determinada.
• Dois tipos de vareta estão disponíveis para a máquina e, apesar da variabilidade das medidas feitas pelos dois tipos de vareta parecerem ser a mesma, suspeita-se que uma vareta produz leituras de resistência média diferente da outra.
2.5.1 O problema da comparação emparelhada
• Um experimento pode ser realizado da seguinte forma:
• SELECIONE aleatoriamente n peças do metal.• TESTE metade dessas peças com a vareta tipo 1 e, a
outra metade, com a vareta tipo 2.• Designe cada peça a uma vareta de forma aleatória.• Esse é um planejamento completamente aleatorizado. • Portanto, a resistência média das duas amostras pode
ser comparada via teste-t para duas amostras.
2.5.1 O problema da comparação emparelhada
• Uma pequena reflexão revelará uma séria desvantagem do experimento completamente aleatorizado para esse problema.
• Suponha que as espécies de metal não são exatamente homogêneas e os resultados da análise poderão ser afetados por essa fonte de variação (ruído) que não é de interesse no estudo.
• Essa falta de homogeneidade contribuirá para a variabilidade das medidas de resistência e tenderá a inflacionar a variância do erro experimental, tornando assim mais difícil detectar uma real diferença entre as resistências às varetas.
2.5.1 O problema da comparação emparelhada
• plano experimental alternativo • Suponha que cada peça é grande o suficiente tal que
duas determinações de resistência sejam possíveis.• O plano alternativo consiste em dividir cada peça em
duas partes, e então, aleatoriamente, designar uma vareta para cada uma das partes.
• A ordem na qual as varetas seriam testadas para uma particular peça, também seria aleatória.
Exemplo: Dados de resistência
peça Vareta_1 Vareta_2
1 7 6
2 3 3
3 3 5
4 4 3
5 8 8
6 3 2
7 2 4
8 9 9
9 5 4
10 4 5
Suponha a realização desse experimento com 10 peças. (dados na tabela ao lado).
O modelo que descreve esses dados pode serescrito na forma:
10,...,2,1,2,1
,
ji
y ijjiij
Exemplo: Dados de resistência - modelo
. variânciae zero média com alexperiment erro
e peça da aresistênci da efeito
varetada aresistênci da a verdadeirmédia
; peça na varetada aresistênci da observação
10,...,2,1,2,1,
2iij
j
i
ij
ijjiij
σ
j
i
jiy
jiy
ij
Exemplo: Dados de resistência - modelo
Observe que se calculamos as diferenças emparelhadas
10,...,2,1,21 jyyd jjj
o valor esperado dessa diferença é:
212121 ][][ jjjjjd YYEdE
Ou seja, podemos fazer inferência sobre a diferença na média das leituras de resistência das duas varetas μ1- μ2 fazendo inferência sobre a média das diferenças μd .
Observe que o efeito adicional das peças se anula quando as observações estão emparelhadas dessa forma.
Exemplo: Dados de resistência - teste
• Observe que aqui o teste da hipótese de que as médias são iguais é equivalente ao teste da hipótese de que 0d
Ou seja, nesse caso, caímos no problema de um teste t para uma amostra, se olhamos as diferenças individuais como as observaçõesindependentes.
Exemplo: Dados de resistência - teste
• Nesse caso calculamos a média e variância amostrais dos dados, para depois calcular o valor da estatística t.
nS
dt
dd
nSd
nd
d
n
j
jd
n
jj
/
1
11
0
1
2
2
1
Sob a hipótese nula, a estatística de teste tem distribuição t-de-Student com n-1 graus de liberdade tal que a região crítica do teste bilateral é dada por
1,2/0: nttRC
Exemplo: Dados de resistência - teste
• O p-valor também pode ser facilmente obtido, calculando-se
)~( 10 ntTtTP
Exemplo de saída do R:One Sample t-testt= 0.2641, df = 9, p-value = 0.7976alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -0.7564389 0.9564389 sample estimates:mean of x 0.1
Vantagens do plano de comparação emparelhada
• Esse tipo de plano ilustra o princípio de blocagem.• De fato, ele é um caso especial de um experimento mais geral
chamado experimento em blocos aleatorizado.• O termo bloco refere-se a unidades experimentais
relativamente homogêneas. (Nesse exemplo, as peças de metal são os blocos).
• Os blocos representam uma restrição sobre aleatorização completa, porque as combinações de tratamento somente são aleatorizadas dentro de cada bloco. (Cap. 4)
• Apesar de terem sido feitas 2n observações, somente n-1 graus de liberdade estão disponiveis para a estatistica t. (A medida que cresce o número de graus de liberdade, o teste t torna-se mais sensível.)
Vantagens do plano de comparação emparelhada
• Com blocagem ou pareamento, efetivamente “perde-se” n-1 graus de liberdade, mas espera-se um ganho num conhecimento melhor da situação, eliminando-se fonte de variabilidade adicional ( a diferença entre espécies nesse caso.)
• Podemos obter uma medida da qualidade da informação produzida do planejamento emparelhado comparando-se o desvio-padrão das diferenças (Sd) com o desvio padrão combinado, sob a hipótese de variâncias iguais (Sp).
• Nesse exemplo, Sd=1,20 e Sp=2,32.
Vantagens do plano de comparação emparelhada
• Geralmente, se não introduzimos a estratégia de blocos ou pareamento quando isso é necessário Sp
2 será maior que Sd
2 .• Se pareamos as observações, é fácil mostrar que Sd
2 é um estimador não viesado da variancia das diferenças djsob o modelo considerado.
• Porém, se não fazemos isso e tratamos as observações como duas amostras independentes, Sp
2 será um estimador viesado da variância.
Vantagens do plano de comparação emparelhada
• De fato, supondo que ambas as variâncias são iguais, é possível mostrar que
n
jjpSE
1
222 ][
Ou seja, os efeitos de bloco, βj ‘s, inflacionam a estimativa da variância.
Isso explica porque a blocagem é uma técnica de planejamento que visa a redução do ruído.
Intervalos de confiança para a diferença 1-2
• Usando dados pareados tem-se )76,0;96.0(:86,010,0:)95,0,( dIC
• Usando a análise supondo duas amostras independentestem-se: )08,2;28,2(:18,210,0:)95,0,( dIC
• O intervalo de confiança sob observações pareadas é muito mais estreito que o sob amostras independentes.
• Blocagem nem sempre é a melhor estratégia de planejamento.
• Se a variabilidade dentro dos blocos é a mesma variabilidade entre blocos, a variância da diferença das médias amostrais será a mesma sem olhar a estratégia usada.
• De fato, blocagem sob essas condições seria uma escolha ruim de planejamento, pois resultaria na perda de n-1 graus de liberdade e acabaria levando a um intervalo mais largo. (Capítulo 4)
2.6 Inferência sobre variâncias na normal - revisão
20
21
20
20
221
:
:
),(~,...,,
H
H
NIDXXX n
Do teorema fundamental da Inferência na normal, temos que
n
iin XX
nS
Sn
1
222)1(2
2
)(1
1,~)1(
2.6 Inferência sobre variâncias na normal - revisão
2)1(02
0
2
~|)1( nHS
n
Assim, se a hipótese nula for verdadeira, segue que:
e a região crítica do teste de nível de significância pode ser dada por
21
21,
21,2/2
0
22
1,2/120
2
~,)(
)1()1(
nn
nn
WWP
com
Snou
Sn
2.6 Inferência sobre variâncias na normal - revisão
• Um intervalo de confiança de 100(1-α)% para 2 é dado por
2
1,2/1
2
21,2/
2 )1(;
)1(
nn
SnSn
2.6 Comparação de variâncias
22
211
22
210
22222221
21111211
:
:
),(~,...,,
),(~,...,,
2
1
H
H
NIDXXX
NIDXXX
n
n
Sob a hipótese nula, a razão das variâncias amostrais tem distribuiçãoF com n1 -1 e n2 -1 graus de liberdade e uma região crítica para o teste de nível α de significância é dada por
mnmn
nnnn
FFFFPcom
FS
SouF
S
S
,,,,
1,1,2/22
21
1,1,2/122
21
~,)(
2121
Exercícios sugeridos do Capítulo 2
• 3,4,6,7,10,19,22,25,27,31,32,33,39 e 40 (sétima edição)