2.5 inferÊncias sobre a diferenÇa nas mÉdias, comparaÇÕes emparelhadas

2.5 INFERÊNCIAS SOBRE A DIFERENÇA NAS MÉDIAS,

COMPARAÇÕES EMPARELHADAS

2.5.1 O problema da comparação emparelhada/pareada

• Exemplo: Considere uma máquina de teste de resistência que pressiona uma vareta com uma ponta fina em um metal com uma força conhecida.

• Medindo o comprimento da depressão causada pela vareta, a resistência do metal é determinada.

• Dois tipos de vareta estão disponíveis para a máquina e, apesar da variabilidade das medidas feitas pelos dois tipos de vareta parecerem ser a mesma, suspeita-se que uma vareta produz leituras de resistência média diferente da outra.

2.5.1 O problema da comparação emparelhada

• Um experimento pode ser realizado da seguinte forma:

• SELECIONE aleatoriamente n peças do metal.• TESTE metade dessas peças com a vareta tipo 1 e, a

outra metade, com a vareta tipo 2.• Designe cada peça a uma vareta de forma aleatória.• Esse é um planejamento completamente aleatorizado. • Portanto, a resistência média das duas amostras pode

ser comparada via teste-t para duas amostras.


• Uma pequena reflexão revelará uma séria desvantagem do experimento completamente aleatorizado para esse problema.

• Suponha que as espécies de metal não são exatamente homogêneas e os resultados da análise poderão ser afetados por essa fonte de variação (ruído) que não é de interesse no estudo.

• Essa falta de homogeneidade contribuirá para a variabilidade das medidas de resistência e tenderá a inflacionar a variância do erro experimental, tornando assim mais difícil detectar uma real diferença entre as resistências às varetas.


• plano experimental alternativo • Suponha que cada peça é grande o suficiente tal que

duas determinações de resistência sejam possíveis.• O plano alternativo consiste em dividir cada peça em

duas partes, e então, aleatoriamente, designar uma vareta para cada uma das partes.

• A ordem na qual as varetas seriam testadas para uma particular peça, também seria aleatória.

Exemplo: Dados de resistência

peça Vareta_1 Vareta_2

1 7 6

2 3 3

3 3 5

4 4 3

5 8 8

6 3 2

7 2 4

8 9 9

9 5 4

10 4 5

Suponha a realização desse experimento com 10 peças. (dados na tabela ao lado).

O modelo que descreve esses dados pode serescrito na forma:

10,...,2,1,2,1

,

ji

y ijjiij

Exemplo: Dados de resistência - modelo

. variânciae zero média com alexperiment erro

e peça da aresistênci da efeito

varetada aresistênci da a verdadeirmédia

; peça na varetada aresistênci da observação

10,...,2,1,2,1,

2iij

j

i

ij

ijjiij

σ

j

i

jiy

jiy

ij

Exemplo: Dados de resistência - modelo

Observe que se calculamos as diferenças emparelhadas

10,...,2,1,21 jyyd jjj

o valor esperado dessa diferença é:

212121 ][][ jjjjjd YYEdE

Ou seja, podemos fazer inferência sobre a diferença na média das leituras de resistência das duas varetas μ1- μ2 fazendo inferência sobre a média das diferenças μd .

Observe que o efeito adicional das peças se anula quando as observações estão emparelhadas dessa forma.

Exemplo: Dados de resistência - teste

• Observe que aqui o teste da hipótese de que as médias são iguais é equivalente ao teste da hipótese de que 0d

Ou seja, nesse caso, caímos no problema de um teste t para uma amostra, se olhamos as diferenças individuais como as observaçõesindependentes.


• Nesse caso calculamos a média e variância amostrais dos dados, para depois calcular o valor da estatística t.

nS

dt

dd

nSd

nd

d

n

j

jd

n

jj

/

1

11

0

1

2

2

1

Sob a hipótese nula, a estatística de teste tem distribuição t-de-Student com n-1 graus de liberdade tal que a região crítica do teste bilateral é dada por

1,2/0: nttRC


• O p-valor também pode ser facilmente obtido, calculando-se

)~( 10 ntTtTP

Exemplo de saída do R:One Sample t-testt= 0.2641, df = 9, p-value = 0.7976alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -0.7564389 0.9564389 sample estimates:mean of x 0.1

Vantagens do plano de comparação emparelhada

• Esse tipo de plano ilustra o princípio de blocagem.• De fato, ele é um caso especial de um experimento mais geral

chamado experimento em blocos aleatorizado.• O termo bloco refere-se a unidades experimentais

relativamente homogêneas. (Nesse exemplo, as peças de metal são os blocos).

• Os blocos representam uma restrição sobre aleatorização completa, porque as combinações de tratamento somente são aleatorizadas dentro de cada bloco. (Cap. 4)

• Apesar de terem sido feitas 2n observações, somente n-1 graus de liberdade estão disponiveis para a estatistica t. (A medida que cresce o número de graus de liberdade, o teste t torna-se mais sensível.)


• Com blocagem ou pareamento, efetivamente “perde-se” n-1 graus de liberdade, mas espera-se um ganho num conhecimento melhor da situação, eliminando-se fonte de variabilidade adicional ( a diferença entre espécies nesse caso.)

• Podemos obter uma medida da qualidade da informação produzida do planejamento emparelhado comparando-se o desvio-padrão das diferenças (Sd) com o desvio padrão combinado, sob a hipótese de variâncias iguais (Sp).

• Nesse exemplo, Sd=1,20 e Sp=2,32.


• Geralmente, se não introduzimos a estratégia de blocos ou pareamento quando isso é necessário Sp

2 será maior que Sd

2 .• Se pareamos as observações, é fácil mostrar que Sd

2 é um estimador não viesado da variancia das diferenças djsob o modelo considerado.

• Porém, se não fazemos isso e tratamos as observações como duas amostras independentes, Sp

2 será um estimador viesado da variância.


• De fato, supondo que ambas as variâncias são iguais, é possível mostrar que

n

jjpSE

1

222 ][

Ou seja, os efeitos de bloco, βj ‘s, inflacionam a estimativa da variância.

Isso explica porque a blocagem é uma técnica de planejamento que visa a redução do ruído.

Intervalos de confiança para a diferença 1-2

• Usando dados pareados tem-se )76,0;96.0(:86,010,0:)95,0,( dIC

• Usando a análise supondo duas amostras independentestem-se: )08,2;28,2(:18,210,0:)95,0,( dIC

• O intervalo de confiança sob observações pareadas é muito mais estreito que o sob amostras independentes.

• Blocagem nem sempre é a melhor estratégia de planejamento.

• Se a variabilidade dentro dos blocos é a mesma variabilidade entre blocos, a variância da diferença das médias amostrais será a mesma sem olhar a estratégia usada.

• De fato, blocagem sob essas condições seria uma escolha ruim de planejamento, pois resultaria na perda de n-1 graus de liberdade e acabaria levando a um intervalo mais largo. (Capítulo 4)

2.6 Inferência sobre variâncias na normal - revisão

20

21

20

20

221

:

:

),(~,...,,

H

H

NIDXXX n

Do teorema fundamental da Inferência na normal, temos que

n

iin XX

nS

Sn

1

222)1(2

2

)(1

1,~)1(


2)1(02

0

2

~|)1( nHS

n

Assim, se a hipótese nula for verdadeira, segue que:

e a região crítica do teste de nível de significância pode ser dada por

21

21,

21,2/2

0

22

1,2/120

2

~,)(

)1()1(

nn

nn

WWP

com

Snou

Sn


• Um intervalo de confiança de 100(1-α)% para 2 é dado por

2

1,2/1

2

21,2/

2 )1(;

)1(

nn

SnSn

2.6 Comparação de variâncias

22

211

22

210

22222221

21111211

:

:

),(~,...,,

),(~,...,,

2

1

H

H

NIDXXX

NIDXXX

n

n

Sob a hipótese nula, a razão das variâncias amostrais tem distribuiçãoF com n1 -1 e n2 -1 graus de liberdade e uma região crítica para o teste de nível α de significância é dada por

mnmn

nnnn

FFFFPcom

FS

SouF

S

S

,,,,

1,1,2/22

21

1,1,2/122

21

~,)(

2121

Exercícios sugeridos do Capítulo 2

• 3,4,6,7,10,19,22,25,27,31,32,33,39 e 40 (sétima edição)

2.5 inferÊncias sobre a diferenÇa nas mÉdias, comparaÇÕes emparelhadas

Documents