inferÊncia estatÍstica para duas populaÇÕes...19 1,90. 250 1 300 1 0,689 (1 0,689) 0,723 0,648 z...

39
INFERÊNCIA ESTATÍSTICA PARA DUAS POPULAÇÕES

Upload: others

Post on 30-Jan-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

  • INFERÊNCIA ESTATÍSTICA

    PARA DUAS POPULAÇÕES

  • 2

    nXX ,,1 mYY ,,1

    nNX

    2

    11 ,~

    mNY

    2

    22 ,~

    População 1 População 2

    mnNYX

    2

    2

    2

    121 ,~

    1. Populações independentes com distribuição normal

    Obs. Se a distribuição de X e/ou Y não for normal, os resultados são válidos aproximadamente.

  • 3

    Bilateral

    ,:H

    direita À

    :H

    esquerda À

    :H

    :H :H :H

    021102110211

    021002100210

    sendo que 0 é uma constante conhecida (valor de teste). 0 = 0

    corresponde à igualdade das duas médias.

    Testes de hipóteses sobre 1 – 2

    X1,,Xn é uma amostra aleatória de tamanho n de uma população com

    distribuição normal com média 1 e variância 12.

    Y1,,Ym é uma amostra aleatória de tamanho m de uma população com

    distribuição normal com média 2 e variância 22.

    As duas populações são independentes.

    (i) Formulação das hipóteses:

  • 4

    (ii) Estatística de teste

    (a) 2

    2

    2

    1 e conhecidas: ).1,0( ~0

    Hsob2

    2

    2

    1

    0 N

    mn

    YXZ

    (b) 222

    2

    1 desconhecida:

    ,11

    2

    2

    0

    ~0

    Hsob

    mn

    p

    t

    mnS

    YXT

    2

    )1()1( que em

    2

    2

    2

    12

    mn

    SmSnS p é a variância combinada (pooled variance),

    m

    i

    i

    n

    i

    i YYm

    SXXn

    S1

    22

    2

    1

    22

    1 .)(1

    1 e )(

    1

    1

    Testes de hipóteses sobre 1 – 2

    (c) 22

    2

    1 , ambas desconhecidas: mente,aproximada ,~

    0Hsob

    2

    2

    2

    1

    0gt

    m

    S

    n

    S

    YXT

    .

    1

    )/(

    1

    )/( que em

    22

    2

    22

    1

    22

    2

    2

    1

    m

    mS

    n

    nS

    m

    S

    n

    S

    g

    (distribuição t de Student com n + m – 2 g.l.)

  • 5

    (iii) Região crítica para um nível de significância escolhido:

    cZR Zc )(

    cTR Tc )(

    cZR Zc )(

    cTR Tc )(

    cZR Zc )(

    cTR Tc )(

    (iv) Se Z RC ou T RC , rejeita-se Ho; caso contrário, não se rejeita H0.

    H1: 1 – 2 < 0 H1: 1 – 2 > 0 H1: 1 – 2 0

    Testes de hipóteses sobre 1 – 2

    Obs. Nas regiões críticas com Z e T o valor de c não é o mesmo.

  • 6

    ).,(,),,(),,( :Pares 2211 nn YXYXYX

    .,~2

    nND DD

    População 1 População 2

    2. Populações dependentes com distribuição normal

    Obs. Se a distribuição de D não for normal, o resultado é válido aproximadamente.

    Diferença: D = X – Y com D = E(X – Y) = E(X) – E(Y) = 1 – 2 e

    var(D) = D2.

    Calculamos D1 = X1 – Y1,..., Dn = Xn – Yn,

    .)(1

    1 e

    1 2

    1

    2

    1

    DDn

    sYXDn

    D i

    n

    i

    D

    n

    i

    i

    Distribuição:

  • 7

    Bilateral

    ,:H

    direita À

    :H

    esquerda À

    :H

    :H :H :H

    010101

    000000

    DDD

    DDD

    sendo que 0 é uma constante conhecida (valor de teste). 0 = 0

    corresponde à igualdade das duas médias (D = 1 – 2).

    Testes de hipóteses sobre 1 – 2

    D1,,Dn é uma amostra aleatória de tamanho n de uma população com

    distribuição normal com média D e variância D2.

    (i) Formulação das hipóteses:

    (ii) Estatística de teste:

    . )(

    10

    ~0

    Hsob

    n

    D

    ts

    DnT (distribuição t de Student com n – 1 g.l.)

  • 8

    (iii) Região crítica para um nível de significância escolhido:

    cTRc cTRc cTRc

    (iv) Se T RC , rejeita-se Ho; caso contrário, não se rejeita H0.

    H1: D < 0 H1: D > 0 H1: D 0

    Testes de hipóteses sobre 1 – 2

    Obs. Conhecido como teste t pareado ou emparelhado (paired t test).

  • 9

    nXX ,,1 mYY ,,1

    mente.aproximada ,)1(

    ,~ 1111

    n

    pppNp

    mente,aproximada ,)1()1(

    ,~ 22112121

    m

    pp

    n

    ppppNpp

    3. Populações independentes com distribuição Bernoulli

    mente.aproximada ,)1(

    ,~ 2222

    m

    pppNp

    m

    i

    i

    n

    i

    i Ym

    pXn

    p1

    2

    1

    1sucesso. de amostrais proporções as são

    1 e

    1 que em

  • 10

    .:H:H:H

    :H :H :H

    Bilateraldireita Àesquerda À

    211211211

    210210210

    pppppp

    pppppp

    (ii) Estatística de teste:

    mente,aproximada ),1,0( 11

    )1(0

    Hsob~21 N

    mnpp

    ppZ

    Testes de hipóteses sobre p1 – p2

    X1,,Xn é uma amostra aleatória de tamanho n de uma população com

    distribuição Bernoulli com probabilidade de sucesso p1.

    Y1,,Ym é uma amostra aleatória de tamanho m de uma população com

    distribuição Bernoulli com probabilidade de sucesso p2.

    As duas populações são independentes.

    (i) Formulação das hipóteses:

    . que em 2111

    mn

    pmpn

    mn

    YX

    p

    m

    i

    i

    n

    i

    i

  • 11

    Exemplo 1

    Calculamos

    A região crítica para = 0,05

    é obtida consultando a tabela

    da distribuição t de Student

    com g = 16 g.l.:

    Rc = { |T| > 2,120}.

    Como |T| = 2,972 Rc, rejeitamos H0.

    .,

    m

    S

    n

    S

    YXT 9722

    10

    0290,0

    12

    0142,0

    63,3082,300

    2

    2

    2

    1

    Conclusão. De acordo com os dados coletados e com um nível de

    significância de 5%, verificamos que há diferença entre os volumes

    médios envasados pelas duas máquinas.

  • 12

    (iii) Região crítica para um nível de significância escolhido:

    cZRc cZRc cZRc

    (iv) Se Z RC, rejeita-se Ho; caso contrário, não se rejeita H0.

    H1: p1 < p2 H1: p1 > p2H1: p1 p2

    Testes de hipóteses sobre p1 – p2

  • 13

    De forma análoga ao Cap. 7, um intervalo de confiança (IC)

    aproximado de 100(1 – )% para p1 – p2 é dado por

    ],;[];[IC2121

    EppEppUL

    .)1()1(

    2211

    2/ m

    pp

    n

    ppzE

    IC para p1 – p2

    .21

    pp Estimador pontual para p1 – p2:

    sendo que E é o erro máximo do IC:

  • 14

    IC para p1 – p2 e testes de hipóteses

    O teste da hipótese H0: p1 = p2 contra H1: p1 p2 a um nível de

    significância pode ser efetuado utilizando um IC com coeficiente de

    confiança igual a 1 – .

    Se 0 IC, rejeitamos H0; caso contrário, não rejeitamos H0.

    Construímos o IC de 100(1-)% para p1 – p2 , dado por

    ],;[];[ EYXEYXUL

    sendo que no cálculo do erro máximo (E) utilizamos a lâmina 16.

  • 15

    Duas máquinas são utilizadas para envasar um líquido em frascos de

    plástico. Com o objetivo de verificar se há diferença entre os volumes

    médios envasados, duas amostras de 12 e 10 frascos foram

    selecionadas. Os volumes (em ml) foram medidos resultando nos

    seguintes valores :

    Exemplo 1

    Solução. Problema envolve duas médias de variáveis contínuas.

    Definimos X e Y como sendo os volumes envasados pelas máquinas 1

    e 2, tais que E(X) = 1, var(X) = 12, E(Y) = 2 e var(Y) = 2

    2.

    Hipóteses: H0: 1 = 2 contra H1: 1 2 (ou seja, 0 = 0).

    Utilizando os dados coletados, qual o resultado da verificação. Adote

    = 5%.

    Máquina 1:30,9, 30,9, 30,8, 30,7, 30,9, 30,6, 30,8, 30,9, 30,7, 30,9, 30,7 e 31,0;

    Máquina 2: 30,8, 30,9, 30,7, 30,5, 30,5, 30,6, 30,7, 30,3, 30,6 e 30,7.

  • 16

    Exemplo 1

    Análise

    exploratória:

  • 17

    Exemplo 1

    Estatística de teste (variâncias diferentes e desconhecidas):

    Utilizando os dados coletados calculamos

    .0

    2

    2

    2

    1

    m

    S

    n

    S

    YXT

    ml, 63,3010

    306,3

    10 ml, 82,30

    12

    369,8

    12

    10

    11

    12

    11 i i

    m

    i ii i

    n

    i iY

    m

    YY

    X

    n

    XX

    m

    i i

    ii

    n

    i i

    ii

    YYYm

    S

    XXXn

    S

    1

    210

    1

    222

    2

    1

    212

    1

    222

    1

    e ml 0,0290 )63,30(110

    1)(

    1

    1

    ,ml 0,0142 )82,30(112

    1 )(

    1

    1

    .16

    110

    )10/0290,0(

    112

    )12/0142,0(

    10

    0290,0

    12

    0142,0

    1

    )/(

    1

    )/( 22

    2

    22

    2

    22

    1

    22

    2

    2

    1

    m

    mS

    n

    nS

    m

    S

    n

    S

    g

  • 18

    Dois tipos de solução de polimento estão sendo avaliados para

    possível uso na fabricação de lentes intra-oculares. Trezentas lentes

    foram polidas usando a primeira solução de polimento e, desse número

    217 não apresentaram defeitos causados pelo polimento. Outras 250

    lentes foram polidas usando a segunda solução de polimento, sendo

    que 162 lentes foram consideradas satisfatórias. Há motivo para

    acreditar que as duas soluções diferem quanto aos defeitos causados

    quando usadas em polimentos? Adote = 0,01.

    Exemplo 2

    Solução. Problema envolve duas proporções. Uma peça não

    apresentar defeitos causados pelo polimento é o evento sucesso.

    Definimos Xi = 1 se ocorre sucesso quando a solução 1 é usada; Xi = 0,

    caso contrário, com P(Xi = 1) = p1, i = 1,..., n (n = 300).

    Definimos Yi = 1 se ocorre sucesso quando a solução 2 é usada; Yi = 0,

    caso contrário, com P(Yi = 1) = p2, i = 1,..., m (m = 250).

    Hipóteses: H0: p1 = p2 contra H1: p1 p2.

  • 19

    .90,1

    250

    1

    300

    1)689,01(689,0

    648,0723,0

    Z

    Exemplo 2

    Estatística de teste:

    Pelo enunciado,

    ,689,0250300

    162217 e 648,0

    250

    162 ,723,0

    300

    217 1112

    11

    mn

    YXp

    m

    Yp

    n

    Xp

    m

    i i

    n

    i i

    m

    i i

    n

    i i

    de modo que

    . 11

    )1(

    21

    mnpp

    ppZ

    A região crítica para = 0,01 é obtida

    consultando a tabela da distribuição

    normal padrão: Rc = {|Z| > 2,58}.

    Como |Z| = 1,90 Rc, não rejeitamos H0.

    Conclusão. De acordo com os dados coletados e com um nível de

    significância de 1%, não há motivo para acreditar que as duas soluções

    diferem quanto aos defeitos causados quando usadas em polimentos.

  • 20

    4. Nível descritivo ou p-valor

    No exemplo 1 (lâmina 18) a região crítica é da forma Rc = {|T| > c}, sendo

    que, se H0 for verdadeira, T tem distribuição t de Student com 16 g.l. Com

    os dados coletados calculamos

    Se adotarmos c = |T| = 2,972

    obtemos Rc = {|T| > 2,972} e a

    probabilidade do erro tipo I é

    P(|T| > 2,972; H0 verdadeira) =

    P(|T| > 2,972; 1 = 2) = 0,0090

    = 0,9%.

    0,0090 é chamado de

    probabilidade de significância,

    nível descritivo, p-valor (p-

    value) ou p.

    Em Excel: =DISTT(2,972; 16; 2).

    .,

    m

    S

    n

    S

    YXT 9722

    2

    2

    2

    1

  • 21

    4. Nível descritivo ou p-valor

    Como o nível de significância é a probabilidade de um erro tipo I

    (rejeição de H0 verdadeira), quanto menor for p-valor, mais fortemente

    rejeitamos H0.

    Quanto menor for p-valor, mais evidência contra H0 (e vice-versa).

    No exemplo 2 (lâmina 22) a região crítica é da forma Rc = {|Z| > c},

    sendo que Z tem distribuição N(0,1), se H0 for verdadeira. Com os

    dados coletados calculamos |Z| = 1,90.

    Neste caso, valor-p = P(|Z| > 1,90) = 2 P(Z < – 1,90) = 2 0,0287 = 0,0574.

    Escolhemos o nível de significância (). Calculamos o valor-p. Se

    p-valor < , rejeitamos H0; se p-valor , não rejeitamos H0.

    No exemplo 2, se = 5% o resultado do teste seria inconclusivo.

  • 22

    Exemplo 3

    Em um teste de dureza uma esfera de aço é pressionada contra a

    superfície de um bloco de material a uma carga padrão. Mede-se o

    diâmetro (em mm) da cavidade produzida, que está relacionado à dureza

    do material da superfície. Na realização do teste duas esferas (A e B)

    estão disponíveis. Suspeita-que a esfera A gera cavidades com diâmetro

    médio com diferença superior a 0,2 mm em relação à esfera B.

    As duas esferas foram utilizadas em 10 blocos (n = 10) obtendo-se os

    dados abaixo:

    1 2 3 4 5 6 7 8 9 10

    A 7,5 4,6 5,7 4,3 5,8 3,2 6,1 5,6 3,4 6,5

    B 5,2 4,1 4,3 4,7 3,2 4,9 5,2 4,4 5,7 6,0

    BlocoEsfera

    Diâmetro das cavidades (mm)

    Diferença 2,3 0,5 1,4 -0,4 2,6 -1,7 0,9 1,2 -2,3 0,5

    O que os dados permitem concluir sobre a suspeita formulada?

    Adote = 5%.

  • 23

    Exemplo 3

    Como os dados são pareados, utilizamos D = X – Y com D = E(X – Y)

    = E(X) – E(Y) = 1 – 2 e var(D) = D2.

    Solução. Problema envolve duas médias de variáveis contínuas.

    Definimos X e Y como sendo os diâmetros das crateras produzidas

    pelas esferas A e B, tais que E(X) = 1 e E(Y) = 2.

    Hipóteses: H0: D = 0,2 contra H1: D > 0,2 (ou seja, 0 = 0,2).

    Estatística de teste: .)( 0

    Ds

    DnT

    A região crítica para = 0,05 é obtida

    consultando a tabela da distribuição t de

    Student com 9 g.l. (= n – 1) e p = 10%:

    Rc = { T > 1,833}.

  • 24

    Exemplo 3

    Calculamos

    10

    1

    22

    1

    22

    10

    11 mm 51,2)5,0(110

    1)(

    1

    1 mm, 5,0

    10

    5,0

    10 ii

    n

    i

    iDi i

    n

    i i DDDn

    SD

    n

    DD

    .599,051,2

    )2,05,0(10)( e 0

    Ds

    DnT Como T = 0,599 Rc, não rejeitamos H0.

    Conclusão. De acordo com os dados coletados e com um nível de significância de

    5%, não se confirma a suspeita de que a esfera A gera cavidades com diâmetro

    médio superior a 0,2 mm em relação à esfera B.

    Obs. Rc = { T > c}, sendo que, se H0for verdadeira, T tem distribuição t

    de Student com 9 g.l..

    Neste caso, valor-p = P(T > 0,599)

    = 0,282. Não rejeitamos H0, pois

    p-valor .

    Em Excel: =DISTT(0,599; 9; 1).

  • 25

    Exemplo 4

    Estudos anteriores indicam que a vida (em horas) de um termopar

    produzido em uma indústria é uma variável aleatória com distribuição

    aproximadamente normal. Um grande comprador suspeita que o tempo

    de vida médio é inferior a 560 h.

    O que os dados permitem concluir sobre a suspeita do comprador?

    Adote = 5%.

    Em uma amostra aleatória de 15 termopares adquiridos foram medidos

    os tempos de vida (em h) 553, 552, 567, 579, 550, 541, 537, 553, 552,

    546, 538, 553, 581, 539 e 529.

    Solução. Problema envolve uma população com distribuição normal.

    Definimos X como sendo o tempo de vida (em h) de um termopar, com

    E(X) = e var(X) = 2. Pelo enunciado, X ~ N(, 2), 2 desconhecida.

    Hipóteses: H0: = 560 contra H1: < 560 (ou seja, 0 = 560).

    Estatística de teste: .)( 0

    s

    XnT

  • 26

    Exemplo 4

    A região crítica para = 0,05 é obtida

    consultando a tabela da distribuição t

    de Student com 14 g.l. (= n – 1) e p =

    10%:

    Rc = { T < –1,761}.

    Calculamos

    h 8,14)3,551(115

    1)(

    1

    1 h, 3,551

    15

    8270

    15

    15

    1

    2

    1

    2

    15

    11

    i

    i

    n

    i

    ii i

    n

    i i XXXn

    SX

    n

    XX

    .266,28,14

    )5603,551(15)( e 0

    s

    XnT

    Como T = –2,266 Rc, rejeitamos H0.

    Conclusão. De acordo com os dados coletados e com um nível de significância de

    5%, concluímos que a vida média dos termopares é inferior a 560 h.

  • 27

    Exemplo 4

    Obs. Rc = { T < –c }, sendo que T tem distribuição t de Student com 14 g.l., se

    H0 for verdadeira.

    Neste caso, valor-p = P(T < –2,266) = 0,0199. Rejeitamos H0, pois valor-p < .

    Em Excel: =DISTT(2,266; 14; 1).

  • 28

    Exemplo 5

    Heim & Peng (2010), The impact of information technology use on plant

    structure, practices, and performance: An exploratory study, Journal of

    Operations Management 26, 144 – 162.

    This study examines the impact of information technology (IT) use on the structure,

    practices, and performance of manufacturing plants.

    O impacto de uma variável sobre outra é quantificado por um coeficiente (b).

    É de interesse verificar a significância do coeficiente (H0: b = 0 versus H1: b 0).

    Em um primeiro momento não é necessário saber que teste foi utilizado.

    Resultados. SPC has a marginally positive association with the total number of

    plant employees (b = 0.126, p = 0.080) and with plant sales ... (b = 0.161,

    p = 0.074). The SPC variable is not significantly related to any of the productivity

    measures at the 0.10 level.

    SPC is negatively related to willingness to introduce new products (b = −0.393,

    p = 0.000) .

    Integration intelligence only exhibits a weak positive relationship with developing

    unique practices (b = 0.012, p = 0.077).

    Ou seja, = 10% (estudo exploratório). Se o problema envolvesse a

    comparação de dois métodos de medição em que se pretende substituir um

    dos métodos por outro melhor, o nível de significância seria menor.

    p-valor

  • 29

  • 30

  • 31

  • 32

  • 33

  • 34

  • 35

  • 36

  • 37

  • 38

  • 39