8 testes do qui-quadrado

63
2020/2021 Fundamentos de Estatística M1020 411 8 Testes do Qui-Quadrado

Upload: others

Post on 04-Oct-2021

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 411

8Testes do Qui-Quadrado

Page 2: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 412

No capítulo 6 foram abordados testes de hipótesesenvolvendo apenas parâmetros populacionais (média ediferença de médias). São testes paramétricos baseados nadistribuição t de Student que podem ser efetuados no casode a variável em estudo ser quantitativa.

Os testes que iremos abordar neste capítulo enquadram-senos testes não paramétricos, pois permitem testar outrotipo de hipóteses que não apenas sobre parâmetros popu-lacionais. São baseados na distribuição do qui-quadrado eusados no caso de variáveis categóricas.

Page 3: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 413

Um teste qui-quadrado é usado para avaliar três tipos desituações:

Qualidade de ajustamento (Teste de Ajustamento)

Homogeneidade (Teste de Homogeneidade)

Independência (Teste de Independência)

Page 4: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 414

1. Estabelecer as hipóteses nula H0 alternativa H1.

2. Fixar o nível de significância α. Usualmente 0.05.

3. Calcular o valor da estatística do teste (c/ base na amostra).

4. Calcular a região de rejeição (valor crítico) ou o valor-p.

5. Tomar a decisão baseada na região de rejeição ou no valor-p.

O procedimento é análogo em todos estes testes:

Page 5: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 415

Teste de ajustamento do qui-quadrado

O teste do qui-quadrado para avaliar a qualidade do ajus-tamento serve para testar a hipótese de que uma determi-nada amostra aleatória tenha sido extraída de uma popu-lação com uma distribuição especificada.

Segundo Mendel, o resultado do cruzamento de ervilhas amarelas lisas com ervilhas verdes rugosas segue uma distribuição de probabilidade dada por:

resultado amarelalisa (al)

amarelarugosa (ar)

verdelisa (vl)

verderugosa (vr)

probabilidade 9/16 3/16 3/16 1/16

Exemplo

Page 6: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 416

Uma amostra de 556 ervilhas resultantes de cruzamentos de ervilhas amarelas lisas com ervilhas verdes rugosas foi classificada da seguinte forma:

resultado amarelalisa

amarelarugosa

verdelisa

verderugosa

frequência 315 101 108 32

Exemplo (cont)

Há evidência estatística de que os resultados dessa experi-ência não estão de acordo com a distribuição de probabi-lidades proposta por Mendel?

Page 7: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 417

De acordo com Mendel, em 556 ervilhas quantas se espera serem al, ar, vl e vr?

ar: 556x3/16=104.25

al: 556x9/16=312.75 vl: 556x3/16=104.25vr: 556x1/16=34.75

resultado amarelalisa (al)

amarelarugosa (ar)

verdelisa (vl)

verderugosa (vr)

freq. observada 315 101 108 32

freq. esperada 312.75 104.25 104.25 34.75

Podemos afirmar que os valores observados estão sufi-cientemente afastados dos valores esperados, de talforma que o modelo probabilístico proposto porMendel não é adequado?

Page 8: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 418

Teste de ajustamento do qui-quadrado-Procedimento

Suponha-se que temos várias observações de uma variável aleatória (categórica) 𝑋 com 𝑘 categorias:

oi é o número de indivíduos observados na categoria i

categoria 1 2 … k

frequência observada o1 o2 … ok

Page 9: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 419

As hipóteses a testar são:

H0 : A função de probabilidade de 𝑋 é

categoria 1 2 … k

probabilidade p1 p2 … pk

H1 : A função de probabilidade de 𝑋 não é a dada acima.

Seja 𝑒! o número esperado de observações na categoria𝑖 no caso de H0 ser verdadeira.

Page 10: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 420

categoria 1 2 … k

valor esperado e1 e2 … ekvalor observado o1 o2 … ok

𝜒"# =(𝑜$ − 𝑒$)#

𝑒$+(𝑜# − 𝑒#)#

𝑒#+⋯+

(𝑜% − 𝑒%)#

𝑒%

valor da estatística do teste:

Nota. Sob H0 o valor esperado de observações na catego-ria 𝑖 é obtido multiplicando o tamanho da amostra pela probabilidade de ocorrência da categoria 𝑖: 𝑒! = 𝑛×𝑝!.

Note-se que 𝜒"# é sempre não negativo e valores baixos su-gerem que os dados são consistentes com a hipótese nula.

Page 11: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 421

valor da estatística do teste𝜒"# =1!&$

%(𝑜! − 𝑒!)#

𝑒!

Se 𝜒"#> 𝑐 então rejeitamos H0, isto é, há evidência de H1 a um nível de significância 𝛼.

A. Decisão baseada na região de rejeição

𝜒!(𝑘 − 1)

𝑐 = 𝜒!"#,%&

𝛼

Page 12: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 422

valor da estatística do teste𝜒"# =1!&$

%(𝑜! − 𝑒!)#

𝑒!

B. Decisão baseada no valor p

Se valor-p < 𝛼 então rejeitamos H0, isto é, há evidência de H1 a um nível de significância 𝛼.

valor-p

𝜒'&

𝜒!(𝑘 − 1)

Page 13: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 423

𝜒"# é o valor (correspondente à amostra de que dispomos) de uma variável aleatória 𝑌 (estatística do teste). Se a hipótese H0 for verdadeira, 𝑌 segue aproximadamente uma distribuição do qui-quadrado com 𝑘 − 1 graus de liberdade.

Justificação teórica (ideia):

Assim poderemos perceber se o valor 𝜒"# é demasiado alto para ser justificado apenas pela variabilidade da amostragem.

Page 14: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 424

resultado amarelalisa (al)

amarelarugosa (ar)

verdelisa (vl)

verderugosa (vr)

freq. observada 315 101 108 32

freq. esperada 312.75 104.25 104.25 34.75

Podemos afirmar a um nível de significância de 1% queos valores observados não estão de acordo com omodelo probabilístico proposto por Mendel?

Exemplo (cont)

𝜒'& =(315 − 312.75)&

312.75 +(101 − 104.25)&

104.25 +(108 − 104.25)&

104.25 +(32 − 34.75)&

34.75

𝜒"# ≈ 0.47

Page 15: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 425

𝜒"# ≈ 0.47𝜒!(3)

𝑐 = 𝜒(,).)#&

𝛼 = 0.01

DMA_FCUP (Abril de 2007) Distribuição qui-quadrado: percentis 1 of 4 DMA_FCUP (Abril de 2007) Distribuição qui-quadrado: percentis 2 of 4

𝑐 = 11.3449

𝜒"# < 𝑐 A hipótese nula não pode ser rejeitada.

A. Decisão baseada na região de rejeição

Page 16: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 426

𝜒"# ≈ 0.47

valor-p≈0.9 >0.01

Conclusão:

A hipótese nula não pode ser rejeitada. As observações não fornecem evidência de que o modelo probabilístico proposto por Mendel não é adequado.Note-se que não se pode afirmar que o modelo de Mendel seja correto, simplesmente os dados não conduzem à sua rejeição.

valor-p

𝜒'& = 0.47

𝜒!(3)

B. Decisão baseada no valor p

Page 17: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 427

Observações

1. A distribuição da estatística do teste supondo H0 verda-deira é aproximada, pelo que o tamanho da amostra deve ser suficientemente elevado. Sugere-se, em geral, que o valor das frequências esperadas (para cada categoria) seja pelo menos cinco. Assim, pode ser conveniente agrupar categorias.

2. Se num teste de ajustamento a variável é dicotómica (𝑘 =2), então é possível considerar alternativas e conclu-sões unilaterais (ver exemplo seguinte).

Page 18: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 428

Num estudo ecológico, capturaram-se 53 pássaros deuma certa população, tendo-se observado que 40 erammachos. Há evidência de uma diferença de género naproporção de machos e fêmeas nessa população?

Exemplo

H0 : A população é constituída por 50% machos (e 50% fêmeas).

H1 : A função de probabilidade de 𝑋 não é a dada acima.

categoria Macho Fêmea

probabilidade 0.5 0.5

Variável em estudo: 𝑋 representativa do género

Ou alternativamente:H0 : A função de probabilidade de 𝑋 é:

Page 19: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 429

Note-se que, como

H0 : 𝑃 “𝑓ê𝑚𝑒𝑎” = 0.5 H1 : 𝑃 “𝑓ê𝑚𝑒𝑎” ≠ 0.5

𝑃 “𝑓ê𝑚𝑒𝑎” = 1 − 𝑃(“𝑚𝑎𝑐ℎ𝑜”),

as hipóteses podem ser formuladas simplesmente como:

resultado macho fêmea total

freq. observada 40 13 53

freq. esperada 26.5 26.5 53

𝜒"! =(40 − 26.5)!

26.5 +(13 − 26.5)!

26.5 ≈ 13.75

Page 20: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 430

𝜒"# ≈ 13.75

valor-p≈0.0002

Conclusão:Como valor-p < 0.001, os dados fornecem evidência suficiente, ao nível de 0.1%, para concluir que a população contém menos fêmeas do que machos.

Note-se que, a conclusão unilateral é legítima, pois, se H0é falsa, então tem-se uma das situações: 𝑃 “𝑓ê𝑚𝑒𝑎” < 0.5ou 𝑃 “𝑓ê𝑚𝑒𝑎” > 0.5.

valor-p

𝜒'&

𝜒!(1)

Page 21: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 431

CHISQ.DIST CHISQ.DIST.RT CHISQ.INV CHISQ.INV.RT

CHISQ.DIST(a,n,TRUE)#P(Y≤a) onde Y~𝜒!(n)

CHISQ.DIST.RT(a,n)#P(Y≥a) onde Y~𝜒!(n)

CHISQ.INV(p,n)# a: P(Y≤a)=p onde Y~𝜒!(n)

CHISQ.INV.RT(p,n)# a: P(Y≥a)=p onde Y~𝜒!(n)

Page 22: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 432

CHISQ.TEST

# Esta função permite obter imediatamente o valor p do teste do qui quadrado selecionando a série de valores observados e a série de valores esperados.

Page 23: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 433

O teste de independência serve para, a partir de umaamostra, testar a hipótese de duas variáveis aleatóriasserem independentes.

Teste de independência do qui-quadrado

Para estudar se existe uma relação entre a cor do cabelo e a cor dos olhos numa população alemã, um antropólogo ob-servou uma amostra aleatória de 6800 homens e resumiu os dados na seguinte tabela:

Exemplo

Cor do cabelo

Cor dos olhos escuro claro Total

escuro 726 131 857

claro 3129 2814 5943

Total 3855 2945 6800

Page 24: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 434

Esta tabela designa-se por tabela de contingência.

Note-se que estão ser estudadas duas variáveis categóricas com 2 categorias cada uma:

𝑋: cor dos olhos (2 categorias) 𝑌: cor dos cabelos (2 categorias)

A tabela de contingência é portanto uma tabela 2x2.

Temos assim duas variáveis (atributos) observadas em cada um dos indivíduos de uma única amostra aleatória.

Cor do cabelo

Cor dos olhos escuro claro Total

escuro 726 131 857

claro 3129 2814 5943

Total 3855 2945 6800

Page 25: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 435

ExemploCor do cabelo

Cor dos olhos escuro claro Total

escuro 726 131 857

claro 3129 2814 5943

Total 3855 2945 6800

H0 : A cor dos olhos e a cor do cabelo são independentes.

H1 : A cor dos olhos e a cor do cabelo não são indepen-dentes.

valor da estatística do teste𝜒"# =1!

(𝑜! − 𝑒!)#

𝑒!

sendo 𝑜! as frequências observadas e 𝑒! as frequências esperadas sob a hipótese H0 .

Page 26: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 436

ExemploCor do cabelo

Cor dos olhos Escuro (CE) Claro (CC) Total

escuro (OE) 726 131 857

claro(OC) 3129 2814 5943

Total 3855 2945 6800

Sob H0 (cor dos olhos e a cor do cabelo são independentes):

𝑃 𝑂𝐸 ∩ 𝐶𝐸 = 𝑃 𝑂𝐸 𝑃(𝐶𝐸) 𝑃 𝑂𝐸 ∩ 𝐶𝐶 = 𝑃 𝑂𝐸 𝑃(𝐶𝐶)𝑃 𝑂𝐶 ∩ 𝐶𝐸 = 𝑃 𝑂𝐶 𝑃(𝐶𝐸)

𝑃 𝑂𝐶 ∩ 𝐶𝐸 = 𝑃 𝑂𝐶 𝑃(𝐶𝐸)8576800

38556800

A frequência esperada de indivíduos com olhos escuros e cabelos escuros é portanto: 9:;

<9==>9::<9==×6800 ≈ 485.84.

Page 27: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 437

frequência observada (𝑜!!) Cor do cabelo

Cor dos olhos Escuro (CE) Claro (CC) Total

escuro (OE) 726 131 857

claro(OC) 3129 2814 5943

Total 3855 2945 6800

frequência esperada (𝑒!!) Cor do cabelo

Cor dos olhos Escuro (CE) Claro (CC) Total

escuro (OE) 857×38556800

857×29456800

857

claro(OC) 5943×38556800

5943×29456800

5943

Total 3855 2945 6800

𝑒! =𝑇𝑜𝑡𝑎𝑙 𝑙𝑖𝑛ℎ𝑎 ×𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑛𝑎

𝑇𝑜𝑡𝑎𝑙 𝑔𝑙𝑜𝑏𝑎𝑙

Page 28: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 438

valor da estatística do teste𝜒"# =1!

(𝑜! − 𝑒!)#

𝑒!

Se 𝜒"#> 𝑐 então rejeitamos H0, isto é, há evidência de H1 aum nível de significância 𝛼.

A. Decisão baseada na região de rejeição

𝜒!(𝑔𝑙)

𝑐 = 𝜒+,,%&

𝛼

𝑔𝑙 = (# 𝑙𝑖𝑛ℎ𝑎𝑠 − 1)×(# 𝑐𝑜𝑙𝑢𝑛𝑎𝑠 − 1)

Page 29: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 439

valor da estatística do teste𝜒"# =1!

(𝑜! − 𝑒!)#

𝑒!

B. Decisão baseada no valor p

Se valor-p < 𝛼 então rejeitamos H0, isto é, há evidência de H1 a um nível de significância 𝛼.

valor-p

𝜒'&

𝜒!(𝑔𝑙)

𝑔𝑙 = (# 𝑙𝑖𝑛ℎ𝑎𝑠 − 1)×(# 𝑐𝑜𝑙𝑢𝑛𝑎𝑠 − 1)

Page 30: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 440

Exemplo (cont.)

Frequências (𝑜# e 𝑒# #) Cor dos Cabelos

Cor dos olhos Escuro (CE) Claro (CC)

escuro (OE) 726 (485.84) 131 (371.16)

claro(OC) 3129 (3369.16) 2814 (2573.84)

𝜒"# =(726 − 485.84)#

485.84+⋯+

(2814 − 2573.84)#

2573.84≈ 313.6

𝑔𝑙 = (2 − 1)×(2 − 1)=1

Page 31: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020

𝜒!(1)

𝑐 = 6.6349

𝛼 = 0.01

441

Exemplo (cont.)

𝜒"# ≈ 313.6

Rejeita-se a hipótese nula da independência entre a cor de cabelo e a cor dos olhos na população em causa, ao nível de significância de 1%.

3.6E-70

𝜒'&

𝜒!(1)

Page 32: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 442

Pretende-se testar a independência de duas variáveiscategóricas 𝑋 e 𝑌 numa certa população.

Teste de independência do qui-quadrado (caso geral)

H0 : 𝑋 e 𝑌 são independentes

H1 : 𝑋 e 𝑌 não são independentes.

Suponha-se que existem r categorias para 𝑋 (A1,...,Ar) e kcategorias para 𝑌 (B1,...,Bk) .

Page 33: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 443

freq observadas (𝑜#) 𝒀X B1 ⋯ Bk Total

A1

⋮Ar

Total N

A partir de uma amostra aleatória de tamanho N retiradada população constrói-se a tabela de contingência com asfrequências observadas.

Para cada uma das 𝑟×𝑘 células determina-se a frequênciaesperada:

𝑒! =𝑇𝑜𝑡𝑎𝑙 𝑙𝑖𝑛ℎ𝑎 ×𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑛𝑎

𝑇𝑜𝑡𝑎𝑙 𝑔𝑙𝑜𝑏𝑎𝑙

Page 34: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020

valor-P

𝜒'&

𝜒!(𝑔𝑙)

444

Determina-se o valor da estatística do teste, considerando todas as 𝑟×𝑘 células:

𝜒"# =1!

(𝑜! − 𝑒!)#

𝑒!𝜒"! é o valor de uma variável aleatória 𝜒! (estatística do teste). Sob H0 , 𝜒!segue aproximadamente uma distribuição do qui-quadrado com𝑔𝑙 = 𝑟 − 1 × 𝑘 − 1 graus de liberdade.

Se 𝜒"!> 𝜒$%,'! ou (equivalentemente) se valor-P < 𝛼 então rejeitamos H0, isto é, há evidência de H1 a um nível de significância 𝛼.

𝜒+,,%&

𝜒!(𝑔𝑙)

𝛼

Page 35: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 445

Para estudar se existe uma relação entre a cor do cabelo e a cor dos olhos numa população alemã, um antropólogo ob-servou uma amostra aleatória de 6800 homens e resumiu os dados na seguinte tabela:

Exemplo

frequência observada Cor do cabelo

Cor dos olhos castanho preto louro ruivo Total

castanhos 438 288 115 16 857

cinzentos ou verdes 1387 746 946 53 3132

azuis 807 189 1768 47 2811

Total 2632 1223 2829 116 6800

H0 : A cor dos olhos e a cor do cabelo são independentes.

H1 : A cor dos olhos e a cor do cabelo não são indepen-dentes.

Page 36: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 446

Cálculo das frequências esperadas (𝑒! ):

𝑜/(𝑒/ )

Cor do cabelo

Cor dos olhos castanho preto louro ruivo Total

castanhos 438(331.71)

288(154.13)

115(356.54)

16(14.62)

857

cinzentos ou verdes 1387(1212.27)

746(563.30)

946(1303.0)

53(53.43)

3132

azuis 807(1088.02)

189(505.57)

1768(1169.46)

47(47.95)

2811

Total 2632 1223 2829 116 6800

𝜒"# =(438 − 331.71)#

331.71+⋯+

(47 − 47.95)#

47.95≈ 1073.5

Page 37: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 447

𝜒"# ≈ 1073.5

𝑔𝑙 = (3 − 1)×(4 − 1)=6

Recorrendo ao Excel: valor-P<<0.001

Rejeita-se a hipótese nula da independência entre a cor de cabelo e a cor dos olhos na população em causa, ao nível de significância de 0.1%. Há uma forte evidênciade associação entre a cor dos olhos e a cor dos cabelos na população em estudo.

𝜒!(6)

𝑐 = 22.4577

𝛼 = 0.001

Page 38: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 448

Observação

Tal como no teste (de ajustamento) anterior do qui-quadrado, a distribuição da estatística do teste sob H0 é aproximada, pelo que o tamanho da amostra deve ser suficientemente elevado. Lembra-se a sugestão de que o valor de cada uma das frequências esperadas seja pelo menos cinco.

Page 39: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 449

CHISQ.TEST

# Esta função permite obter imediatamente o valor p do teste do qui quadrado selecionando a série de valores observados e a série de valores esperados.É necessário construir primeiramente a tabela de contingência dos valores esperados a partir da tabela dos valores observados.

Page 40: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 450

O teste de homogeneidade serve para, a partir de umaamostra, testar a hipótese de que o comportamento deuma variável categórica é similar em várias populações.

Teste de homogeneidade do qui-quadrado

Page 41: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 451

Para estudar dois tratamentos diferentes na redução das enxaquecas foi feito um ensaio clínico envolvendo 75 pa-cientes sofrendo de enxaqueca. Dos 75, foram selecionados aleatoriamente 49 para receberem o tratamento T1. Aos restantes 26 foi administrado o tratamento T2.

Exemplo

Tratamento

Redução das enxaquecas

T1 T2 Total

sim 41 15 56

não 8 11 19

Total 49 26 75

Os dados evidenciam uma associação entre o tipo de tratamento e a redução das enxaquecas?

Page 42: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 452

Esta tabela designa-se (tal como no teste de independência) por tabela de contingência.

Note-se que está a ser estudada a variável “Redução de Enxaquecas” com 2 categorias (sim e não) em 2 populações distintas: pacientes submetidos a T1 e pacientes submetidos a T2.

A tabela de contingência é portanto uma tabela 2x2.

Temos assim uma variável (atributo) observada em dois grupos diferentes.

Tratamento

Redução das enxaquecas

T1 T2 Total

sim 41 15 56

não 8 11 19

Total 49 26 75

Page 43: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 453

H0 : Não existe uma associação entre o tipo de tratamento e a redução das enxaquecas.H1 : Existe uma associação entre o tipo de tratamento e a redução das enxaquecas.

𝑝( 𝑝! : probabilidade de as enxaquecas reduzirem com o tratamento T1 (T2),

H0 : 𝑝( = 𝑝!H1 : 𝑝( ≠ 𝑝!

H0 : Não há diferenças na variável em estudo nas duas populações.

H1 : Há diferenças na variável em estudo nas duas populações.

Formas alternativas de estabelecer as hipóteses

Page 44: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 454

valor da estatística do teste𝜒"# =1!

(𝑜! − 𝑒!)#

𝑒!

sendo 𝑜! as frequências observadas e 𝑒! as frequências esperadas sob a hipótese H0 .

Tratamento

Redução das enxaquecas

T1 T2 Total

sim 41 15 56

não 8 11 19

Total 49 26 75

H0 : 𝑝$ = 𝑝# H1 : 𝑝$ ≠ 𝑝#

Page 45: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 455

Sob H0 , a probabilidade de haver redução das enxaquecas não depende do tipo de tratamento.

Uma estimativa desta probabilidade é dada por 56/75. Usando esta estimativa, determina-se as frequências espe-radas sob H0 para cada grupo de tratamento.

Tratamento

Redução das enxaquecas

T1 T2 Total

sim 41(36.59)

15(19.41)

56

não 8 11 19

Total 49 26 75

5675×49 ≈ 36.59

5675×26 ≈ 19.41

Page 46: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 456

Analogamente, sob H0 , a probabilidade de não haver redu-ção das enxaquecas não depende do tipo de tratamento.

Uma estimativa desta probabilidade é dada por 19/75. Usando esta estimativa, determina-se as frequências espe-radas sob H0 para cada grupo de tratamento.

Tratamento

Redução das enxaquecas

T1 T2 Total

sim 41 15 56

não 8(12.41)

11(6.59)

19

Total 49 26 75

1975×49 ≈ 12.41

1975×26 ≈ 6.59

Page 47: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 457

Assim:

𝑜#(𝑒# )

Tratamento

Redução das enxaquecas T1 T2 Totalsim 41

(36.59)15

(19.41)56

não 8(12.41)

11(6.59)

19

Total 49 26 75

Tal como no teste de independência, para cada uma dascélulas a frequência esperada é:

𝑒! =𝑇𝑜𝑡𝑎𝑙 𝑙𝑖𝑛ℎ𝑎 ×𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑛𝑎

𝑇𝑜𝑡𝑎𝑙 𝑔𝑙𝑜𝑏𝑎𝑙

Page 48: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 458

Determina-se o valor da estatística do teste, considerando todas as células:

𝜒"# =1!

(𝑜! − 𝑒!)#

𝑒!

Se 𝜒"!> 𝜒$%,'! ou (equivalentemente) se valor-P < 𝛼 então rejeitamos H0, isto é, há evidência de H1 a um nível de significância 𝛼.

valor-P

𝜒'&

𝜒!(𝑔𝑙)

𝜒+,,%&

𝜒!(𝑔𝑙)

𝛼

Região de rejeição Valor P

𝑔𝑙 = (# 𝑙𝑖𝑛ℎ𝑎𝑠 − 1)×(# 𝑐𝑜𝑙𝑢𝑛𝑎𝑠 − 1)

Page 49: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 459

𝑜/(𝑒/ )

Tratamento

Redução das enxaquecas T1 T2 Totalsim 41

(36.59)15

(19.41)56

não 8(12.41)

11(6.59)

19

Total 49 26 75

Exemplo (cont.)

𝜒"# =(41 − 36.59)#

36.59+⋯+

11 − 6.59 #

6.59≈ 6.05

Page 50: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 460

𝜒"# ≈ 6.05 𝑔𝑙 = (2 − 1)×(2 − 1)=1

Consultando a tabela 𝑐 = 𝜒=.=$,$# ≈ 6.63

Não se rejeita a hipótese nula da igualdade das probabi-lidades ao nível de significância de 1%, ou seja os dados não evidenciam diferenças nos dois tratamentos na redução das enxaquecas.

Alternativamente recorrendo ao Excel: valor P≈ 0.014

nível de significância 𝛼=0.01

Page 51: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 461

Pretende-se testar se uma variável 𝑋 com r categorias(A1,...,Ar) é igualmente distribuída em k populações.

Teste de homogeneidade do qui-quadrado (caso geral)

freq observadas (𝑜#) População𝑋 P1 ⋯ Pk Total

A1

⋮Ar

Total N

A partir de k amostras aleatórias independentes retiradasde cada uma das populações constrói-se a tabela decontingência com as frequências observadas.

Page 52: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 462

freq observadas (𝑜#) População𝑋 P1 ⋯ Pk Total

A1

⋮Ar

Total N

H0 : A distribuição de probabilidade de 𝑋 é igual em todas as populações.H1 : A distribuição de probabilidade de 𝑋 não é igual em todas as populações.

Page 53: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 463

freq esperadas (𝑒#) População𝑋 P1 ⋯ Pk Total

A1 𝑁0#×𝑛#N

𝑁0#

⋮ ⋮

Ar 𝑁01Total 𝑛# 𝑛! N

Para cada uma das 𝑟×𝑘 células determina-se a frequênciaesperada:

𝑒! =𝑇𝑜𝑡𝑎𝑙 𝑙𝑖𝑛ℎ𝑎 ×𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑛𝑎

𝑇𝑜𝑡𝑎𝑙 𝑔𝑙𝑜𝑏𝑎𝑙

e determina-se o valor da estatística do teste, conside-rando todas as 𝑟×𝑘 células:

𝜒"# =1!

(𝑜! − 𝑒!)#

𝑒!

Page 54: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 464

𝜒"# =1!

(𝑜! − 𝑒!)#

𝑒!

Se 𝜒"!> 𝜒$%,'! ou (equivalentemente) se valor-P < 𝛼 então rejeitamos H0, isto é, há evidência de H1 a um nível de significância 𝛼.

valor-P

𝜒'&

𝜒!(𝑔𝑙)

𝜒+,,%&

𝜒!(𝑔𝑙)

𝛼

Região de rejeição Valor P

𝑔𝑙 = (𝑟 − 1)×(𝑘 − 1)

Page 55: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 465

Num estudo acerca da relação entre o tipo de sangue e aincidência de úlcera duodenal, foram selecionados aleato-riamente 1301 pacientes com úlcera duodenal e um grupo de controlo com 6313 pessoas sem úlcera duodenal. Os resultados do rastreio foram:

Exemplo

frequência observada GrupoTipo de Sangue Pacientes Controlo Total

O 698 2892 3590A 472 2625 3097B 102 570 672

AB 29 226 255Total 1301 6313 7614

Page 56: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 466

H0 : A distribuição de probabilidade do tipo sanguíneo é a mesma nas duas populações.

Se não existe associação entre os grupos sanguíneos e aocorrência de úlcera duodenal, espera-se que a distribuição do tipo sanguíneo seja a mesma nas duas populações (pessoas diagnosticadas com úlcera duodenal e pessoas que não têm este tipo de úlcera). Assim, as hipóteses podem ser formuladas do modo seguinte:

H1: A distribuição de probabilidade do tipo sanguíneo é diferente nas duas populações.

Page 57: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 467

𝜒"# =(698 − 613.42)#

613.42+⋯+

226 − 211.43 #

211.43≈ 29.12

𝑜#(𝑒# )

Grupo

Tipo de Sangue Pacientes Controlo TotalO 698

(613.42)2892

(2976.58)3590

A 472(529.18)

2625(2567.82)

3097

B 102(114.82)

570(557.18)

672

AB 29(43.57)

226(211.43)

255

Total 1301 6313 7614

Page 58: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020

Valor P𝜒!(3)

468

𝜒"# ≈ 29.12

𝑔𝑙 = (4 − 1)×(2 − 1)=3

Recorrendo ao Excel: valor P≈2.11E-06

Rejeita-se a hipótese nula da igualdade das distribui-ções de probabilidade do tipo sanguíneo nas duas populações, ao nível de significância de 1%.

𝜒"! ≈ 29.12

Page 59: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 469

Num teste de independência são observados os valores de duas variáveis (atributos) numa única população. Tem-se portanto uma única amostra e cada elmento da amostra é observado relativamente aos diversos atributos. Pretende-se saber se essas variáveis são ou não independentes.

Como distinguir um teste de homogeneidade de um teste de independência?

H0 : As variáveis são independentes.

H1 : As variáveis não são independentes.

As hipóteses, neste caso, formulam-se como:

Page 60: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 470

Num teste de homogeneidade são observados os valores de uma variável (atributo) em várias populações. Tem-se portanto várias amostras independentes (retiradas das respetivas populações) nas quais se observam os valores da variável. Pretende-se saber se são iguais as distribuições de probabilidade dessa variável nas diferentes populações.

H0 : As distribuições de probabilidade da variável nas diversas populações são iguais.

As hipóteses, neste caso, formulam-se como:

H1 : Não são iguais as distribuições de probabilidade da variável nas diversas populações.

Page 61: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 471

Pretende-se testar se existe uma associação entre a preferência por cães ou gatos e o género das pessoas de uma certa população. Uma amostra aleatória de 1000 pessoas produziu os resultados seguintes:

preferênciagénero cão gato Totalhomem 217 293 510mulher 240 250 490

Total 457 543 1000

Exemplo

1 população e 2 variáveis (género e preferência)

teste de independência

Page 62: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 472

Pretende-se testar se a preferência por cães ou gatos se distribui igualmente entre os homens e as mulheres. Para isso foram recolhidas duas amostras independentes, uma de homens e outra de mulheres que produziram os resultados seguintes:

Populaçõespreferência homem mulher Total

cão 217 240 457gato 293 250 543Total 510 490 1000

Exemplo

2 populações (homens e mulheres) e 1 variável (preferência)

teste de homogeneidade

Page 63: 8 Testes do Qui-Quadrado

2020/2021 Fundamentos de Estatística M1020 473

Populações

preferência homem mulher Total

cão 217 240 457

gato 293 250 543

Total 510 490 1000

Exemplo 2

géneropreferência homem mulher Total

cão 217 240 457

gato 293 250 543

Total 510 490 1000

Exemplo 1

1 AMOSTRA

2 AMOSTRAS INDEP.