8 testes do qui-quadrado
TRANSCRIPT
2020/2021 Fundamentos de Estatística M1020 411
8Testes do Qui-Quadrado
2020/2021 Fundamentos de Estatística M1020 412
No capítulo 6 foram abordados testes de hipótesesenvolvendo apenas parâmetros populacionais (média ediferença de médias). São testes paramétricos baseados nadistribuição t de Student que podem ser efetuados no casode a variável em estudo ser quantitativa.
Os testes que iremos abordar neste capítulo enquadram-senos testes não paramétricos, pois permitem testar outrotipo de hipóteses que não apenas sobre parâmetros popu-lacionais. São baseados na distribuição do qui-quadrado eusados no caso de variáveis categóricas.
2020/2021 Fundamentos de Estatística M1020 413
Um teste qui-quadrado é usado para avaliar três tipos desituações:
Qualidade de ajustamento (Teste de Ajustamento)
Homogeneidade (Teste de Homogeneidade)
Independência (Teste de Independência)
2020/2021 Fundamentos de Estatística M1020 414
1. Estabelecer as hipóteses nula H0 alternativa H1.
2. Fixar o nível de significância α. Usualmente 0.05.
3. Calcular o valor da estatística do teste (c/ base na amostra).
4. Calcular a região de rejeição (valor crítico) ou o valor-p.
5. Tomar a decisão baseada na região de rejeição ou no valor-p.
O procedimento é análogo em todos estes testes:
2020/2021 Fundamentos de Estatística M1020 415
Teste de ajustamento do qui-quadrado
O teste do qui-quadrado para avaliar a qualidade do ajus-tamento serve para testar a hipótese de que uma determi-nada amostra aleatória tenha sido extraída de uma popu-lação com uma distribuição especificada.
Segundo Mendel, o resultado do cruzamento de ervilhas amarelas lisas com ervilhas verdes rugosas segue uma distribuição de probabilidade dada por:
resultado amarelalisa (al)
amarelarugosa (ar)
verdelisa (vl)
verderugosa (vr)
probabilidade 9/16 3/16 3/16 1/16
Exemplo
2020/2021 Fundamentos de Estatística M1020 416
Uma amostra de 556 ervilhas resultantes de cruzamentos de ervilhas amarelas lisas com ervilhas verdes rugosas foi classificada da seguinte forma:
resultado amarelalisa
amarelarugosa
verdelisa
verderugosa
frequência 315 101 108 32
Exemplo (cont)
Há evidência estatística de que os resultados dessa experi-ência não estão de acordo com a distribuição de probabi-lidades proposta por Mendel?
2020/2021 Fundamentos de Estatística M1020 417
De acordo com Mendel, em 556 ervilhas quantas se espera serem al, ar, vl e vr?
ar: 556x3/16=104.25
al: 556x9/16=312.75 vl: 556x3/16=104.25vr: 556x1/16=34.75
resultado amarelalisa (al)
amarelarugosa (ar)
verdelisa (vl)
verderugosa (vr)
freq. observada 315 101 108 32
freq. esperada 312.75 104.25 104.25 34.75
Podemos afirmar que os valores observados estão sufi-cientemente afastados dos valores esperados, de talforma que o modelo probabilístico proposto porMendel não é adequado?
2020/2021 Fundamentos de Estatística M1020 418
Teste de ajustamento do qui-quadrado-Procedimento
Suponha-se que temos várias observações de uma variável aleatória (categórica) 𝑋 com 𝑘 categorias:
oi é o número de indivíduos observados na categoria i
categoria 1 2 … k
frequência observada o1 o2 … ok
2020/2021 Fundamentos de Estatística M1020 419
As hipóteses a testar são:
H0 : A função de probabilidade de 𝑋 é
categoria 1 2 … k
probabilidade p1 p2 … pk
H1 : A função de probabilidade de 𝑋 não é a dada acima.
Seja 𝑒! o número esperado de observações na categoria𝑖 no caso de H0 ser verdadeira.
2020/2021 Fundamentos de Estatística M1020 420
categoria 1 2 … k
valor esperado e1 e2 … ekvalor observado o1 o2 … ok
𝜒"# =(𝑜$ − 𝑒$)#
𝑒$+(𝑜# − 𝑒#)#
𝑒#+⋯+
(𝑜% − 𝑒%)#
𝑒%
valor da estatística do teste:
Nota. Sob H0 o valor esperado de observações na catego-ria 𝑖 é obtido multiplicando o tamanho da amostra pela probabilidade de ocorrência da categoria 𝑖: 𝑒! = 𝑛×𝑝!.
Note-se que 𝜒"# é sempre não negativo e valores baixos su-gerem que os dados são consistentes com a hipótese nula.
2020/2021 Fundamentos de Estatística M1020 421
valor da estatística do teste𝜒"# =1!&$
%(𝑜! − 𝑒!)#
𝑒!
Se 𝜒"#> 𝑐 então rejeitamos H0, isto é, há evidência de H1 a um nível de significância 𝛼.
A. Decisão baseada na região de rejeição
𝜒!(𝑘 − 1)
𝑐 = 𝜒!"#,%&
𝛼
2020/2021 Fundamentos de Estatística M1020 422
valor da estatística do teste𝜒"# =1!&$
%(𝑜! − 𝑒!)#
𝑒!
B. Decisão baseada no valor p
Se valor-p < 𝛼 então rejeitamos H0, isto é, há evidência de H1 a um nível de significância 𝛼.
valor-p
𝜒'&
𝜒!(𝑘 − 1)
2020/2021 Fundamentos de Estatística M1020 423
𝜒"# é o valor (correspondente à amostra de que dispomos) de uma variável aleatória 𝑌 (estatística do teste). Se a hipótese H0 for verdadeira, 𝑌 segue aproximadamente uma distribuição do qui-quadrado com 𝑘 − 1 graus de liberdade.
Justificação teórica (ideia):
Assim poderemos perceber se o valor 𝜒"# é demasiado alto para ser justificado apenas pela variabilidade da amostragem.
2020/2021 Fundamentos de Estatística M1020 424
resultado amarelalisa (al)
amarelarugosa (ar)
verdelisa (vl)
verderugosa (vr)
freq. observada 315 101 108 32
freq. esperada 312.75 104.25 104.25 34.75
Podemos afirmar a um nível de significância de 1% queos valores observados não estão de acordo com omodelo probabilístico proposto por Mendel?
Exemplo (cont)
𝜒'& =(315 − 312.75)&
312.75 +(101 − 104.25)&
104.25 +(108 − 104.25)&
104.25 +(32 − 34.75)&
34.75
𝜒"# ≈ 0.47
2020/2021 Fundamentos de Estatística M1020 425
𝜒"# ≈ 0.47𝜒!(3)
𝑐 = 𝜒(,).)#&
𝛼 = 0.01
DMA_FCUP (Abril de 2007) Distribuição qui-quadrado: percentis 1 of 4 DMA_FCUP (Abril de 2007) Distribuição qui-quadrado: percentis 2 of 4
𝑐 = 11.3449
𝜒"# < 𝑐 A hipótese nula não pode ser rejeitada.
A. Decisão baseada na região de rejeição
2020/2021 Fundamentos de Estatística M1020 426
𝜒"# ≈ 0.47
valor-p≈0.9 >0.01
Conclusão:
A hipótese nula não pode ser rejeitada. As observações não fornecem evidência de que o modelo probabilístico proposto por Mendel não é adequado.Note-se que não se pode afirmar que o modelo de Mendel seja correto, simplesmente os dados não conduzem à sua rejeição.
valor-p
𝜒'& = 0.47
𝜒!(3)
B. Decisão baseada no valor p
2020/2021 Fundamentos de Estatística M1020 427
Observações
1. A distribuição da estatística do teste supondo H0 verda-deira é aproximada, pelo que o tamanho da amostra deve ser suficientemente elevado. Sugere-se, em geral, que o valor das frequências esperadas (para cada categoria) seja pelo menos cinco. Assim, pode ser conveniente agrupar categorias.
2. Se num teste de ajustamento a variável é dicotómica (𝑘 =2), então é possível considerar alternativas e conclu-sões unilaterais (ver exemplo seguinte).
2020/2021 Fundamentos de Estatística M1020 428
Num estudo ecológico, capturaram-se 53 pássaros deuma certa população, tendo-se observado que 40 erammachos. Há evidência de uma diferença de género naproporção de machos e fêmeas nessa população?
Exemplo
H0 : A população é constituída por 50% machos (e 50% fêmeas).
H1 : A função de probabilidade de 𝑋 não é a dada acima.
categoria Macho Fêmea
probabilidade 0.5 0.5
Variável em estudo: 𝑋 representativa do género
Ou alternativamente:H0 : A função de probabilidade de 𝑋 é:
2020/2021 Fundamentos de Estatística M1020 429
Note-se que, como
H0 : 𝑃 “𝑓ê𝑚𝑒𝑎” = 0.5 H1 : 𝑃 “𝑓ê𝑚𝑒𝑎” ≠ 0.5
𝑃 “𝑓ê𝑚𝑒𝑎” = 1 − 𝑃(“𝑚𝑎𝑐ℎ𝑜”),
as hipóteses podem ser formuladas simplesmente como:
resultado macho fêmea total
freq. observada 40 13 53
freq. esperada 26.5 26.5 53
𝜒"! =(40 − 26.5)!
26.5 +(13 − 26.5)!
26.5 ≈ 13.75
2020/2021 Fundamentos de Estatística M1020 430
𝜒"# ≈ 13.75
valor-p≈0.0002
Conclusão:Como valor-p < 0.001, os dados fornecem evidência suficiente, ao nível de 0.1%, para concluir que a população contém menos fêmeas do que machos.
Note-se que, a conclusão unilateral é legítima, pois, se H0é falsa, então tem-se uma das situações: 𝑃 “𝑓ê𝑚𝑒𝑎” < 0.5ou 𝑃 “𝑓ê𝑚𝑒𝑎” > 0.5.
valor-p
𝜒'&
𝜒!(1)
2020/2021 Fundamentos de Estatística M1020 431
CHISQ.DIST CHISQ.DIST.RT CHISQ.INV CHISQ.INV.RT
CHISQ.DIST(a,n,TRUE)#P(Y≤a) onde Y~𝜒!(n)
CHISQ.DIST.RT(a,n)#P(Y≥a) onde Y~𝜒!(n)
CHISQ.INV(p,n)# a: P(Y≤a)=p onde Y~𝜒!(n)
CHISQ.INV.RT(p,n)# a: P(Y≥a)=p onde Y~𝜒!(n)
2020/2021 Fundamentos de Estatística M1020 432
CHISQ.TEST
# Esta função permite obter imediatamente o valor p do teste do qui quadrado selecionando a série de valores observados e a série de valores esperados.
2020/2021 Fundamentos de Estatística M1020 433
O teste de independência serve para, a partir de umaamostra, testar a hipótese de duas variáveis aleatóriasserem independentes.
Teste de independência do qui-quadrado
Para estudar se existe uma relação entre a cor do cabelo e a cor dos olhos numa população alemã, um antropólogo ob-servou uma amostra aleatória de 6800 homens e resumiu os dados na seguinte tabela:
Exemplo
Cor do cabelo
Cor dos olhos escuro claro Total
escuro 726 131 857
claro 3129 2814 5943
Total 3855 2945 6800
2020/2021 Fundamentos de Estatística M1020 434
Esta tabela designa-se por tabela de contingência.
Note-se que estão ser estudadas duas variáveis categóricas com 2 categorias cada uma:
𝑋: cor dos olhos (2 categorias) 𝑌: cor dos cabelos (2 categorias)
A tabela de contingência é portanto uma tabela 2x2.
Temos assim duas variáveis (atributos) observadas em cada um dos indivíduos de uma única amostra aleatória.
Cor do cabelo
Cor dos olhos escuro claro Total
escuro 726 131 857
claro 3129 2814 5943
Total 3855 2945 6800
2020/2021 Fundamentos de Estatística M1020 435
ExemploCor do cabelo
Cor dos olhos escuro claro Total
escuro 726 131 857
claro 3129 2814 5943
Total 3855 2945 6800
H0 : A cor dos olhos e a cor do cabelo são independentes.
H1 : A cor dos olhos e a cor do cabelo não são indepen-dentes.
valor da estatística do teste𝜒"# =1!
(𝑜! − 𝑒!)#
𝑒!
sendo 𝑜! as frequências observadas e 𝑒! as frequências esperadas sob a hipótese H0 .
2020/2021 Fundamentos de Estatística M1020 436
ExemploCor do cabelo
Cor dos olhos Escuro (CE) Claro (CC) Total
escuro (OE) 726 131 857
claro(OC) 3129 2814 5943
Total 3855 2945 6800
Sob H0 (cor dos olhos e a cor do cabelo são independentes):
𝑃 𝑂𝐸 ∩ 𝐶𝐸 = 𝑃 𝑂𝐸 𝑃(𝐶𝐸) 𝑃 𝑂𝐸 ∩ 𝐶𝐶 = 𝑃 𝑂𝐸 𝑃(𝐶𝐶)𝑃 𝑂𝐶 ∩ 𝐶𝐸 = 𝑃 𝑂𝐶 𝑃(𝐶𝐸)
𝑃 𝑂𝐶 ∩ 𝐶𝐸 = 𝑃 𝑂𝐶 𝑃(𝐶𝐸)8576800
38556800
A frequência esperada de indivíduos com olhos escuros e cabelos escuros é portanto: 9:;
<9==>9::<9==×6800 ≈ 485.84.
2020/2021 Fundamentos de Estatística M1020 437
frequência observada (𝑜!!) Cor do cabelo
Cor dos olhos Escuro (CE) Claro (CC) Total
escuro (OE) 726 131 857
claro(OC) 3129 2814 5943
Total 3855 2945 6800
frequência esperada (𝑒!!) Cor do cabelo
Cor dos olhos Escuro (CE) Claro (CC) Total
escuro (OE) 857×38556800
857×29456800
857
claro(OC) 5943×38556800
5943×29456800
5943
Total 3855 2945 6800
𝑒! =𝑇𝑜𝑡𝑎𝑙 𝑙𝑖𝑛ℎ𝑎 ×𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑛𝑎
𝑇𝑜𝑡𝑎𝑙 𝑔𝑙𝑜𝑏𝑎𝑙
2020/2021 Fundamentos de Estatística M1020 438
valor da estatística do teste𝜒"# =1!
(𝑜! − 𝑒!)#
𝑒!
Se 𝜒"#> 𝑐 então rejeitamos H0, isto é, há evidência de H1 aum nível de significância 𝛼.
A. Decisão baseada na região de rejeição
𝜒!(𝑔𝑙)
𝑐 = 𝜒+,,%&
𝛼
𝑔𝑙 = (# 𝑙𝑖𝑛ℎ𝑎𝑠 − 1)×(# 𝑐𝑜𝑙𝑢𝑛𝑎𝑠 − 1)
2020/2021 Fundamentos de Estatística M1020 439
valor da estatística do teste𝜒"# =1!
(𝑜! − 𝑒!)#
𝑒!
B. Decisão baseada no valor p
Se valor-p < 𝛼 então rejeitamos H0, isto é, há evidência de H1 a um nível de significância 𝛼.
valor-p
𝜒'&
𝜒!(𝑔𝑙)
𝑔𝑙 = (# 𝑙𝑖𝑛ℎ𝑎𝑠 − 1)×(# 𝑐𝑜𝑙𝑢𝑛𝑎𝑠 − 1)
2020/2021 Fundamentos de Estatística M1020 440
Exemplo (cont.)
Frequências (𝑜# e 𝑒# #) Cor dos Cabelos
Cor dos olhos Escuro (CE) Claro (CC)
escuro (OE) 726 (485.84) 131 (371.16)
claro(OC) 3129 (3369.16) 2814 (2573.84)
𝜒"# =(726 − 485.84)#
485.84+⋯+
(2814 − 2573.84)#
2573.84≈ 313.6
𝑔𝑙 = (2 − 1)×(2 − 1)=1
2020/2021 Fundamentos de Estatística M1020
𝜒!(1)
𝑐 = 6.6349
𝛼 = 0.01
441
Exemplo (cont.)
𝜒"# ≈ 313.6
Rejeita-se a hipótese nula da independência entre a cor de cabelo e a cor dos olhos na população em causa, ao nível de significância de 1%.
3.6E-70
𝜒'&
𝜒!(1)
2020/2021 Fundamentos de Estatística M1020 442
Pretende-se testar a independência de duas variáveiscategóricas 𝑋 e 𝑌 numa certa população.
Teste de independência do qui-quadrado (caso geral)
H0 : 𝑋 e 𝑌 são independentes
H1 : 𝑋 e 𝑌 não são independentes.
Suponha-se que existem r categorias para 𝑋 (A1,...,Ar) e kcategorias para 𝑌 (B1,...,Bk) .
2020/2021 Fundamentos de Estatística M1020 443
freq observadas (𝑜#) 𝒀X B1 ⋯ Bk Total
A1
⋮Ar
Total N
A partir de uma amostra aleatória de tamanho N retiradada população constrói-se a tabela de contingência com asfrequências observadas.
Para cada uma das 𝑟×𝑘 células determina-se a frequênciaesperada:
𝑒! =𝑇𝑜𝑡𝑎𝑙 𝑙𝑖𝑛ℎ𝑎 ×𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑛𝑎
𝑇𝑜𝑡𝑎𝑙 𝑔𝑙𝑜𝑏𝑎𝑙
2020/2021 Fundamentos de Estatística M1020
valor-P
𝜒'&
𝜒!(𝑔𝑙)
444
Determina-se o valor da estatística do teste, considerando todas as 𝑟×𝑘 células:
𝜒"# =1!
(𝑜! − 𝑒!)#
𝑒!𝜒"! é o valor de uma variável aleatória 𝜒! (estatística do teste). Sob H0 , 𝜒!segue aproximadamente uma distribuição do qui-quadrado com𝑔𝑙 = 𝑟 − 1 × 𝑘 − 1 graus de liberdade.
Se 𝜒"!> 𝜒$%,'! ou (equivalentemente) se valor-P < 𝛼 então rejeitamos H0, isto é, há evidência de H1 a um nível de significância 𝛼.
𝜒+,,%&
𝜒!(𝑔𝑙)
𝛼
2020/2021 Fundamentos de Estatística M1020 445
Para estudar se existe uma relação entre a cor do cabelo e a cor dos olhos numa população alemã, um antropólogo ob-servou uma amostra aleatória de 6800 homens e resumiu os dados na seguinte tabela:
Exemplo
frequência observada Cor do cabelo
Cor dos olhos castanho preto louro ruivo Total
castanhos 438 288 115 16 857
cinzentos ou verdes 1387 746 946 53 3132
azuis 807 189 1768 47 2811
Total 2632 1223 2829 116 6800
H0 : A cor dos olhos e a cor do cabelo são independentes.
H1 : A cor dos olhos e a cor do cabelo não são indepen-dentes.
2020/2021 Fundamentos de Estatística M1020 446
Cálculo das frequências esperadas (𝑒! ):
𝑜/(𝑒/ )
Cor do cabelo
Cor dos olhos castanho preto louro ruivo Total
castanhos 438(331.71)
288(154.13)
115(356.54)
16(14.62)
857
cinzentos ou verdes 1387(1212.27)
746(563.30)
946(1303.0)
53(53.43)
3132
azuis 807(1088.02)
189(505.57)
1768(1169.46)
47(47.95)
2811
Total 2632 1223 2829 116 6800
𝜒"# =(438 − 331.71)#
331.71+⋯+
(47 − 47.95)#
47.95≈ 1073.5
2020/2021 Fundamentos de Estatística M1020 447
𝜒"# ≈ 1073.5
𝑔𝑙 = (3 − 1)×(4 − 1)=6
Recorrendo ao Excel: valor-P<<0.001
Rejeita-se a hipótese nula da independência entre a cor de cabelo e a cor dos olhos na população em causa, ao nível de significância de 0.1%. Há uma forte evidênciade associação entre a cor dos olhos e a cor dos cabelos na população em estudo.
𝜒!(6)
𝑐 = 22.4577
𝛼 = 0.001
2020/2021 Fundamentos de Estatística M1020 448
Observação
Tal como no teste (de ajustamento) anterior do qui-quadrado, a distribuição da estatística do teste sob H0 é aproximada, pelo que o tamanho da amostra deve ser suficientemente elevado. Lembra-se a sugestão de que o valor de cada uma das frequências esperadas seja pelo menos cinco.
2020/2021 Fundamentos de Estatística M1020 449
CHISQ.TEST
# Esta função permite obter imediatamente o valor p do teste do qui quadrado selecionando a série de valores observados e a série de valores esperados.É necessário construir primeiramente a tabela de contingência dos valores esperados a partir da tabela dos valores observados.
2020/2021 Fundamentos de Estatística M1020 450
O teste de homogeneidade serve para, a partir de umaamostra, testar a hipótese de que o comportamento deuma variável categórica é similar em várias populações.
Teste de homogeneidade do qui-quadrado
2020/2021 Fundamentos de Estatística M1020 451
Para estudar dois tratamentos diferentes na redução das enxaquecas foi feito um ensaio clínico envolvendo 75 pa-cientes sofrendo de enxaqueca. Dos 75, foram selecionados aleatoriamente 49 para receberem o tratamento T1. Aos restantes 26 foi administrado o tratamento T2.
Exemplo
Tratamento
Redução das enxaquecas
T1 T2 Total
sim 41 15 56
não 8 11 19
Total 49 26 75
Os dados evidenciam uma associação entre o tipo de tratamento e a redução das enxaquecas?
2020/2021 Fundamentos de Estatística M1020 452
Esta tabela designa-se (tal como no teste de independência) por tabela de contingência.
Note-se que está a ser estudada a variável “Redução de Enxaquecas” com 2 categorias (sim e não) em 2 populações distintas: pacientes submetidos a T1 e pacientes submetidos a T2.
A tabela de contingência é portanto uma tabela 2x2.
Temos assim uma variável (atributo) observada em dois grupos diferentes.
Tratamento
Redução das enxaquecas
T1 T2 Total
sim 41 15 56
não 8 11 19
Total 49 26 75
2020/2021 Fundamentos de Estatística M1020 453
H0 : Não existe uma associação entre o tipo de tratamento e a redução das enxaquecas.H1 : Existe uma associação entre o tipo de tratamento e a redução das enxaquecas.
𝑝( 𝑝! : probabilidade de as enxaquecas reduzirem com o tratamento T1 (T2),
H0 : 𝑝( = 𝑝!H1 : 𝑝( ≠ 𝑝!
H0 : Não há diferenças na variável em estudo nas duas populações.
H1 : Há diferenças na variável em estudo nas duas populações.
Formas alternativas de estabelecer as hipóteses
2020/2021 Fundamentos de Estatística M1020 454
valor da estatística do teste𝜒"# =1!
(𝑜! − 𝑒!)#
𝑒!
sendo 𝑜! as frequências observadas e 𝑒! as frequências esperadas sob a hipótese H0 .
Tratamento
Redução das enxaquecas
T1 T2 Total
sim 41 15 56
não 8 11 19
Total 49 26 75
H0 : 𝑝$ = 𝑝# H1 : 𝑝$ ≠ 𝑝#
2020/2021 Fundamentos de Estatística M1020 455
Sob H0 , a probabilidade de haver redução das enxaquecas não depende do tipo de tratamento.
Uma estimativa desta probabilidade é dada por 56/75. Usando esta estimativa, determina-se as frequências espe-radas sob H0 para cada grupo de tratamento.
Tratamento
Redução das enxaquecas
T1 T2 Total
sim 41(36.59)
15(19.41)
56
não 8 11 19
Total 49 26 75
5675×49 ≈ 36.59
5675×26 ≈ 19.41
2020/2021 Fundamentos de Estatística M1020 456
Analogamente, sob H0 , a probabilidade de não haver redu-ção das enxaquecas não depende do tipo de tratamento.
Uma estimativa desta probabilidade é dada por 19/75. Usando esta estimativa, determina-se as frequências espe-radas sob H0 para cada grupo de tratamento.
Tratamento
Redução das enxaquecas
T1 T2 Total
sim 41 15 56
não 8(12.41)
11(6.59)
19
Total 49 26 75
1975×49 ≈ 12.41
1975×26 ≈ 6.59
2020/2021 Fundamentos de Estatística M1020 457
Assim:
𝑜#(𝑒# )
Tratamento
Redução das enxaquecas T1 T2 Totalsim 41
(36.59)15
(19.41)56
não 8(12.41)
11(6.59)
19
Total 49 26 75
Tal como no teste de independência, para cada uma dascélulas a frequência esperada é:
𝑒! =𝑇𝑜𝑡𝑎𝑙 𝑙𝑖𝑛ℎ𝑎 ×𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑛𝑎
𝑇𝑜𝑡𝑎𝑙 𝑔𝑙𝑜𝑏𝑎𝑙
2020/2021 Fundamentos de Estatística M1020 458
Determina-se o valor da estatística do teste, considerando todas as células:
𝜒"# =1!
(𝑜! − 𝑒!)#
𝑒!
Se 𝜒"!> 𝜒$%,'! ou (equivalentemente) se valor-P < 𝛼 então rejeitamos H0, isto é, há evidência de H1 a um nível de significância 𝛼.
valor-P
𝜒'&
𝜒!(𝑔𝑙)
𝜒+,,%&
𝜒!(𝑔𝑙)
𝛼
Região de rejeição Valor P
𝑔𝑙 = (# 𝑙𝑖𝑛ℎ𝑎𝑠 − 1)×(# 𝑐𝑜𝑙𝑢𝑛𝑎𝑠 − 1)
2020/2021 Fundamentos de Estatística M1020 459
𝑜/(𝑒/ )
Tratamento
Redução das enxaquecas T1 T2 Totalsim 41
(36.59)15
(19.41)56
não 8(12.41)
11(6.59)
19
Total 49 26 75
Exemplo (cont.)
𝜒"# =(41 − 36.59)#
36.59+⋯+
11 − 6.59 #
6.59≈ 6.05
2020/2021 Fundamentos de Estatística M1020 460
𝜒"# ≈ 6.05 𝑔𝑙 = (2 − 1)×(2 − 1)=1
Consultando a tabela 𝑐 = 𝜒=.=$,$# ≈ 6.63
Não se rejeita a hipótese nula da igualdade das probabi-lidades ao nível de significância de 1%, ou seja os dados não evidenciam diferenças nos dois tratamentos na redução das enxaquecas.
Alternativamente recorrendo ao Excel: valor P≈ 0.014
nível de significância 𝛼=0.01
2020/2021 Fundamentos de Estatística M1020 461
Pretende-se testar se uma variável 𝑋 com r categorias(A1,...,Ar) é igualmente distribuída em k populações.
Teste de homogeneidade do qui-quadrado (caso geral)
freq observadas (𝑜#) População𝑋 P1 ⋯ Pk Total
A1
⋮Ar
Total N
A partir de k amostras aleatórias independentes retiradasde cada uma das populações constrói-se a tabela decontingência com as frequências observadas.
2020/2021 Fundamentos de Estatística M1020 462
freq observadas (𝑜#) População𝑋 P1 ⋯ Pk Total
A1
⋮Ar
Total N
H0 : A distribuição de probabilidade de 𝑋 é igual em todas as populações.H1 : A distribuição de probabilidade de 𝑋 não é igual em todas as populações.
2020/2021 Fundamentos de Estatística M1020 463
freq esperadas (𝑒#) População𝑋 P1 ⋯ Pk Total
A1 𝑁0#×𝑛#N
𝑁0#
⋮ ⋮
Ar 𝑁01Total 𝑛# 𝑛! N
Para cada uma das 𝑟×𝑘 células determina-se a frequênciaesperada:
𝑒! =𝑇𝑜𝑡𝑎𝑙 𝑙𝑖𝑛ℎ𝑎 ×𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑛𝑎
𝑇𝑜𝑡𝑎𝑙 𝑔𝑙𝑜𝑏𝑎𝑙
e determina-se o valor da estatística do teste, conside-rando todas as 𝑟×𝑘 células:
𝜒"# =1!
(𝑜! − 𝑒!)#
𝑒!
2020/2021 Fundamentos de Estatística M1020 464
𝜒"# =1!
(𝑜! − 𝑒!)#
𝑒!
Se 𝜒"!> 𝜒$%,'! ou (equivalentemente) se valor-P < 𝛼 então rejeitamos H0, isto é, há evidência de H1 a um nível de significância 𝛼.
valor-P
𝜒'&
𝜒!(𝑔𝑙)
𝜒+,,%&
𝜒!(𝑔𝑙)
𝛼
Região de rejeição Valor P
𝑔𝑙 = (𝑟 − 1)×(𝑘 − 1)
2020/2021 Fundamentos de Estatística M1020 465
Num estudo acerca da relação entre o tipo de sangue e aincidência de úlcera duodenal, foram selecionados aleato-riamente 1301 pacientes com úlcera duodenal e um grupo de controlo com 6313 pessoas sem úlcera duodenal. Os resultados do rastreio foram:
Exemplo
frequência observada GrupoTipo de Sangue Pacientes Controlo Total
O 698 2892 3590A 472 2625 3097B 102 570 672
AB 29 226 255Total 1301 6313 7614
2020/2021 Fundamentos de Estatística M1020 466
H0 : A distribuição de probabilidade do tipo sanguíneo é a mesma nas duas populações.
Se não existe associação entre os grupos sanguíneos e aocorrência de úlcera duodenal, espera-se que a distribuição do tipo sanguíneo seja a mesma nas duas populações (pessoas diagnosticadas com úlcera duodenal e pessoas que não têm este tipo de úlcera). Assim, as hipóteses podem ser formuladas do modo seguinte:
H1: A distribuição de probabilidade do tipo sanguíneo é diferente nas duas populações.
2020/2021 Fundamentos de Estatística M1020 467
𝜒"# =(698 − 613.42)#
613.42+⋯+
226 − 211.43 #
211.43≈ 29.12
𝑜#(𝑒# )
Grupo
Tipo de Sangue Pacientes Controlo TotalO 698
(613.42)2892
(2976.58)3590
A 472(529.18)
2625(2567.82)
3097
B 102(114.82)
570(557.18)
672
AB 29(43.57)
226(211.43)
255
Total 1301 6313 7614
2020/2021 Fundamentos de Estatística M1020
Valor P𝜒!(3)
468
𝜒"# ≈ 29.12
𝑔𝑙 = (4 − 1)×(2 − 1)=3
Recorrendo ao Excel: valor P≈2.11E-06
Rejeita-se a hipótese nula da igualdade das distribui-ções de probabilidade do tipo sanguíneo nas duas populações, ao nível de significância de 1%.
𝜒"! ≈ 29.12
2020/2021 Fundamentos de Estatística M1020 469
Num teste de independência são observados os valores de duas variáveis (atributos) numa única população. Tem-se portanto uma única amostra e cada elmento da amostra é observado relativamente aos diversos atributos. Pretende-se saber se essas variáveis são ou não independentes.
Como distinguir um teste de homogeneidade de um teste de independência?
H0 : As variáveis são independentes.
H1 : As variáveis não são independentes.
As hipóteses, neste caso, formulam-se como:
2020/2021 Fundamentos de Estatística M1020 470
Num teste de homogeneidade são observados os valores de uma variável (atributo) em várias populações. Tem-se portanto várias amostras independentes (retiradas das respetivas populações) nas quais se observam os valores da variável. Pretende-se saber se são iguais as distribuições de probabilidade dessa variável nas diferentes populações.
H0 : As distribuições de probabilidade da variável nas diversas populações são iguais.
As hipóteses, neste caso, formulam-se como:
H1 : Não são iguais as distribuições de probabilidade da variável nas diversas populações.
2020/2021 Fundamentos de Estatística M1020 471
Pretende-se testar se existe uma associação entre a preferência por cães ou gatos e o género das pessoas de uma certa população. Uma amostra aleatória de 1000 pessoas produziu os resultados seguintes:
preferênciagénero cão gato Totalhomem 217 293 510mulher 240 250 490
Total 457 543 1000
Exemplo
1 população e 2 variáveis (género e preferência)
teste de independência
2020/2021 Fundamentos de Estatística M1020 472
Pretende-se testar se a preferência por cães ou gatos se distribui igualmente entre os homens e as mulheres. Para isso foram recolhidas duas amostras independentes, uma de homens e outra de mulheres que produziram os resultados seguintes:
Populaçõespreferência homem mulher Total
cão 217 240 457gato 293 250 543Total 510 490 1000
Exemplo
2 populações (homens e mulheres) e 1 variável (preferência)
teste de homogeneidade
2020/2021 Fundamentos de Estatística M1020 473
Populações
preferência homem mulher Total
cão 217 240 457
gato 293 250 543
Total 510 490 1000
Exemplo 2
géneropreferência homem mulher Total
cão 217 240 457
gato 293 250 543
Total 510 490 1000
Exemplo 1
1 AMOSTRA
2 AMOSTRAS INDEP.