testes de hipóteses - uspconteudo.icmc.usp.br/pessoas/ehlers/sme0320/testes.pdf · 0 quando de...

Testes de Hipoteses

Ricardo [email protected]

Departamento de Matematica Aplicada e EstatısticaUniversidade de Sao Paulo

Introducao e notacao

• Em geral, intervalos de confianca sao a forma maisinformativa de apresentar os achados principais de um estudo.

• Contudo, algumas vezes existe um particular interesse emverificar determinadas afirmacoes ou conjecturas.

• Por exemplo, podemos estar interessados em determinar seuma moeda e honesta, se certas quantidades saoindependentes, ou se populacoes distintas sao similares doponto de vista probabilıstico.

• Cada uma destas afirmacoes constitui uma hipotese que podeser associada a um modelo, i.e. pode ser parametrizada.

1

Definicao

Chamamos de hipotese estatıstica qualquer afirmacao que se facasobre um parametro populacional desconhecido.

• A partir de uma amostra da populacao iremos estabeleceruma regra de decisao segundo a qual rejeitaremos ouaceitaremos a hipotese proposta.

• Esta regra de decisao e chamada de teste.

• Normalmente existe uma hipotese mais importante para opesquisador que sera denotada por H0 e chamada hipotesenula.

• Qualquer outra hipotese diferente de H0 sera chamada dehipotese alternativa e denotada por H1.

2

Exemplo. Seja um experimento que consiste em um teste do tipocerto-errado com 10 questoes. O objetivo e testar se o aluno estaadvinhando.

• Denotando por p a probabilidade do aluno acertar cadaquestao a hipotese estatıstica de interesse pode ser formuladacomo H0 : p = 1/2.

• Neste caso, a hipotese alternativa mais adequada eH1 : p > 1/2 indicando que o aluno tem algum conhecimentosobre o assunto.

• Temos entao 10 repeticoes do experimento com p constante

• A variavel aleatoria X =”numero de acertos em 10 questoes”tem distribuicao binomial com parametros n = 10 e pdesconhecido.

3

Resumindo, para X ∼ Binomial(10, p) deseja-se testar

H0 : p = 1/2

H1 : p > 1/2

Note que quanto maior o valor de X maior e a evidencia a favor deH1 (e portanto contra H0).

4

Suponha que adotamos a seguinte regra de decisao:

“o aluno nao esta advinhando se acertar 8 ou mais questoes. “

• Isto equivale a rejeitar H0 se X ≥ 8 (regiao de rejeicao ouregiao crıtica) e aceitar H0 se X < 8 (regiao de aceitacao).

• Um aluno pode acertar 8 ou mais questoes e estaradvinhando, isto e podemos rejeitar H0 quando ela everdadeira. A probabilidade de que isto ocorra e,

P(X ≥ 8 | p = 1/2) =10∑k=8

(10

k

)0, 510 =

7

128≈ 0, 054.

5

• Esta probabilidade e chamada nıvel de significancia e seradenotada por α.

• Note que o valor de α depende da regra de decisao, porexemplo se a regiao crıtica for X ≥ 7 entao α ≈ 0, 171.

• No proximo exemplo veremos como usar o nıvel designificancia para construir uma regra de decisao.

6

Exemplo. Um fornecedor garante que 90% de sua producao naoapresenta defeito. Para testar esta afirmacao selecionamos aoacaso 10 itens de um lote e contamos o numero de defeituosos.Decidimos nao comprar o lote se o numero observado de naodefeituosos for muito pequeno (mas quao pequeno?).

• Experimento: selecionar ao acaso 10 itens de um lote e contaro numero de defeituosos.

• Regra de decisao: nao comprar o lote se o numero observadode nao defeituosos for muito pequeno.

7

• Definindo X =”numero de nao defeituosos na amostra de 10itens” temos entao uma distribuicao binomial com parametrosn = 10 e p desconhecido, e queremos testar H0 : p = 0.9.

• Aqui p e a proporcao de itens nao defeituosos no lote eportanto a hipotese alternativa deve ser H1 : p < 0.9.

• Ou seja queremos testar,

H0 : p = 0.9

H1 : p < 0.9.

8

Suponha que decidimos manter α < 0.025 e a partir deste valorvamos estabelecer a nossa regra de decisao.

Qual o maior valor de k tal que P(X ≤ k | p = 0.9) < 0.025?

P(X ≤ 5 | p = 0.9) =5∑

k=0

(10

k

)0.9k(1− 0.9)10−k = 0.001

P(X ≤ 6 | p = 0.9) =6∑

k=0

(10

k

)0.9k(1− 0.9)10−k = 0.012

P(X ≤ 7 | p = 0.9) =7∑

k=0

(10

k

)0.9k(1− 0.9)10−k = 0.069.

Portanto, devemos usar a regiao crıtica X ≤ 6. Isto e, vamosrejeitar o lote se o numero de itens defeituosos na amostra formaior do que 6.

9

• Nestes dois exemplos os testes sao chamados de unilateraisporque somente valores de um lado do espaco amostral foramutilizados para construir a regiao crıtica.

• Podemos ter tambem testes bilaterais aonde os dois extremosdo espaco amostral sao usados como regiao crıtica.

• A variavel aleatoria X e chamada estatıstica de teste, suadistribuicao deve ser conhecida e ela deve depender doparametro que esta sendo testado.

10

Probabilidades binomiais e regioes criticas dos 2 testes unilaterias.

0 2 4 6 8 10

0.0

00.1

5

0 2 4 6 8 10

0.0

0.2

0.4

11

Exemplo. Em cada caso determine as hipoteses a serem testadas.

• Uma empresa de transportes afirma que o intervalo entreonibus sucessivos e em media 15 minutos. A associacao deusuarios deseja testar esta afirmacao.

• Um veterinario afirma que usando uma nova composicao deracoes consegue um ganho medio diario de 3 litros de leite porvaca. A associacao de produtores acredita que o ganho nao etao grande e deseja testar esta afirmacao.

12

Decisoes e poder

Ao tomar uma decisao a favor ou contra uma hipotese existem doistipos de erros que podemos cometer:

• rejeitar H0 quando de fato ela e verdadeira (erro tipo I), ou

• falhar em rejeitar H0 quando de fato ela e falsa (erro tipo II).

Frequentemente denota-se as probabilidades destes dois tipos deerro como α e β respectivamente,

P(rejeitar H0|H0 e verdadeira) = α

P(nao rejeitarH0|H0 e falsa) = β

O poder de um teste e a probabilidade de rejeitar a hipotese nulaquando esta e de fato falsa, isto e 1− β.

13

• Existe um balanco entre esses dois tipos de erros, no sentidode que ao tentar-se minimizar α, aumenta-se β.

• Isto e, nao e possıvel minimizar estas duas probabilidadessimultaneamente e na pratica e costume fixar um valor(pequeno) para α.

• Na tabela abaixo estao descritas as decisoes que podemostomar e os tipos de erro associados.

DecisaoVerdade Aceitar H0 Rejeitar H0

H0 verdadeira Decisao correta Erro Tipo I(probabilidade 1− α) (probabilidade α)

H0 falsa Erro Tipo II Decisao correta(probabilidade β) (probabilidade 1− β)

14

Nıvel Descritivo (P-valor)

• A escolha do nıvel de significancia α do teste e completamentearbitraria e deve ser feita antes do experimento ser realizado.

• Quando a distribuicao da estatıstica de teste e discreta, comonos exemplos anteriores, o nıvel escolhido pode nem mesmoser atingido.

• A decisao de aceitar ou rejeitar H0 claramente depende destaescolha. Na pratica, o valor escolhido e 0,05 ou 0,01 mas naoha justificativa formal para estes valores em particular.

15

• Um enfoque alternativo consiste em primeiro observar o valorda estatistica de teste e calcular a probabilidade de obtervalores mais desfavoraveis a H0 supondo que esta sejaverdadeira.

• Esta quantidade e chamada nıvel descritivo ou P-valor.

16

Exemplo. No exemplo das questoes, suponha que o numeroobservado de questoes certas foi X = 9. Entao o p-valor sera,

P(X ≥ 9 | p = 1/2) =

(10

9

)0, 510 +

(10

10

)0, 510 = 0, 0107

e rejeitaremos H0 para todo nıvel de significancia maior do que estevalor. Por exemplo, rejeitaremos H0 para α = 0, 025 ou α = 0, 05e aceitaremos H0 para α = 0, 01.

17

Exemplo. No exemplo do itens defeituosos suponha que o numeroobservado de nao defeituosos foi X = 4. Neste caso o p-valor edado por

P(X ≤ 4 | p = 0.9) = 0.000147

ou seja, rejeitaremos H0 para praticamente todos os nıveis designificancia usuais.

18

• O p-valor e a probabilidade de observar resultados taoextremos quanto os obtidos se a hipotese nula for verdadeira.

• Se o p-valor for grande ele fornece evidencia de que H0 everdadeira.

• Um p-valor pequeno indica que existe evidencia nos dadoscontra H0 (ja que ocorreu um resultado pouco provavel).

19

Teste para a media populacional

Exemplo. Seja X a altura das pessoas em uma populacao e umaamostra,

X1, · · · ,Xn ∼ N(θ, σ2), σ2 = 25, n = 9

Deseja-se testar,

H0 : θ = 170

H1 : θ 6= 170

Considere a regra de decisao: rejeitar H0 se,

X < c1 ou X > c2

20

Fixando α = 0.05, obtenha c1 e c2 tais que,

P(X < c1 ou X > c2 | θ = 170) =

P(X < c1 | θ = 170) + P(X > c2 | θ = 170) = 0.05

• Este e um exemplo de teste bilateral.

• Existe uma infinidade de valores que satisfazem esta condicao.

• Na maioria dos experimentos envolvendo o modelo normalsera conveniente tomar c1 e c2 simetricos em relacao a E (X ).

21

Como X ∼ N(θ, σ2/n),

P

(3(X − 170)

5<

3(c1 − 170)

5

)+

P

(3(X − 170)

5>

3(c2 − 170)

5

)= 0.05

Da tabela normal padrao:

3(c1 − 170)

5= −1.96

3(c2 − 170)

5= 1.96

c1 = 166.73 c1 = 173.27

22

Suponha que uma amostra foi observada e a media amostral xcalculada.

Se x < 166.73 ou x > 173.27 rejeita-se H0 ao nivel de significanciaα = 0.05.

23

Exemplo. De experiencias anteriores sabe-se que a resistenciamedia ao desmoronamento de um tipo de tijolo e 200Kg comdesvio padrao 10Kg. Um comprador suspeita que essa resistenciamedia diminuiu (sem alterar o desvio padrao). Uma amostraaleatoria de 100 tijolos foi selecionada e as resistencias forammedidas para testar esta afirmacao.

Seja X uma variavel aleatoria representando a resistencia aodesmoronamento e uma amostra aleatoria X1, . . . ,Xn tal que,

E (Xi ) = µ Var(Xi ) = 100 n = 100.

Deseja-se testar,

H0 : µ = 200

H1 : µ < 200

24

Como n e grande podemos usar o teorema central do limite. Adistribuicao amostral aproximada de X e,

X ∼ N(µ, σ2/n)

e sob H0 temos entao que,

X ∼ N(200, 1).

A regra de decisao consiste em rejeitar H0 se X for pequena emrelacao a 200Kg. Fixando α = 0.05 temos que,

P(X < c|µ = 200) = P(X − 200 < c − 200) = 0.05

Da tabela da normal padrao obtemos que c − 200 = −1.64 eportanto c = 198.36.

25

Exemplo. No exemplo anterior suponha que obteve-se umaamostra tal que x = 197.5.

Entao de acordo com os dados coletados deve-se concluir que aresistencia media diminuiu (ao nivel de 0.05).

Alem disso, o p-valor pode ser calculado como,

P(X < 197.5|µ = 200) = P(X−200 < 197.5−200) = P(Z < −2.5).

Da tabela da normal padrao obtem-se que p-valor= 0.0062.

26

Suponha agora que temos uma amostra X1, . . . ,Xn ∼ N(µ, σ2)sendo µ e σ2 ambos desconhecidos.

Utilizando a variancia amostral,

S2 =1

n − 1

n∑i=1

(Xi − X )2

como estimador de σ2 entao a variavel aleatoria,

T =X − µS/√

n

tem distribuicao t-Student com n − 1 graus de liberdade.

Esta e a estatıstica utilizada para testar as hipoteses sobre µ.

27

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)

t−Student

28

• As probabilidades relativas a distribuicao t sao calculadas deforma aproximada e estao tabeladas (ver Apendice B do livrotexto).

• A distribuicao t se aproxima da normal conforme aumentamos graus de liberdade.

• A tabela vai ate 120 graus de liberdade e para valores maioresdeve-se usar a tabela da normal.

29

Exemplo. Sejam X1, . . . ,Xn ∼ N(µ, σ2) com n = 12 e µ e σ2

desconhecidos. Deseja-se testar,

H0 : µ = 200

H1 : µ 6= 200

ao nivel de significancia 0.05.

Na tabela t, para n− 1 = 11 e p = 5% obtemos o valor tc = 2.201.

Regra de decisao: rejeitar H0 ao nivel α = 0.05 se,

X − 200

S/√

n> 2.201, ou

X − 200

S/√

n< −2.201

30

Exemplo. No exemplo anterior suponha que deseja-se testar agora,

H0 : µ = 200

H1 : µ < 200

ao nivel de significancia 0.01.

Na tabela t, para n− 1 = 11 e p = 2% obtemos o valor tc = 2.718.

Regra de decisao: rejeitar H0 ao nivel α = 0.01 se,

X − 200

S/√

n< −2.718

31

Testes Qui-Quadrado

Ao ajustar modelos teoricos a um conjunto de dados, a qualidadedo ajuste pode ser verificada comparando-se as frequencias teoricas(ou esperadas) com as frequencias observadas.

Mais formalmente, a aderencia dos dados a um certo modeloteorico pode ser testada atraves da seguinte estatıstica,

Q2 =k∑

i=1

(oi − ei )2

ei,

sendo,

oi : as frequencias observadas

ei : as frequencias esperadas

k o numero de classes ou valores considerados.

32

As hipoteses a serem testadas sao,

H0 : Os dados se ajustam bem ao modelo

H1 : O ajuste nao e bom.

• Note que se o ajuste nao for bom as frequencias observadas eesperadas tenderao a ser muito diferentes e portanto valoresgrandes da estatıstica T indicam evidencia contra H0.

• Ou seja, este teste e do tipo unilateral.

• Pode-se mostrar que, se n for grande, T tem distribuicaoaproximada qui-quadrado (χ2) com k − 1−m graus deliberdade sendo m o numero de parametros estimados nomodelo teorico.

• Uma condicao de validade desta distribuicao e que ei ≥ 5,i = 1, . . . , k.

33

Exemplo. Em um determinada secao de um rio foram efetuadas1000 medicoes de sua vazao (em m3/s), e obteve-se a distribuicaoapresentada na tabela abaixo.

classes de vazao frequencia observada

10-14 5514-18 12618-22 32522-26 31526-30 13030-34 49

Podemos ajustar uma distribuicao normal com parametrosestimados pela media amostral e variancia amostralrespectivamente.

Suponha que x = 21.9 e s = 4.71 e portanto se X representa asmedicoes de vazao entao X ∼ N(21.9, 4.712) (esta e a distribuicaoajustada).

34

Calculado as probabilidades de obter uma medicao em cada umadas classes podemos construir a tabela com as frequenciasajustadas.

frequenciasclasses de vazao Probabilidades das classes ajustada observada

10-14 0.041 41 5514-18 0.157 157 12618-22 0.305 305 32522-26 0.300 300 31526-30 0.150 150 13030-34 0.038 38 49

35

Neste caso o valor da estatıstica de teste e dado por,

T =(41− 55)2

41+

(157− 126)2

157+

(305− 325)2

305+

(300− 315)2

300+

(150− 130)2

150+

(38− 49)2

38= 18, 81386.

O numero de classes e k = 6 e o numero de parametros estimadose m = 2 (a media e a variancia da distribuicao normal) e portantoT tem distribuicao qui-quadrado com k − 1−m = 3 graus deliberdade.

36

• Nenhuma das classes apresenta frequencia esperada menor doque 5 portanto esta distribuicao e valida.

• Fixando o nıvel de significancia α = 0, 05 obtemos na tabelada distribuicao χ2 com 3 graus de liberdade queP(T > 7, 815) = 0, 05.

• Como 18, 81386 > 7, 815 ha evidencias para rejeitar H0 aonıvel de 5%.

• Da mesma tabela obtemos que P(T > 16.266) = 0.001 eportanto o p-valor e menor do que 0.001. Ou seja, haevidencia extremamente forte contra H0.

37

Teste de Independencia

O teste χ2 tambem pode ser aplicado no estudo da relacao entreduas variaveis categoricas com p e k possıveis categorias.

Neste caso queremos testar se as variaveis sao independentes(hipotese nula).

A estatıstica de teste e a mesma porem com numero de graus deliberdade igual a (p − 1)(k − 1)

38

Exemplo. Considere por exemplo a tabela a seguir na qual estaoapresentados os numero de alunos matriculados nos colegios A e B,em relacao a sua classe social.

Classe socialColegio Alta Media Baixa Total

A 20 40 40 100B 50 40 30 120

Total 70 80 70 220

Se as variaveis Colegio e Classe social forem independentesespera-se que as frequencias de alunos das 3 classes sejam asmesmas nos 2 colegios, i.e. 70/220, 80/220 e 70/220.

39

As frequencias esperadas sob a hipotese de independencia saoentao dadas por,

Colegio A: 10070

220= 31, 82 100

80

220= 36, 36 100

70

220= 31, 82

Colegio B: 12070

220= 38, 18 120

80

220= 43, 64 120

70

220= 38, 18

e podemos construir a tabela abaixo.

Classe socialColegio Alta Media Baixa

A 31,82 36,36 31,82B 38,18 43,64 38,18

40

Podemos agora avaliar a estatıstica de teste

T =(20− 31, 82)2

31, 82+

(40− 36, 36)2

36, 36+

(40− 31, 82)2

31, 82+

(50− 38, 18)2

38, 18+

(40− 43, 64)2

43, 64+

(30− 38, 18)2

38, 18= 12, 57.

Ao nıvel de significancia 0,05 obtemos da tabela χ2 com(p − 1)(k − 1) = 2 graus de liberdade que P(T > 5, 99) = 0, 05 ecomo 12, 57 > 5, 99 a hipotese de independencia e rejeitada. Paracalcular o P-valor, note que a tabela qui-quadrado com 2 graus deliberdade nos fornece,

P(T > 12, 429) = 0, 002

e portanto podemos concluir que P-valor < 0,002. Ou seja, existeforte evidencia contra a hipotese de independencia entre asvariaveis Colegio e Classe social.

41

testes de hipóteses - uspconteudo.icmc.usp.br/pessoas/ehlers/sme0320/testes.pdf · 0 quando de...

Documents