testes de hipóteses - uspconteudo.icmc.usp.br/pessoas/ehlers/sme0320/testes.pdf · 0 quando de...
TRANSCRIPT
Testes de Hipoteses
Ricardo [email protected]
Departamento de Matematica Aplicada e EstatısticaUniversidade de Sao Paulo
Introducao e notacao
• Em geral, intervalos de confianca sao a forma maisinformativa de apresentar os achados principais de um estudo.
• Contudo, algumas vezes existe um particular interesse emverificar determinadas afirmacoes ou conjecturas.
• Por exemplo, podemos estar interessados em determinar seuma moeda e honesta, se certas quantidades saoindependentes, ou se populacoes distintas sao similares doponto de vista probabilıstico.
• Cada uma destas afirmacoes constitui uma hipotese que podeser associada a um modelo, i.e. pode ser parametrizada.
1
Definicao
Chamamos de hipotese estatıstica qualquer afirmacao que se facasobre um parametro populacional desconhecido.
• A partir de uma amostra da populacao iremos estabeleceruma regra de decisao segundo a qual rejeitaremos ouaceitaremos a hipotese proposta.
• Esta regra de decisao e chamada de teste.
• Normalmente existe uma hipotese mais importante para opesquisador que sera denotada por H0 e chamada hipotesenula.
• Qualquer outra hipotese diferente de H0 sera chamada dehipotese alternativa e denotada por H1.
2
Exemplo. Seja um experimento que consiste em um teste do tipocerto-errado com 10 questoes. O objetivo e testar se o aluno estaadvinhando.
• Denotando por p a probabilidade do aluno acertar cadaquestao a hipotese estatıstica de interesse pode ser formuladacomo H0 : p = 1/2.
• Neste caso, a hipotese alternativa mais adequada eH1 : p > 1/2 indicando que o aluno tem algum conhecimentosobre o assunto.
• Temos entao 10 repeticoes do experimento com p constante
• A variavel aleatoria X =”numero de acertos em 10 questoes”tem distribuicao binomial com parametros n = 10 e pdesconhecido.
3
Resumindo, para X ∼ Binomial(10, p) deseja-se testar
H0 : p = 1/2
H1 : p > 1/2
Note que quanto maior o valor de X maior e a evidencia a favor deH1 (e portanto contra H0).
4
Suponha que adotamos a seguinte regra de decisao:
“o aluno nao esta advinhando se acertar 8 ou mais questoes. “
• Isto equivale a rejeitar H0 se X ≥ 8 (regiao de rejeicao ouregiao crıtica) e aceitar H0 se X < 8 (regiao de aceitacao).
• Um aluno pode acertar 8 ou mais questoes e estaradvinhando, isto e podemos rejeitar H0 quando ela everdadeira. A probabilidade de que isto ocorra e,
P(X ≥ 8 | p = 1/2) =10∑k=8
(10
k
)0, 510 =
7
128≈ 0, 054.
5
• Esta probabilidade e chamada nıvel de significancia e seradenotada por α.
• Note que o valor de α depende da regra de decisao, porexemplo se a regiao crıtica for X ≥ 7 entao α ≈ 0, 171.
• No proximo exemplo veremos como usar o nıvel designificancia para construir uma regra de decisao.
6
Exemplo. Um fornecedor garante que 90% de sua producao naoapresenta defeito. Para testar esta afirmacao selecionamos aoacaso 10 itens de um lote e contamos o numero de defeituosos.Decidimos nao comprar o lote se o numero observado de naodefeituosos for muito pequeno (mas quao pequeno?).
• Experimento: selecionar ao acaso 10 itens de um lote e contaro numero de defeituosos.
• Regra de decisao: nao comprar o lote se o numero observadode nao defeituosos for muito pequeno.
7
• Definindo X =”numero de nao defeituosos na amostra de 10itens” temos entao uma distribuicao binomial com parametrosn = 10 e p desconhecido, e queremos testar H0 : p = 0.9.
• Aqui p e a proporcao de itens nao defeituosos no lote eportanto a hipotese alternativa deve ser H1 : p < 0.9.
• Ou seja queremos testar,
H0 : p = 0.9
H1 : p < 0.9.
8
Suponha que decidimos manter α < 0.025 e a partir deste valorvamos estabelecer a nossa regra de decisao.
Qual o maior valor de k tal que P(X ≤ k | p = 0.9) < 0.025?
P(X ≤ 5 | p = 0.9) =5∑
k=0
(10
k
)0.9k(1− 0.9)10−k = 0.001
P(X ≤ 6 | p = 0.9) =6∑
k=0
(10
k
)0.9k(1− 0.9)10−k = 0.012
P(X ≤ 7 | p = 0.9) =7∑
k=0
(10
k
)0.9k(1− 0.9)10−k = 0.069.
Portanto, devemos usar a regiao crıtica X ≤ 6. Isto e, vamosrejeitar o lote se o numero de itens defeituosos na amostra formaior do que 6.
9
• Nestes dois exemplos os testes sao chamados de unilateraisporque somente valores de um lado do espaco amostral foramutilizados para construir a regiao crıtica.
• Podemos ter tambem testes bilaterais aonde os dois extremosdo espaco amostral sao usados como regiao crıtica.
• A variavel aleatoria X e chamada estatıstica de teste, suadistribuicao deve ser conhecida e ela deve depender doparametro que esta sendo testado.
10
Probabilidades binomiais e regioes criticas dos 2 testes unilaterias.
0 2 4 6 8 10
0.0
00.1
5
0 2 4 6 8 10
0.0
0.2
0.4
11
Exemplo. Em cada caso determine as hipoteses a serem testadas.
• Uma empresa de transportes afirma que o intervalo entreonibus sucessivos e em media 15 minutos. A associacao deusuarios deseja testar esta afirmacao.
• Um veterinario afirma que usando uma nova composicao deracoes consegue um ganho medio diario de 3 litros de leite porvaca. A associacao de produtores acredita que o ganho nao etao grande e deseja testar esta afirmacao.
12
Decisoes e poder
Ao tomar uma decisao a favor ou contra uma hipotese existem doistipos de erros que podemos cometer:
• rejeitar H0 quando de fato ela e verdadeira (erro tipo I), ou
• falhar em rejeitar H0 quando de fato ela e falsa (erro tipo II).
Frequentemente denota-se as probabilidades destes dois tipos deerro como α e β respectivamente,
P(rejeitar H0|H0 e verdadeira) = α
P(nao rejeitarH0|H0 e falsa) = β
O poder de um teste e a probabilidade de rejeitar a hipotese nulaquando esta e de fato falsa, isto e 1− β.
13
• Existe um balanco entre esses dois tipos de erros, no sentidode que ao tentar-se minimizar α, aumenta-se β.
• Isto e, nao e possıvel minimizar estas duas probabilidadessimultaneamente e na pratica e costume fixar um valor(pequeno) para α.
• Na tabela abaixo estao descritas as decisoes que podemostomar e os tipos de erro associados.
DecisaoVerdade Aceitar H0 Rejeitar H0
H0 verdadeira Decisao correta Erro Tipo I(probabilidade 1− α) (probabilidade α)
H0 falsa Erro Tipo II Decisao correta(probabilidade β) (probabilidade 1− β)
14
Nıvel Descritivo (P-valor)
• A escolha do nıvel de significancia α do teste e completamentearbitraria e deve ser feita antes do experimento ser realizado.
• Quando a distribuicao da estatıstica de teste e discreta, comonos exemplos anteriores, o nıvel escolhido pode nem mesmoser atingido.
• A decisao de aceitar ou rejeitar H0 claramente depende destaescolha. Na pratica, o valor escolhido e 0,05 ou 0,01 mas naoha justificativa formal para estes valores em particular.
15
• Um enfoque alternativo consiste em primeiro observar o valorda estatistica de teste e calcular a probabilidade de obtervalores mais desfavoraveis a H0 supondo que esta sejaverdadeira.
• Esta quantidade e chamada nıvel descritivo ou P-valor.
16
Exemplo. No exemplo das questoes, suponha que o numeroobservado de questoes certas foi X = 9. Entao o p-valor sera,
P(X ≥ 9 | p = 1/2) =
(10
9
)0, 510 +
(10
10
)0, 510 = 0, 0107
e rejeitaremos H0 para todo nıvel de significancia maior do que estevalor. Por exemplo, rejeitaremos H0 para α = 0, 025 ou α = 0, 05e aceitaremos H0 para α = 0, 01.
17
Exemplo. No exemplo do itens defeituosos suponha que o numeroobservado de nao defeituosos foi X = 4. Neste caso o p-valor edado por
P(X ≤ 4 | p = 0.9) = 0.000147
ou seja, rejeitaremos H0 para praticamente todos os nıveis designificancia usuais.
18
• O p-valor e a probabilidade de observar resultados taoextremos quanto os obtidos se a hipotese nula for verdadeira.
• Se o p-valor for grande ele fornece evidencia de que H0 everdadeira.
• Um p-valor pequeno indica que existe evidencia nos dadoscontra H0 (ja que ocorreu um resultado pouco provavel).
19
Teste para a media populacional
Exemplo. Seja X a altura das pessoas em uma populacao e umaamostra,
X1, · · · ,Xn ∼ N(θ, σ2), σ2 = 25, n = 9
Deseja-se testar,
H0 : θ = 170
H1 : θ 6= 170
Considere a regra de decisao: rejeitar H0 se,
X < c1 ou X > c2
20
Fixando α = 0.05, obtenha c1 e c2 tais que,
P(X < c1 ou X > c2 | θ = 170) =
P(X < c1 | θ = 170) + P(X > c2 | θ = 170) = 0.05
• Este e um exemplo de teste bilateral.
• Existe uma infinidade de valores que satisfazem esta condicao.
• Na maioria dos experimentos envolvendo o modelo normalsera conveniente tomar c1 e c2 simetricos em relacao a E (X ).
21
Como X ∼ N(θ, σ2/n),
P
(3(X − 170)
5<
3(c1 − 170)
5
)+
P
(3(X − 170)
5>
3(c2 − 170)
5
)= 0.05
Da tabela normal padrao:
3(c1 − 170)
5= −1.96
3(c2 − 170)
5= 1.96
c1 = 166.73 c1 = 173.27
22
Suponha que uma amostra foi observada e a media amostral xcalculada.
Se x < 166.73 ou x > 173.27 rejeita-se H0 ao nivel de significanciaα = 0.05.
23
Exemplo. De experiencias anteriores sabe-se que a resistenciamedia ao desmoronamento de um tipo de tijolo e 200Kg comdesvio padrao 10Kg. Um comprador suspeita que essa resistenciamedia diminuiu (sem alterar o desvio padrao). Uma amostraaleatoria de 100 tijolos foi selecionada e as resistencias forammedidas para testar esta afirmacao.
Seja X uma variavel aleatoria representando a resistencia aodesmoronamento e uma amostra aleatoria X1, . . . ,Xn tal que,
E (Xi ) = µ Var(Xi ) = 100 n = 100.
Deseja-se testar,
H0 : µ = 200
H1 : µ < 200
24
Como n e grande podemos usar o teorema central do limite. Adistribuicao amostral aproximada de X e,
X ∼ N(µ, σ2/n)
e sob H0 temos entao que,
X ∼ N(200, 1).
A regra de decisao consiste em rejeitar H0 se X for pequena emrelacao a 200Kg. Fixando α = 0.05 temos que,
P(X < c|µ = 200) = P(X − 200 < c − 200) = 0.05
Da tabela da normal padrao obtemos que c − 200 = −1.64 eportanto c = 198.36.
25
Exemplo. No exemplo anterior suponha que obteve-se umaamostra tal que x = 197.5.
Entao de acordo com os dados coletados deve-se concluir que aresistencia media diminuiu (ao nivel de 0.05).
Alem disso, o p-valor pode ser calculado como,
P(X < 197.5|µ = 200) = P(X−200 < 197.5−200) = P(Z < −2.5).
Da tabela da normal padrao obtem-se que p-valor= 0.0062.
26
Suponha agora que temos uma amostra X1, . . . ,Xn ∼ N(µ, σ2)sendo µ e σ2 ambos desconhecidos.
Utilizando a variancia amostral,
S2 =1
n − 1
n∑i=1
(Xi − X )2
como estimador de σ2 entao a variavel aleatoria,
T =X − µS/√
n
tem distribuicao t-Student com n − 1 graus de liberdade.
Esta e a estatıstica utilizada para testar as hipoteses sobre µ.
27
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
x
f(x)
N(0,1)
t−Student
28
• As probabilidades relativas a distribuicao t sao calculadas deforma aproximada e estao tabeladas (ver Apendice B do livrotexto).
• A distribuicao t se aproxima da normal conforme aumentamos graus de liberdade.
• A tabela vai ate 120 graus de liberdade e para valores maioresdeve-se usar a tabela da normal.
29
Exemplo. Sejam X1, . . . ,Xn ∼ N(µ, σ2) com n = 12 e µ e σ2
desconhecidos. Deseja-se testar,
H0 : µ = 200
H1 : µ 6= 200
ao nivel de significancia 0.05.
Na tabela t, para n− 1 = 11 e p = 5% obtemos o valor tc = 2.201.
Regra de decisao: rejeitar H0 ao nivel α = 0.05 se,
X − 200
S/√
n> 2.201, ou
X − 200
S/√
n< −2.201
30
Exemplo. No exemplo anterior suponha que deseja-se testar agora,
H0 : µ = 200
H1 : µ < 200
ao nivel de significancia 0.01.
Na tabela t, para n− 1 = 11 e p = 2% obtemos o valor tc = 2.718.
Regra de decisao: rejeitar H0 ao nivel α = 0.01 se,
X − 200
S/√
n< −2.718
31
Testes Qui-Quadrado
Ao ajustar modelos teoricos a um conjunto de dados, a qualidadedo ajuste pode ser verificada comparando-se as frequencias teoricas(ou esperadas) com as frequencias observadas.
Mais formalmente, a aderencia dos dados a um certo modeloteorico pode ser testada atraves da seguinte estatıstica,
Q2 =k∑
i=1
(oi − ei )2
ei,
sendo,
oi : as frequencias observadas
ei : as frequencias esperadas
k o numero de classes ou valores considerados.
32
As hipoteses a serem testadas sao,
H0 : Os dados se ajustam bem ao modelo
H1 : O ajuste nao e bom.
• Note que se o ajuste nao for bom as frequencias observadas eesperadas tenderao a ser muito diferentes e portanto valoresgrandes da estatıstica T indicam evidencia contra H0.
• Ou seja, este teste e do tipo unilateral.
• Pode-se mostrar que, se n for grande, T tem distribuicaoaproximada qui-quadrado (χ2) com k − 1−m graus deliberdade sendo m o numero de parametros estimados nomodelo teorico.
• Uma condicao de validade desta distribuicao e que ei ≥ 5,i = 1, . . . , k.
33
Exemplo. Em um determinada secao de um rio foram efetuadas1000 medicoes de sua vazao (em m3/s), e obteve-se a distribuicaoapresentada na tabela abaixo.
classes de vazao frequencia observada
10-14 5514-18 12618-22 32522-26 31526-30 13030-34 49
Podemos ajustar uma distribuicao normal com parametrosestimados pela media amostral e variancia amostralrespectivamente.
Suponha que x = 21.9 e s = 4.71 e portanto se X representa asmedicoes de vazao entao X ∼ N(21.9, 4.712) (esta e a distribuicaoajustada).
34
Calculado as probabilidades de obter uma medicao em cada umadas classes podemos construir a tabela com as frequenciasajustadas.
frequenciasclasses de vazao Probabilidades das classes ajustada observada
10-14 0.041 41 5514-18 0.157 157 12618-22 0.305 305 32522-26 0.300 300 31526-30 0.150 150 13030-34 0.038 38 49
35
Neste caso o valor da estatıstica de teste e dado por,
T =(41− 55)2
41+
(157− 126)2
157+
(305− 325)2
305+
(300− 315)2
300+
(150− 130)2
150+
(38− 49)2
38= 18, 81386.
O numero de classes e k = 6 e o numero de parametros estimadose m = 2 (a media e a variancia da distribuicao normal) e portantoT tem distribuicao qui-quadrado com k − 1−m = 3 graus deliberdade.
36
• Nenhuma das classes apresenta frequencia esperada menor doque 5 portanto esta distribuicao e valida.
• Fixando o nıvel de significancia α = 0, 05 obtemos na tabelada distribuicao χ2 com 3 graus de liberdade queP(T > 7, 815) = 0, 05.
• Como 18, 81386 > 7, 815 ha evidencias para rejeitar H0 aonıvel de 5%.
• Da mesma tabela obtemos que P(T > 16.266) = 0.001 eportanto o p-valor e menor do que 0.001. Ou seja, haevidencia extremamente forte contra H0.
37
Teste de Independencia
O teste χ2 tambem pode ser aplicado no estudo da relacao entreduas variaveis categoricas com p e k possıveis categorias.
Neste caso queremos testar se as variaveis sao independentes(hipotese nula).
A estatıstica de teste e a mesma porem com numero de graus deliberdade igual a (p − 1)(k − 1)
38
Exemplo. Considere por exemplo a tabela a seguir na qual estaoapresentados os numero de alunos matriculados nos colegios A e B,em relacao a sua classe social.
Classe socialColegio Alta Media Baixa Total
A 20 40 40 100B 50 40 30 120
Total 70 80 70 220
Se as variaveis Colegio e Classe social forem independentesespera-se que as frequencias de alunos das 3 classes sejam asmesmas nos 2 colegios, i.e. 70/220, 80/220 e 70/220.
39
As frequencias esperadas sob a hipotese de independencia saoentao dadas por,
Colegio A: 10070
220= 31, 82 100
80
220= 36, 36 100
70
220= 31, 82
Colegio B: 12070
220= 38, 18 120
80
220= 43, 64 120
70
220= 38, 18
e podemos construir a tabela abaixo.
Classe socialColegio Alta Media Baixa
A 31,82 36,36 31,82B 38,18 43,64 38,18
40
Podemos agora avaliar a estatıstica de teste
T =(20− 31, 82)2
31, 82+
(40− 36, 36)2
36, 36+
(40− 31, 82)2
31, 82+
(50− 38, 18)2
38, 18+
(40− 43, 64)2
43, 64+
(30− 38, 18)2
38, 18= 12, 57.
Ao nıvel de significancia 0,05 obtemos da tabela χ2 com(p − 1)(k − 1) = 2 graus de liberdade que P(T > 5, 99) = 0, 05 ecomo 12, 57 > 5, 99 a hipotese de independencia e rejeitada. Paracalcular o P-valor, note que a tabela qui-quadrado com 2 graus deliberdade nos fornece,
P(T > 12, 429) = 0, 002
e portanto podemos concluir que P-valor < 0,002. Ou seja, existeforte evidencia contra a hipotese de independencia entre asvariaveis Colegio e Classe social.
41