testes de hipóteses paulo j azevedo di - universidade do minho 2009

Testes de Hipóteses

1


Paulo J Azevedo

DI - Universidade do Minho2009

Revisão à análise de significância estatística


2

Testes de Significância

• Determinar o grau de confiança com que se pode concluir que os factos observados reflectem mais do que simples coincidência do acaso.

• Em Data Mining/Machine Learning são tipicamente usados para avaliar se a amostra que estamos a estudar (factos observados) é fruto do acaso (se é ou não significativa).

• Neste contexto são muitas vezes usados para detectar falsas descobertas.• Permitem também avaliar se tem cabimento esperar que os padrões

extraídos dos dados de treino (amostra) ocorram em dados futuros.

• Todos os testes envolvem duas componentes:– Um valor observado (obtido da amostra),– O valor esperado se nada mais do que variabilidade aleatória (acaso) operar

nesta situação.

• Vários testes disponíveis dependendo do tipo de situação:.


3

Testes de Significância (2)

• Quando executamos um teste de significância estatística assumimos duas teses:– A hipótese especifica que a nossa investigação pretende averiguar (Hipótese

alternativa H1),– A antítese da hipótese a investigar (Hipótese nula H0)

• Exemplo com um ensaio médico: Avaliar se os resultados de um ensaio com um novo medicamente para prevenir AVCs aplicado a 1000 pacientes com 400 resultados positivos é significativo:– H0 - o novo medicamento não tem efeito significativo– H1 – o medicamento tem algum grau de eficácia na prevenção de AVCs

• Em termos estatísticos:– H0 – o número de resultados positivos não é significativamente diferente do

valor esperado por variabilidade aleatória MCE (mean chance expectation)– H1 – o valor observado é significativamente diferente do valor esperado.


4

Direccionalidade da Hipótese Alternativa

• Dependendo do tipo de questão que queremos endereçar com a nossa hipótese alternativa, esta pode ser direccional ou não-direccional.– Não direccional, se não considerar em que sentido os

valores observados se afastam do valor esperado (MCE). Assim temos:

• H0: valor observado = MCE• H1: valor observado ≠ MCE

– Direccional, se considera em que sentido os valores observados se afastam do valor esperado (MCE).

• Ho: valor observado = MCE• H1: valor observado > MCE, ou em alternativa• H1: valor observado < MCE.


5

Exemplo • Lançar 100 vezes uma moeda ao ar. Verificar se o número de caras

obtido (59) é significativo (se a moeda é equilibrada o valor esperado é 50% do número de testes).

• Usando a Binomial, com N=100,k=59,p=0.5,q=0.5.

• Notar que há mais 9 caras do que o esperado!• De todos os possíveis cenários com 100 lançamentos, apenas

4.46% têm no mínimo 59 caras. O resultado dos nossos lançamentos é significativo (probabilidade ≤ 0.05)

H1: nº caras > MCE.(Hipótese direccional)

One-sided ou One-tailed test

Este valor é denominado por p-value.


6

Exemplo • Agora para uma hipótese alternativa não direccional.• No nosso caso, H1: nº de caras ≠ MCE.• Ou seja, responder à pergunta: “Em 100 lançamentos, qual é a

probabilidade de obter um excesso de caras ou coroas (>50) tão grande ou igual ao valor obtido (59)”.

• Neste teste, o valor observado não é significativo (0.0892 > 0.05)

• A pergunta do teste anterior era: “Em 100 lançamentos, qual é a probabilidade de obter um excesso de caras (>50) tão grande ou igual ao valor obtido (59)”

H1: nº caras ≠ MCE.(Hipótese direccional)

Two-sided ou Two-tailed test

Valor da estatística das observações.z = ((k - μ ) ± 0.5) / σ


7

Algumas Definições• p-value: é a probabilidade de obter (de forma aleatória) um

resultado tão ou mais extremo do que o que foi observado, assumindo que a hipótese nula é verdadeira. Isto é P(Obs ≥ MCE | H0)

• Interpretação alternativa, p-value é o grau de contradição da hipótese nula pelas observações na amostra estudada. Quanto menor, maior o grau de contradição.

• α é o grau de significância. O valor tradicional é 5%, mas pode também ser de 1% ou outros valores entre [0,1].

• grau de confiança (1 - α).

• α também define a região critica i.e. região onde a hipótese nula é rejeitada. α está relacionado com o erro Tipo I.

• Erro tipo I, rejeitar H0 quando ela é verdadeira (α).• Erro tipo II, não rejeitar H0 quando ela é falsa (β).

• Força do teste (power of the test): probabilidade de correctamente rejeitar H0. quando esta é falsa e não rejeitá-la quando ela é verdadeira. É, respectivamente, (1 - α) e (1 – β).


8

Intervalos de Confiança• Em alternativa aos p-values, podemos usar intervalos de confiança.

Usa-se para estimar parâmetros da população usando a amostra e.g. estimar média (μ) de uma população usando média da amostra (x).

• O grau de confiança C = 1- α determina a probabilidade de o intervalo produzido pelo método usado incluir o verdadeiro valor do parâmetro a estimar. Trabalha sempre com a estatística do teste.

• Para C =0.95, z*=1.96, então IC = [x-1.96+σ/√n , x+1.96+ σ/√n]


9

Teste Binomial• Testa a significância do desvio de uma amostra

representando um conjunto de experiências de Bernoulli em relação à distribuição teórica esperada dessas observações i.e as variáveis são dicotómicas – sucesso/insucesso.

• É um teste exacto !– Um teste de significância exacto é um teste onde todas as

condições assumidas para a derivação da distribuição onde o teste estatístico é baseado são satisfeitas. Consequentemente, leva também à obtenção de um p-value exacto (e não aproximado).

– Um teste aproximado é um teste onde a aproximação pode ser feita o mais precisa possível à custa da obtenção de uma amostra suficientemente grande.


10

Teste Binomial (2)

• Parâmetros:– n, tamanho da amostra.– k, número de observações com sucessos em n.– p, probabilidade esperada para sucesso– q, probabilidade esperado para insucesso.– p = 1 – q (categorias dicotómicas!)

– Para one-sided test (H1: observações > MCE): • p-value = prob(k,n,p,q) + prob(k+1,n,p,q)+ prob(k+2,p,q) + … +

prob(n,n,p,q).

knk qpknk

nqpknprob

)!(!

!),,,(

Cálculo computacionalmente pesado! Por vezes faz-se uma

aproximação à Gaussiana (Normal)


11

Testes Paramétricos• Estão relacionados com um ou mais parâmetros da

população (distribuição assumida) e.g. média, desvio padrão.

• Tipicamente é assumida a Gaussiana.• Testes de localização: relacionados com o valor

esperado da população (média), onde o centro da população está localizado.

• Vários tipos:– Uma amostra: dada uma amostra e um valor esperado de uma população,

testar se a amostra foi tirada da população com o valor esperado dado.

– Duas amostras independentes: dadas duas amostras independentes, testar se as amostra são originadas de populações com o mesmo valor esperado.

– Duas amostras dependentes: dadas duas amostras dependentes (paired), testar se as amostra são tiradas de uma população com o mesmo valor esperado (tipicamente 0 para verificar significância da diferença).


12

Student t-test

• Assume uma distribuição Gaussiana (Normal)• Ideal para aplicar a amostra com N<30, para N≥30 devemos usar o

z-teste.• É um teste de médias.

• H0: μ = μ0 (μ0 é o valor esperado da população)

• H1: μ ≠ μ0, μ < μ0, μ > μ0 (dependendo de ser two-sided ou one-sided)

• Estatística do teste:

– onde N é o tamanho da amostra, X média na amostra, S desvio padrão na amostra.

• Quando H0 é verdadeira a TS segue uma distribuição tN-1 (N - 1 graus de liberdade i.e. nº de parâmetros que podem ser variados independentemente).

NS

XTS

/0


13

Student t-test (one sample)

• Para um dado α fazemos o seguinte teste (sendo TS definida como):

• Para

– H1: μ ≠ μ0, TS ≤ -tN-1(α/2) ou TS ≥ tN-1(α/2)

– H1: μ < μ0, TS < tN-1(α)

– H1: μ > μ0, TS > tN-1(α)

• Rejeitar H0 se o teste for positivo.

• Os valores críticos de tN-1 podem ser obtidos de uma tabela…

NS

XTS

/0


14

Distribuição t-student

• Upper critical values of Student's t distribution with degrees of freedom

• Probability of exceeding the critical value

Graus de liberdade

Valor crítico α

Valor da t-estatística


15

Student t-test (amostras independentes)

• Usado para verificar se as amostras provêm de populações com diferentes médias.

• Três situações possíveis (e respectivas def. de TS):1. Amostras de tamanhos e variância diferente,

2. Amostras de tamanhos diferentes mas variância igual,

3. Amostras de tamanhos e variância igual.

• Se H0 for verdadeira TS segue uma distribuição tDF:

δ0 é a diferença entre valores

esperados das populações


16

Student t-test (2) (amostras independentes)

• Três situações possíveis para testar H0

– H0: μA - μB = δ0

• Para um dado valor de α, rejeitar H0 se as condições forem satisfeitas:– H1: μA - μB ≠ δ0 , se TS ≤ -tGL(α/2) ou TS ≥ tGL(α/2)

– H1: μA - μB < δ0 , se TS < tGL(α)

– H1: μA - μB > δ0 , se TS > tGL(α)

• Os valores críticos de tGL são os mesmo da tabela apresentada anteriormente.


17

Student t-test (paired test)

• É o t-test que nos vais ser mais útil.

• Assume amostra emparelhadas (por exemplo referente a observações no mesmo local ou tempo, etc).

• Determina se as amostras diferem de uma forma significativa, considerando as condições de que as diferenças entre pares são independentes e que seguem uma distribuição Normal.

• Hipóteses:

– H0: μΔ = 0

– H1: μΔ ≠ 0 , μΔ < 0 ou μΔ > 0

• Onde

– Δ = XA – XB é a diferença emparelhada entre as duas amostras,

– μΔ o valor esperado da diferença das populações.

– Onde Δ é a média das diferenças nas amostras, N o tamanho das amostras e SΔ o desvio padrão das diferenças nas amostras.

NSTS

/


18

• Quando H0 é verdadeira TS segue uma distribuição tN - 1

• Para um dado α fazemos os seguintes testes:– H1: μΔ ≠ 0 , se TS ≤ -tN - 1(α/2) ou TS ≥ tN - 1(α/2)– H1: μΔ < 0 , se TS < tN - 1(α) – H1: μΔ > 0 , se TS > tN - 1(α)

• rejeitando H0 quando eles são verdadeiros. Os valores críticos de tN – 1 são os mesmo da tabela anterior.

• Notar que este teste acaba por ser one-sample (as diferenças entre pares formam uma só amostra)!

• Testes alternativos– Z-test quando N>30,– Mann-Whitney para amostras independentes de populações não

Normais.– Binomial, Wilcoxon para amostras emparelhadas de populações não

Normais.

Student t-test (2) (paired test)


19

Teste de Mann-Whitney-Wilcoxon • Teste não paramétrico de localização. Avalia se duas amostras tem

origem na mesma população. Uma alternativa ao paired t-test.

• Assume que as observações são independentes e contínuas ou ordinais i.e. é possível estabelecer uma ordem sobre as observações.

• Testa (em vez de comparar médias) se as populações são idênticas. É um teste de ranks sinalizados (signed rank).

• Determina se há uma tendência em seriar mais alto uma amostra (observação) em relação à outra e.g. valores médicos antes e depois de tratamento. Hipótese nula assume que não há tendência.

• Hipóteses:– H0:ηA = ηB (nº de valores positivos ≈ nº de negativos i.e. não há tendência)

– H1:ηA ≠ ηB , ηA > ηB ou ηA < ηB


20

Geração de ranks (com ties)

Amostra A

Amostra B Diferença entre amostras

rank das diferenças em valor absoluto

Valor absoluto da diferença

W é a soma dos ranks (sem valores nulos)

Diferenças nulas são ignoradas

Rank das diferenças com sinal

Tratamento de empates (ties): se duas ou mais diferenças têm o mesmo valor então todos passam a ter o valor médio desses

ranks. e.g. 3º,4º e 5ª dá rank 4 para todos.


21

Teste de Mann-Whitney-Wilcoxon

• Procedimento:– Calcular XA – XB, ignorar casos com valor zero,

– Calcular |XA – XB|, rank deste valor e o rank sinalizado:

• + se XA – XB > 0

• - se XA – XB < 0

– (soma de um rank = N(N-1)/2, sendo N o nº de observações)– Calcular W = soma dos signed ranks

– Calcular δW

onde N é o nº de signed ranks considerados (sem os nulos).– Estatística do teste é:

6

)12)(1(

NNNW

W

Wz

5.0

Consultar valores críticos de z numa tabela própria. Com N > 20 aproxima à Normal.


22

Teste de Associação• Testes não paramétricos que medem o grau de

dependência entre duas variáveis aleatórias. • Não assumem nenhum tipo de distribuição.• Assume observações de frequência de variáveis

categóricas. As variáveis da amostra estão “divididas” em categorias.

• As observações das duas variáveis são agrupadas em classes independentes (disjuntas).

• Tipicamente, os dados do teste estão representados em tabelas de contingência 2 x 2. No entanto podemos ter mais do que 2 dimensões.

• Testes a estudar– Teste do Χ2 (chi quadrado)– Teste exacto de Fisher,


23

Teste do Χ2 • Hipóteses:

– H0 : as variáveis são independentes

– H1 : as variáveis não são independentes

• Sendo X e Y as nossas variáveis estas podem ser agrupadas em I (i=1,..I) e J (j=1,..,J) categorias numa tabela de contingência:

• Onde Nij é a frequência observada da var X com a categoria i conjuntamente com a var Y com a categoria j.

J

jiji NN

1


24

Teste do Χ2 (2) • Estatística do teste:

• eij é a frequência esperada para a célula (i,j):

• Se H0 for verdadeira, a TS segue a distribuição Χ2(I-1)(J-1).

• Nº de graus de liberdade = (I-1) x (J-1)• Para um dado α, rejeitamos a hipótese nula se:

– TS > Χ2(I-1)(J-1)(α)

J

j ij

ijijI

i e

eNTS

1

2

1

)(

N

NNe ji

ij


25

H0 : tipo de tuberculose que causa a morte a estes indivíduos é independente do seu sexo.e11 = (4853 x 3804) / 5375 = 3434.6

Χ2 = (3534 – 3434.6)2 / 3434.6 + (1319 – 1418.4)2 / 1418.4 + …..

+ (252 – 152.6)2 / 152.6 = 101.35

Para α=0.05 temos Χ2(1)(1)(0.05) =3.84. Rejeitamos H0 se Χ2 > 3.84 o que é o caso.

Conclusão: a proporção de homens que morre de tuberculose tipo SR é diferenteda proporção de mulheres. Isto é, há evidências de uma associação entre tipo deTB e sexo.

Exemplo com tabela 2 x 2

Homens Mulheres Total

TB no SR 3534 1319 4853

Outras TB 270 252 522

Total 3804 1571 5375

Valor obtido da tabela de

distribuição do Χ2.

TB

SEXO


26

Características do teste do Χ2 • É um teste não direccional. É sempre two-sided.• É um teste aproximado. O p-value é obtido por

aproximação. No problema anterior p-value < 0.00001.• Para observações pequenas é um teste pouco fiável.

Para valores esperado pequenos (eij < 5) não deve ser usado.

• No caso específico de tabelas 2 x 2 devemos usar a Correcção de Yates para continuidade.

• Para o problema anterior, Yates Χ2 = 100.39.

2

1

22

1

'5.0)(

j ij

ijij

i e

eNTS


27

Teste Exacto de Fisher• O teste ideal para aplicar com tabelas de contingência

de dados pequenos esparsos e não balanceados.• Não sofre dos mesmos problemas do teste Χ2 • Embora seja aplicável noutras situações, vamos sempre

usar em tabelas 2 x 2 e com hipóteses alternativas direccionais (one-sided) i.e. afasta-se de H0 numa direcção específica!

• É um teste exacto, portanto um p-value exacto.• A ideia geral é considerando a tabela de observações,

“gerar” as tabelas com as mesmas margens, que são mais extremas que a observada, na mesma direcção da nossa observação e.g. que a proporção TB do tipo SR nas mulheres é menor que proporção TB tipo SR nos homens.


28

Teste Exacto de Fisher (2)• Considerando a tabela de contingência 2 x 2 geral, temos:

• A probabilidade de obter (de forma aleatória) as observações desta tabela é:

• O p-value = ∑ p das tabelas tão ou mais extremas do que a observada. (tipicamente ∑ p: p < pobservada)

• Para o exemplo anterior p-value = 2.959442371307591e-22

Y1 Y2 Total

X1 a b a + b

X2 c d c + d

Total a + c b + d n

!!!!!

)!()!()!()!(

dcban

dbcadcbap

n = a+b+c+d

As margens estão a azul


29

Goodness-of-fit(testes para a qualidade do ajuste)

• No nosso caso, vai servir para verificar se duas amostras foram retiradas de uma mesma população. Tradicionalmente são utilizados para verificar a qualidade da adequação (fit) de uma distribuição teórica em relação a um conjunto de observações (amostra) e.g. testar a Normalidade de uma amostra.

• Testes não paramétricos:– Para amostras de valores contínuos

• Kolgomorov-Smirnov

– Para amostras de valores categóricos• Pearson’s goodness-of-fit (Χ2)


30

Χ2 Goodness-of-fit

• Verifica se duas amostras têm origem em populações idênticas.

• H0 : populações A e B são idênticas

• H1: populações A e B são diferentes

• As observações NA e NB são agrupadas em K (K > 2) categorias (disjuntas).

• Em cada amostra é contada a frequência absoluta de cada diferente ki categoria, com ki∈K.

• As frequências esperadas são calculadas da seguinte forma:

• com Nk = NkA + NkB , N = NA + NB sendo ∑ekA= NA e ∑ekB= NB

N

NNe k

AkA kAkkB eNe


31

Χ2 Goodness-of-fit (2)

• A estatística do teste é:

• H0 é verdadeira se TS segue uma distribuição Χ2K-1

• Para um dado α, rejeitamos H0 se:

– TS > Χ2K-1(α)

K

k kB

kBkBK

k kA

kAkA

e

eN

e

eNTS

1

2

1

2 )()(


32

Teste de Kolgomorov-Smirnov(duas amostras)

• É um teste exacto (Χ2 é aproximado) para amostras de valores

contínuos.• Assume distribuições contínuas onde a forma e os parâmetros da

função densidade de probabilidade são conhecidos• O teste compara a proximidade entre as funções de densidade

acumulada (CDF) de cada amostra (também conhecidas por funções de distribuição empirica).

• Encontra a máxima discrepância entre as duas CDFs e verifica se esta é estatisticamente significativa.

• CDF das amostras são definidas como (N = ∑xi):

ijj

iiA xxN

xxSxxF :)(:)(


33

Teste de Kolgomorov-Smirnov (2)(duas amostras)

• H0 : FA(x) = FB(x)

• H1 : FA(x) ≠ FB(x)

• A estatística do teste é:

• Para um dado α, rejeitamos H0 se o seguinte teste for verdadeiro:

• Os valores críticos de √[(NANB )/(NA + NB )]D’(α) podem ser consultados na tabela da distribuição de Kolgomorov.

)()(max' xSxSDTS BAx

)(' ' DDNN

NN

BA

BA


34

Teste de Kolgomorov-Smirnov (3)(execução)

)()(max' xSxSDTS BAx


35

Múltiplas Hipóteses• Controle da capitalização do acaso.

• Exemplo de situação típica:– Queremos contratar um corrector para investir na bolsa. A

função deste corrector é emitir previsões sobre a subida/descida do indicador PSI20 ao fim de cada dia. Queremos ter a garantia que não contratamos um charlatão (alguém cujas previsões não são melhores do que o acaso). Para avaliar esta possibilidade usamos um teste de 14 dias de bolsa. Se o consultar acertar em 11 ou mais dias então aceitamo-lo como fiável.

– São 11 em 14 dias porque há 50% de hipóteses de acertar em cada dia, logo há só 2.87% de acertar ao acaso em 11 ou mais dias.

– Assim, se um corrector for contratado porque passou o teste dos 11 dias, temos uma probabilidade ≤ 0.0287 de contratar um charlatão.

Teste Binomial com: n=14, k=11, p=0.5, q=0.5,

e H1: obs > MCE


36

Múltiplas Hipóteses• Nova situação:

– Vamos imaginar agora que aceitamos 10 candidatos para esta função, onde vamos seleccionar o corrector com maior precisão.

– Para n candidatos, n > 1, cada charlatão tem 2.87% de passar o teste.

– Em geral, a probabilidade de seleccionar um charlatão

é ≤ 1 - (1 – 0.0287)n.

No caso de n=10, esta probabilidade é ≤ 25.3%

– Conclusão: Se não ajustarmos o nosso limite α, que define quando um corrector passa a ser considerado um charlatão, aumentamos a probabilidade de ocorrer um erro do tipo I.

– Com um nº suficientemente grande de charlatães entre os candidatos, iremos quase de certeza ter pelo menos um deles com um desempenho que passa qualquer limite α (sem a garantia de ele não ser um charlatão).


37

Múltiplas Hipóteses (2)• Problema das Multiplas Comparações. Risco de erro tipo I

é não mais do que α.• Probabilidade de ocorrer um erro de tipo I aumenta com o

número de testes. • Para n testes αreal = 1 - (1 - α)n

• Usar Ajustamento de Bonferroni:– (corrigir α para n testes como sendo κ= α/n)– tendência a ser um crivo demasiado fino!

• Usar Ajustamento de Holm (k em vez de α).– Requer ordenação crescente dos p-values e ter disponíveis todos

estes valores antes de determinar valor de ajustamento (k). – Para n testes, )

1:max( 1

jnppk jiji


38

Ajustamento de Bonferroni(utilização típica em Data Mining)

• Usar Ajustamento de Bonferroni (corrigir α para n testes como sendo κ= α/n).

• Usar layered critical values,• Em vezes de um cutoff global que corrige o α

inicial, obter vários α’L para cada nível L.

)('

max LL SL

Onde SL é o nº de padrões possíveis de gerar com tamanho L. Lmax é o tamanho máximo de um padrão. Temos a garantia que:

max

1

'L

L LL S


39

Resumo

• Testes de significância,• Inferência estatística e controle de fenómenos

fruto do acaso,• Tipos de erro,• Testes paramétricos e não paramétricos,• Direccionalidade, poder do teste, região crítica,

p-value e intervalos de confiança,• Testes de localização, associação e goodness-

of-fit,• Múltiplas hipóteses e controle de erro,• Ajustamento do valor de significância (α).

testes de hipóteses paulo j azevedo di - universidade do minho 2009

Documents