0.1. Test di normalità. Tra i test di ipotesi non parametrici c’è un interessante e pratico test che per-mette di decidere ragionevolmente se una popolazione è distribuita normalmente. Per illustrare il test occorrepremettere due semplici definizioni del momento terzo e quarto standardizzati relativi alla distribuzione di unava X:
β1 =µ3σ3=
E[(X − µ)3]
[E[(X − µ)2]]3/2
β2 =µ4σ4=
E[(X − µ)4]
[E[(X − µ)2]]2
β1 caratterizza la skewness (asimmetria) della distribuzione nel senso che, se una distribuzione è simmetricaintorno alla sua media µ allora β1 = 0. Valori β1 6= 0 indicano presenza di skewness e quindi assenza dinormalità.Inoltre per la distribuzione normale β2 = 3 e quindi β2 6= 3 indica assenza di normalità.Per la stima di questi due momenti Pearson suggerisce le seguenti espressioni
M 03
S∗3nper β1
M 04
S∗4nper β2
dove M 0k =
P(Xi − X̄n)
k
n; k > 1 è il momento campionario centrale di ordine k, X̄n è la media campionaria e
S∗n è lo scarto campionario non corretto.
Proposition 1. Se X è una popolazione normale allora:
B1 =M 03
S∗3n≈ N(0;
6
n) B2 =
M 04
S∗4n≈ N(3;
24
n)
o, equivalentemente:
B1r6
n
=
M 03
S∗3ns6
n
≈ N(0; 1)B2r24
n
=
M 04
S∗4n−3s24
n
≈ N(0; 1)
L’ipotesi nulla del test di normalità è oraH0 :©X ha una distribuzione N(µ, σ2)
ªImmaginiamo un test di livello
1− γ. Se l’ipotesi nulla è vera per n grande vale P
¯̄̄̄¯̄̄̄ B1r
6
n
¯̄̄̄¯̄̄̄ ≤ φ−1( 1+γ2 )
= γ e P
¯̄̄̄¯̄̄̄ B2r
24
n
¯̄̄̄¯̄̄̄ ≤ φ−1( 1+γ2 )
= γ.
Siano ora m03,m
04 e s
∗n i valori osservati di M
03,M
04 e S
∗n. Se
m03
s∗3ns6
n
e
m04
s∗4n−3s24
n
cadono entrambi fuori dell’intervallo
£−φ−1( 1+γ2 ), φ−1( 1+γ2 )¤ si rifiuta l’ipotesi H0 altrimenti si accetta.Per esempio sia dato un campione di dimensione 1000 da una popolazione ignota. Ecco i dati riassuntivi del
campione: X̄n = 2.075, S∗n = 3.9418, M
03 = 6.2014, M
04 = 710.6019,
¯̄̄b1/p6/n
¯̄̄= 1.3072,
¯̄̄b2/p24/n
¯̄̄= 0.3650,
γ = 0.9, φ−1(1+γ2 ) = 1.6449. Allora | b |= 1.3072 ≤ 1.6449 e | g |= 0.3650 ≤ 1.6449. Accetto. Se cerco i p−valueper
¯̄̄B1/
p6/n
¯̄̄e¯̄̄B2/
p24/n
¯̄̄ottengo rispettivamente 0.1912 e 0.7151.
Supponiamo invece di avere un altro campione sempre di dimensione 1000 con i seguenti dati riassuntivi:
X̄n = 0.168, S∗n = 2.9535, M
03 = −0.3229, M 0
4 = 204.9518,¯̄̄b1/p6/n
¯̄̄= 0.1618,
¯̄̄b2/p24/n
¯̄̄= 1.9796, γ = 0.9,
φ−1(1+γ2 ) = 1.6449. Allora¯̄̄b1/p6/n
¯̄̄= 0.1618 ≤ 1.6449 e
¯̄̄b2/p24/n
¯̄̄= 1.9796 > 1.6449. Rifiuto. Se cerco i
p− value per¯̄̄B1/
p6/n
¯̄̄e¯̄̄B2/
p24/n
¯̄̄ottengo rispettivamente 0.8715 e 0.0477.
I due test si usano solitamente insieme. In questo caso il livello di significatività del test congiunto non è più
1 − γ. Infatti consideriamo i due eventi J1 =n¯̄̄B1/
p6/n
¯̄̄≤ φ−1( 1+γ2 )
oe J2 =
n¯̄̄B2/
p24/n
¯̄̄≤ φ−1(1+γ2 )
o.
Per un livello di ciascun test pari a 1 − γ si ha P [J1] = γ e P [J2] = γ. Usando i due test congiuntamente pernote disuguaglianze si ha:
pP [J1J2] ≥ P [J1J2] ≥ 1−P [JC1 ]−P [JC2 ] (vedi iv. al paragrafo 2.4) e in conclusione