0.1. test di normalità. tra i test di ipotesi non...

2
0.1. Test di normalità. Tra i test di ipotesi non parametrici c’è un interessante e pratico test che per- mette di decidere ragionevolmente se una popolazione è distribuita normalmente. Per illustrare il test occorre premettere due semplici denizioni del momento terzo e quarto standardizzati relativi alla distribuzione di una va X: β 1 = µ 3 σ 3 = E[(X µ) 3 ] [E[(X µ) 2 ]] 3/2 β 2 = µ 4 σ 4 = E[(X µ) 4 ] [E[(X µ) 2 ]] 2 β 1 caratterizza la skewness (asimmetria) della distribuzione nel senso che, se una distribuzione è simmetrica intorno alla sua media µ allora β 1 =0. Valori β 1 6=0 indicano presenza di skewness e quindi assenza di normalità. Inoltre per la distribuzione normale β 2 =3 e quindi β 2 6=3 indica assenza di normalità. Per la stima di questi due momenti Pearson suggerisce le seguenti espressioni M 0 3 S 3 n per β 1 M 0 4 S 4 n per β 2 dove M 0 k = P (X i ¯ X n ) k n ; k> 1 è il momento campionario centrale di ordine k, ¯ X n è la media campionaria e S n è lo scarto campionario non corretto. Proposition 1. Se X è una popolazione normale allora: B 1 = M 0 3 S 3 n N (0; 6 n ) B 2 = M 0 4 S 4 n N (3; 24 n ) o, equivalentemente: B 1 r 6 n = M 0 3 S 3 n s 6 n N (0; 1) B 2 r 24 n = M 0 4 S 4 n 3 s 24 n N (0; 1) L’ipotesi nulla del test di normalità è ora H 0 : © X ha una distribuzione N (µ, σ 2 ) ª Immaginiamo un test di livello 1 γ. Se l’ipotesi nulla è vera per n grande vale P ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ B 1 r 6 n ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ φ 1 ( 1+γ 2 ) = γ e P ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ B 2 r 24 n ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ φ 1 ( 1+γ 2 ) = γ. Siano ora m 0 3 ,m 0 4 e s n i valori osservati di M 0 3 ,M 0 4 e S n . Se m 0 3 s 3 n s 6 n e m 0 4 s 4 n 3 s 24 n cadono entrambi fuori dell’intervallo £ φ 1 ( 1+γ 2 )1 ( 1+γ 2 ) ¤ si riuta l’ipotesi H 0 altrimenti si accetta. Per esempio sia dato un campione di dimensione 1000 da una popolazione ignota. Ecco i dati riassuntivi del campione: ¯ X n =2.075,S n =3.9418,M 0 3 =6.2014,M 0 4 = 710.6019, ¯ ¯ ¯b 1 / p 6/n ¯ ¯ ¯ =1.3072, ¯ ¯ ¯b 2 / p 24/n ¯ ¯ ¯ =0.3650, γ =0.91 ( 1+γ 2 )=1.6449. Allora | b |=1.3072 1.6449 e | g |=0.3650 1.6449. Accetto. Se cerco i p value per ¯ ¯ ¯B 1 / p 6/n ¯ ¯ ¯ e ¯ ¯ ¯B 2 / p 24/n ¯ ¯ ¯ ottengo rispettivamente 0.1912 e 0.7151. Supponiamo invece di avere un altro campione sempre di dimensione 1000 con i seguenti dati riassuntivi: ¯ X n =0.168,S n =2.9535,M 0 3 = 0.3229,M 0 4 = 204.9518, ¯ ¯ ¯b 1 / p 6/n ¯ ¯ ¯ =0.1618, ¯ ¯ ¯b 2 / p 24/n ¯ ¯ ¯ =1.9796=0.9, φ 1 ( 1+γ 2 )=1.6449. Allora ¯ ¯ ¯b 1 / p 6/n ¯ ¯ ¯ =0.1618 1.6449 e ¯ ¯ ¯b 2 / p 24/n ¯ ¯ ¯ =1.9796 > 1.6449. Riuto. Se cerco i p value per ¯ ¯ ¯B 1 / p 6/n ¯ ¯ ¯ e ¯ ¯ ¯B 2 / p 24/n ¯ ¯ ¯ ottengo rispettivamente 0.8715 e 0.0477. I due test si usano solitamente insieme. In questo caso il livello di signicatività del test congiunto non è più 1 γ. Infatti consideriamo i due eventi J 1 = ¯ ¯B 1 / p 6/n ¯ ¯ ¯ φ 1 ( 1+γ 2 ) o e J 2 = ¯ ¯B 2 / p 24/n ¯ ¯ ¯ φ 1 ( 1+γ 2 ) o . Per un livello di ciascun test pari a 1 γ si ha P [J 1 ]= γ e P [J 2 ]= γ. Usando i due test congiuntamente per note disuguaglianze si ha: p P [J 1 J 2 ] P [J 1 J 2 ] 1 P [J C 1 ] P [J C 2 ] (vedi iv. al paragrafo 2.4) e in conclusione

Upload: phammien

Post on 17-Feb-2019

213 views

Category:

Documents


0 download

TRANSCRIPT

0.1. Test di normalità. Tra i test di ipotesi non parametrici c’è un interessante e pratico test che per-mette di decidere ragionevolmente se una popolazione è distribuita normalmente. Per illustrare il test occorrepremettere due semplici definizioni del momento terzo e quarto standardizzati relativi alla distribuzione di unava X:

β1 =µ3σ3=

E[(X − µ)3]

[E[(X − µ)2]]3/2

β2 =µ4σ4=

E[(X − µ)4]

[E[(X − µ)2]]2

β1 caratterizza la skewness (asimmetria) della distribuzione nel senso che, se una distribuzione è simmetricaintorno alla sua media µ allora β1 = 0. Valori β1 6= 0 indicano presenza di skewness e quindi assenza dinormalità.Inoltre per la distribuzione normale β2 = 3 e quindi β2 6= 3 indica assenza di normalità.Per la stima di questi due momenti Pearson suggerisce le seguenti espressioni

M 03

S∗3nper β1

M 04

S∗4nper β2

dove M 0k =

P(Xi − X̄n)

k

n; k > 1 è il momento campionario centrale di ordine k, X̄n è la media campionaria e

S∗n è lo scarto campionario non corretto.

Proposition 1. Se X è una popolazione normale allora:

B1 =M 03

S∗3n≈ N(0;

6

n) B2 =

M 04

S∗4n≈ N(3;

24

n)

o, equivalentemente:

B1r6

n

=

M 03

S∗3ns6

n

≈ N(0; 1)B2r24

n

=

M 04

S∗4n−3s24

n

≈ N(0; 1)

L’ipotesi nulla del test di normalità è oraH0 :©X ha una distribuzione N(µ, σ2)

ªImmaginiamo un test di livello

1− γ. Se l’ipotesi nulla è vera per n grande vale P

¯̄̄̄¯̄̄̄ B1r

6

n

¯̄̄̄¯̄̄̄ ≤ φ−1( 1+γ2 )

= γ e P

¯̄̄̄¯̄̄̄ B2r

24

n

¯̄̄̄¯̄̄̄ ≤ φ−1( 1+γ2 )

= γ.

Siano ora m03,m

04 e s

∗n i valori osservati di M

03,M

04 e S

∗n. Se

m03

s∗3ns6

n

e

m04

s∗4n−3s24

n

cadono entrambi fuori dell’intervallo

£−φ−1( 1+γ2 ), φ−1( 1+γ2 )¤ si rifiuta l’ipotesi H0 altrimenti si accetta.Per esempio sia dato un campione di dimensione 1000 da una popolazione ignota. Ecco i dati riassuntivi del

campione: X̄n = 2.075, S∗n = 3.9418, M

03 = 6.2014, M

04 = 710.6019,

¯̄̄b1/p6/n

¯̄̄= 1.3072,

¯̄̄b2/p24/n

¯̄̄= 0.3650,

γ = 0.9, φ−1(1+γ2 ) = 1.6449. Allora | b |= 1.3072 ≤ 1.6449 e | g |= 0.3650 ≤ 1.6449. Accetto. Se cerco i p−valueper

¯̄̄B1/

p6/n

¯̄̄e¯̄̄B2/

p24/n

¯̄̄ottengo rispettivamente 0.1912 e 0.7151.

Supponiamo invece di avere un altro campione sempre di dimensione 1000 con i seguenti dati riassuntivi:

X̄n = 0.168, S∗n = 2.9535, M

03 = −0.3229, M 0

4 = 204.9518,¯̄̄b1/p6/n

¯̄̄= 0.1618,

¯̄̄b2/p24/n

¯̄̄= 1.9796, γ = 0.9,

φ−1(1+γ2 ) = 1.6449. Allora¯̄̄b1/p6/n

¯̄̄= 0.1618 ≤ 1.6449 e

¯̄̄b2/p24/n

¯̄̄= 1.9796 > 1.6449. Rifiuto. Se cerco i

p− value per¯̄̄B1/

p6/n

¯̄̄e¯̄̄B2/

p24/n

¯̄̄ottengo rispettivamente 0.8715 e 0.0477.

I due test si usano solitamente insieme. In questo caso il livello di significatività del test congiunto non è più

1 − γ. Infatti consideriamo i due eventi J1 =n¯̄̄B1/

p6/n

¯̄̄≤ φ−1( 1+γ2 )

oe J2 =

n¯̄̄B2/

p24/n

¯̄̄≤ φ−1(1+γ2 )

o.

Per un livello di ciascun test pari a 1 − γ si ha P [J1] = γ e P [J2] = γ. Usando i due test congiuntamente pernote disuguaglianze si ha:

pP [J1J2] ≥ P [J1J2] ≥ 1−P [JC1 ]−P [JC2 ] (vedi iv. al paragrafo 2.4) e in conclusione

γ ≥ P [J1J2] ≥ 2γ − 1. Per il livello del test perciò vale: 2(1− γ) ≥ 1− P [J1J2] ≥ 1− γ. La vera significativitàdel test è compresa tra 2(1− γ) e 1− γ e si potrebbe mostrare che è prossima a 2(1− γ).