ii.5.1. gaussova ili normalna krivulja ii.5.1.a. pojam i

22
II.5. Normalna ili Gaussova raspodjela II.5.1. Gaussova ili normalna krivulja II.5.1.A. Pojam i oblici Gaussove krivulje Zvona različiti oblici: Tipičan oblik zvona

Upload: others

Post on 03-Nov-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

Apresentação do PowerPointII.5. Normalna ili Gaussova raspodjela II.5.1. Gaussova ili normalna krivulja
II.5.1.A. Pojam i oblici Gaussove krivulje
Zvona – razliiti oblici:
Tipian oblik zvona
Prirodni zvonoliki oblici stijena:
Zvonasti oblici enske odjee – šeširi i kape, suknje i haljine, rukavi i nogavice:
Zvonoliki oblici u ivom svijetu:
Razliiti predmeti:
Zvonoliki oblici u matematici i statistici – normalna ili Gaussova krivulja:
normalna ili Gaussova krivulja je graf normalne ili Gaussove funkcije
Grafovi triju matematikih funkcija:
1) negativne kvadratne funkcije
f(x) = -(2x - 6)2 + 5,
3) Gaussove funkcije
f(x) = 5e-(2x - 6) . 2
Gaussova funkcija se po obliku nalazi se izmeu negativne kvadratne i
negativne eksponecijalne funkcije.
eksponencijalne funkcije s negativnom (konkavnom) kvadratnom
funkcijom. Ima karakteristian zvonoliki oblik, koji je odreen
elementarnim funkcijama iz kojih je nastala kombinacijom:
-vrh (tjeme) Gaussove funkcije nije šiljat kao kod eksponencijalne funkcije, ve
je zaobljen kao kod kvadratne funkcije ali je nešto ui kvadratna komponenta
funkcije prevladava u podruju oko vrha i u gornjem dijelu grafa funkcije
-u tzv. toki infleksije ili pregiba prestaje prevladavajui utjecaj kvadratne
funkcije i poinje jaati utjecaj eksponencijalne funkcije, pa graf sve više slii
grafu te funkcije
-krajevi grafa tzv. repovi pribliuju se vodoravnoj osi ali je u stvari nikad ne
dotiu, što je osobina eksponencijalne funkcije
-graf Gaussove funkcije je simetrian jer
sadri kvadratnu funkciju, u koju ulaze i
pozitivne i negativne vrijednosti varijable x
(isto vrijedi i za eksponencijalnu funkciju
kada se za sve vrijednosti varijable x
uzimaju apsolutne vrijednosti)
Gaussova funkcija
Slika desno pokazuje
Gaussovu funkciju za
parametre c = σ
parametar a:
Parametri a, b i c odreuju poloaj i oblik grafa Gaussove funkcije:
-parametar a odreuje visinu vrha (visinu zvona)
-parametar b odreuje poloaj vrha (zvona) na vodoravnoj osi =
srednja vrijednosti (aritmetika sredina) populacije je mjera
središnje tendencije, to je pozicijski parametar na osi X
-parametar c odreuje širinu zvona = standardna devijacija
populacije je mjera raspršivosti oko srednje vrijednosti
II.5.1.B. Gaussova raspodjela u biostatistici
Openito o Gaussovoj ili normalnoj raspodjeli:
-Gaussova ili normalna funkcija je funkcija f(x) normalne (Gaussove)
raspodjele vjerojatnosti za varijablu x, tj. funkcija gustoe vjerojatnosti:
-ovisi samo o dva parametra: o aritmetikoj sredini populacije (µ) i o
standardnoj devijaciji populacije (σ) za varijablu x
-kontinuirana je raspodjela; simetrina i unimodalna – ima samo jedan vrh
= Gaussova krivulja (u daljem tekstu: normalna raspodjela); višemodalne
normalne raspodjele imaju sloenu krivulju koja je kombinacija dviju ili više
Gaussovih krivulja
-najvaniji je raspodjela u biostatistici, s mnogobrojnim primjenama
-potreban je veliki uzorak tj. veliki n, da bi se empirijska raspodjela uzorka
(u obliku histograma) pribliila normalnoj raspodjeli – teoretskoj
raspodjeli za populaciju
-kumulativna funkcija normalne
(Gaussove) raspodjele vjerojatnosti:
frekvencija pridruene su i odgovarajue Gaussove krivulje raspodjele
II.5.1.C. Razumijevanje normalne krivulje i raspodjele
1- Normalna (Gaussova) raspodjela opisuje se s dvije krivulje – i to:
a) redovito: normalnom (Gaussovom) krivuljom tj. krivuljom normalne
(Gaussove) raspodjele vjerojatnosti, f(x), tj. funkcijom gustoe vjerojatnosti;
b) rjee: krivuljom kumulativne normalne (Gaussove) raspodjele vjerojatnosti,
F(x);
2- Normalna krivulja je zvonolika, simetrina i unimodalna (ima jedan vrh
ili tjeme);
3- Normalna krivulja ovisi o dva parametra: o aritmetikoj sredini
populacije (µ) i o standardnoj devijaciji populacije (σ);
4- Poloaj i oblik normalne krivulje odreeni su s ta dva parametra:
a) parametar µ odreuje poloaj krivulje s obzirom na vodoravnu os x tj. poloaj
vrha krivulje na vodoravnoj osi x;
b) parametar σ odreuje oblik krivulje – visinu vrha tj. poloaj vrha s obzirom na
uspravnu os f(x), te širinu krivulje koja je uvijek jednaka parametru σ izmeu
dviju toaka infleksije;
5- Funkcija f(x) je standardizirana ili normalizirana kada je µ = 0 i σ =1, pri emu
nastaje tzv. jedinina (standardna, standardizirana) normalna raspodjela;
površina ispod pripadne krivulje tj. površina omeena krivuljom i
vodoravnom osi ima znaenje vjerojatnosti i jednaka je jedinici;
6- Normalizirana funkcija f(x) za x = x0 ima znaenje vjerojatnosti za vrijednost
x0, tj. p(x0), a ima znaenje vjerojatnosti za x ≤ x0 tj. p(x ≤ x0) kada se odreuje
površina ispod krivulje u intervalu od -∞ (minus beskonano) do x0 tj. (-∞, x0];
7- Funkcija F(x) takoer ovisi od parametrima µ i σ, koji odreuju njezin poloaj
(µ) i oblik (σ); oblik ove funkcije je openito sigmoidan, a stupanj sigmoidnosti
ovisi o parametru σ;
8- F(x) za x = x0 uvijek ima znaenje vjerojatnosti za interval vrijednosti od -∞ (minus beskonano) do x0; dakle, za x = x0 vrijednost ove funkcije jednaka je
vrijednosti površine ispod normalizirane krivulje f(x) za interval (-∞, x0].
Kumulativna funkcija
normalne (Gaussove)
II.5.2. Središnji granini teorem i njegove posljedice
Poveanje veliine uzorka, tj. poveanje n (ili N, ili u kojoj drugoj oznaci) broja
statistikih jedinica (poveanje broja ponavljanja pokusa, poveanje broja
osoba ukljuenih u statistiko istraivanje i sl.), ima dalekosene posljedice na
statistiku analizu.
Jedna od posljedica je Bernoullijev zakon ili zakon velikih brojeva, prema kojem
se kod velikog n vrijednosti empirijskih veliina pribliuju pripadnim teorijskim
vrijednostima, npr. relativne frekvencije postaju bliske teorijski dobivenim
vjerojatnostima.
Druga posljedica poveanja broja n je središnji (centralni) granini
teorem: kod velikog n mnoge raspodjele tee normalnoj (Gaussovoj)
raspodjeli. Pri tome, ove raspodjele postaju vrlo sline normalnoj – to su
tzv. kvazi-normalne ili neprave normalne raspodjele, tako da se mogu
primijeniti zakonitosti normalne raspodjele, s nekom korekcijom ili bez
korekcije. Pri tome valja razlikovati dva sluaja: a) jedna raspodjela
pribliuje se normalnoj raspodjeli; b) kombinacija dviju ili više raspodjela
daje sloenu raspodjelu koja se pribliuje normalnoj raspodjeli.
Dakle, dovoljno je imati vrlo veliki n (reda veliine desetine, stotine ili tisue), da
bi se opravdala aproksimacija prema kojoj bi se varijable smatrale da imaju
normalnu raspodjelu. generalizacija upotrebe zakona normalne raspodjele i
svih izvedenih zakona za podatke s normalnom raspodjelom
Središnji granini teorem vrijedi i za diskretne i za kontinuirane raspodjele.
Studentova ili t-raspodjela postaje praktiki identina normalnoj za oko n = 100.
Lijevo: funkcija gustoe Studentove vjerojatnosti f(t). Desno: kumulativna
funkcija Studentove raspodjele vjerojatnosti F(t). Oita je ovisnost obiju funkcija
o parametru t = (x - M)/s, gdje je M – aritmetika sredina, a s – standardna
devijacija mjerene varijable x. Crna krivulja predstavlja identinost t-raspodjele
za ν = +∞ s normalnom raspodjelom, tj. M ≈ µ i s ≈ σ.
Studentova raspodjela za ν = 100
(n = 101) postaje jednaka normalnoj
Poissonova funkcija gustoe vjerojatnosti f(x, µ) postaje gotovo identina
normalnoj funkciji gustoe vjerojatnosti f(x, µ, σ), za µ = 12 za obje raspodjele,
jer je zadovoljen uvjet n >> 1 (n je mnogo vei od 1) i p << 1 (p je mnogo
manja od 1). Dakle, veliina uzorka n je dovoljno velika, a vjerojatnosti p su
dovoljno malene za normalnu aproksimaciju Poissonove raspodjele.
Funkcija gustoe χ2-kvadratne vjerojatnosti f(k, x) – ChiSq(k) pribliuje se
standardiziranoj normalnoj raspodjeli Normal(µ, σ). Porastom broja n rastu
vrijednosti varijable x kao i vrijednosti svih parametara – µ, σ i k. Za oko n > 50
raspodjele postaju bliske, a za n = 200 gotovo identine.
Binomna raspodjela s
pokazuje se razumnom, i
vrlo sloena i ak
pojednostavnjuje i ubrzava raunanje vjerojatnosti.
Prema središnjem graninom teoremu, normalna (Gaussova) raspodjela jest
raspodjela kojoj mnoge raspodjele tee kao svojoj granici.
II.5.3. Odstupanja od normalne raspodjele u biostatistici
Mnoge empirijske raspodjele ne mogu se aproksimirati normalnom raspodjelom
zbog bitnih odstupanja od normalne raspodjele.
Sluajevi bitnih odstupanja neke raspodjele od normalne raspodjele:
1- raspodjela nije unimodalna (broj vrhova je razliit od 1, npr. 0, 2, 3, …);
2- raspodjela je unimodalna, ali nije ni priblino simetrina;
3- raspodjela je unimodalna i simetrina, ali ima znaajan stupanj kurtoze;
4- raspodjela nije normalna, ali zbog male veliine uzorka tj. malog n, ne moe
se pribliiti normalnoj raspodjeli.
raspodjela od normalne raspodjele.
Za svaku metriku varijablu i varijablu tipa Likertova ljestvica potrebno je:
1) provjeriti da li je empirijska raspodjela normalna ili se moe pribliiti
normalnoj raspodjeli – histogramom i drugim grafikim te raunskim metodama
koje nude moderni statistiki programi;
2) ako su rezultati provjere 1) pozitivni, proslijediti s raunima vjerojatnosti za
normalnu raspodjelu;
3) ako su rezultati provjere 1) negativni, raunati druge relevantne parametre
(mod, medijan, raspon i interkvartilni raspon umjesto aritmetike sredine i
standardne devijacije; mod i medijan za svaki vrh i dr.), ili raunati parametre za
drugu teoretsku raspodjelu koja je blia empirijskoj, ili transformirati podatke u
nove varijable koje slijede normalnu raspodjelu, ili primijeniti neke druge mjere.
Kriva primjena normalne raspodjele, kao i testova koji se zasnivaju na
normalnoj raspodjeli i njoj izvedenih raspodjela, dovodi do krivih
zakljuaka, što je vrlo opasno i pogrešno za objaviti u publikacijama.
Primjeri raspodjela u biostatistici koje bitno odstupanju od normalne raspodjele:
-pozitivno asimetrina: debljina konog nabora iznad tricepsa; koncentracija
bilirubina u serumu; koncentracija kolesterola u krvi;
-negativno asimetrina: trajanje trudnoe;
-bimodalna: koncentracija hormona u muškarcima i enama; visina ope
populacije (dva moda, za muškarce i ene); dijametar ljudskog srca; frekvencija
morbiditeta ili mortaliteta za bolest koja se javlja u dva ivotna razdoblja (npr.
gripa u djetinjstvu i u starosti);
-jednokrana: vrijeme preivljenja nakon dijagnoze raka plua;
-uniformna: uestalost po mjesecima u godini bolesti koja nema sezonske
varijacije….
Online, 2010, 35(2), 26-35.]
Pozitivno asimetrina raspodjela koncentracije ukupnog serumskog bilirubina
za amerike muškarce (lijevo) i ene (desno). [L. J. Horsfall et al., Serum
Bilirubin and Risk of Respiratory Disease, JAMA, 2011, 305(7), 691-697.]
Bimodalna raspodjela stope
Brazil u 1983. godini [H. G. Arango:
Bioestatística Terica e
2001, str. 62.]