statisticĂ descriptivĂsorana.academicdirect.ro/pages/doc/ro2015/2015ro_pc05.pdfvartile 6-nov-15 28...
TRANSCRIPT
STATISTICĂ DESCRIPTIVĂ II Sorana D. Bolboacă
6-Nov-15 1
2
2
OBIECTIVE: MĂSURI DE ...
Centralitate
Media aritmetică
Mediana
Modulul
Valoarea centrală
Media ponderată ...
Dispersie
Amplitudinea
Varianția
Deviația standard
Coeficientul de variație
Eroarea standard
Simetrie
Asimetria
Boltires
Localizare
Cvartile
Percentile
6-Nov-15
• Statistica eșantionului = estimator punctual al parametrului populației
CENTRALITATE • Media aritmetică
• Mediana: punctul de mijloc la seriei (percentile 50)
• Modulul: cea mai frecventă observație a seriei
6-Nov-15 3
n 1
2
Me X
n n1
2 2
X X
Me2
Impar (3, 5, 7 …)
Par (2, 4, …)
n
i
i 1
X
n
n
ii 1
X
Xn
Populație → parametru
Eșantion → statistica
Modulul / Valoarea modală
6-Nov-15 4
Unimodal
CENTRALITATE
Multimodal
CENTRALITATE: Exemplu
Scorurile obținute la examenul practic de o grupă de 11
studenți:
4, 9, 5, 8, 6, 7, 9, 10, 8, 6, 5
• Media aritmetică = (4+9+5+8+6+7+9+10+8+6+5)/11 = 7
• Modulul: 5, 6, 8, 9 serie multimodală
• Mediana: 4, 5, 5, 6, 6, 7, 8, 8, 9, 9, 10
• n (volumul eșantionului) = 11
• Me = X(n+1)/2 = X6 = 7
6-Nov-15 5
Scorurile obținute la examenul practic de o grupă de 11
studenți:
4, 9, 5, 8, 6, 4, 9, 10, 8, 6, 5, 4
• Media = (4+9+5+8+6+4+9+10+8+6+5+4)/12 = 6.5
• Modulul: 4 serie unimodală
• Mediana: 4, 4, 4, 5, 5, 6, 6, 8, 8, 9, 9, 10,
• n (volumul eșantionului) = 12
• Me = (Xn/2+ Xn/2+1)/2 = (X6 +X7)/2= (6+6)/2 = 6
6-Nov-15 6
CENTRALITATE: Exemplu
Media aritmetică: http://spark.rstudio.com/minebocek/CLT_mean/
6-Nov-15 7
CENTRALITATE: Exemplu
6-Nov-15 8
CENTRALITATE: Exemplu
• Media ponderată
6-Nov-15 9
n
i ii 1
X n
ii 1
W X
m
W
n
ii 1
X
Xn
Media aritmetică
Media artimetică este un caz special al mediei
ponderate (Wi , ponderi egale).
CENTRALITATE
AVANTAJE ȘI DEZAVANTAJE
6-Nov-15
Estimator Avantaj Dezavantaj
Media Utilizează toate datele
Ușor de aplicat (formulă
ușoară)
Influențată de outlieri
Nereprezentativă dacă
datele nu au o distribuție
simetrică
Mediana Nu e influențată de outlieri
Neinfluențată de asimetria
datelor
Ignoră majoritatea datelor
din serie
Modulul Aplicabil și variabilelor calitative Ignoră majoritatea datelor
din serie
Media
geometrică
Aplicabilă datelor asimetrice
spre dreapta
Appropriate if the log
transformation produce a
symmetrical distribution
Media
ponderată
Cuantifică importanța relativă a
fiecărei observații
Ponderile trebuie să fie
cunoscute sau estimate
10
DISPERSIE
• Dispersie relativ la parametrul de centralitate
• Datele sunt cu atât mai dispersate cu cât valorile
seriei sunt mai diferite unele față de altele
6-Nov-15 11
12
12
A = Xmax – Xmin
0
2
4
6
8
10
12
14
16
0 10 20 30 40 50 60 70 80 90 100
Fre
cvența
ab
solu
tă
Scor
M F
12
6-Nov-15
AM = 90-10 = 80
AF = 90-10 = 80
DISPERSIE: AMPLITUDINEA
6-Nov-15 13
Variația populației:
Variația eșantionului (the sample variance tend
to sub estimate the population variance):
Parametrul
statistica
n
XX
s
n
i
i
1
2
2)(
2 2
1nS s
n
• Deviaţia standard (StDev sau SD = standard deviation) =
radical di varianţă
• Descrie variabilitatea
• Statistică utilă pentru a evalua cât de apropiate sunt
datele de valoarea medie
• Populaţia
• Eşantionul
6-Nov-15 14
DISPERSIE: DEVIAŢIA STANDARD
Variabilitate vs. Diversitate
Care din grupurile de mai jos prezintă o compozie a culorilor mai diversă?
6-Nov-15 15
Grup 1 Grup 2
DISPERSIE: DEVIAŢIA STANDARD
Variabilitate vs. DiversitateCare din grupurile de mai jos prezintă o variabilitate mai mare a orelor de utilizare?
6-Nov-15 16
Grup 1 Grup 2
10 20 30
504010
20 30 40
10
10 10
10
10
10
50
50 50
DISPERSIE
6-Nov-15 17
Grup 1⟶ s = 15.81 Grup 2 ⟶ s = 21.91
10 20 30
504010
20 30 40
10
10 10
10
10
10
50
50 50
10 20 30 40 50 10 20 30 40 50
Variabilitate vs. DiversitateCare din grupurile de mai jos prezintă o variabilitate mai mare a orelor de utilizare?
DISPERSIE
Variație, Varianță, Abateri, Devieri… și EXCEL
• Statistică descriptivă (eșantion
sau întreaga populație)
• Variația
• Ecartul tip
• Abaterea (deviația) standard a
populației
• Coeficientul de variație al
populației
• Statistică inferențială
(aproximare pentru întreaga
populație pe baza eșantionului)
• Varianţa
• Variaţia de eşantionare
• Abaterea (deviația) standard
• Coeficientul de variație
n
XX
s
n
i
i
1
2
2)(VariațiaVariația
𝑠 = 𝑠2
populației
𝐶𝑉 =𝑠
𝑋 (%)
2 2
1nS s
n
• Variaţia Variaţia V dede eşantionareeşantionarede eşantionareeşantionare
𝑆 = 𝑆2
• Coeficientul de variațieCoeficientul de variație
𝑆 =𝑆 =
𝐶𝑉 =𝑆
𝑋 (%)
6-Nov-15 18
• ↓ s ⟶ datele seriei au valori apropiate de ale mediei
• ↑ s ⟶ datele seriei sunt împrăştiate faţă de valoarea
medie
6-Nov-15 19
DISPERSIE: DEVIAŢIE STANDATD
Variabilitate
mare
Variabilitate
medie
Variabilitate
scăzută
http://onlinestatbook.com/2/summarizing_distributions/spread_sim.html
6-Nov-15 20
DISPERSIE
21
21
• Statistică fără unitate de măsură
• Raportul dintre deviaţia standard şi media aritmetică
a seriei
• Se calculează doar pentru variabilele cantitative de
tip raţie care iau doar valori pozitive
21
6-Nov-15
Valoarea Populaţia se consideră
CV < 0.10 Omogenă
0.10 ≤ CV < 0.20 Relativ omogenă
0.20 ≤ CV < 0.30 Relativ heterogrană
≥ 0.30 Heterogenă
DISPERSIE: COEFICIENTUL DE VARIAŢIE
22
22
SEM = standard error o the mean
• Indicator al acurateţii mediei: SEM = s/√n
• Relaţie invers proporţională dintre volumul eşantionului şi
SEM
22
6-Nov-15
DISPERSIE: EROAREA STANDARD
ASIMETRIA http://chubbyrevision.weebly.com/representation-of-data.html
6-Nov-15 23
Asimetrie < 0 Asimetrie > 0
Asiemtrie = 0
ASIMETRIA
6-Nov-15 24
Asimetrie negativă
Modulul > Mediana > Media
SHAPE MEASURES
6-Nov-15 25
Asimetrie pozitivă:
Modulul = 7000 Ron
Mediana = 8870 Ron
Media = 9360 Ron
Modulul < Mediana < Media
0
5
10
15
20
25
30
35
40
020
040
060
080
010
0012
0014
0016
0018
0020
0022
0024
00
Income (lei)
Ab
solu
te F
req
uen
cy
mediana
modulul media
26
ASIMETRIA 26
26
6-Nov-15
Intepretarea [Bulmer MG, Principles of Statistics, Dover, 1979,] – aplicată populației
Asiemtria <−1 sau > +1 înalt asimetrică
Asimetria cu valoare între −1 și −½ sau +½ și +1 moderat asimetrică
Asimetria cu valoare între −½ și +½ aproximativ simetrică
BOLTIREA
• = KURT(array)
Distribuția normală are boltirea în jurul valorii 3.
Excesul de boltire (ceea ce calculează Excel-ul cu funcția KURT) = Boltire – 3
Distribuția normală: boltirea ≅ 3 (excesul de boltire ≅ 0) mezocurtic
Distribuția cu boltirea <3 (excesul de boltire < 0) se numește platocurtică
Distribuția cu boltirea >3 (excesul de boltire >0) se numește leptocurtică
6-Nov-15 27
LOCALIZARE: CVARTILE
6-Nov-15 28
IC = Q3 – Q1
unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila 25%)
Măsură a dispersiei pentru 50% din datele de mijloc.
INTERVALUL DINTRE Q1 și Q3
6-Nov-15 29
Variabila: note la examenul practic
Me=[X12/2+X(12/2+1)]/2 = (X6+X7)/2 = (8+8)/2 = 8
Me=8
Ord
on
are
Q3 –
Q1 =
9 –
5.5
= 3
.5
A =
10
– 4
= 6
Formule Excel:
(Mediana) Me:
=MEDIAN(B1:B12)
(Intervalul dintre cvartila 3 şi 1) IC:
=QUARTILE(B1:B12,3)-QUARTILE(B1:B12,1)
(Amplitudinea) A:
=MAX(B1:B12)-
MIN(B1:B12)
INTERVALUL DINTRE Q1 și Q3 6-Nov-15 30
Variabila: note la examenul practic
Me=8
Q3 –
Q1 =
9 –
5.5
= 3
.5
A =
10
– 4
= 6
A: Diferenţa dintre nota maximă şi nota minimă a
fost de 6 puncte
Q1: 25% din studenţi au note ≤ 5.5 Q3: 75% din studenţi au note ≤ 9 IC: 50% din studenţi au note care nu diferă una faţă de alta cu mai
mult de 3.5 puncte
6-Nov-15
Coeficientul de variație
• Măsură a variabilităţii relative utilizată pentru:
• Măsurarea modificărilor care au apărut în populaţie în timp
• Compararea variabilităţii a două populaţii când unităţile de măsură
sunt diferite (mg/dL vs mmol/L – colesterol)
• Frecvent exprimat procental
31
Greutate (kg) Înălţime (cm)
Media aritmetică 72,6 168
Deviaţia standard 13,6 10,2
» Care din variabilele de mai sus are împrăştierea mai mare?
˃ Nu se poate răspunde la întrebare
» Care din variabilele de mai sus are împrăştierea relativă la medie mai mare ?
Greutate: CV = 13,6/72,6*100 = 19%
Înălţime: CV = 10,2/168*100 = 6,1%
31
• Aplicabilitate: dispersia în două seturi de date
• A: 12, 13, 16, 18, 18, 20
• B: 120, 130, 160, 180, 180, 200
6-Nov-15 32
Grup A Grup B
Media 16 162
Deviaţia standard 3 29
CV (%) 18 18
» Aplicabilitate: dispersia în două seturi de date ˃ A: 12, 13, 16, 18, 18, 20
˃ B: 2, 3, 160, 18, 200, 300
Grup A Grup B
Media 16 114
Deviaţia standard 3 114
CV (%) 18 100
6-Nov-15
• Care din seria de mai jos are deviaţia standard cea mai mică A. 10, 11, 13, 13, 13, 15, 16
B. 10, 10, 10, 10, 10, 10, 12
C. 10, 11, 12, 13, 14, 15, 16
D. 20, 22, 25, 210, 212, 215, 2100
E. 5, 50, 51, 52, 500, 510, 520
33
33
http://www.sagepub.com/upm-data/43350_4.pdf
6-Nov-15 34
6-Nov-15 35