statisticĂ descriptivĂsorana.academicdirect.ro/pages/doc/ro2015/2015ro_pc05.pdfvartile 6-nov-15 28...

35
S TATISTIC Ă D ESCRIPTIVĂ II Sorana D. Bolboacă 6-Nov-15 1

Upload: others

Post on 20-Sep-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

STATISTICĂ DESCRIPTIVĂ II Sorana D. Bolboacă

6-Nov-15 1

Page 2: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

2

2

OBIECTIVE: MĂSURI DE ...

Centralitate

Media aritmetică

Mediana

Modulul

Valoarea centrală

Media ponderată ...

Dispersie

Amplitudinea

Varianția

Deviația standard

Coeficientul de variație

Eroarea standard

Simetrie

Asimetria

Boltires

Localizare

Cvartile

Percentile

6-Nov-15

• Statistica eșantionului = estimator punctual al parametrului populației

Page 3: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

CENTRALITATE • Media aritmetică

• Mediana: punctul de mijloc la seriei (percentile 50)

• Modulul: cea mai frecventă observație a seriei

6-Nov-15 3

n 1

2

Me X

n n1

2 2

X X

Me2

Impar (3, 5, 7 …)

Par (2, 4, …)

n

i

i 1

X

n

n

ii 1

X

Xn

Populație → parametru

Eșantion → statistica

Page 4: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

Modulul / Valoarea modală

6-Nov-15 4

Unimodal

CENTRALITATE

Multimodal

Page 5: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

CENTRALITATE: Exemplu

Scorurile obținute la examenul practic de o grupă de 11

studenți:

4, 9, 5, 8, 6, 7, 9, 10, 8, 6, 5

• Media aritmetică = (4+9+5+8+6+7+9+10+8+6+5)/11 = 7

• Modulul: 5, 6, 8, 9 serie multimodală

• Mediana: 4, 5, 5, 6, 6, 7, 8, 8, 9, 9, 10

• n (volumul eșantionului) = 11

• Me = X(n+1)/2 = X6 = 7

6-Nov-15 5

Page 6: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

Scorurile obținute la examenul practic de o grupă de 11

studenți:

4, 9, 5, 8, 6, 4, 9, 10, 8, 6, 5, 4

• Media = (4+9+5+8+6+4+9+10+8+6+5+4)/12 = 6.5

• Modulul: 4 serie unimodală

• Mediana: 4, 4, 4, 5, 5, 6, 6, 8, 8, 9, 9, 10,

• n (volumul eșantionului) = 12

• Me = (Xn/2+ Xn/2+1)/2 = (X6 +X7)/2= (6+6)/2 = 6

6-Nov-15 6

CENTRALITATE: Exemplu

Page 7: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

Media aritmetică: http://spark.rstudio.com/minebocek/CLT_mean/

6-Nov-15 7

CENTRALITATE: Exemplu

Page 8: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

6-Nov-15 8

CENTRALITATE: Exemplu

Page 9: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

• Media ponderată

6-Nov-15 9

n

i ii 1

X n

ii 1

W X

m

W

n

ii 1

X

Xn

Media aritmetică

Media artimetică este un caz special al mediei

ponderate (Wi , ponderi egale).

CENTRALITATE

Page 10: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

AVANTAJE ȘI DEZAVANTAJE

6-Nov-15

Estimator Avantaj Dezavantaj

Media Utilizează toate datele

Ușor de aplicat (formulă

ușoară)

Influențată de outlieri

Nereprezentativă dacă

datele nu au o distribuție

simetrică

Mediana Nu e influențată de outlieri

Neinfluențată de asimetria

datelor

Ignoră majoritatea datelor

din serie

Modulul Aplicabil și variabilelor calitative Ignoră majoritatea datelor

din serie

Media

geometrică

Aplicabilă datelor asimetrice

spre dreapta

Appropriate if the log

transformation produce a

symmetrical distribution

Media

ponderată

Cuantifică importanța relativă a

fiecărei observații

Ponderile trebuie să fie

cunoscute sau estimate

10

Page 11: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

DISPERSIE

• Dispersie relativ la parametrul de centralitate

• Datele sunt cu atât mai dispersate cu cât valorile

seriei sunt mai diferite unele față de altele

6-Nov-15 11

Page 12: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

12

12

A = Xmax – Xmin

0

2

4

6

8

10

12

14

16

0 10 20 30 40 50 60 70 80 90 100

Fre

cvența

ab

solu

Scor

M F

12

6-Nov-15

AM = 90-10 = 80

AF = 90-10 = 80

DISPERSIE: AMPLITUDINEA

Page 13: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

6-Nov-15 13

Variația populației:

Variația eșantionului (the sample variance tend

to sub estimate the population variance):

Parametrul

statistica

n

XX

s

n

i

i

1

2

2)(

2 2

1nS s

n

Page 14: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

• Deviaţia standard (StDev sau SD = standard deviation) =

radical di varianţă

• Descrie variabilitatea

• Statistică utilă pentru a evalua cât de apropiate sunt

datele de valoarea medie

• Populaţia

• Eşantionul

6-Nov-15 14

DISPERSIE: DEVIAŢIA STANDARD

Page 15: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

Variabilitate vs. Diversitate

Care din grupurile de mai jos prezintă o compozie a culorilor mai diversă?

6-Nov-15 15

Grup 1 Grup 2

DISPERSIE: DEVIAŢIA STANDARD

Page 16: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

Variabilitate vs. DiversitateCare din grupurile de mai jos prezintă o variabilitate mai mare a orelor de utilizare?

6-Nov-15 16

Grup 1 Grup 2

10 20 30

504010

20 30 40

10

10 10

10

10

10

50

50 50

DISPERSIE

Page 17: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

6-Nov-15 17

Grup 1⟶ s = 15.81 Grup 2 ⟶ s = 21.91

10 20 30

504010

20 30 40

10

10 10

10

10

10

50

50 50

10 20 30 40 50 10 20 30 40 50

Variabilitate vs. DiversitateCare din grupurile de mai jos prezintă o variabilitate mai mare a orelor de utilizare?

DISPERSIE

Page 18: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

Variație, Varianță, Abateri, Devieri… și EXCEL

• Statistică descriptivă (eșantion

sau întreaga populație)

• Variația

• Ecartul tip

• Abaterea (deviația) standard a

populației

• Coeficientul de variație al

populației

• Statistică inferențială

(aproximare pentru întreaga

populație pe baza eșantionului)

• Varianţa

• Variaţia de eşantionare

• Abaterea (deviația) standard

• Coeficientul de variație

n

XX

s

n

i

i

1

2

2)(VariațiaVariația

𝑠 = 𝑠2

populației

𝐶𝑉 =𝑠

𝑋 (%)

2 2

1nS s

n

• Variaţia Variaţia V dede eşantionareeşantionarede eşantionareeşantionare

𝑆 = 𝑆2

• Coeficientul de variațieCoeficientul de variație

𝑆 =𝑆 =

𝐶𝑉 =𝑆

𝑋 (%)

6-Nov-15 18

Page 19: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

• ↓ s ⟶ datele seriei au valori apropiate de ale mediei

• ↑ s ⟶ datele seriei sunt împrăştiate faţă de valoarea

medie

6-Nov-15 19

DISPERSIE: DEVIAŢIE STANDATD

Variabilitate

mare

Variabilitate

medie

Variabilitate

scăzută

Page 20: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

http://onlinestatbook.com/2/summarizing_distributions/spread_sim.html

6-Nov-15 20

DISPERSIE

Page 21: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

21

21

• Statistică fără unitate de măsură

• Raportul dintre deviaţia standard şi media aritmetică

a seriei

• Se calculează doar pentru variabilele cantitative de

tip raţie care iau doar valori pozitive

21

6-Nov-15

Valoarea Populaţia se consideră

CV < 0.10 Omogenă

0.10 ≤ CV < 0.20 Relativ omogenă

0.20 ≤ CV < 0.30 Relativ heterogrană

≥ 0.30 Heterogenă

DISPERSIE: COEFICIENTUL DE VARIAŢIE

Page 22: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

22

22

SEM = standard error o the mean

• Indicator al acurateţii mediei: SEM = s/√n

• Relaţie invers proporţională dintre volumul eşantionului şi

SEM

22

6-Nov-15

DISPERSIE: EROAREA STANDARD

Page 23: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

ASIMETRIA http://chubbyrevision.weebly.com/representation-of-data.html

6-Nov-15 23

Asimetrie < 0 Asimetrie > 0

Asiemtrie = 0

Page 24: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

ASIMETRIA

6-Nov-15 24

Asimetrie negativă

Modulul > Mediana > Media

Page 25: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

SHAPE MEASURES

6-Nov-15 25

Asimetrie pozitivă:

Modulul = 7000 Ron

Mediana = 8870 Ron

Media = 9360 Ron

Modulul < Mediana < Media

0

5

10

15

20

25

30

35

40

020

040

060

080

010

0012

0014

0016

0018

0020

0022

0024

00

Income (lei)

Ab

solu

te F

req

uen

cy

mediana

modulul media

Page 26: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

26

ASIMETRIA 26

26

6-Nov-15

Intepretarea [Bulmer MG, Principles of Statistics, Dover, 1979,] – aplicată populației

Asiemtria <−1 sau > +1 înalt asimetrică

Asimetria cu valoare între −1 și −½ sau +½ și +1 moderat asimetrică

Asimetria cu valoare între −½ și +½ aproximativ simetrică

Page 27: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

BOLTIREA

• = KURT(array)

Distribuția normală are boltirea în jurul valorii 3.

Excesul de boltire (ceea ce calculează Excel-ul cu funcția KURT) = Boltire – 3

Distribuția normală: boltirea ≅ 3 (excesul de boltire ≅ 0) mezocurtic

Distribuția cu boltirea <3 (excesul de boltire < 0) se numește platocurtică

Distribuția cu boltirea >3 (excesul de boltire >0) se numește leptocurtică

6-Nov-15 27

Page 28: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

LOCALIZARE: CVARTILE

6-Nov-15 28

IC = Q3 – Q1

unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila 25%)

Măsură a dispersiei pentru 50% din datele de mijloc.

Page 29: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

INTERVALUL DINTRE Q1 și Q3

6-Nov-15 29

Variabila: note la examenul practic

Me=[X12/2+X(12/2+1)]/2 = (X6+X7)/2 = (8+8)/2 = 8

Me=8

Ord

on

are

Q3 –

Q1 =

9 –

5.5

= 3

.5

A =

10

– 4

= 6

Formule Excel:

(Mediana) Me:

=MEDIAN(B1:B12)

(Intervalul dintre cvartila 3 şi 1) IC:

=QUARTILE(B1:B12,3)-QUARTILE(B1:B12,1)

(Amplitudinea) A:

=MAX(B1:B12)-

MIN(B1:B12)

Page 30: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

INTERVALUL DINTRE Q1 și Q3 6-Nov-15 30

Variabila: note la examenul practic

Me=8

Q3 –

Q1 =

9 –

5.5

= 3

.5

A =

10

– 4

= 6

A: Diferenţa dintre nota maximă şi nota minimă a

fost de 6 puncte

Q1: 25% din studenţi au note ≤ 5.5 Q3: 75% din studenţi au note ≤ 9 IC: 50% din studenţi au note care nu diferă una faţă de alta cu mai

mult de 3.5 puncte

Page 31: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

6-Nov-15

Coeficientul de variație

• Măsură a variabilităţii relative utilizată pentru:

• Măsurarea modificărilor care au apărut în populaţie în timp

• Compararea variabilităţii a două populaţii când unităţile de măsură

sunt diferite (mg/dL vs mmol/L – colesterol)

• Frecvent exprimat procental

31

Greutate (kg) Înălţime (cm)

Media aritmetică 72,6 168

Deviaţia standard 13,6 10,2

» Care din variabilele de mai sus are împrăştierea mai mare?

˃ Nu se poate răspunde la întrebare

» Care din variabilele de mai sus are împrăştierea relativă la medie mai mare ?

Greutate: CV = 13,6/72,6*100 = 19%

Înălţime: CV = 10,2/168*100 = 6,1%

31

Page 32: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

• Aplicabilitate: dispersia în două seturi de date

• A: 12, 13, 16, 18, 18, 20

• B: 120, 130, 160, 180, 180, 200

6-Nov-15 32

Grup A Grup B

Media 16 162

Deviaţia standard 3 29

CV (%) 18 18

» Aplicabilitate: dispersia în două seturi de date ˃ A: 12, 13, 16, 18, 18, 20

˃ B: 2, 3, 160, 18, 200, 300

Grup A Grup B

Media 16 114

Deviaţia standard 3 114

CV (%) 18 100

Page 33: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

6-Nov-15

• Care din seria de mai jos are deviaţia standard cea mai mică A. 10, 11, 13, 13, 13, 15, 16

B. 10, 10, 10, 10, 10, 10, 12

C. 10, 11, 12, 13, 14, 15, 16

D. 20, 22, 25, 210, 212, 215, 2100

E. 5, 50, 51, 52, 500, 510, 520

33

33

Page 34: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

http://www.sagepub.com/upm-data/43350_4.pdf

6-Nov-15 34

Page 35: STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28 IC = Q 3 – Q 1 unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila

6-Nov-15 35