tema 2: descripción univariante · ii. medidas de posición iii. medidas de dispersión iv....

Post on 12-Jul-2020

3 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Tema 2 1

Tema 2: Descripción Univariante

1.1. Notación y tabulaciónNotación y tabulación2. Descripción gráfica

3. Descripción numéricai. Momentos estadísticosii. Medidas de posicióniii. Medidas de dispersióniv. Variable tipificadav. Medidas de formavi. Medidas de concentración

Tema 2 2

2.1. Notación y TabulaciónInformación = punto de partida del análisis estadísticoTabulación = ordenamiento de la información

Notación de Variables Estadísticas y AtributosNotación de Variables Estadísticas y AtributosX, Y, Z... = Caracteres (VE y Atr.) que queremos estudiar x1, x2, ... , xk = modalidades de Xy1, y2, ... , yk = modalidades de Yz1, z2, ... , zk = modalidades de Z

k es el número máximo de modalidades de un carácterCaso especial: Las VE Continuas ( k es infinito)• Clase = Intervalo que contiene un número infinito de

posibles valores de la variable. Son excluyentes y contienen todos los valores existentes.Clase i-ésima: [ei-1, ei]

Tema 2 3

• Extremos de clase = valor inferior y superior de cada clase• Marcas de clase = puntos intermedios de cada clase

ci = (ei-1 + ei)/2• Amplitud de clase = tamaño de cada clase

ai = ei – ei-1

• Recorrido = diferencia entre el mayor y el menor valor de la variable.

Re = Max (x) – Min (x) = ek – e0

Notación de frecuenciasNotación de frecuencias• Frecuencia Absoluta (ni) = Número de veces que aparece la

modalidad (o clase) i-ésima.N = número total de individuos estudiadosN = n1 + n2 + n3 + … + nk

Tema 2 4

• Frecuencia Relativa (fi) = Proporción de individuos que presentan la modalidad (o clase) i-ésima.

fi = ni / NLa suma de frecuencias relativas es igual a 1.

• Frecuencia Absoluta Acumulada (Ni) = Número de individuos que presentan la modalidad i-ésima o inferior.

(OJO!! Nunca tiene sentido para atributos en escala nominal)

1...211

=+++=∑=

k

k

ii ffff

nr=Nii

r∑=1

Tema 2 5

• Frecuencia Relativa Acumulada (Fi) = Proporción de individuos que presentan la modalidad i-ésima o inferior.

La última frecuencia relativa acumulada es igual a 1.

• Distribución de frecuencias = pares de valores (modalidad, frecuencia)

NNF i

i =

1...21 ==+++

==NN

Nnnn

NNF kk

k

FkNkfknkxk

...............

F2N2f2n2x2

F1N1f1n1x1

FiNifiniXi• Tabulación = colocación en una tabla de los datos que definen la distribución de frecuencias.

Tema 2 6

Tema 2: Descripción Univariante

1. Notación y tabulación

2.2. Descripción gráficaDescripción gráfica3. Descripción numérica

i. Momentos estadísticosii. Medidas de posicióniii. Medidas de dispersióniv. Variable tipificadav. Medidas de formavi. Medidas de concentración

Tema 2 7

2.2. Descripción gráfica

Descripción gráfica de Caracteres CualitativosDescripción gráfica de Caracteres Cualitativos• Diagrama de sectores = Se reparten los 360º de una

circunferencia proporcionalmente a las frecuencias absolutas.

• Diagrama de barras = Se coloca en ejes cartesianos las modalidades (en el eje X) y se levantan barras de igual base con la altura de la frecuencia.

• Pictograma = Se asigna un valor a una figura. Se representa la distribución de frecuencias en función de esa asignación.

Tema 2 8

Descripción gráfica de Caracteres Cuantitativos DiscretosDescripción gráfica de Caracteres Cuantitativos Discretos

• Diagrama de barras = Se coloca en ejes cartesianos las modalidades (en el eje X) y se levantan líneas con la altura de la frecuencia. Analíticamente

f(x): Función de cuantía

• Diagrama de escalera o Curva de acumulación = Es la representación gráfica de la expresión analítica

F(x): Función de distribución

→ℜ∈ x=x si; f

xx si; 0 =f(x) x

ii

i

∈∀ N=F(x) o F=

NN=F(x) )x ,x[ x ii

i1+ii ~

Tema 2 9

Descripción gráfica de Caracteres Cuantitativos ContinuosDescripción gráfica de Caracteres Cuantitativos ContinuosElementos propios de los caracteres cuantitativos continuos:

1. Clase, 2. Extremo de clase, 3. Marca de clase, 4. Amplitud de clase y 5. Recorrido

A estos elementos hay que añadir un nuevo concepto: 6. Frecuencia relativa (o absoluta) por unidad de clase =

También se conoce como densidad de la clase. Consiste en dividir la frecuencia relativa (o absoluta) de la clase por el tamaño de la misma (ai).

Densidad = fi/ai

• Histograma de frecuencias = Se coloca en ejes cartesianos los extremos de clases (en el eje X) y se levantan barras (unidas unas a otras) con la altura de la densidad del intervalo.

Tema 2 10

Si se unen los puntos medios de las bases superiores de los rectángulos se obtiene el polígono de frecuencias.Expresión analítica del histograma de frecuencias:

f(x): función de densidad • Polígono acumulativo de frecuencias o Curva de

acumulación = Se obtiene al unir con rectas cada par consecutivo de valores (e0,0) (e1,F1) (e2, F2)...(ek, Fk)

Expresión analítica:

F(x): función de distribución

an=f(x) ó

af

=f(x) )e ,e[ x Sii

i

i

ii1-i ,∈

)eF(+)e-(xaf=F(x)e,e[ x 1-i1-i

i

ii1-i ~)∈

1) F(x) es una función creciente2) lim F(x) 1

3) lim F(x) 0x

x

→∞

→−∞

=

=

Tema 2 11

Tema 2: Descripción Univariante

1. Notación y tabulación

2. Descripción gráfica

3.3. Descripción numéricaDescripción numéricai.i. Momentos estadísticosMomentos estadísticosii. Medidas de posicióniii. Medidas de dispersióniv. Variable tipificadav. Medidas de formavi. Medidas de concentración

Tema 2 12

2.3. Descripción numérica: momentos estadísticos

Def: Resultado de llevar a cabo operaciones con la información de la distribución de frecuencia.

Nombre: momento de orden r con respecto al punto b

( ),

1

kr

r b i ii

m f x b=

= ⋅ −∑

Tema 2 13

Momento con respecto al origen (b=0):Se denomina momento no centrado, y se denota αr.

El momento no centrado de orden uno (α1) se conoce con el nombre de media.

Momento con respecto a la media (b=α1):Se denomina momento centrado, y se denota mr

Tanto α0 como m0 valen 1, sea cual sea la distribución de frecuencia de X.

( )1, 1

1

kr

r r i ii

m m f xα α=

= = ⋅ −∑

,01

kr

r r i ii

m f xα=

= = ⋅∑

Tema 2 14

Tema 2: Descripción Univariante

1. Notación y tabulación

2. Descripción gráfica

3.3. Descripción numéricaDescripción numéricai. Momentos estadísticosii.ii. Medidas de posiciónMedidas de posicióniii. Medidas de dispersióniv. Variable tipificadav. Medidas de formavi. Medidas de concentración

Tema 2 15

2.3. Descripción numérica: medidas de posición

Def: Nos informan de cómo se sitúan los individuos dentro de la distribución.

Se distinguen 2 grupos:

1. Medidas de posición central

2. Medidas de posición no central

Tema 2 16

1. MEDIDAS DE POSICIÓN CENTRAL:

Media Aritmética:Propiedades:

fx=Nnx=X ii

k

1=i

iik

1=i∑∑

0X-xf =)( ii

n

1i=∑a)

f)Q-x( =S i2

i

k

1=i∑b) es mínima si Q X=

c) Si a todos los valores de una variable X le sumamos (multiplicamos) una constante, la media se ve incrementada en (multiplicada por) esa constante.

1. Usa todos los valores de la distribuc.

2. Fácil de calcular3. Siempre existe y es única4. Centro de gravedad

1. Pierde representatividad con los valores extremos

VentajasInconveniente

Tema 2 17

Media Geométrica:

Se usa principalmente para promediar porcentajes, tasas, índices (cuando la variable presenta variaciones acumulativas).

1

1 ln( )N

i ii i

k n xNnN i

i=1

G e x =∑

= =∏

1. Utiliza todos los valores de la distribución

2. Es menos sensible que la media aritmética a los valores extremos

1. Significado estadístico menos intuitivo

2. Cómputo más difícil3. Si hay algún xi=0, queda

indeterminada

VentajasInconvenientes

Tema 2 18

Media Armónica:

Se usa para promediar velocidades, tiempos promedios, (cuando los datos vienen en términos relativos).

xn

NA k

i i

i∑=

=

1

Inconvenientes1. Si los valores son

próximos a 0 es poco representativa

2. Si hay algún xi=0, queda indeterminada

Ventajas1. Utiliza todos los valores de

la distribución

2. Se puede pasar a media aritmética

3. A veces es más representativo que la media aritmética

Tema 2 19

Existe una fórmula genérica de la que extraer las medidas de posición central estudiadas hasta ahora:

m iim

k

1i=nxN

1 = M(m) ∑Si m = -1: Obtenemos la media armónica

Si m = 0: Obtenemos la media geométrica

Si m = 1: Obtenemos la media aritmética

Además existe una relación entre las tres de manera que:

x G A ≤≤

Fórmula de Foster:

Tema 2 20

Mediana:

Es el valor (modalidad) de la variable que divide a la distribución en 2 partes iguales, una vez que se haya ordenado de menor a mayor.

Se distinguen 2 casos:

21 = xF que tal x = Me ii )(,

VE Discreta

1. Existe xi tal que F(xi)=1/2 Me=xi

1. No existe xi tal que F(xi)=1/2Me=xi tal que F(xi-h) < 1/2

< F(xi+h)

VE ContinuaUna vez determinado el "intervalo mediano", la mediana se calculará de la siguiente manera:

e +N-2N

na = Me 1-i1-i

i

i

Tema 2 21

2. MEDIDAS DE POSICIÓN NO CENTRAL:

Moda:

Es el valor (modalidad) de la variable que mayor frecuencia tiene (más veces aparece).

r

r i

r i

Mo = xtal que > i n n o > if f

∀∀

1i-1 i

1 2

i i-11

i i-1

i i+12

i i+1

ZMo = + e a +Z Zf fsiendo : = - Za af f = -Za a

VE Discreta VE Continua

Tema 2 22

Cuantiles: Valores de la distribución que la dividen en partes iguales (intervalos con la misma proporción de individuos). Según el número de partes en que la dividan reciben distinto nombre.

Se denota por: C r/k y es el valor que verifica F(x)=r/k

CUARTILESValores que dividen la distribución en 4 partes iguales. Cada una recoge el 25% (0'25) de los individuos

1 2 34 4 4, ,Q Q Q

114

4 ir ii

i

r N - NQ = e + a

n−

⋅⋅

V.E. Continua

VE DiscretaEl valor xi que verifique F(xi)=r/4 (o un poco mayor)

Determinar 1º cuál es la clase que contiene al cuartil

Tema 2 23

QUINTILESValores que dividen la distribución en 5 partes iguales. Cada una recoge el 20% (0'20) de los individuos

1 2 3 45 5 55, , ,Qi Qi Qi Qi

11

5

5 iir i

i

r N - NQi = e + a

n−

⋅⋅

V.E. Continua

VE DiscretaEl valor xi que verifique F(xi)=r/5 (o un poco mayor)

Determinar 1º cuál es la clase que contiene al quintil

DECILESValores que dividen la distribución en 10 partes iguales. Cada una recoge el 10% (0‘10) de los individuos

PERCENTILESValores que dividen la distribución en 100 partes iguales. Cada una recoge el 1% (0‘01) de los individuos

Tema 2 24

Tema 2: Descripción Univariante

1. Notación y tabulación

2. Descripción gráfica

3.3. Descripción numéricaDescripción numéricai. Momentos estadísticosii. Medidas de posicióniii.iii. Medidas de dispersiónMedidas de dispersióniv. Variable tipificadav. Medidas de formavi. Medidas de concentración

Tema 2 25

Se trata de estudiar la representatividad de una determinada medida de posición central Estudiar la separación (=dispersión o variabilidad) de los valores de la distribución aesta medida

Tipos: Absolutas (no permiten comparar distribuciones)Relativas (permiten comparar distribuciones)

MEDIDAS DE DISPERSIÓN ABSOLUTASRecorrido o RangoDiferencia entre al mayor y el menor valor posible de la distribución de una variable

2.3. Descripción numérica: medidas de dispersión

1kRe X X= − 0kRe = e e−(VE discreta) (VE continua)

Tema 2 26

Recorrido IntercuartílicoDiferencia entre el primer y tercer cuartil de la serie.

Dispersión del 50% de los individuos centrales

VarianzaMedia de las desviaciones (de los valores a la media aritmética)

al cuadrado.

Si varianza grande desviación grande gran dispersión – NUNCA puede ser negativa– Sumar una constante a la variable varianza no varía– Multiplicar una constante a la variable varianza

queda multiplicada por la constante AL CUADRADO.

Q-Q =Ri 1/43/4

1

k22

ix ii=

= ( - X ) fS X∑

Tema 2 27

Desviación Típica o EstándarEs la raíz cuadrada de la varianza

Cuasivarianza

MEDIDAS DE DISPERSIÓN RELATIVAS

Coeficiente de Variación de PearsonCuanto mayor el CV mayor es la desviación típica mayor es la dispersión peor sintetiza la información la media.

1

k2

x iii=

= f( - X )S x∑

1

ˆ1

n i22x i

i=

n = ( - X )S x N -

⋅∑ 1-NN

S = S 2x

2xˆ

XS = CV x

Es adimensional; Permite comparar distribuciones con medias y unidades distintasIncoherente cuando la media vale cero; No invariante ante cambios en la variable

Tema 2 28

Tema 2: Descripción Univariante

1. Notación y tabulación

2. Descripción gráfica

3.3. Descripción numéricaDescripción numéricai. Momentos estadísticosii. Medidas de posicióniii. Medidas de dispersióniv.iv. Variable tipificadaVariable tipificadav. Medidas de formavi. Medidas de concentración

Tema 2 29

2.3. Descripción numérica: variable tipificada

Una variable está tipificada o estandarizada cuando su media vale cero y su varianza uno.Dada una variable X con media y desviación típica . Si definimos la variable Z como

Entonces Z es la variable tipificada de X, ya queMedia (Z) = 0Varianza (Z) = 1

µ σ

xz µσ−

=

Tema 2 30

Tema 2: Descripción Univariante

1. Notación y tabulación

2. Descripción gráfica

3.3. Descripción numéricaDescripción numéricai. Momentos estadísticosii. Medidas de posicióniii. Medidas de dispersióniv. Variable tipificadav.v. Medidas de formaMedidas de formavi. Medidas de concentración

Tema 2 31

MEDIDAS DE ASIMETRÍAMediante un gráfico se determina si la distribución de frecuencias es o no simétrica. (Eje = media aritmética)

Distribución simétrica:Existe el mismo número de valores (equidistantes 2 a 2 y con la misma frecuencia) a ambos lados del ejeDistribución asimétrica a la derecha:Tiene mayor número de valores a la derecha que a la izquierda del eje

Distribución asimétrica a la izquierda:Tiene mayor número de valores a la izquierda que a la derecha del eje

2.3. Descripción numérica: medidas de forma

xMeMo ==

xMeMo <<

MoMex <<

Tema 2 32

Coeficiente de Asimetría de Fisher

γ1 = 0 m3 = 0 Distribución simétricaγ1 > 0 m3 > 0 Distribución asimétrica derechaγ1 < 0 m3 < 0 Distribución asimétrica izquierda

Coeficiente de Asimetría de Pearson

Ap = 0 Distribución simétricaAp > 0 Distribución asimétrica derechaAp < 0 Distribución asimétrica izquierda

( )

( )2

3

1

2

1

3

33

1

1

−==

=

=

k

i

ii

k

iii

x

Nnxx

nxxN

Smγ

px

x MoAS−

=

Tema 2 33

MEDIDAS DE APUNTAMIENTO O CURTOSIS

Estudian el grado de concentración de los valores en torno a la media aritmética.

γ2 = 0 Mesocúrticaγ2 > 0 Leptocúrticaγ2 < 0 Platicúrtica

( )

( )3

1

32

4

1

2

1

4

44

2 −

−=−=

=

=

k

i

ii

k

iii

x

Nnxx

nxxN

Smγ

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41

Leptocúrtica

Platicúrtica

Mesocúrtica

x

Tema 2 34

Tema 2: Descripción Univariante

1. Notación y tabulación

2. Descripción gráfica

3.3. Descripción numéricaDescripción numéricai. Momentos estadísticosii. Medidas de posicióniii. Medidas de dispersióniv. Variable tipificadav. Medidas de formavi.vi. Medidas de concentraciónMedidas de concentración

Tema 2 35

Tratan de ver el grado de igualdad en el reparto de los valores de una variable.

Dos casos extremos:a. Concentración máxima (Mínima equidad): Un único

individuo posee el total de la variable.b. Concentración mínima (Máxima equidad): Todos los

individuos poseen la misma cantidad de la variable.

Para su estudio hay 2 medidas, una analítica y otra gráfica.

2.3. Descripción numérica: medidas de concentración

Tema 2 36

ÍNDICE DE GINIMedida analítica o cuantitativa del grado de concentración.

pi = proporción de individuos con un valor que xi

qi = proporción del total de la variable que se ha repartido hasta xi

Máxima equidad (mínima concentración): IG = 0Mínima equidad (máxima concentración): IG = 1

( )1

11

11

100

100

ki

ii ii

G iki

i i t titi k

Npp qNI

q n xp µ µµ

=−

==

=− = ⇐ = ⇐ =

∑∑

Tema 2 37

CURVA DE LORENZ

Medida gráfica del grado de concentración. En un eje cartesiano representamos los pares de valores (pi, qi) correspondientes a cada xi, una vez que la variable ha sido previamente ordenada de menor a mayor.

0

20

40

60

80

1000 10 20 30 40 50 60 70 80 90 100

Pi (%)

Qi (

%)

Máxima equidad

Casos más desfavorables

top related