m´etodos estad´ısticos multivariadosmatriz: arreglo rectangular o cuadrado de nu´meros o...

168
Introducci´ on ´ Algebra lineal y el software R Estad´ ıstica descriptiva Estad´ ıstica inferencial Evaluaci´ on etodos Estad´ ısticos Multivariados M. Lucini y P. Tandeo UNNE FaCENA Febrero 2011 UNNE etodos Estad´ ısticos Multivariados Febrero 2011 1/ 168

Upload: others

Post on 15-Mar-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Metodos Estadısticos Multivariados

M. Lucini y P. Tandeo

UNNEFaCENA

Febrero 2011

UNNE Metodos Estadısticos Multivariados Febrero 2011 1/ 168

Page 2: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

Plan

1 Introduccion¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

2 Algebra lineal y el software R

3 Estadıstica descriptiva

4 Estadıstica inferencial

5 Evaluacion

UNNE Metodos Estadısticos Multivariados Febrero 2011 2/ 168

Page 3: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

Introduccion¿Que es estadıstica?

Estadısticas son matematicas aplicadas:

calculo de matriz:

resolucion de sistemas de ecuaciones linealesdescomposicion en valores singulares

conocimiento de las funciones basicas:

busqueda del mınimocalculo integral

probabilidad:

leyes estadısticastest estadısticos

Interes en todas las ciencias:

porque...

UNNE Metodos Estadısticos Multivariados Febrero 2011 3/ 168

Page 4: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

IntroduccionEstadısticas en todos lados

Medicina

Fısica

Biologıa

Ecologıa

Informatica

Ciencias sociales

Finanzas

Seguros

Estadısticas son importantes para ustedes:

conocer la teorıa basicautilizar software de estadısticaen una publicacion:

entender los metodoshacer su estudio

UNNE Metodos Estadısticos Multivariados Febrero 2011 4/ 168

Page 5: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

IntroduccionEjemplo en medicina

Datos:

16.000 personas HIV-negativas entre 18 y 30 anos en Tailandiaen 2003:

8000 personas con una vacuna (grupo A)8000 personas con placebo (grupo B)

3 anos despues (2006):

Grupo A Grupo B

Con HIV 51 74Sin HIV 7949 7926

Proporcion de HIV γA = 0.0064 γB = 0.0092Pregunta:

¿el efecto de la vacuna es significativo?¿la diferencia viene del azar?

UNNE Metodos Estadısticos Multivariados Febrero 2011 5/ 168

Page 6: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

IntroduccionEjemplo en medicina

Metodo estadıstico:

test de proporcionχ2-test

Hipotesis de test:

H0 : γA = γB

H1 : γA 6= γB

Resultados:

hay un efecto de la vacuna contra el HIV...con 4.8% de riesgo de error

UNNE Metodos Estadısticos Multivariados Febrero 2011 6/ 168

Page 7: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

IntroduccionEjemplo en oceanografıa

Figure: Ejemplo de geoestadıstica: interpolacion espacial y temporal deimagen de satelites de la temperatura del marUNNE Metodos Estadısticos Multivariados Febrero 2011 7/ 168

Page 8: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

IntroduccionEjemplo en ecologıa

Figure: Datos de temperatura media en Brest (Francia) entre 1975 y2005 y una prediccion hasta 2100 (rojo)UNNE Metodos Estadısticos Multivariados Febrero 2011 8/ 168

Page 9: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

Introduccion¿Que son datos multivariados?

Ahora:

gran cantidad de informaciontodo esta grabado

Se necesita un tratamiento estadıstico:

resumir la informacionextraer la informacion importantetomar la decision

UNNE Metodos Estadısticos Multivariados Febrero 2011 9/ 168

Page 10: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

IntroduccionVocabulario

individuos Variable 1 · · · Variable j · · · Variable p

1...

......

i · · · · · · xi ,j...n

Table: Representacion esquematica de una tabla de datos multivariados

n: numero de individuosp: numero de variablesxi ,j : respuesta de un individuo i a la variable j

UNNE Metodos Estadısticos Multivariados Febrero 2011 10/ 168

Page 11: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

IntroduccionEjemplo 1

Descripcion de los datos:

n = 26 individuos (paıses)p = 10 variables (indicadores demograficos)

cf. Population Reference Bureau (http://www.prb.org/)

Country Birth rate (h) Death rate (h) · · · Urban population

Afghanistan 47 21 6384000

Albania 13 6 1443000

Algeria 22 4 21962000

Argentina 19 8 36324000

...

Zimbabwe 31 21 5024000

Table: Ejemplo 1 de datos multivariadosUNNE Metodos Estadısticos Multivariados Febrero 2011 11/ 168

Page 12: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

IntroduccionEjemplo 2

Descripcion de los datos:

n = 507 individuos (personas)p = 24 variables (indicadores del cuerpo)

cf.http://www.sci.usq.edu.au/staff/dunn/Datasets/application

Person Chest depht (cm) Shoulder girth (cm) · · · Age Weight (kg)

1 17.7 106.2 21 65.6

2 16.9 110.5 23 71.8

...

506 15.5 107.1 33 66.4

507 20.4 100.5 38 67.3

Table: Ejemplo 2 de datos multivariadosUNNE Metodos Estadısticos Multivariados Febrero 2011 12/ 168

Page 13: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

IntroduccionEjemplo 3

Descripcion de los datos:

n = 60 individuos (gasolinas)p = 402 variables (respuestas a 401 longitudes de onda -numero de octano)

cf. www.jstatsoft.org/v18/i02/paper

Gasoline 900 nm 902 nm · · · 1700 nm Octane number

1 −0.050 −0.046 1.221 85.30

2 −0.044 −0.040 1.200 85.25

...

59 −0.056 −0.051 1.155 89.60

60 −0.059 −0.053 1.164 87.10

Table: Ejemplo 3 de datos multivariadosUNNE Metodos Estadısticos Multivariados Febrero 2011 13/ 168

Page 14: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

IntroduccionPreguntas

Extraer y sintetizar las variables pertinentes:

ej 1 ⇁ ¿hay indicadores similares?ej 2 ⇁ ¿hay indicadores de cuerpo similares?ej 3 → ¿hay respuestas de ondas parecidas?

Hacer grupos de individuos similares:

ej 1 → ¿hay paıses similares?ej 2 → ¿hay personas similares?ej 3 → ¿hay gasolina similares?

Modelar una variable en funcion de otras variables:

ej 1 → ¿podemos explicar la tasa de mortalidad?ej 2 → ¿podemos explicar el peso de una persona?ej 3 → ¿podemos predecir el numero de octanos conociendolas respuestas a las ondas?

UNNE Metodos Estadısticos Multivariados Febrero 2011 14/ 168

Page 15: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

IntroduccionObjetivos

Obtener datos:

recolectar informacionutilizar datos existentes

Estadıstica descriptiva:

cf. Capıtulo 3presentar los datos(dimension, unidades, fuente)extraer informacion:

resumenes numericosestudios univariados,bivariados y multivariadoshacer grupos de individuos(clasificacion)

Estadıstica inferencial:

cf. Capıtulo 4crear un modelohacer test estadısticospredecir con nuevos datos

Presentar resultados claros:

cf. Capıtulo 5presentacion oralinforme con graficos y tablas

Utilizar un software estadıstico:

software Rgratis

UNNE Metodos Estadısticos Multivariados Febrero 2011 15/ 168

Page 16: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

IntroduccionTipo de datos

Real o numeros:

valores realesej: estatura (cm), edad

Binario:

m = 2 modalidadesej: sexo (masculino o femenino)

Multimodalidades:

m > 2 modalidadesej: situacion (soltero, casado, divorciado o viudo)

UNNE Metodos Estadısticos Multivariados Febrero 2011 16/ 168

Page 17: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

IntroduccionTipo de relacion, de modelo y de hipotesis

Relacion entre variables:

lineal

no lineal

Modelo:

parametrico

no parametrico

Hipotesis de los errores:

Gaussiana: ε ∼ N(

µ, σ2)

otra ley

UNNE Metodos Estadısticos Multivariados Febrero 2011 17/ 168

Page 18: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

IntroduccionEvaluacion del curso

Crear grupos de 2 o 3 alumnos

Buscar datos interesantes:

sus datosdatos de internet

Hacer una pequena presentacion:

presentar sus datos a la claseintercambio de ideas, discutir de los datos

Hacer un informe de 10 paginas:

extraer problematicasincluir figuras, tablas y modelosinterpretar

Para obtener mas informacion: cf. Capıtulo 5

UNNE Metodos Estadısticos Multivariados Febrero 2011 18/ 168

Page 19: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa

IntroduccionBibliografıa

Curso:

demostracionmas informacion, ejemplos, ejercicios“All of statistics”, A Concise Course in Statistical Inference, L.Wasserman, Springer, 2004“Analisis de Datos Multivariados”, D.Pena, McGraw Hills,Interamericana de Espana, 2002

R software:

funciones basicasejemplos“Introductory Statistics with R”, P. Dalgaard, Springer, 2002

UNNE Metodos Estadısticos Multivariados Febrero 2011 19/ 168

Page 20: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Plan

1 Introduccion

2 Algebra lineal y el software RDefiniciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

3 Estadıstica descriptiva

4 Estadıstica inferencial

5 Evaluacion

UNNE Metodos Estadısticos Multivariados Febrero 2011 20/ 168

Page 21: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealDefiniciones Basicas

Escalar: cualquier numero real. Notacion: a

Matriz: Arreglo rectangular o cuadrado de numeros o variablesdispuestos en filas o columnas. Se dice que una matriz es detamano n × p si tiene n filas y p columnas.

A = (aij ) =0

@

a11 a12

a21 a22

a31 a32

1

A

A matriz rectangular de tamano 3 × 2,

aij es un elemento general de la matriz A.

Vector: Matriz compuesta por solo una columna (o fila).

Notacion: x =

x1

x2

x3

o bien x′ = (x1, x2, x3)

UNNE Metodos Estadısticos Multivariados Febrero 2011 21/ 168

Page 22: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealEjemplo

La siguiente tabla muestra las temperaturas medias (en Co) decada mes de algunas ciudades de Argentina durante el ano 2010:

Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov DicCorrientes 27.1 27.8 25.4 20.7 16.2 15.7 14.6 15.3 18.3 19.9 22.4 25.3Formosa 27.8 29.0 26.5 22.0 16.8 17.2 15.2 16.7 19.7 21 23.1 26.6Posadas 27.3 28.0 26.2 21.8 17.4 17.3 16 17.2 19.7 20.9 23.7 26.0Resistencia 27.2 27.9 25.4 20.6 15.8 15.4 14.2 15.0 18.3 19.7 22.3 25.5

UNNE Metodos Estadısticos Multivariados Febrero 2011 22/ 168

Page 23: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealEjemplo

x′ = (27.1, 27.8, 25.4, 20.7, 16.2, 15.7, 14.6, 15.3, 18.3, 19.9, 22.4, 25.3) es el vectorcuyos elementos son las temperaturas medias mensuales de la ciudad de Corrientesdurante el ano 2010

x6 = 15.7 es la media de la ciudad de Corrientes en el mes de junio de 2010.

A =0

B

B

@

27.1 27.8 25.4 20.7 16.2 15.7 14.6 15.3 18.3 19.9 22.4 25.327.8 29.0 26.5 22.0 16.8 17.2 15.2 16.7 19.7 21 23.1 26.627.3 28.0 26.2 21.8 17.4 17.3 16 17.2 19.7 20.9 23.7 26.027.2 27.9 25.4 20.6 15.8 15.4 14.2 15.0 18.3 19.7 22.3 25.5

1

C

C

A

La matriz A contiene las temperaturas promedio mensuales (2010) de las ciudades deCorrientes, Resistencia, Formosa y Posadas.

UNNE Metodos Estadısticos Multivariados Febrero 2011 23/ 168

Page 24: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealIgualdad de matrices y vectores

Dos matrices A = (aij) y B = (bij) son iguales si:

son del mismo tamano

aij = bij , ∀i , j

La transpuesta de una matriz A = (aij) se denota por A′ y seobtiene intercambiando filas y columnas. Ademas (A′)′ =A.

Sea A =

(

1 2 34 5 6

)

A ′ =

1 42 53 6

Una matriz cuadrada A es simetrica si A=A′.

UNNE Metodos Estadısticos Multivariados Febrero 2011 24/ 168

Page 25: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealOperaciones - Adicion

Sean A y B matrices del mismo tamano (n × p)

A+B=C= (cij) = (aij + bij) y C es de tamano n × p.

A−B=C= (cij) = (aij − bij) y C es de tamano n × p.

Propiedades:

A+B=B+A.

(A+B)′ =A′+B′.

Las suma (resta) de vectores se define en forma similar y valen lasmismas propiedades.

UNNE Metodos Estadısticos Multivariados Febrero 2011 25/ 168

Page 26: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealOperaciones - Producto

Si A y B son matrices el producto AB esta definido cuando A y Bson“conformables”: no columnas de A = no filas de B.Si A es n × m, B es m × p ⇒ C=AB es n × p y cij =

∑mk=1 aikbkj .

Ejemplo:A =

0

@

1 2 3 43 4 5 64 5 6 7

1

A

B =

0

B

B

@

2 46 81 35 7

1

C

C

A

AB =0

@

1 · 2 + 2 · 6 + 3 · 1 + 4 · 5 1 · 4 + 2 · 8 + 3 · 3 + 4 · 73 · 2 + 4 · 6 + 5 · 1 + 6 · 5 3 · 4 + 4 · 8 + 5 · 3 + 6 · 74 · 2 + 5 · 6 + 6 · 1 + 7 · 5 4 · 4 + 5 · 8 + 6 · 3 + 7 · 7

1

A

AB =

0

@

37 5765 10179 123

1

A

UNNE Metodos Estadısticos Multivariados Febrero 2011 26/ 168

Page 27: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealPropiedades

En general,

AB 6= BA

A(B + C) = AB + AC

A(B − C) = AB − AC

(A + B)C = AC + BC

(A − B)C = AC − BC

(AB)′ = B′A′

ABC = A(BC) = (AB)C

b escalar, bA = Ab

UNNE Metodos Estadısticos Multivariados Febrero 2011 27/ 168

Page 28: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealRango de matriz

Sean x1, x2, ..., xn vectores de la misma longitud.Se dice que los xi son linealmente dependientes (l.d) si existenconstantes c1, ..., cn, (no todas nulas) tales que

c1x1 + c2x2 + ... + cnxn = 0

Caso contrario los xi son linealmente independientes (l.i)

rango(A) = numero de filas l.i de la matriz A= numero de columnas l.i de la matriz A

Si A es n × p ⇒ rango(A) ≤ min(n, p)Si rangoA = min(n, p) se dice que A es de rango completo.

UNNE Metodos Estadısticos Multivariados Febrero 2011 28/ 168

Page 29: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealMatriz inversa

Si A matriz cuadrada y de rango completo se dice que A es nosingular y existe una unica matriz inversa de A, denotada por A−1,que satisface:

AA−1 = A−1A = I

con I matriz identidad.

La inversa de una matriz A no existe si:

A es cuadrada pero no es de rango completo (A es singular)

A no es cuadrada

UNNE Metodos Estadısticos Multivariados Febrero 2011 29/ 168

Page 30: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealPropriedades y definiciones

Propiedades

A,B no singulares y del mismo tamano

(AB)−1 = B−1A−1

(A′)−1 = (A−1)′

Definiciones

A matriz cuadradaLa traza de A es tr(A) =

∑ni=1 aii y vale que:

tr(A + B) = tr(A)+tr(B)tr(AB) = tr(BA)

Si ademas A es simetrica y x′Ax > 0,∀x 6= 0 se dice que A esdefinida positivaSi A es simetrica, x′Ax ≥ 0,∀x 6= 0 se dice que A es definidasemipositiva

UNNE Metodos Estadısticos Multivariados Febrero 2011 30/ 168

Page 31: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealDeterminante

Si A = (aij) matriz n × n,

det(A) =

n∑

j=1

aij(−1)i+jmij

mij = determinante de la matriz de orden n − 1 que resulta deeliminar la fila i y la columna j de la matriz A

UNNE Metodos Estadısticos Multivariados Febrero 2011 31/ 168

Page 32: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealPropiedades del determinante

c escalar, det(cA) = cndet(A)

A,B ambas n × n , det(AB) = det(A)det(B).

A singular ⇒ det(A) = 0

A no singular ⇒ det(A) 6= 0 y det(A−1) = (det(A))−1

A positiva definida ⇒ det(A) > 0

det(A′) = det(A)

UNNE Metodos Estadısticos Multivariados Febrero 2011 32/ 168

Page 33: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealOrtogonalidad

x, y vectores son ortogonales si x′y = 0.

Si x′x = 1 se dice que x esta normalizado. x puede“normalizarse”haciendo x√

x′x

C matriz es ortogonal si sus columnas (o filas) (c1, ...cn)satisfacen c′icj = 0,∀i 6= j y c′ici = 1.

En tal caso se satisface C′C = I = CC′, por lo tanto:

Si C es una matriz ortogonal ⇒ C−1 = C′

UNNE Metodos Estadısticos Multivariados Febrero 2011 33/ 168

Page 34: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealAutovalores y autovectores de una matriz

Sea A matriz cuadrada. Existen λ ∈ IR y x vector tales que

Ax = λx

λ es un autovalor (eigenvalor, vector propio) de A y x es unautovector(eigenvector, vector propio) de A correspondiente alautovalor λ.Para encontrarlos debe resolverse A − λx = 0, o equivalentementela ecuacion caracterıstica

det(A − λI) = 0

.

UNNE Metodos Estadısticos Multivariados Febrero 2011 34/ 168

Page 35: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealEjemplo

Para encontrar losautovalores yautovectores de

A =

(

1 2−1 4

)

debe resolverse laecuacion

0 = det(A − λI)

= det

(

1 − λ 2−1 4 − λ

)

Esto es,0 = (1−λ)(4−λ) + 2 = λ2 − 5λ + 6

UNNE Metodos Estadısticos Multivariados Febrero 2011 35/ 168

Page 36: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealEjemplo

Se resuelve 0 = λ2 − 5λ + 6 = (λ − 3)(λ − 2) y resultanλ1 = 3, λ2 = 2.El autovector correspondiente al autovalor λ1 = 3 se encuentraresolviendo el sistema

0 = (A − λ1I)x =

(

1 − 3 2−1 4 − 3

)(

x1

x2

)

−2x1 + 2x2 = 0−x1 + x2 = 0

⇒ x1 = x2 ⇒(

x1

x2

)

= c

(

11

)

UNNE Metodos Estadısticos Multivariados Febrero 2011 36/ 168

Page 37: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealEjemplo

Analogamente para λ2 = 2 resulta:

0 = (A − 2I)x =

(

1 − 2 2−1 4 − 2

)(

x1

x2

)

−x1 + 2x2 = 0−x1 + 2x2 = 0

⇒ x1 = 2x2 ⇒(

x1

x2

)

= c

(

21

)

Se puede elegir c tal que x ′i xi = 1, ası para λ1 = 3 el autovector

asociado de norma 1 es x1 = (1/√

2, 1/√

2), para λ2 = 2 elautovector asociado de norma 1 es x2 = (2/

√5, 1/

√5).

UNNE Metodos Estadısticos Multivariados Febrero 2011 37/ 168

Page 38: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealDescomposicion espectral

Observaciones

Sea λ autovalor de A y x autovector asociado, entonces 1 + λes autovalor de I + A, 1 − λ es autovalor de I − A. En amboscasos x sigue siendo el autovector correspondiente.

A matriz cuadrada con autovalores λ1, λ2, ..., λn entonces:tr(A) =

∑n

i=1 λi

det(A) =∏n

i=1 λi

A positiva definida ⇒ sus autovalores son todos positivos.

A semidefinida positiva ⇒ sus autovalores son todos mayoreso iguales a cero, el no de autovalores no nulos = rango(A).

A n × n y simetrica, ⇒ sus autovectores son todosmutuamente ortogonales.

UNNE Metodos Estadısticos Multivariados Febrero 2011 38/ 168

Page 39: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealDescomposicion espectral

Sea C la matriz cuadrada cuyas columnas son los autovectores(normalizados) de una matriz simetrica A. C es simetrica (yortogonal) y ademas:

A = CDC′ es la descomposicion espectral de A

donde D =

λ1 0 ... 00 λ2 ... 0

0 0 ... λn

con λi autovalores de A y

λ1 ≥ λ2 ≥ ... ≥ λn.

UNNE Metodos Estadısticos Multivariados Febrero 2011 39/ 168

Page 40: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Algebra LinealOtras descomposiciones

Si A tiene autovalores λ1, ..., λn con autovectores x1, ..., xn

A2 tiene autovalores λ21, ..., λ

2n y autovectores x1, ..., xn. Si

ademas A es simetrica ⇒ A2 = CD2C′,D2 = diag(λ2

1, ..., λ2n)

.

Si A es no singular, entonces A−1 tiene autovalores1/λ2

1, ..., 1/λ2n y autovectores x1, ..., xn. Si ademas A es

simetrica ⇒ A−1 = CD−1C′,D−1 = diag(1/λ1, ..., 1/λn)

Si A positiva definida ⇒ A1/2 = CD1/2C′

con C matriz cuyas columnas son los autovectores de Anormalizados.

UNNE Metodos Estadısticos Multivariados Febrero 2011 40/ 168

Page 41: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Introduccion a RCurso

cf. cursoR.pdf

Material impreso ya entregado

UNNE Metodos Estadısticos Multivariados Febrero 2011 41/ 168

Page 42: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Introduccion a REjercicio 1: Algebra

1 Crear la matriz A =

2 1 13 7 51 1 1

2 Calcular el determinante y la traza de la matriz A

3 ¿Existe la inversa de la matriz A?

4 Compute autovectores y autovalores de la matriz A

Funciones que puede utilizar: matrix(), det(), t(), sum(),diag(), solve(), eigen().

UNNE Metodos Estadısticos Multivariados Febrero 2011 42/ 168

Page 43: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Introduccion a REjercicio 2: Manipulacion de datos

En el archivo marambio 2007.dat estan guardadas las temperaturaspronosticadas por 5 modelos climaticos para las 12UTM en la baseantartica de Marambio en un determinado perıodo de 2007.

1 Lea el archivo y guardelo como data.frame

2 Los nombres de los modelos climaticos en cuestion son los nombresde las variables del data.frame. ¿Cuales son?

3 Para que perıodo se registraron esos pronosticos?

4 Calcule la temperatura promedio de ese perıodo para cada uno delos modelos climaticos involucrados.

5 Calcular temperaturas maximas y mınimas para el modelo CMAM.

6 Calcular medianas de las variables CMAM y UKMO.

UNNE Metodos Estadısticos Multivariados Febrero 2011 43/ 168

Page 44: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R

Introduccion a REjercicio 3: Graficos

1 En una misma ventana grafique las temperaturaspronosticadas por los cuatro modelos climaticos del ejercicioanterior, asignando un color distinto a cada modelo yrepresentando las mismas por puntos unidos por lineas depuntos. En el eje de las ordenadas coloque el nombreTemperatura, y como tıtulo“Marambio, 01/10/07 a31/12/07”)

2 Separe el dispositivo grafico en 4 ventanas y grafique en cadauna de ellas las temperaturas para 4 de los modelos.

UNNE Metodos Estadısticos Multivariados Febrero 2011 44/ 168

Page 45: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Plan

1 Introduccion

2 Algebra lineal y el software R

3 Estadıstica descriptivaEstadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsAgrupamientoEjercicios

4 Estadıstica inferencial

5 Evaluacion

UNNE Metodos Estadısticos Multivariados Febrero 2011 45/ 168

Page 46: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaDefiniciones Basicas

Sea x1, . . . , xn una muestra aleatoria y representativa de n

observaciones (realizaciones) de la variable aleatoria x de media µy desviacion estandar σ.

UNNE Metodos Estadısticos Multivariados Febrero 2011 46/ 168

Page 47: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaMedidas de Tendencia Central

Media muestral: Promedio aritmetico: x =∑n

i=1 xi .

Mediana muestral: Valor que divide a la distribucion en dos partesiguales, cada una de las cuales contiene el 50% de los datos.Deben ordenarse lo datos de menor a mayor,

n es impar ⇒ x es el dato que ocupa el lugar (n + 1)/2.

Si n es par ⇒ x es el promedio entre los datos que ocupan loslugares n/2 y (n/2) + 1

Moda: Observacion que mas se repite.

UNNE Metodos Estadısticos Multivariados Febrero 2011 47/ 168

Page 48: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaMedidas de Posicion

Observaciones ordenadas de menor a mayor.Cuantiles: Son ciertos valores del conjunto de observaciones quepermiten dividirlo en partes iguales. Los cuantiles mas usados son:los Cuartiles (Q), los Deciles (D) y los Percentiles (P).

Cuartiles(Q): dividen el conjunto de observaciones en cuatro partesiguales, cada una de las cuales contiene un cuarto(25%) de lainformacion. Se denotan Q1, Q2 , Q3 , Q4.

UNNE Metodos Estadısticos Multivariados Febrero 2011 48/ 168

Page 49: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica descriptivaMedidas de Dispersion muestrales

Valores numericos que nos dan informacion sobre cuan esparcidos oconcentrados se encuentran los datos.

Rango intercuartılico = Q3 − Q1. Indica la amplitud del intervalodonde se encuentra el 50% de las observaciones.

Desviacion Estandar (s): Da informacion sobre como varıan los

datos respecto a la media s =√

Pni=1(xi−—x)2

n−1

Varianza,Var = s2

UNNE Metodos Estadısticos Multivariados Febrero 2011 49/ 168

Page 50: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaGraficos

Histograma: Grafico para datos agrupados.

Sobre el eje de las abcisas se levantan rectangulos cuya basees la longitud de los intervalos de clase.

Altura de cada rectangulo (sobre el eje de las ordenadas) estal que el area del rectangulo sea proporcional a la frecuenciadel intervalo.

Intervalos de igual amplitud ⇒ la altura suele corresponder ala frecuencia del intervalo.

UNNE Metodos Estadısticos Multivariados Febrero 2011 50/ 168

Page 51: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica Descriptiva

Boxplot: Grafico en forma de rectangulo(caja) construido en basea solamente cinco numeros que resumen los datos.

La altura del rectangulo: rango intercuartılico. Base inferior:Q1, base superior: Q3, lınea a la altura de la mediana (Q2).

Se calcula 1.5 * Rango intercuartılico, se dibuja una lıneavertical desde la mitad de la parte superior (inferior) delrectangulo hasta la mayor (menor) observacion que seencuentre entre ese extremo de la caja y 1.5 * Rangointercuartılico.

Las observaciones que caen fuera de esos “bigotes” serepresentan con cırculos rellenos si estan a una distanciamayor a 3* Rango intercuartılico, o por cırculos sin rellenar encaso contrario.

UNNE Metodos Estadısticos Multivariados Febrero 2011 51/ 168

Page 52: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaEjemplo:

Datos: Usaremos el conjunto iris (disponible en R).

p = 5 Variables: largo y ancho de sepalo

(Sepal.Length, Sepal. Width), largo y ancho de

petalo (Petal.Length, Petal.Width) para flores de

tres especies de iris (Species): setosa,

versicolor y virginica.

n = 150 individuos (50 por cada especie)

UNNE Metodos Estadısticos Multivariados Febrero 2011 52/ 168

Page 53: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica Descriptiva

Sepal.Length Sepal.Width Petal.Length Petal.Width Species1 5.1 3.5 1.4 0.2 setosa2 4.9 3.0 1.4 0.2 setosa3 4.7 3.2 1.3 0.2 setosa4 4.6 3.1 1.5 0.2 setosa5 5.0 3.6 1.4 0.2 setosa...

......

......

...148 6.5 3.0 5.2 2.0 virginica149 6.2 3.4 5.4 2.3 virginica150 5.9 3.0 5.1 1.8 virginica

virginica = iris[iris$Species =="virginica",1:4]

versicolor = iris[iris$Species =="versicolor",1:4]

setosa = iris[iris$Species =="setosa",1:4]

>summary(versicolor[,3])

Min. 1st Qu. Median Mean 3rd Qu. Max.

3.00 4.00 4.35 4.26 4.60 5.10

UNNE Metodos Estadısticos Multivariados Febrero 2011 53/ 168

Page 54: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica Descriptiva

3.03.54.04.55.0

Iris

Ver

sico

lor

Iris

Ver

sico

lor

Long

itud

de p

etal

o

Frecuencia

3.0

3.5

4.0

4.5

5.0

0246810

UNNE Metodos Estadısticos Multivariados Febrero 2011 54/ 168

Page 55: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaCaso Bivariado

Se miden dos variables x , y sobre un mismo individuo ⇒ v.a.bivariada (x , y)

3.0

3.5

4.0

4.5

5.0

1.01.21.41.61.8

Iris

Ver

sico

lor

peta

l.len

gth

petal.width

UNNE Metodos Estadısticos Multivariados Febrero 2011 55/ 168

Page 56: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaCaso Bivariado

Covarianza poblacional:cov(x, y) = σxy = E((x − µx)(y − µy)) = E(xy) − µxµy

Si x e y son v.a. independientes ⇒ σxy = 0 (la recıproca no escierta)

Covarianza muestral: sxy =Pn

i=1(xi−x)(yi−y)n−1 =

Pni=1 xiyi−nx y

n−1

Si sxy = 0 ⇒ x ey son ortogonales.Covarianza depende de la escala de medicion de x e y ⇒dificultad en comparar covarianzas entre distintos pares devariables.

UNNE Metodos Estadısticos Multivariados Febrero 2011 56/ 168

Page 57: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaCaso Bivariado

Correlacion Poblacional

ρxy = corr(x, y) =σxy

σxσy

Correlacion Muestral

rxy =sxy

sx sy=

∑ni=1(xi − x)(yi − y)

√∑n

i=1(xi − x)2∑n

i=1(yi − y)2

−1 ≤ ρxy ≤ 1,−1 ≤ rxy ≤ 1

rxy solo mide el grado de relacion lineal entre dos variables.

Si x = Petal.Length e y = Petal.Width de la especie Versicolor,

sxy = 0.073, rxy = 0.787

UNNE Metodos Estadısticos Multivariados Febrero 2011 57/ 168

Page 58: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaDatos Multivariados

Sea x un vector aleatorio de p variables medidas sobre n

individuos. Los n vectores de observaciones, x1, x2, . . . , xn , sedenotan xi = (xi1, . . . , xip)

′.

La matriz de datos X se conforma haciendo:

X =

x′1x′2...x′i...

x′n

=

x11 x12 · · · x1j · · · x1p

x21 x22 · · · x2j · · · x2p...

......

...xi1 xi2 · · · xij · · · xip

......

......

xn1 xn2 · · · xnj · · · xnp

UNNE Metodos Estadısticos Multivariados Febrero 2011 58/ 168

Page 59: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaDatos Multivariados: Medidas de Tendencia Central

El vector Media Muestral es x = (x1, x2, . . . , xp)′

Equivalentemente x′ = 1n

j′X

donde j′ = (1, 1, . . . , 1)

El vector Mediana Muestral es x = (x1, x2, . . . , xp)′

UNNE Metodos Estadısticos Multivariados Febrero 2011 59/ 168

Page 60: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica descriptivaDatos Multivariados: Matriz de Covarianza

La Matriz de covarianza muestral S es la matriz (p × p) devarianzas y covarianzas muestrales

S = (sjk) =

s11 s12 · · · s1ns21 s22 · · · s2n...

......

sp1 sp2 · · · spp

diag(S) formada por lasvarianzas de las p

variables en estudio.

Todas las posiblescovarianzas de a paresocupan el resto de lamatriz.

S es simetrica,semidefinida positiva⇒ tr(S) ≥ 0,det(S) ≥ 0.

UNNE Metodos Estadısticos Multivariados Febrero 2011 60/ 168

Page 61: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaMatriz de Correlacion

La Matriz de correlacion muestral S es la matriz (p × p)

R = (rjk) =

1 r12 · · · r1nr21 1 · · · r2n...

......

rp1 rp2 · · · 1

Si DS = diag(√

s11,√

s22, . . . ,√

spp) ⇒ R = D−1S SD−1

S

UNNE Metodos Estadısticos Multivariados Febrero 2011 61/ 168

Page 62: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaDatos Multivariados - Medidas globales de variabilidad

Supongamos variables se miden en las mismas unidades o sonadimensionales (porcentajes, proporciones, etc)

1 Variabilidad total T = tr(S) =∑p

i=1 s2i2 Varianza total generalizada = det(S)

Variabilidad total ignora la estructura de covarianzas ⇒ noinforma sobre la estructura de dependencia entre variables

Varianza total generalizada es una medida del hipervolumenocupado por el conjunto de datos. Si es 0 indica que existeuna relacion lineal exacta entre las variables y el conjunto dedatos ocupa un subespacio de, a lo mas, dimension p − 1.

UNNE Metodos Estadısticos Multivariados Febrero 2011 62/ 168

Page 63: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaDatos Multivariados-Distancias

Distancia Eucıdea:√

(xi − xj)′(xi − xj).Problema:Fuertemente dependiente de las unidades demedida.

Familia de Distancias Euclıdeas Ponderadas:dij =

[

(xi − xj)′M−1(xi − xj)

]1/2con M matriz utilizada para

estandarizar las variables.

Distancia de Mahalanobis: di =[

(xi − x)′S−1(xi − x)]1/2

.

UNNE Metodos Estadısticos Multivariados Febrero 2011 63/ 168

Page 64: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaDatos Multivariados - Ejemplo

> summary(setosa)Sepal.Length Sepal.Width Petal.Length Petal.WidthMin. :4.300 Min. :2.300 Min. :1.000 Min. :0.100

1st Qu.:4.800 1st Qu.:3.200 1st Qu.:1.400 1st Qu.:0.200Median :5.000 Median :3.400 Median :1.550 Median :0.200

Mean :5.006 Mean :3.428 Mean :1.462 Mean :0.2463rd Qu.:5.200 3rd Qu.:3.675 3rd Qu.:1.575 3rd Qu.:0.300

Max. :5.800 Max. :4.400 Max. :1.900 Max. :0.600

x = (5.006, 3.428, 1.462, 0.246), x = (5.0, 3.4, 1.5, 0.2)

UNNE Metodos Estadısticos Multivariados Febrero 2011 64/ 168

Page 65: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaMedidas de dispersion

cov(setosa) =

S =

0.12424898 0.09921633 0.016355102 0.0103306120.09921633 0.14368980 0.011697959 0.0092979590.01635510 0.01169796 0.030159184 0.0060693880.01033061 0.00929796 0.006069388 0.011106122

cor(setosa) = R =

1.0000000 0.7425467 0.2671758 0.27809840.7425467 1.0000000 0.1777000 0.23275200.2671758 0.1777000 1.0000000 0.33163000.2780984 0.2327520 0.3316300 1.0000000

UNNE Metodos Estadısticos Multivariados Febrero 2011 65/ 168

Page 66: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaGraficos

12

34

56

7

0.00.51.01.52.02.5

Iris

Ver

sico

lor,

Iris

Vir

gin

ica,

Iris

Set

osa

peta

l.len

gth

petal.width

vers

icol

orvi

rgin

ica

seto

sa

UNNE Metodos Estadısticos Multivariados Febrero 2011 66/ 168

Page 67: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

Intro

duccio

nAlg

ebra

linea

ly

elso

ftware

REsta

dıstica

descrip

tivaEsta

dıstica

inferen

cial

Eva

luacio

n

Esta

dıstica

Univaria

da

Caso

Bivaria

do

Dato

sM

ultivaria

dos

PCA

Bip

lots

Ejercicio

s

Esta

dıstica

Descrip

tivaGrafi

cos

setosa versicolor virginica

12

34

56

7

Especie

Long

itud

de P

etal

o

Iris Setosa

Long. de Petalo

Fre

cuen

cia

1.0 1.2 1.4 1.6 1.8

02

46

810

12

Iris Versicolor

Long. de Petalo

Fre

cuen

cia

3.0 3.5 4.0 4.5 5.0

02

46

810

Iris Virginica

Long. de Petalo

Fre

cuen

cia

4.5 5.0 5.5 6.0 6.5 7.0

02

46

8

UN

NE

Meto

dos

Esta

dıstico

sM

ultivaria

dos

Feb

rero2011

67/

168

Page 68: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaGraficos

Sep

al.L

engt

h

2.0

2.5

3.0

3.5

4.0

0.5

1.0

1.5

2.0

2.5

4.55.56.57.5

2.02.53.03.54.0

Sep

al.W

idth

Pet

al.L

engt

h

1234567

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

0.51.01.52.02.5

12

34

56

7

Pet

al.W

idth

UNNE Metodos Estadısticos Multivariados Febrero 2011 68/ 168

Page 69: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaEjercicios

Resolver ejercicios 1 y 2 al final de esta seccion.

UNNE Metodos Estadısticos Multivariados Febrero 2011 69/ 168

Page 70: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaReduccion de Dimensionalidad - PCA

Problema: Encontrar un espacio de dimension mas reducidaque represente adecuadamente los datos y brinde la mejorrepresentacion de la variabilidad y diversidad de los mismos.

Objetivos:

Reducir dimensionalidad describiendo las p variables de unamatriz X por un subconjunto (pequeno) r < p decombinaciones lineales de las variables originales.Describir patrones de correlacion entre las variablesinvolucradas.

UNNE Metodos Estadısticos Multivariados Febrero 2011 70/ 168

Page 71: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaReduccion de Dimensionalidad - PCA

Herramienta exploratoria: tecnica basada en una muestra parafacilitar descripcion de los datos.

Aplicaciones:

Descripcion e interpretacion de un conjunto de datos.Utilizada como tecnica de pre-procesamiento en diversasaplicaciones(agrupamiento, regresion, etc)Utilizada en distintas disciplinas (economıa, meteorologıa ,procesamiento de imagenes de teledeteccion, psicologıa, etc).

UNNE Metodos Estadısticos Multivariados Febrero 2011 71/ 168

Page 72: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaPCA

El Analisis de Componentes Principales (PCA) permite:

Analizar los individuos: Hacer particiones entre individuos aldetectar similaridades (distancia euclıdea) entre ellos respectoa algunas variables o combinaciones de las mismas

Analizar las variables: Se encuentran relaciones lineales entrelas variables por medio de la descomposicion de la matriz decorrelacion R (o bien S).

Pueden describirse grupos de individuos por las variables

UNNE Metodos Estadısticos Multivariados Febrero 2011 72/ 168

Page 73: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaPCA

Pasos de un PCA:

Seleccionar las variables (descartar categoricas, etc.)

Centrar las variables respecto a su media xk − xk . Esto nocambia la estructura de la nube de puntos.

Decidir si se van a estandarizar las variables o no. Si lasvariables tienen distintas unidades o magnitudes muy disımilesdeben estandarizarse.

Determinar el numero de componentes que se desean retener.

Si es necesario rotar componentes para mejorarintrepretabilidad

Interpretar resultados.

UNNE Metodos Estadısticos Multivariados Febrero 2011 73/ 168

Page 74: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaPCA

Primer componente principal es la dimension en la cual lasvariables estan mas dispersas(varianza maxima).

Segunda componente principal combinacion lineal con maximavarianza con direccion ortogonal a la primer componente.

...

Estas nuevas variables (PC) son no correlacionadas.

En lo que resta: Sea X, n × p matriz de observaciones.Supondremos variables x1, . . . , xp centradas respecto a sus medias.

UNNE Metodos Estadısticos Multivariados Febrero 2011 74/ 168

Page 75: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaPCA- Enfoque Geometrico

4.0

4.5

5.0

5.5

6.0

2.53.03.54.04.5

Set

osa

Sep

al.L

engt

h

Sepal.Width

UNNE Metodos Estadısticos Multivariados Febrero 2011 75/ 168

Page 76: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaPCA- Enfoque Geometrico

Si las variables xi estan correlacionadas entonces, en general,la nube de puntos forma un elipsoide con centro en x cuyosejes principales no son paralelos a los ejes cartesianos.

La direccion del eje mayor del elipsoide y la proyeccion de lospuntos sobre esta permiten describir la orientacion de la nubede puntos. Este eje minimiza las distancias ortogonales de lasobservaciones a una recta que pase entre ellas.

Encontrar los ejes del elipsoide es equivalente a encontrar lamatriz ortogonal A que rota los ejes de manera tal que losalinea con los ejes del elipsoide.

UNNE Metodos Estadısticos Multivariados Febrero 2011 76/ 168

Page 77: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaPCA- Enfoque algebraico

Encontrar un subespacio de dimension r < p tal que laproyeccion de los puntos sobre el mismo preserve la estructura(posiciones relativas) con la menor distorsion posible.

Se busca una combinacion linealz1 = a11x1 + a12x2 + ... + a1pxp = a′1x de las variablesoriginales que tenga varianza maxima.

UNNE Metodos Estadısticos Multivariados Febrero 2011 77/ 168

Page 78: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica Descriptiva

Los valores de la primer componente en los n individuos serepresenta por el vector

z1 = Xa1

z1 = 0 (variables originales centradas respecto a su media)

var(z1) = 1nz′1z1 = 1

na′1X

′Xa1 = a′1Sa1.

Para maximizar esa varianza, pidiendo ademas que a′1a1 = 1, sedebe resolver:Sa1 = λ1a1

Luego a1 y λ1 son un autovector de S y su autovalorcorrespondiente. Ademas λ = var(z1) y a1 define los coeficientesde cada variable en la primer componente principal.

UNNE Metodos Estadısticos Multivariados Febrero 2011 78/ 168

Page 79: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaPCA

Resto de las componentes se obtiene calculando losautovectores y autovalores de S (o R).

Se ordenan los autovalores de mayor a menor, λ1 ≥ λ2 ≥ ..., lak-esima PC es zk = a′kx, ak autovector correspondiente a λk

Los ai son ortogonales

En algunos casos es conveniente usar la matriz de correlacionR en lugar de S: si las varianzas difieren substancialmente olas unidades de medicion son inconmensurables lascomponentes de S seran dominadas por las variables conmayor varianza.

UNNE Metodos Estadısticos Multivariados Febrero 2011 79/ 168

Page 80: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaPCA - Propiedades

∑pi=1 var(zi ) =

∑pi=1 λi =

∑pi=1 var(xi )

Proporcion de variabilidad explicada por componentezk = λk

Ppi=1 λi

cov(zi, xj) = λiaij, cor(zi, xj) =λiaij

q

λis2j

UNNE Metodos Estadısticos Multivariados Febrero 2011 80/ 168

Page 81: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaPCA-Datos iris

UNNE Metodos Estadısticos Multivariados Febrero 2011 81/ 168

Page 82: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaPCA: ¿Cuantas?

Graficar λi vs i y buscar el corte (codo) entre autovalores“grande”y“pequenos”.

Seleccionar las componentes necesarias hasta lograr unaproporcion determinada de la varianza (80%, 90%).

Seleccionar las componentes cuyos autovalores sean mayoresque el promedio de los mismos

∑pi=1 λi/p.

UNNE Metodos Estadısticos Multivariados Febrero 2011 82/ 168

Page 83: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaScreeplot

iris.pca

Var

ianc

es

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Comp.1 Comp.2 Comp.3 Comp.4

UNNE Metodos Estadısticos Multivariados Febrero 2011 83/ 168

Page 84: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaPCA:Interpretacion

Si cov(xixj) > 0∀(i, j) ⇒ todos los elementos del primerautovector a1 son positivos ⇒

primer componente promedio ponderado de las variables:Factor o medida de“tamano”.resto de las componentes deben tener elementos positivos ynegativos, contraponiendo grupos de variables frente a otros:Factores o medidas de“forma”.

Rotacion: Rotar las PC para obtener mejor “interpretacion”buscando dimensiones donde varios de los coeficientes de lascombinaciones sean casi cero. Pero: nuevas PCcorrelacionadas, no dan informacion sobre maxima varianza.

Representacion grafica: Biplots.

UNNE Metodos Estadısticos Multivariados Febrero 2011 84/ 168

Page 85: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaBiplot

Biplot: representacion bidimensional de una matriz de datos X,que asigna un punto a cada uno de los n vectores de observacionesy a cada una de las p variables.

p = 2: diagrama de dispersion da informacion sobre laposicion de cada punto respecto al resto y a las variables.

p > 2 Representacion puede obtenerse, por ejemplo, a partirde la descomposicion en valores singulares de una matriz.

UNNE Metodos Estadısticos Multivariados Febrero 2011 85/ 168

Page 86: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

Intro

duccio

nAlg

ebra

linea

ly

elso

ftware

REsta

dıstica

descrip

tivaEsta

dıstica

inferen

cial

Eva

luacio

n

Esta

dıstica

Univaria

da

Caso

Bivaria

do

Dato

sM

ultivaria

dos

PCA

Bip

lots

Ejercicio

s

Esta

dıstica

Descrip

tivaBip

lot

−0.2 −0.1 0.0 0.1 0.2

−0.

2−

0.1

0.0

0.1

0.2

CP 1

CP

2

1

1

1

1

1

1

11

1

1

1

1

11

1

1

1

1

1

1

1

1

1

11

1

1

11

11

1

1

1

1

1

11

1

11

1

1

1

1

1

1

1

1

1

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

22

22

2

2

2

2

2

22

2

2

2

2

22

2

2

2

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3 3

3

3

3

3

3

3

33

3

33

3

3

333

3

33

3

3

3

3

3

−10 −5 0 5 10

−10

−5

05

10

Sepal.Length

Sepal.Width

Petal.LengthPetal.Width

Fig

ure:

Represen

tacion

Bip

lot

de

los

resultad

os

del

PCA

de

iris

UN

NE

Meto

dos

Esta

dıstico

sM

ultivaria

dos

Feb

rero2011

86/

168

Page 87: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaBiplot

Si Xc =

(x1 − x)′

(x2 − x)′

...(xp − x)

Xc = ZA′

donde:

Z =

z′1z′2...z′n

A matriz cuyas columnasson los autovectoresnormalizados de S .

UNNE Metodos Estadısticos Multivariados Febrero 2011 87/ 168

Page 88: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaBiplot

Xc = ZrA′r

es la mejor aproximacion de rango r < p a X, con:

Ar ,n × r , matriz formada por r primeras columnas de Acorrespondientes a los r mayores autovalores de S ,

Zr , r × p, formada por las r primeras filas de Z

Haciendo r = 2 ⇒ Representacion Biplot de Xc

UNNE Metodos Estadısticos Multivariados Febrero 2011 88/ 168

Page 89: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Datos Multivariados - Biplot

Z2 representa las observaciones en un espacio bidimensional

A2 representa las variables en ese espacio.

Las observaciones se dibujan como puntos

Las variables se dibujan como vectores.

El (coseno del) angulo entre los vectores equivaleaproximadamente a la correlacion entre las variables querepresentan

Si (λ1 + λ2)/tr(S) λ1 > λ2 mayores autovalores de S, escercano a 1 ⇒ la representacion es buena. Si es muy pequenoel biplot no es confiable.

UNNE Metodos Estadısticos Multivariados Febrero 2011 89/ 168

Page 90: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaEjemplo 1: Registro Temperaturas

Datos: registro de medias mensuales de temperatura duranteun ano en varias ciudades francesas.

Variables: Meses de Enero a Diciembre

Individuos: 30 ciudades francesas.

UNNE Metodos Estadısticos Multivariados Febrero 2011 90/ 168

Page 91: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaEjemplo 1: Registro Temperaturas

UNNE Metodos Estadısticos Multivariados Febrero 2011 91/ 168

Page 92: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaEjemplo 1: Registro Temperaturas

UNNE Metodos Estadısticos Multivariados Febrero 2011 92/ 168

Page 93: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaEjemplo 1: Registro Temperaturas

UNNE Metodos Estadısticos Multivariados Febrero 2011 93/ 168

Page 94: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaEjercicio 1

El archivo protein data.dat contiene datos sobre el consumo deproteınas en algunos paıses europeos para nueve grupos dealimentos.(cf. Hand et al., 1994)

1 ¿Cuales son las variables¿Cuantas observaciones hay?2 ¿Que paıs es el mayor consumidor de proteınas del grupo

alimentario White.Meat?3 Cacule el vector de medias y medianas.4 Calcule matrices de covarianza y correlacion. ¿Que puede

decir sobre ellas?5 Realice un grafico donde pueda comparar el consumo de esos

alimentos en los paıses involucrados.

Funciones: mean, summary, cov, cor, boxplot, etc.

UNNE Metodos Estadısticos Multivariados Febrero 2011 94/ 168

Page 95: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica DescriptivaEjercicio 2

El archivo data PCA exercice 1.csv contiene datos sobre distintosindicadores sociodemograficos de varios paıses.

1 ¿Cuales son las variables¿Cuantos paıses fueron analizados?

2 ¿Que paıs es el que tiene menor esperanza de vida?

3 Cacule el vector de medias y medianas.

4 Calcule matrices de covarianza y correlacion. ¿Que puededecir sobre ellas?

5 Realice un diagrama de dispersion cuyos ejes sean las tasas denacimiento y de mortalidad de dichos paıses.

UNNE Metodos Estadısticos Multivariados Febrero 2011 95/ 168

Page 96: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica descriptivaEjercicio 3: datos

n = 26 individuos (paısesdel mundo)

cf.http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_01

p = 9 variables:

“BirthRate”(h)“DeathRate“ (h)“PopulationGainLoss”(rate)“InfantMortalityRate”(h)“Age65”(%)“LifeExpectancyBirth”(years)“LifeExpectancyBirthMales”(years)“LifeExpectancyBirthFemales”(years)“UrbanPopulation”

UNNE Metodos Estadısticos Multivariados Febrero 2011 96/ 168

Page 97: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica descriptivaEjercicio 3: preguntas

Instale el package FactoMineR:

utilizar install.packages() con la opciondependencies=TRUE

Importar los datos data_PCA_exercice_1.csv:

utilizar read.table()utilizar summary() para resumir los datos

Hacer el estudio univariado:

identificar las variables cuantitativas (datos reales)ver la distribucion de las variables con boxplot()

citar paıses atıpicos:

para la poblacion urbanapara la esperanza de vida

UNNE Metodos Estadısticos Multivariados Febrero 2011 97/ 168

Page 98: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica descriptivaEjercicio 3: preguntas

Hacer un PCA a ”mano”:

utilizar la formula del cursohacer la PCA con la matriz de correlacionutilizar mean(), sd(), for(), t() y eigen()

trazar la varianza explicada por los factores¿Cuantos factores piensa tener en cuenta?

Hacer un PCA con R:

utilizar PCA() con la opcion quali.sup=1 y scale=TRUE

trazar la varianza explicada por los factorescomparar con la PCA a“mano”trazar los 3 primeros factores:

utilizar opcion axes=c(1,2) y depues axes=c(1,3)

UNNE Metodos Estadısticos Multivariados Febrero 2011 98/ 168

Page 99: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios

Estadıstica descriptivaEjercicio 3: preguntas

Describir los 3 primeros factores:

para cada uno (F1, F2 and F3), buscar las variables que tienen:

correlacion positiva con el factorcorrelacion negativa con el factor

¿al final, que significan los factores?

Describir los siguientes paıses:

AfghanistanUSAAustriaBulgaria

UNNE Metodos Estadısticos Multivariados Febrero 2011 99/ 168

Page 100: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Plan

1 Introduccion

2 Algebra lineal y el software R

3 Estadıstica descriptiva

4 Estadıstica inferencialIntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

5 Evaluacion

UNNE Metodos Estadısticos Multivariados Febrero 2011 100/ 168

Page 101: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialRappel: Estadıstica descriptiva

Solo descripcion de los datos:

reduccion de informacionreagrupar las variableshacer grupos de personas

Individuos Variable 1 · · · Variable p

1...

n

Table: Representacion esquematica de datos para la Estadısticadescriptiva

UNNE Metodos Estadısticos Multivariados Febrero 2011 101/ 168

Page 102: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialPrincipio de la Estadıstica inferencial

Ahora, la inferencia sobre los datos:

una variable mas importante (variable de interes)otras variables explicativas (p covariables)

Regresiones:

regresion simple: p = 1 (cf. Dalgaard p. 95)regresion multiple: p > 1 (cf. Dalgaard p. 149)

Individuos Variable de interes Covariable 1 · · · Covariable p

1...

n

Table: Representacion esquematica de datos para la EstadısticainferencialUNNE Metodos Estadısticos Multivariados Febrero 2011 102/ 168

Page 103: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialNotaciones

Variable de interes:

se denota Y

1 variable aleatoria{y1, . . . , yn} son n observaciones de Y

Covariable:

se denota X

p = 1 variable determinista{x1, . . . , xn} son n observaciones de X

Modelo (en el software R):

regresion simple: Y ∼ X

regresion multiple: Y ∼ X1 + . . . + Xp

UNNE Metodos Estadısticos Multivariados Febrero 2011 103/ 168

Page 104: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialNotaciones

Individuals Y X

1 y1 x1...

......

i yi xi

......

...n yn xn

Table: Esquematizacion de datos de regresion simple entre Y y X

UNNE Metodos Estadısticos Multivariados Febrero 2011 104/ 168

Page 105: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjemplo

200 ninos de 18 anos en Hong Kong

Y : altura (m)

X : peso (kg)

cf.http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_02

Individuos Y X

1 1.67 50.842 1.82 61.42...

......

199 1.73 57.36200 1.81 57.55

Table: Datos de altura y peso de200 jovenes

UNNE Metodos Estadısticos Multivariados Febrero 2011 105/ 168

Page 106: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEstudio univariado

Figure: Histogramas de la altura y del peso

UNNE Metodos Estadısticos Multivariados Febrero 2011 106/ 168

Page 107: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEstudio bivariado

Figure: y ∼ x

Lo que usted tiene quepreguntarse:

¿relacion lineal?¿valores atıpicas?¿misma variabilidad en eldiagrama de dispersion?

UNNE Metodos Estadısticos Multivariados Febrero 2011 107/ 168

Page 108: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialModelo

Modelo de regresion simple

Y = α0 + α1X + ε

Con:

α0 ordenada al origenα1 la pendienteε el error

Hipotesis:

ε (variable aleatoria), ε ∼ N(

0, σ2)

∀i 6= j , ǫi y ǫj son independientes

UNNE Metodos Estadısticos Multivariados Febrero 2011 108/ 168

Page 109: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialObjetivo y notaciones

Modelo de regresion simple

Y = α0 + α1X + ε

Objetivo:

Estimar α0, α1 y σ2

Notacion:

estimadores se denotan α0, α1 y σ2

valores ajustados se denotan y

residuos se denotan ε = y − y

UNNE Metodos Estadısticos Multivariados Febrero 2011 109/ 168

Page 110: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialCriterio de mınimos cuadrados

Modelo de regresion simple

Y = α0 + α1X + ε

Minimizar la suma de los residuos al cuadrado (Residuals Sumof Squares or RSS):

RSS =

n∑

i=1

ǫ2i

=n

i=1

(yi − yi)2

=

n∑

i=1

(yi − (α0 + α1xi ))2

UNNE Metodos Estadısticos Multivariados Febrero 2011 110/ 168

Page 111: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEstimadores de los mınimos cuadrados

Estimadores:

α1 =

∑ni=1 (xi − x) (yi − y)∑n

i=1 (xi − x)2

α0 = y − α1x

σ2 =

(

1

n − 2

)

RSS

Con medias:

x =1

n

n∑

i=1

xi

y =1

n

n∑

i=1

yi

UNNE Metodos Estadısticos Multivariados Febrero 2011 111/ 168

Page 112: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialValidez del modelo

¿Como validar el modelo?

tests estadısticos:

Fisher-testStudent-test

graficas:

lınea de regresiondistribucion de los residuos

criterio numerico:

R2

UNNE Metodos Estadısticos Multivariados Febrero 2011 112/ 168

Page 113: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialFisher-test

Fisher-test o f-test

Testar la hipotesis global

Hipotesis:

H0 : ∀i , αi = 0H1 : ∃i , αi 6= 0¿hay, al menos, un α efecto significativo?ej: ¿α0 significativo? ¿α1 significativo? ¿α0 y α1 significativo?

Resultados:

sobre la base del p-valor (cf. Wasserman p. 156)p-valor<0.05 → efecto significativo de α0, α1 o α0 y α1 (noaceptamos H0)p-valor>0.05 → ningun efecto significativo (aceptamos H0)

UNNE Metodos Estadısticos Multivariados Febrero 2011 113/ 168

Page 114: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialStudent-test

Student-test o t-test (cf. Wasserman, p. 170)¡Hacerlo solo si f-test es significativo!Testar el efecto de α1

Hipotesis:

H0 : α1 = 0H0 : α1 6= 0¿es la pendiente significativamente diferente de 0?¿es el efecto de X sobre Y significativo?

Resultados:

sobre la base del p-valor (cf. Wasserman p. 156)p-valor<0.05 → efecto significativo de α1 (no aceptamos H0)p-valor>0.05 → ningun efecto significativo de α1 (aceptamosH0)

UNNE Metodos Estadısticos Multivariados Febrero 2011 114/ 168

Page 115: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialSalidas de R

Table: Salida de la funcion summary() deuna regresion simple

Estimadores de mınimoscuadrados:

α0 = 1.43α1 = 0.0051σ = 0.041

Pruebas estadısticas:

f-test es significativo(p-value< 2.2e−16)t-test es significativo(p-value< 2e−16)efecto significativo de X

(peso) sobre Y (altura)

UNNE Metodos Estadısticos Multivariados Febrero 2011 115/ 168

Page 116: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialLınea de regresion

Ecuacion de la recta de regresion:

y = α0 + α1x

Interpretacion de los estimadores:

α0 = 1.43

ordenada al origenvalor de y cuando x = 0

α1 = 0.005

pendienteα1 > 0si aumenta el peso, aumentala altura

Figure: y ∼ x y la lınea de regresion(rojo)UNNE Metodos Estadısticos Multivariados Febrero 2011 116/ 168

Page 117: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialValores ajustadas (y)

Table: Ejemplo de prediccion delmodelo de regresion simple para

Pregunta:

¿Cual es mi altura si mi peso esde 70 kg?

Utilizamos el modelo:

y = 1.43 + 0.005 ∗ 70

= 1.79

UNNE Metodos Estadısticos Multivariados Febrero 2011 117/ 168

Page 118: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialResiduos (ε)

Figure: y ∼ x , la lınea de regresion(rojo) y los residuos εi (azul)

Lınea de regresion:

minimizar la RSS

RSS =∑n

i=1 (yi − yi )2

En el ejemplo, RSS = 0.33

UNNE Metodos Estadısticos Multivariados Febrero 2011 118/ 168

Page 119: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialResiduos (ε)

Figure: Empırica (negro) y teorica(rojo) distribucion de los residuos

Distribucion teorica de los residuos:

la ley de Gaussε ∼ N

(

0, σ2)

σ2 =(

1n−2

)

RSS

En el ejemplo, σ2 = 0.0017

¿Es realista el supuesto sobre losresiduos?

en caso afirmativo, el modeloesta bien escritosi no:

no linealidadtransformar las variablesUNNE Metodos Estadısticos Multivariados Febrero 2011 119/ 168

Page 120: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialCoeficiente R2

Table: Salida de la funcion summary() deuna regresion simple

R2 =Var

(

Y)

Var (Y )

Coeficiente de determinacion:

porcentajevariabilidad explicada porel modeloutilizar para compararmodelos

En el ejemplo, R2 = 0.31

UNNE Metodos Estadısticos Multivariados Febrero 2011 120/ 168

Page 121: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialR comandos del ejemplo

R function Description

read.table() importacion de datos

nrow() numero de linea

ncol() numero de columna

summary() resumen de un elemento

sum() suma de un vector

sqrt() raız cuadrada

var() varianza de un vector

hist() histograma

R function Description

plot() dispersion

line() anadir una lınea

abline() anadir la lınea de regresion (”a” - ”b”)

segments() segmento de lınea

dnorm() calculo de densidad teorica de Gauss

data.frame() crear datos

lm() modelo lineal

predict() predecir valores ajustados de un modelo lineal

Table: Funciones de R utilizadas enscript_simple_regression_course.R

UNNE Metodos Estadısticos Multivariados Febrero 2011 121/ 168

Page 122: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjercicio 1: datos

272 observaciones de“Old Faithfulgeyser” en Yellowstone National Park,Wyoming, USA

2 variables:

”eruption”, la duracion de la erupcion(min)“waiting”, el tiempo de espera(minutos) para la proxima erupcion

cf.http://www.stat.cmu.edu/~larry/all-of-statistics/=data/faith

Figure: El geiser del YellowstoneNational Park

UNNE Metodos Estadısticos Multivariados Febrero 2011 122/ 168

Page 123: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjercicio 1: preguntas

Importar los datosdata_simple_regression_exercice_1.csv:

utilizar read.table()utilizar summary() para resumir los datos

Describir los datos:

estudio univariado:

utilizar boxplot() y hist()

¿algun comentario?

estudio bivariado:

utilizar plot()¿que podrıa preguntar?¿relacion lineal?

UNNE Metodos Estadısticos Multivariados Febrero 2011 123/ 168

Page 124: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjercicio 1: preguntas

Realizar la regresion simple:

escribir el modeloutilizar lm()

Comentar los coeficientes:

utilizar summary()¿estimacion del intercept (α0) y de la pendiente (α1)?¿coeficientes significativos?decribir los coeficientes

Calcular RSS , σ y R2:

utilizar las formulas del cursoutilizar sum(), sqrt() y var()

comparar con el summary() salida

UNNE Metodos Estadısticos Multivariados Febrero 2011 124/ 168

Page 125: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjercicio 1: preguntas

Salidas graficas:

trazar y ∼ x y la lınea de regresion:

utilizarplot() y abline()

trazar la distribucion empırica y teorica de los residuos:

utilizar hist(), lines() y dnorm()

¿son buenos los supuestos sobre los residuos?

hacer predicciones:

predecir el tiempo de erupcion para los siguientes tiempos deespera: 40, 70 and 100 minutespredecir la duracion de erupcion para los siguientes tiempos deespera: 40, 70 y 100 minutosutilizar data.frame() y predict()

UNNE Metodos Estadısticos Multivariados Febrero 2011 125/ 168

Page 126: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjercicio 1: preguntas

Pregunta adicional:

recordar y ∼ x y los histogramas de x y y

¿algun comentario?describir su intuicionseparar los individuos:

utilizar kmeans()hacer una regresion para cada grupo de datostrazar las lıneas de regresion y los gruposcomparar las ordenadas al origen y las pendientes¿cual es la diferencia?

UNNE Metodos Estadısticos Multivariados Febrero 2011 126/ 168

Page 127: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjercicio 2: datos

1000 observaciones

2 variables:

Y

Z

cf. secreto...

UNNE Metodos Estadısticos Multivariados Febrero 2011 127/ 168

Page 128: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjercicio 2: preguntas

Importar los datosdata_simple_regression_exercice_2.csv

Describir los datos:

estudio univariado:

¿algun comentario?

estudio bivariado:

trazar y ∼ z

¿relacion lineal?

Para el “Modelo 1”: Y = α0 + α1Z + ε, con ε ∼ N(

0, σ2)

calcular el modelotrazar la lınea de regresiontrazar la distribucion teorica y empırica de los residuos¿algun comentario?

UNNE Metodos Estadısticos Multivariados Febrero 2011 128/ 168

Page 129: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjercicio 2: preguntas

Pensar otro modelo...

¿Cual es la relacion entre Y y Z?crear la variable X = log (Z )anadirX a los datos

Para el “Modelo 2”: Y = α′0 + α′

1X + ε′, con ε′ ∼ N(

0, σ′2)

trazar y ∼ x

¿relacion lineal?trazar la distribucion teorica y empırica de los residuos¿son buenos los supuestos sobre los residuos?

UNNE Metodos Estadısticos Multivariados Febrero 2011 129/ 168

Page 130: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjercicio 2: preguntas

Modelo 1 VS Modelo 2:

comparar R2

comparar la distribucion de los residuos¿cual es el mejor modelo?

Por ultimo, ¿cul es la relacion entre Y y Z?

escribir el modelotrazar y ∼ z y la lınea de regresion que corresponde

En realidad, fueron datos simulados...

cf. script_simple_regression_exercice_2.R¡observar que α0, α1 y σ estan perfectamente estimados!

UNNE Metodos Estadısticos Multivariados Febrero 2011 130/ 168

Page 131: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialNotaciones

Variable de interes:

se denota Y

1 variable aleatoria{y1, . . . , yn} son n observaciones de Y

Covariables:

se denotan X = (X1, . . . , Xj , . . . , Xp)p variables deterministasn × p observaciones de X

UNNE Metodos Estadısticos Multivariados Febrero 2011 131/ 168

Page 132: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialNotaciones

Individuals Y X1 · · · Xj · · · Xp

1 y1...

......

...i yi · · · · · · xi ,j...

...n yn

Table: Esquematizacion de datos de regresion multiple

UNNE Metodos Estadısticos Multivariados Febrero 2011 132/ 168

Page 133: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjemplo

Descripcion de los datos:

n = 25 jovenes entre 7 y 23 anos que tienen fibrosis quıstica1 variable de interes:

presion espiratoria maxima

p = 8 covariables:

indicadores del cuerpoindicadores de la respiracion

Fuente

D.G. Altman (1991), Practical Statistics for Medical Research,Table 12.11, Chapman & Hall

UNNE Metodos Estadısticos Multivariados Febrero 2011 133/ 168

Page 134: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjemplo

Descripcion de las variables:

Y (“pemax”): maximum expiratory pressureX1 (“age”): ageX2 (“height”): height (cm)X3 (“weight”): weight (kg)X4 (“bmp”): body mass (pourcentage of normality)X5 (“fev1”): forced expiratory volumeX6 (“rv”): residuals volumeX7 (“frc”): functional residual capacityX8 (“tlc”): total lung capacity

UNNE Metodos Estadısticos Multivariados Febrero 2011 134/ 168

Page 135: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjemplo

Individuos Y X1 X2 X3 X4 X5 X6 X7 X8

1 95 7 109 13.1 68 32 258 183 137

2 85 7 112 12.9 65 19 449 245 134...

......

......

......

......

...

24 95 23 175 51.1 71 33 224 131 113

25 195 23 179 71.5 95 52 225 127 101

Table: Datos de 25 jovenes que tienen fibrosis quıstica

UNNE Metodos Estadısticos Multivariados Febrero 2011 135/ 168

Page 136: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEstudio univariado

Figure: Histograma de Y “pemax”, lapresion espiratoria maxima

¿Valores extremos en ladistribucion de Y ?

si sı, entonces eliminelospuede afectar los estimadoresde los mınimos cuadrados

UNNE Metodos Estadısticos Multivariados Febrero 2011 136/ 168

Page 137: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEstudio bivariado

Figure: Ejemplos de la relacion entre Y y 2Xi diferentes

Relaciones entreY y los Xi?

lineal?necesita transformaciones(log, exp, etc...)?

En el ejemplo:

todo linealnada que cambiar

UNNE Metodos Estadısticos Multivariados Febrero 2011 137/ 168

Page 138: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialModelo

Modelo de regresion multiple

Y = α0 + α1X1 + . . . + αpXp + ε

Con:

α0 ordenada al origenαi , ∀i = 1..p, el efecto de la covariable Xi

ε el error

Hipotesis:

ε (variable aleatoria), ε ∼ N(

0, σ2)

∀i 6= j , ǫi y ǫj son independientes

UNNE Metodos Estadısticos Multivariados Febrero 2011 138/ 168

Page 139: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialModelo

Modelo de regresion multiple (forma de matriz)

Y = Xβ + ε

Con:

X ∈ Rn×(p+1), X =

1 x1,1 . . . x1,p

......

...1 xn,1 . . . xn,p

Y ∈ Rn×1, Y = (y1 . . . yn)

β ∈ R(p+1)×1, β = (α0 . . . αp)

ε ∈ Rn×1, ε = (ε1 . . . εn)

UNNE Metodos Estadısticos Multivariados Febrero 2011 139/ 168

Page 140: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialObjetivo y notaciones

Modelo de regresion multiple (forma de matriz)

Y = Xβ + ε

Objetivo:

Estimacion de β, Var (β) y σ2

Notacion:

estimadores se denotan β, Var(

β)

y σ2

valores ajustados se denotan y

residuos se denotan ǫ = y − y

UNNE Metodos Estadısticos Multivariados Febrero 2011 140/ 168

Page 141: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialCriterio de los mınimos cuadrados

Modelo de regresion multiple (forma de matriz)

Y = Xβ + ε

Minimizar la suma de los residuos cuadrados (Residuals Sumof Squares o RSS):

RSS =

n∑

i=1

ǫ2i

=

n∑

i=1

(yi − yi)2

UNNE Metodos Estadısticos Multivariados Febrero 2011 141/ 168

Page 142: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialCriterio de los mınimos cuadrados

Modelo de regresion multiple (forma de matriz)

Y = Xβ + ε

Estimadores:

β =(

X ′X)−1

X ′Y

Var(

β)

= σ2(

X ′X)−1

σ2 =

(

1

n − p − 1

)

RSS

Condicion:

X ′X invertiblecovariables no correlacionadas...

UNNE Metodos Estadısticos Multivariados Febrero 2011 142/ 168

Page 143: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialFisher-test y Student-test

Fisher-test (f-test):

testar la hipotesis globalH0 : ∀i , αi = 0¿hay, al menos, un efecto αi significativo?

Student-test (t-test):

hacerlo solo si f-test es significativohacerlo para cada αi

H0 : αi = 0

UNNE Metodos Estadısticos Multivariados Febrero 2011 143/ 168

Page 144: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialFisher-test y Student-test

Table: Salida R de la funcion summary() dela regresion multiple

Resultados:

f-test es significativo(p-valor= 0.0159)pero, no hay t-testssignificativos... (todos losp-valores> 0.05)

Contradiccion en losresultados de los tests:

en realidad, el f-test dicela verdad...hay efectos significativosde las covariables

UNNE Metodos Estadısticos Multivariados Febrero 2011 144/ 168

Page 145: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialProblemas de los mınimos cuadrados

covariables muy correlacionadas:

difıcil de calcular (X ′X )−1

inestabilidad numericacf. matriz de correlacion

exceso de ajuste (over-fitting):

cuando hay muchasvariables...y pocos individuosejemplo: n = 25 y p = 8...

age height weight bmp fev1 rv frc tlcage 1.00 0.93 0.91 0.38 0.29 -0.55 -0.64 -0.47

height 0.93 1.00 0.92 0.44 0.32 -0.57 -0.62 -0.46weight 0.91 0.92 1.00 0.67 0.45 -0.62 -0.62 -0.42

bmp 0.38 0.44 0.67 1.00 0.55 -0.58 -0.43 -0.36fev1 0.29 0.32 0.45 0.55 1.00 -0.67 -0.67 -0.44

rv -0.55 -0.57 -0.62 -0.58 -0.67 1.00 0.91 0.59frc -0.64 -0.62 -0.62 -0.43 -0.67 0.91 1.00 0.70tlc -0.47 -0.46 -0.42 -0.36 -0.44 0.59 0.70 1.00

Table: Matriz de correlacion de los XiUNNE Metodos Estadısticos Multivariados Febrero 2011 145/ 168

Page 146: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialObjetivos y metodos

Para evitar estos problemas:

reducir el numero de covariables correlacionadastener en cuenta pequeno numero de covariables

Proponemos 2 metodos:

seleccion de modelo exhaustivaregresion en componentes principales

UNNE Metodos Estadısticos Multivariados Febrero 2011 146/ 168

Page 147: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialMetodo 1: seleccion de modelo exhaustiva

Idea:

usamos todos los modelos

Criterios de seleccion:

R2adj = (n−1)R2

−p

n−p−1

criterio R2 con...penalizacion sobre el numero de p covariables p

UNNE Metodos Estadısticos Multivariados Febrero 2011 147/ 168

Page 148: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialMetodo 1: seleccion de modelo exhaustiva

Calcular todos los modelos posibles:

con 1 covariable:

Y = α0 + α1X1 + ε

· · ·

Y = α0 + αpXp + ε

con 2 covariables:

Y = α0 + α1X1 + α2X2 + ε

· · ·

Y = α0 + αp−1Xp−1 + αpXp + ε

con p covariables:

Y = α0 + α1X1 + . . . + αpXp + ε

Queremos un modelo con:

buen R2adj

pocos parametros

UNNE Metodos Estadısticos Multivariados Febrero 2011 148/ 168

Page 149: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjemplo

Figure: Salida de R para laseleccion de modelo exhaustiva

Ejemplos de buenos modelos:

“Modelo 1”:

pemax ∼ weight + bmp

R2adj = 0.43

“Modelo 2”:

pemax ∼ weight + bmp + fev1R2

adj = 0.51

“Modelo 3”:

pemax ∼ weight +bmp+ fev1+ rv

R2adj = 0.54

UNNE Metodos Estadısticos Multivariados Febrero 2011 149/ 168

Page 150: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjemplo

Table: Salida R de summary() de laregresion multiple (Modelo 2)

Elegimos el Modelo 2 porque:

numero de parametros(p = 3)calidad del ajuste(R2

adj = 0.51)

Resultados:

todos los efectos de lascovariables sonsignificativos(p-valores< 0.05)

UNNE Metodos Estadısticos Multivariados Febrero 2011 150/ 168

Page 151: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialMetodo 2: regresion en componentes principales

Idea:

para evitar la correlacion fuerte entre covariables...hacer la regresion de los factores principales de la PCAporque no hay correlacion entre factores principales

Anotaciones:

F1, . . . , Fk son los primeros k factores de la PCAk ≤ p con p el numero de covariables

UNNE Metodos Estadısticos Multivariados Febrero 2011 151/ 168

Page 152: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialModelo

Transformacion de las covariables:

F = XW

con:

F ∈ Rn×k , las coordenadas de los individuos sobre (F1, . . . , Fk)

X ∈ Rn×p, la matriz clasica de las covariables

W ∈ Rp×k , los coeficientes λi,j , las coordenadas de Xj sobre Fi

ejemplo: Fi = λi,1X1 + . . . + λi,pXp

Despues, regresion multiple clasica de Y sobre (F1, . . . ,Fk)

cf. www.jstatsoft.org/v18/i02/paper

UNNE Metodos Estadısticos Multivariados Febrero 2011 152/ 168

Page 153: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialModelo

Modelo de regresion en componentes principales

Y = α1F1 + . . . + αkFk + ε

Con:

αi , ∀i = 1..k , el efecto de los factores Fi

ε el error

Hipotesis:

ε (variable aleatoria), ε ∼ N(

0, σ2)

∀i 6= j , ǫi y ǫj son independientes

UNNE Metodos Estadısticos Multivariados Febrero 2011 153/ 168

Page 154: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjemplo

F1 F2 F3 F4 F5 F6 F7 F8

X 63.78 78.91 88.78 94.52 98.31 99.23 99.81 100

Y 30.24 36.28 36.74 46.41 59.19 59.45 59.78 63.59

Table: Salida R de summary() de la regresion en componentesprincipales: porcentaje de variabilidad de X y Y explicada por losfactores F

Modelo 1: Y ∼ F1 + F2

estimar solamente 2parametrossolo 36.28% de lavariabilidad Y es explicada

Modelo 2:Y ∼ F1 + F2 + F3 + F4 + F5

estimar 5 parametros (esmucho)59.19% de la variabilidad Y

es explicadaUNNE Metodos Estadısticos Multivariados Febrero 2011 154/ 168

Page 155: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjemplo

Figure: Representacion de losfactores F1 y F2

descripcion de los factores:

F1: oposicion entre (age, height,weight) y (rv, frc, tlc)F2: representado para fev1F3, F4, F5: Interpretacion difıcil...

Modelo 1:

2 factores explicativospobre capacidad predictiva...

Modelo 2:

3 de los 5 primeros factores no sepueden explicarbuena prediccion pero... black boxUNNE Metodos Estadısticos Multivariados Febrero 2011 155/ 168

Page 156: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialConclusion

Regresion multiple:

si hay:

demasiadas variables correlacionadasn pequeno en comparacion con p

hacer una seleccion de las variables:

seleccion de modelo exhaustivaregresion en componentes principales

UNNE Metodos Estadısticos Multivariados Febrero 2011 156/ 168

Page 157: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialConclusion

Todo depende de su aplicacion:

modelo predictivo:

no entendemos los parametrosmuchas covariables p

buena prediccion

modelo explicativo:

entendemos los parametrospocas covariables p

puede ser menos predictivo...¡pero en general es solido!

UNNE Metodos Estadısticos Multivariados Febrero 2011 157/ 168

Page 158: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialR comandos del ejemplo

R function Description

read.table() importacion de datos

nrow() numero de linea

ncol() numero de columna

summary() resumen de un elemento

boxplot() boxplot

plot() dispersion

R function Description

cor() Matriz de correlacion

lm() modelo lineal

regsubsets() seleccion de modelo exhaustiva

pcr() regresion en componentes principales

PCA() analisis en componentes principales

Table: Funciones de R utilizadas enscript_multiple_regression_course.R

UNNE Metodos Estadısticos Multivariados Febrero 2011 158/ 168

Page 159: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjercicio: datos

n = 507 individuos de California

1 variable de interes:

“weight”(kg)

p = 23 covariables:

medidas del cuerpo“wrist.girth“ (cm), elbow.diam (cm),age, etc...

cf.http://www.amstat.org/publications/jse/v11n2/datasets.heinz

Figure: Medidas del cuerpoUNNE Metodos Estadısticos Multivariados Febrero 2011 159/ 168

Page 160: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjercicio: preguntas

Descargar y cargar paquetes leaps, pls y FactoMineR

Importar y separar los datos en 2 partes:

individuos 1 hasta 400 en data.body1

individuos 401 hasta 507 en data.body2

Hacer el estudio univariado:

¿algun comentario?¿comentario sobre la distribucion de shoulder.girth?

Hacer el estudio bivariado:

¿Que tipo de relaciones? ¿Lineal?¿como son las pendientes (positiva o negativa)?

UNNE Metodos Estadısticos Multivariados Febrero 2011 160/ 168

Page 161: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjercicio: preguntas

Hacer la correlacion entre las variables:

¿como son los datos?¿puedes predecir un problema?

Calcule el modelo de regresion multiple con todas lascovariables (denotarlo“Modelo 1”):

escribir el modelo¿que variables son importantes?¿que pasa con wrist.girth?

¿efecto significativo?¿Cual es el signo del coeficiente?¿adecuacion con el estudio bivariado?

UNNE Metodos Estadısticos Multivariados Febrero 2011 161/ 168

Page 162: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjercicio: preguntas

Hacer la investigacion exhaustiva de las variables:

utilizar regsubsets():

elegir un modelo (denotarlo“Modelo 2”)hacer la regresion multiple de este modelocomentar los resultados

Hacer una regresion en componentes principales:

utilizar pcr() y summary():

describir el % de variabilidad explicada por los factores¿cuantos factores tenemos que mantener en cuenta?elegir un modelo (denotarlo“Modelo 3”)

utilizar PCA():

comparar con los resultados de pcr()

explicar el primer factor

UNNE Metodos Estadısticos Multivariados Febrero 2011 162/ 168

Page 163: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio

Estadıstica inferencialEjercicio: preguntas

Comparar el comportamiento predictivo de los diferentesmodelos:

tenemos 3 modelos:

Modelo 1: todas las covariablesModelo 2: con la seleccion exhaustiva de modeloModelo 3: regresion en componentes principales

para cada modelo:

hacer una prediccion del peso sobre los datos data.body2calcular el RSS

¿cual es el mejor modelo?

UNNE Metodos Estadısticos Multivariados Febrero 2011 163/ 168

Page 164: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Data-setCondicionEvaluacion

Plan

1 Introduccion

2 Algebra lineal y el software R

3 Estadıstica descriptiva

4 Estadıstica inferencial

5 EvaluacionData-setCondicionEvaluacion

UNNE Metodos Estadısticos Multivariados Febrero 2011 164/ 168

Page 165: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Data-setCondicionEvaluacion

EvaluacionDatos

Sus datos:

relacionados con sus estudioso no...

Fuentes de propuesta:

http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data

http://archive.ics.uci.edu/ml/datasets.html

http://www.stat.cmu.edu/~larry/all-of-statistics/

http://www.prb.org/DataFinder.aspx

http://lib.stat.cmu.edu/datasets/

etc...

UNNE Metodos Estadısticos Multivariados Febrero 2011 165/ 168

Page 166: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Data-setCondicionEvaluacion

EvaluacionCondicion

Grupo de 2 o 3

Dimensiones de los datos:

numero de variables (p > 20)numero de individuos (n > p)

Tipo de variables:

solo valores numericosningun valor categoricosin valores faltantes

Buscar problematicas interesantes:

encontrar grupos de variables similaresencontrar grupos de individuos similarescrear un modelo de regresion simple o multiple

UNNE Metodos Estadısticos Multivariados Febrero 2011 166/ 168

Page 167: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Data-setCondicionEvaluacion

EvaluacionEvaluacion

Presentacion:

frente el resto de la clasedatosproblematicahacer un brainstorming

Informe:

de 10 ± 10% paginastamano 12interlınea simpleincluir graficos y tablasen pdf

UNNE Metodos Estadısticos Multivariados Febrero 2011 167/ 168

Page 168: M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o variables dispuestos en filas o columnas. Se dice que una matriz es de taman˜o n ×p

IntroduccionAlgebra lineal y el software R

Estadıstica descriptivaEstadıstica inferencial

Evaluacion

Data-setCondicionEvaluacion

EvaluacionEl informe debe incluir

Presentacion de los datos:

fuentelink adicional (si es necesario)

Problematicas

Estadıstica descriptiva:

univariadabivariadamultivariada

Estadısticas Inferencial:

modelo claramente escritodescripcion del modelo

Comandos R:

¡no en el informe!mail [email protected],[email protected]

Deadline:

25 de Marzo, 2011

UNNE Metodos Estadısticos Multivariados Febrero 2011 168/ 168