tema 62. series estadísticas bidimensionales. regresión y...

12
Tema 62. Series estadísticas bidimensionales. Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es ) 1 TEMA 62. Series estadísticas bidimensionales. Regresión y correlación lineal. Coeficiente correlación. Significado y Aplicaciones 1. Introducción Generalmente cuando se hacen estudios estadísticos de una población estos no se limitan al estudio de una única variable, sino que se estudian más variables. En este tema nos centraremos en el estudio estadístico conjunto de dos variables de una misma población que denotaremos con las letras X e Y. No sólo nos centraremos en las estadísticas individuales de ambas, sino que también la relación entre ellas. Las variables que consideraremos en este tema son sólo cuantitativas, pues las cualitativas no nos permiten establecer relaciones entre las variables. Cuando estudiamos la relación entre las variables X e Y pueden ocurrir tres cosas: - Variables independientes: no se puede establecer relación afín entre las dos variables, por lo que se pueden considerar independientes. Por ejemplo si estudiamos la altura de la población y el número de horas de sueño. - Variables dependientes: cuando al hacer el estudio de las dos variables, X e Y, existe una cierta relación entre ambos. Un ejemplo puede ser el estudio de la altura y el peso de las personas de una población (generalmente más altura implica más peso) - Variables con dependencia funcional: existe una relación funcional entre las dos variables, y=f(x). Ejemplos son la relación entre variables físicas. De esta forma mediante un experimento podemos determinar distintas parejas (X,Y) y a partir de las mismas obtenemos una función aproximada (debido error de las medidas) entre x e y. En este tema trabajaremos con los siguientes datos estadísticos, de notas de matemáticas (variable X) y física (variable Y), de los 20 alumnos de una clase. Las calificaciones de cada alumnos vendrán definidas como las parejas (x i, y i ): (3,4), (4,5), (2,2), (4,5), (9,6), (6,7), (2,2), (2,3), (3,4), (3,3), (4,5), (3,4), (4,6), (4,3), (1,1), (3,4), (3,3), (1,1), (5,6), (1,2). 2. Distribución de frecuencias bidimensional. 2.1 Distribución conjunta. Tablas de doble entrada. Distribución marginal. Los datos estadísticos bidimensionales se escriben mediante expresiones de la forma (x i ,y i ) donde x i es valor de X e y i es el valor de Y del individuo i-ésimo de la población (supondremos con n individuos). Para organizar los valores los expresamos en una tabla de doble entrada, donde en cada celda podremos el número de individuos con estos valores de X e Y, lo que se denomina frecuencia de dicha pareja, f ij . En la tabla ponemos X en las columnas e Y en las filas: X/Y y 1 y 2 (…) y p Total x 1 f 11 f 12 f 1p f 1- x 2 f 21 f 22 f 2p f 2- (…) x k f k1 f k2 f kp f k- Total f -1 f -2 f -p n

Upload: others

Post on 21-Dec-2020

95 views

Category:

Documents


10 download

TRANSCRIPT

Page 1: TEMA 62. Series estadísticas bidimensionales. Regresión y ...joseluislorente.es/academia/temas/TEMA 62.pdfEn los casos anteriores si r=1 tendremos las medias de las dos variables:

Tema 62. Series estadísticas bidimensionales.

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 1

TEMA 62. Series estadísticas bidimensionales. Regresión

y correlación lineal. Coeficiente correlación. Significado y

Aplicaciones

1. Introducción

Generalmente cuando se hacen estudios estadísticos de una población estos no se limitan

al estudio de una única variable, sino que se estudian más variables. En este tema nos

centraremos en el estudio estadístico conjunto de dos variables de una misma población que

denotaremos con las letras X e Y. No sólo nos centraremos en las estadísticas individuales de

ambas, sino que también la relación entre ellas.

Las variables que consideraremos en este tema son sólo cuantitativas, pues las cualitativas

no nos permiten establecer relaciones entre las variables.

Cuando estudiamos la relación entre las variables X e Y pueden ocurrir tres cosas:

- Variables independientes: no se puede establecer relación afín entre las dos variables,

por lo que se pueden considerar independientes. Por ejemplo si estudiamos la altura

de la población y el número de horas de sueño.

- Variables dependientes: cuando al hacer el estudio de las dos variables, X e Y, existe

una cierta relación entre ambos. Un ejemplo puede ser el estudio de la altura y el peso

de las personas de una población (generalmente más altura implica más peso)

- Variables con dependencia funcional: existe una relación funcional entre las dos

variables, y=f(x). Ejemplos son la relación entre variables físicas. De esta forma

mediante un experimento podemos determinar distintas parejas (X,Y) y a partir de las

mismas obtenemos una función aproximada (debido error de las medidas) entre x e y.

En este tema trabajaremos con los siguientes datos estadísticos, de notas de matemáticas

(variable X) y física (variable Y), de los 20 alumnos de una clase. Las calificaciones de cada

alumnos vendrán definidas como las parejas (xi,yi): (3,4), (4,5), (2,2), (4,5), (9,6), (6,7), (2,2),

(2,3), (3,4), (3,3), (4,5), (3,4), (4,6), (4,3), (1,1), (3,4), (3,3), (1,1), (5,6), (1,2).

2. Distribución de frecuencias bidimensional.

2.1 Distribución conjunta. Tablas de doble entrada. Distribución marginal.

Los datos estadísticos bidimensionales se escriben mediante expresiones de la forma (xi,yi )

donde xi es valor de X e yi es el valor de Y del individuo i-ésimo de la población (supondremos

con n individuos). Para organizar los valores los expresamos en una tabla de doble entrada,

donde en cada celda podremos el número de individuos con estos valores de X e Y, lo que se

denomina frecuencia de dicha pareja, fij. En la tabla ponemos X en las columnas e Y en las filas:

X/Y y1 y2 (…) yp Total

x1 f11 f12 f1p f1-

x2 f21 f22 f2p f2-

(…)

xk fk1 fk2 fkp fk-

Total f-1 f-2 f-p n

Page 2: TEMA 62. Series estadísticas bidimensionales. Regresión y ...joseluislorente.es/academia/temas/TEMA 62.pdfEn los casos anteriores si r=1 tendremos las medias de las dos variables:

Tema 62. Series estadísticas bidimensionales.

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 2

Notación:

- Frecuencia absoluta, fij , es el valor correspondiente al número de veces que aparece

la pareja de (xi,yj) en la estadística. Se cumple lógicamente ∑∑= =

=p

j

k

i

ij nf1 1

- Frecuencia relativa, frij, se calcula como el cociente entre la frecuencia absoluta entre

el número de datos: n

ffr

ij

ij = . Es el tanto por uno de los valores de la pareja (xi,yj ).

Lógicamente se cumple ∑∑= =

=p

j

k

i

ijf1 1

1

- Frecuencia de la distribución marginal de X, fi-, que presenta el número de individuos

con valor de X igual a xi , independientemente del valor de Y. Este valor nos permite

calcular el estudio de la estadística de la variable X de forma independiente. Se cumple

lógicamente que ∑=

− =p

j

iji ff1

- Frecuencia de la distribución marginal de Y, f-j, que presenta el número de individuos

con valor de Y igual a yj , independientemente del valor de X. Este valor nos permite

calcular el estudio de la estadística de la variable Y de forma independiente. Se cumple

lógicamente que ∑=

− =k

i

ijj ff1

- Frecuencias relativas marginales de X e Y: n

ffr i

i

−− = (relativa de X);

n

ffr

j

j

−− =

(relativa de Y).

Ejemplo: notas de matemáticas y física donde agruparemos los datos en marcas de clase:

X/Y 1-3 4-5 6-10 Total

1-3 8 4 0 12

4-5 1 3 2 6

6-10 0 0 2 2

Total 9 7 4 20

Estudio marginal de X o de Y: se hace a partir de tablas marginales donde tomamos los

valores de X y la última fila (marginal de X) o los de Y y la última columna (marginal de Y). En el

ejemplo anterior:

X fi-

1-3 12

4-5 6

6-10 2

Total 20

Y 1-3 4-5 6-10 Total

f-J 8 4 0 12

Total 9 7 4 20

Page 3: TEMA 62. Series estadísticas bidimensionales. Regresión y ...joseluislorente.es/academia/temas/TEMA 62.pdfEn los casos anteriores si r=1 tendremos las medias de las dos variables:

Tema 62. Series estadísticas bidimensionales.

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 3

2.2 Distribución condicionada. Dependencia e independencia de variables.

Definición: llamamos distribución de frecuencias condicionada de la estadística (X,Y, fij)

por xi a la estadística definida como (yj,fij ). Es decir los valores de Y que toma la población con

valor de xi fijado.

Para trabajar con esta distribución vamos a poner un ejemplo de estadística bidimensional,

donde X=resultado de una valoración de la encuesta A={1,2,3} e Y= resultado de una

valoración de la encuesta B={1,2,3}. La tabla de doble entrada es:

X/Y 1 2 3 Total

1 10 15 5 30

2 12 20 10 42

3 30 10 0 40

Total 52 45 15 112

Una distribución marginal puede ser el estudio de la variable Y cuando x=1 (por ejemplo).

La frecuencia relativa condicionada vendrá definida como

===i

ij

jjijf

fxxyhh )|(|

(siempre que ∑=

− ≠=p

j

iji ff1

0 ).

La tabla condicionada para x=1 será

X/Y 1 2 3 Total

f-j 10 15 5 30

1|jh 0.33 0.5 0.17 1

Para x=2

X/Y 1 2 3 Total

f-j 12 20 10 42

2|jh 0.29 0.48 0.24 1

Para x=3

X/Y 1 2 3 Total

f-j 30 10 0 40

3|jh 0.75 0.25 0 1

La frecuencia relativa nos permite relacionar una variable con respecto a los valores de la

otra, esto nos permite eliminar interpretaciones falsas. Por ejemplo, el porcentaje de personas

que tienen cáncer de pulmón es mayor en personas que no trabajan en la mina que los que

trabajan en la mina (pues la mayoría de personas no son mineros). Pero en cuanto estudiamos

el porcentaje condicionado veremos que el porcentaje de mineros con cáncer de pulmón

relativo al número de mineros es bastante mayor que el porcentaje de personas no mineros

que tienen este cáncer.

Page 4: TEMA 62. Series estadísticas bidimensionales. Regresión y ...joseluislorente.es/academia/temas/TEMA 62.pdfEn los casos anteriores si r=1 tendremos las medias de las dos variables:

Tema 62. Series estadísticas bidimensionales.

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 4

Podemos ver la dependencia e independencia de las dos variables, X e Y, a partir de las

distribuciones condicionales. Veamos cómo se hace esto:

a. Dos variables (X,Y) son independientes si las distribuciones condicionales coinciden (o

son próximas) las frecuencias relativas marginales: Es decir: iigualesn

f

f

fh

j

i

ij

ij ∀== −

−|

Esto implica que la distribución de las frecuencias relativas es independiente de la otra

variable muestral.

b. Dos variables (X,Y) son dependientes si no son independientes.

En el ejemplo anterior vemos que claramente son dependientes pues las frecuencias

para x=3 son muy distintas para x=1 o x=2.

Proposición: si dos variables X e Y son independientes se cumple la siguiente igualdad:

n

f

n

ffrfr

n

ffr

jiji

ij

ij

−−−− === ··

Demostración: por ser independientes se cumple ijji

j

i

ij

ij fnffn

f

f

fh ··| =→== −−

ij

ijij

ntesindependie

jijiji fr

n

f

n

fn

n

ff

n

f

n

ffrfr ===== −−−−−− 22

····

3. Parámetros estadísticos.

3.1. Distribución condicionada

Definición: se llama momento de orden r, s respecto al origen a la expresión

( ) ( ) aindividuoticacaracterísyxsiendoyxfyxn

a aa

ji

n

a

s

a

r

aij

s

j

r

isr === ∑ ∑=

),()·(·)·(1

, 1

,

Casos particulares:

( ) ( ) ( ) ),(·11

·1

,

0, iir

i

i

r

i

ji i j

ij

r

iij

r

ir fxaXderordenmomentofxn

fxn

fxn

a ===== ∑∑ ∑ ∑ −

( ) ( ) ( ) ),(·11

·1

,

,0 jjr

j

j

r

j

ji i j

ij

r

jij

r

ir fyaYderordenmomentofyn

fyn

fyn

a ===== ∑∑ ∑∑ −

En los casos anteriores si r=1 tendremos las medias de las dos variables: a10= x , a01= y

Definición: se llama momento de orden r, s respecto a la media o central a la expresión

( ) ( ) aindividuoticacaracterísyxyyxxfyyxxn

m aa

ji

n

a

s

a

r

aij

s

j

r

isr =−−=−−= ∑ ∑=

),()·(·)·(1

, 1

,

Page 5: TEMA 62. Series estadísticas bidimensionales. Regresión y ...joseluislorente.es/academia/temas/TEMA 62.pdfEn los casos anteriores si r=1 tendremos las medias de las dos variables:

Tema 62. Series estadísticas bidimensionales.

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 5

Casos particulares:

m00=1; m01 =m10=0

( ) ( )2,

2

0,2 ·1

x

ji

iji fxxn

m σ=−= ∑ (dispersión de x)

( ) ( )2,

2

2,0 ·1

y

ji

iji fyyn

m σ=−= ∑ (dispersión de y)

( )( ) xy

ji

ijii yxfyyxxn

m σ==−−= ∑ ),cov(·1

,

1,1 (covarianza)

Proposición: los momentos centrales de una distribución bidimensional pueden expresarse

en función de los momentos respecto el origen.

Demostración: sólo hay que ver como las potencias s

i

r

i yyyxx )()( −− se pueden

desarrollar y por tanto poner en función de momentos respecto el origen.

Ejemplo:

0110111111

,,, ,,

1,1

·····

····1

))((1

aaayxayxyxyxa

xyfyxfyxfyxfn

fyyxxn

mji

iij

ji

iij

ji ji

ijjiijij

ji

jixy

−=−=−−+=

=

−−+=−−== ∑∑∑ ∑∑σ

3.2. Covarianza

Uno de los parámetros con más importancia y significado es el momento central de orden

1,1, conocido como covarianza, definido de la siguiente forma:

yxaaaafyyxxn

m ij

ji

jixy ··))((1

11011011

,

1,1 −=−=−−== ∑σ

Notar que cuando los valores de xi y de yi se separan de los valores de x e y , los dos

siendo mayores o los dos menores (producto positivo) entonces la contribución al parámetros

es positiva; si xi es mayor que x e yi es menor que y o al revés la contribución es negativa. Es

por esto que la covarianza nos informa de la relación entre las dos variables, X e Y:

a. Si las variables no tienen relación entre sí habrá tantas contribuciones negativas como

positivas en xyσ y por tanto se cumple 0≈xyσ . Por ejemplo si relacionamos la

variable X=”altura de la persona”, Y=”horas de sueño”

b. Si los datos situados la mayoría gráficamente en la nube de puntos en la diagonal de

pendiente positiva (los dos positivos o negativos) entonces xyσ >>0. Las magnitudes se

relacionan “de forma directamente proporcional”. Ejemplo: en las notas de

matemáticas y física se cumple xyσ =2.6 pues como suele ocurrir el que saca buena

nota en Matemáticas lo suele hacer en física o al revés.

Page 6: TEMA 62. Series estadísticas bidimensionales. Regresión y ...joseluislorente.es/academia/temas/TEMA 62.pdfEn los casos anteriores si r=1 tendremos las medias de las dos variables:

Tema 62. Series estadísticas bidimensionales.

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 6

c. Si por lo contrario los datos situados mayormente en la diagonal de pendiente

negativa (contribuciones negativas a la covarianza) entonces xyσ <<0. En este caso las

magnitudes se relacionan “de forma inversamente proporcional”. Un ejemplo puede

ser X=”la nota en un examen”, Y=”tiempo que el alumno ha estudiado el examen”.

Definición: la matriz covarianza nos informa de la dispersión o varianza de las dos

magnitudes independientes así como de la covarianza entre ambas:

=

2

2

yxy

xyxS

σσσσ

Son importantes las siguientes magnitudes relativas a la matriz covarianza:

- Varianza generalizada: |S|=222· xyyx σσσ +

- Varianza total: traza(S)= 22

yx σσ +

Propiedades covarianza:

- P1: La covarianza es invariante con el cambio de localización perno no con el cambio

de escala. La relación es la siguiente: cov(ax+b,cy+d)=a·c·cov(x,y)

- P2: cov(x,y)=a11- yx·

- P3: si las variables son independientes se cumple cov(x,y)=0

Demostraciones:

- P1:

).·cov(·))((1

·))·((1

))())·(((1

),cov(

,,

,

yxcayyxxfncadycdcybxabaxf

n

dcymdcybaxmbaxfn

dcybax

ji

ij

ji

ij

ji

ij

=−−=−−+−−+=

=+−++−+=++

∑∑

- P2: demostrado apartado anterior

- P3: =−−=−−= ∑∑ −−= −− ji

jiinfff

ji

iij yyfxxfn

yyxxfn

yxjiij ,

2··,

)()··(1

))(·(1

),cov(

00·0)(1)·(

1==−−= ∑∑ −−

i

j

i

i yyfn

xxfn

3.3. Coeficiente de correlación.

La covarianza como hemos visto en el apartado anterior no es invariante al cambio de

escala, por lo que no podemos comparar la covarianza de dos estadísticas diferentes. Para

solucionar este problema se utiliza en coeficiente de correlación, rxy, definido como:

))·var(var(· yxr

xy

yx

xy

xy

σ

σσ

σ==

Page 7: TEMA 62. Series estadísticas bidimensionales. Regresión y ...joseluislorente.es/academia/temas/TEMA 62.pdfEn los casos anteriores si r=1 tendremos las medias de las dos variables:

Tema 62. Series estadísticas bidimensionales.

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 7

Al igual que en la covarianza se define también la matriz de correlación definida como:

=

1

1

xy

xy

r

rR

Propiedades:

- P1: Invariantes al cambio de localización y escala: corr(ax+bmcy+d)=corr(x,y)

- P2: A partir de momentos en el origen: ( )( )22,0

2

0,2

11 ·

yaxa

yxarxy

−−

−=

- P3: La correlación es siempre en valor absoluto menor que la unidad: -1≤rxy≤1

- P4: Si las variables independientes se cumple rxy=0

Demostración:

- P1: xy

yx

xyxyxyr

ycxa

ca

dcynax

dcybaxdcybaxcorr ===

++

++=++

σσ

σσσ

·)·var()··var(

··

))·var(var(

),(),(

22

- P2: ∑ ∑∑ ∑ =−+=−= −−−−i i

iii

i i

iiii xfxn

xfn

xfn

xxfn

x12

11)(

1)var( 222

( )20,10,2

2

0,2 ··2 aaxxxa −=−+=

- P3: Si llamamos E al valor esperado se cumple, E((λy+x)2)≥0. Operando queda la

expresión 0)()·(2)(· 222 ≥++ YEyxExE λλ . Para que esta ecuación de segundo

grado siempre positiva se cumple que su discrimínate será negativo:

4·E2(x·y)-4·E(x

2)·E(y

2)≤0 � E

2(x·y)≤E(x

2)·E(y

2)� |E(x,y)|≤E(x)·E(y)� yxxy σσσ ·|| ≤

- P4: es lógico pues si son independientes 0=xyσ como vimos en anterior apartado.

4. Análisis gráfico. Regresión.

Muchas veces en el análisis estadístico, y por tanto fenómenos caracterizados por el azar,

intervienen dos variables cuya influencia mutua es deseable conocerse. Vamos a ver en este

punto como obtener la relación entre una variable “respuesta” y otra variable “control”

cuando se conocen algunas parejas de valores de ambos, estas sometidos a posibles errores de

medición. Esta dependencia funcional entre las dos variables se calcula a partir de la regresión.

A la hora de calcular la regresión podemos distinguir entre dos tipos de dependencias:

-Relación funcional perfecta: los ejemplos más importantes son las que relacionan dos

magnitudes físicas, como por ejemplo la posición y el tiempo en un movimiento uniforme:

s=v·t+s0. Aunque las variables tienen que cumplir la expresión de forma exacta, debido al error

experimentar a la hora de realizar la medición.

- Dependencia estadística: hay una relación entre ambas variables pero no se pude definir

una relación funcional exacta pues los resultados sometidos a las leyes del azar. Ejemplo típico

puede ser la relación entre el peso y la altura de las personas.

Page 8: TEMA 62. Series estadísticas bidimensionales. Regresión y ...joseluislorente.es/academia/temas/TEMA 62.pdfEn los casos anteriores si r=1 tendremos las medias de las dos variables:

Tema 62. Series estadísticas bidimensionales.

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 8

Gráfica de dispersión bidimensional (nube de puntos): representamos las parejas de

puntos de las dos variables, (xi,yi) en los ejes coordenadas. A partir de esta representación

veremos fácilmente la dependencia, o no de las dos variables. Veamos tres ejemplos:

Tendencia lineal

.

Tendencia aleatoria (variables independientes)

Page 9: TEMA 62. Series estadísticas bidimensionales. Regresión y ...joseluislorente.es/academia/temas/TEMA 62.pdfEn los casos anteriores si r=1 tendremos las medias de las dos variables:

Tema 62. Series estadísticas bidimensionales.

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 9

Es importante remarcar la diferencia entre la interpolación, donde la expresión algebraica

que relaciona las dos variables pasa por todos los puntos de la nube, y por tanto tiene tantos

parámetros (igual a uno más que el grado si es interpolación polinómica) y la regresión, donde

los puntos no tienen porque pertenecer a la expresión algebraica calculada, sino que

aproximarse lo máximo a ella (es por esto que la regresión tiene menos parámetros libres que

el número de puntos).

Para calcular la regresión es necesario fijar el tipo de expresión a la que vamos a ajustar la

nube de puntos. Las más importantes son la regresión lineal, polinómica, exponencial y

logarítmica. En todas ellas la regresión busca los parámetros de la expresión y=f(x) que

minimiza el error de la variable respuesta (generalmente identificada por y) respecto a la

variable de control (generalmente identificada por x).

El método más importante es el denominado mínimo cuadrado: este método basado en

minimizar las distancias al cuadrado de los puntos a la función obtenida por regresión:

Mínimos cuadrado :

−∑

=

n

i

iig

xgy1

2))((min ���� solución es g(x), función regresión.

5. Regresión lineal.

Es la regresión más sencilla y fundamental, ya que existen multitud de relaciones entre dos

variables que se comportan de esta forma. Buscamos por tanto una expresión y=g(x)=a+b·x

(dos parámetros a calcular). Para su cálculo utilizaremos el método de mínimos cuadrados.

Proposición: Dada una distribución estadística bidimensional (xi,yi ) la recta de regresión

que se obtiene por mínimos cuadrados es

y=a+b·x con b=2

x

xy

σ

σ a= xby ·−

Demostración: Veamos que la expresión anterior es la que minimiza las distancias al

cuadrado. Tenemos que minimizar ( ) ( )2

1

2

1

·)·(· ∑∑==

−−−−+−=−−n

i

ii

n

i

ii xbaxxbyyyxbay

= ( ) ( ) ( )( ))·(··2)·(·1

2

1

2

1

xxbyyxbayxxbyyxbay ii

n

i

n

i

ii

n

i

−−−−−+−−−+−− ∑∑∑===

=

Page 10: TEMA 62. Series estadísticas bidimensionales. Regresión y ...joseluislorente.es/academia/temas/TEMA 62.pdfEn los casos anteriores si r=1 tendremos las medias de las dos variables:

Tema 62. Series estadísticas bidimensionales.

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 10

=n· ( )2·xbay −− + ( )2

1

)·(∑=

−−−n

i

ii xxbyy +0 (pues el tercer miembro se anula

( ) ( ) 011

=−=− ∑∑==

n

i

i

n

i

i xxyy al ser la media el centro de gravedad de los datos)

Luego tenemos que minimizar: n· ( )2·xbay −− + ( )2

1

)·(∑=

−−−n

i

ii xxbyy . Como son dos

sumandos independientes, para minimizar el primero basta con hacer a= xby ·− para sea 0.

Tendremos que minimizar el 2º miembro en función de b: ( )2

1

)·()( ∑=

−−−=n

i

ii xxbyybf

f(b)=∑ ∑∑= ==

−+−−−−n

i

n

i

i

n

i

iii xxbyyxxbyy1 1

22

1

2 )())((·2)( . Es una parábola en b cóncava

luego el mínimo está en el vértice: f’(b)= 0)(2))((21

2

1

=−+−− ∑∑==

n

i

i

n

i

ii xxbyyxx .

Despejando 2

1

2

1

)(

))((

x

xy

n

i

i

n

i

ii

xx

yyxx

σ=

−−=

=

= .

Observaciones:

- Observación 1: la recta se puede poner )(2

xxyyx

xy −=−σ

σo )( xx

ryy

xy

−=−

σσ

- Observación 2: cuando queremos poner la expresión de x en función de y,

minimizando por tanto las distancias en el eje horizontal es )(2

yyxxy

xy −=−σ

σ

- Observación 3: Las 2 rectas y vs x, x vs y, se cortan en el “centro de gravedad”: ),( yx .

- Observación 4: El valor de r marca el crecimiento y el decrecimiento de ambas rectas,

si r>0 las rectas crecerán y si r<0 las rectas decrecerán.

6. Significado del coeficiente de correlación en la recta de regresión.

Como veremos la información del coeficiente de correlación es muy importante en la

relación lineal entre las dos variables de estudio.

Dada la distribución estadística (xi,yi ) y su recta de regresión y=a+b·x, llamamos residuos a

las diferencias entre los valores de yi y sus correspondientes valores de la recta conocido el

valor de x: ii xbay ·+=(

, es decir )(2

xxyyyyR i

x

xy

iiii −−−=−=σ

σ(

La recta de regresión, como hemos visto, hace mínimos la suma de los residuos al

cuadrado. Esta suma de residuos al cuadrado se llama varianza residual, Se2.Su valor es:

Page 11: TEMA 62. Series estadísticas bidimensionales. Regresión y ...joseluislorente.es/academia/temas/TEMA 62.pdfEn los casos anteriores si r=1 tendremos las medias de las dos variables:

Tema 62. Series estadísticas bidimensionales.

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 11

)1()1(·2·))((1

2

)(1

)(1

))((11

22

22

2

2

2

2

2

2

2

2

2

2

12

2

1

2

2

2

1

2

211

22

rxxyyn

xxn

yyn

xxyyn

Rn

Se

y

yx

xy

y

x

xy

yxy

x

xy

x

x

xy

yii

n

ix

xy

n

i

i

x

xy

i

n

i

i

x

xy

i

n

i

n

i

i

−=−=−=−

+=−−−

−−

+−=−−−==

∑∑∑∑

=

====

σσσ

σσ

σ

σσσ

σ

σσ

σ

σσ

σ

σ

σ

σ

σ

σ

Como |r|≤1, se cumple que la varianza residual oscila entre su valor máximo Se2=

2

yσ si

r=0 (sucesos independientes) y Se2=0 si r={-1,1} (sucesos funcionales)

7. Otros tipos de regresiones.

No siempre la recta de regresión reproduce los mejores resultados para relacionar las dos

variables, x e y. La forma más fácil de ver si la regresión lineal puede ser o no buena expresión

para relacionar las dos variables es a partir de observar la nube de puntos.

7.1. regresiones linealizables.

En este apartado veremos relaciones no lineales (con dos parámetros libres), pero que a

partir de un cambio de variable podemos transformarlas en funciones lineales. De esta forma

podemos calcular los parámetros de las expresiones de igual forma que la regresión lineal

haciendo previamente un cambio de variable. Veamos alguna de estas expresiones:

- Potencial: y=a·xb con u=log(y) y v=log(x) se transforma en u=a+b·v

- Cuadrática: y=a+b·x2 con u=x

2 y v=y se transforma en u=a+b·v

- Inversa: y=a+b/x, con el cambio de variable, v=y u=1/x se transforma en u=a+b·v.

- …

7.2. Regresión polinómica.

Una generalización sencilla e importante de la regresión lineal es la regresión polinómica

de grado k: y=f(x)=a0+a1·x+…+an·xk. En esta regresión tendremos que determinar los k+a1

coeficientes del polinomio. Para su cálculo hacemos el método del mínimo cuadrado:

+++−∑

=

2

1

10 ...(minn

i

k

ki xaxaay

Para determinar los k+1 parámetros definimos G(a0,a1,…,ak )=

2

1

10 ...(

+++−∑

=

n

i

k

ikii xaxaay ,

que tenemos que minimizar en función de elegir correctamente los k+1 parámetros. Para

calcular esta expresión tenemos que derivar respecto los parámetros ai e igualando a cero:

- ∑=

=−+++→=∂∂ n

i

i

k

iki yxaxaaa

G

1

10

0

0)...(·20

- ∑=

=−+++→=∂∂ n

i

ii

k

iki xyxaxaaa

G

1

10

1

0)·...(·20

- ∑=

=−+++→=∂∂ n

i

ii

k

iki xyxaxaaa

G

1

2

10

2

0)·...(·20

- (…)

Page 12: TEMA 62. Series estadísticas bidimensionales. Regresión y ...joseluislorente.es/academia/temas/TEMA 62.pdfEn los casos anteriores si r=1 tendremos las medias de las dos variables:

Tema 62. Series estadísticas bidimensionales.

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 12

- ∑=

=−+++→=∂∂ n

i

k

ii

k

iki

k

xyxaxaaa

G

1

10 0)·...(·20

Que es un sistema de k+1 ecuaciones lineales e igual número de incógnitas, que se pude

resolver fácilmente por Cramer o por Gauss.

8. Aplicaciones.

8.1. Usos y abusos de la regresión.

La aplicación de los métodos expuestos de regresión y correlación exige un análisis teórico

previo de las posibles relaciones entre las variables. Puede ocurrir que se seleccionen dos

variables cualesquiera al azar y que dé la casualidad de que, estadísticamente, la correlación

sea perfecta cuando no existe relación posible entre ellas.

Se deben seleccionar variables entre las que la fundamentación teórica avale algún tipo de

relación, evitando, en lo posible, relaciones a través de otra variable principal..

8.2. Predicción.

El objetivo último de la regresión es la predicción o pronóstico sobre el comportamiento

de una variable para un valor determinado de la otra. Así, dada la recta de regresión de y sobre

x, para un valor x=x0 de la variable, obtenemos y0

Es claro que la fiabilidad de esta predicción será tanto mayor, en principio, cuanto mejor

sea la correlación entre las variables. Por tanto, una medida aproximada de la bondad de la

predicción podría venir dada por r.

9. Conclusiones.

Las series estadísticas bidimensionales y la correlación lineal es una unidad didáctica que

se imparte en la asignatura de Matemáticas I de 1º de Bachillerato de Ciencias, y en

Matemáticas para las CCSS también de 1º de Bachillerato.

Es interesante es esta unidad enseñar la potencia de las herramientas informáticas para el

cálculo de los parámetros estadísticos y de la correlación lineal como las hojas de cálculo (Excel

de Microsoft, o Calc de OpenOficce).