ajuste de regresión lineal...

33
1 1

Upload: others

Post on 22-Sep-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Ajuste de Regresión Lineal Simple

Hugo Alberto Brango García1

1Universidad de Córdoba

Estadística II

Mayo de 2014

Análisis de Regresión Mayo de 2014 1 / 33

Page 2: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Supuestos sobre los residuales del modelo

Normalidad de los errores

Los supuestos que se deben cumplir en la construcción de un Modelo de

Regresión son los siguientes:

Los residuales deben seguir una distribución normal

Para probar si los residuales siguen una distribución normales

existen pruebas grá�cas y pruebas analíticas

En las pruebas grá�cas tenemos el Q-Q plot

Análisis de Regresión Mayo de 2014 2 / 33

Page 3: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Supuestos sobre los residuales del modelo

Normalidad de los errores

En las pruebas formales o analíticas tenemos:

Prueba de Shapiro-Wilk: La hipótesis a probar es

H0 : Los errores siguen una distribución normal

Ha :Los errores no siguen una distribución normal

La hipótesis H0 se rechaza al nivel 5% si p-value < 0,05

Análisis de Regresión Mayo de 2014 3 / 33

Page 4: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Supuestos sobre los residuales del modelo

Independencia, aleatoriedad

Los errores son homocedásticos: Estos deben tener varianza

constante

Aleatoriedad de los residuos: Estos no deben tener patrones

sistemáticos

Independencia: No debe existir depednecia de las observaciones

o autocorrelación serial

ei ∼ NI(0, σ2

)

Análisis de Regresión Mayo de 2014 4 / 33

Page 5: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Supuestos sobre los residuales del modelo

Satisfactorio

Análisis de Regresión Mayo de 2014 5 / 33

Page 6: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Supuestos sobre los residuales del modelo

No satisfactorio

Análisis de Regresión Mayo de 2014 6 / 33

Page 7: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Supuestos sobre los residuales del modelo

No satisfactorio

Análisis de Regresión Mayo de 2014 7 / 33

Page 8: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Aplicación de la Regresión en R

Datos

Para ilustrar los comandos de R que están asociados a la regresión

lineal, utilizaremos datos de los precios de los apartamentos en la

ciudad de Medellín en función de los metros cuadrados.

Metros Precio Metros Precio

180 150 107 105

121 145.2 83 91

119.69 135.6 69 68.8

127 128 74 65.1

155.1 135 47 48

119 125 164 165

105 118

Análisis de Regresión Mayo de 2014 8 / 33

Page 9: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Aplicación de la Regresión en R

Histograma y boxplot para el área

Análisis de Regresión Mayo de 2014 9 / 33

Page 10: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Aplicación de la Regresión en R

Histograma y boxplot para el precio

Análisis de Regresión Mayo de 2014 10 / 33

Page 11: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Aplicación de la Regresión en R

Datos

Para introducir los datos lo podemos hacer de la siguiente

manera:

metros=c(180,121,119.7,127,155.1,119,105,107,83,69,74,47,164)

precio=c(150,145.2,135.6,128,135,125,118,105,91,68.8,65.1,48,165)

Para obtener el diagrama de dispersión empleamos

plot(metros,precio)

Análisis de Regresión Mayo de 2014 11 / 33

Page 12: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Aplicación de la Regresión en R

Grá�co de dispersión

Análisis de Regresión Mayo de 2014 12 / 33

Page 13: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Aplicación de la Regresión en R

Ajuste del MRLS

Para estimar los coe�cientes del modelo de regesión lineal simple

empleamos:reg=lm(precio~metros)

summary(reg)

Estimate Std. Error t value Pr(>|t|)

(Intercept) 16.3743 12.3918 1.321 0.213

metros 0.8613 0.1040 8.279 4.71e-06 ***

� Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 13.96 on 11 degrees of freedom

Multiple R-squared: 0.8617, Adjusted R-squared: 0.8491

F-statistic: 68.53 on 1 and 11 DF, p-value: 4.713e-06

Análisis de Regresión Mayo de 2014 13 / 33

Page 14: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Aplicación de la Regresión en R

Ajuste del MRLS

Se deduce que la ecuación de recta ajustada es:

p̂recio = 16.3743 + 0.8613 ∗metros

El valor del coe�ciente de determinación es R2 = 0.8617, el coe�cientede la pendiente es signi�cativo.

Análisis de Regresión Mayo de 2014 14 / 33

Page 15: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Aplicación de la Regresión en R

Ajuste del MRLS

Añadimos la recta ajustada al conjunto de datos:

abline(lm(precio ~ metros))

Análisis de Regresión Mayo de 2014 15 / 33

Page 16: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Aplicación de la Regresión en R

Ajuste del MRLS

Podemos acceder a los valores ajustados, los residuos, y los coe�cientes

con:

reg$fitted

reg$resid

reg$coef

Análisis de Regresión Mayo de 2014 16 / 33

Page 17: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Aplicación de la Regresión en R

Intervalo de con�anza para β0 y β1

Para calcular intervalos de con�anza al 95% para los parámetros del

modelo usamos lo siguiente:

confint(reg,level=0.95)

2.5% 97.5%

(Intercept) -10.8998595 43.648501

metros 0.6323315 1.090314

Los resultados representan intervalos de con�anza de 95% para β0 y β1,es decir:

−10.899 ≤ β0 ≤ 43.648

0.632 ≤ β1 ≤ 1.090

Análisis de Regresión Mayo de 2014 17 / 33

Page 18: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Aplicación de la Regresión en R

Tabla de Análisis de Varianza

Para construir la tabla ANOVA usamos la siguiente función:

anova(reg)Df Sum Sq Mean Sq F value Pr(>F)

metros 1 13365.4 13365 68.527 4.713e-06 ***

Residuals 11 2145.4 195

� Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Como p-valor < 0.05, entonces se rechaza H0al nivel 0.05. Es decir el

modelo ajustado es signi�cativo.

Análisis de Regresión Mayo de 2014 18 / 33

Page 19: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Aplicación de la Regresión en R

Grá�co de los errores

plot(error)

Análisis de Regresión Mayo de 2014 19 / 33

Page 20: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Aplicación de la Regresión en R

Grá�co de los errores en función de x

plot(metros,error,xlab=�metros�)

Análisis de Regresión Mayo de 2014 20 / 33

Page 21: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Aplicación de la Regresión en R

Grá�co de normalidad

error=reg$resid

qqnorm(error)

qqline(error)

Análisis de Regresión Mayo de 2014 21 / 33

Page 22: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Aplicación de la Regresión en R

Prueba de Normalidad de Shapiro-Wilk

H0 : Los residuos del modelo siguen una distribución normal

Ha: Los residuos del modelo no siguen una distribución normal

shapiro.test(error)

Shapiro-Wilk normality

W = 0.9818, p-value = 0.9871

Como p-value > 0.05, entonces se acepta la hipótesis de normalidad. Es

decir, los residuos del modelo siguen una distribución normal.

Análisis de Regresión Mayo de 2014 22 / 33

Page 23: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Aplicación de la Regresión en R

Prueba de aleatoriedad

H0 : Los residuos del modelo son aleatorios

Ha : Los residuos del modelo no son aleatorios

library("tseries")

runs.test(as.factor(error>median(error)))

Runs Test

data: as.factor(error > median(error))

Standard Normal = 0.314, p-value = 0.7535

alternative hypothesis: two.sided

Como p-value=0.7535>0.05 se acepta H0 es decir los errrores son

aleatorios.

Análisis de Regresión Mayo de 2014 23 / 33

Page 24: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Regresión no lineal.

Regresión no lineal

Cuando se hace el grá�co de dispersión y este sugiere que no hay

relación lineal, se hacen transformaciones sobre y y x para linealizar.

Análisis de Regresión Mayo de 2014 24 / 33

Page 25: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Regresión no lineal.

Caso exponencial y = β0eβ1x

El modelo exponencial se linealiza asï:

y = β0eβ1x

ln(y) = ln(β0) + β1x

Se hace entonces la regresión lineal simple entre ln(y) y x.

Análisis de Regresión Mayo de 2014 25 / 33

Page 26: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Regresión no lineal.

Caso potencial y = β0xβ1

El modelo se linealiza así:

y = β0xβ1

=⇒

ln(y) = ln(β0) + β1ln(x)

Se hace entonces la regresión lineal simple entre ln(y) y ln(x).

Análisis de Regresión Mayo de 2014 26 / 33

Page 27: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Regresión no lineal.

Los siguientes datos representan la población mudial en millones para

cada año

Año 1000 1250 1500 1750 1800 1920 1950 2000

Población (mill) 310 400 500 790 980 1860 2520 6086

Análisis de Regresión Mayo de 2014 27 / 33

Page 28: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Regresión no lineal.

Análisis de Regresión Mayo de 2014 28 / 33

Page 29: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Regresión no lineal.

Ajustando regresión lineal

lineal=lm(pob~año)

summary(lineal)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -4078.389 2771.075 -1.472 0.191

año 3.498 1.649 2.122 0.078 .

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 1584 on 6 degrees of freedom

Multiple R-squared: 0.4287, Adjusted R-squared: 0.3335

F-statistic: 4.503 on 1 and 6 DF, p-value: 0.07806

Análisis de Regresión Mayo de 2014 29 / 33

Page 30: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Regresión no lineal.

Ajustando regresión lineal

Aquí el modelo lineal estimado es:

p̂ob = −4078.389 + 3.498año

R2 = 0.4287

Se observa que el modelo no es signi�cativo, la relación lineal entre los

años y el tamaño de la población no es signi�cativo al nivel 0.05. El

coe�ciente de determinación es 0.4287, lo cual evidencia un pobre

ajuste del modelo lineal a los datos.

Análisis de Regresión Mayo de 2014 30 / 33

Page 31: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Regresión no lineal.

Ajuste de regresión exponencial

exponencial=lm(log(pob)~año)

summary(exponencial)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.8737056 0.8998752 3.193 0.01875 *

año 0.0024743 0.0005353 4.622 0.00361 **

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 0.5143 on 6 degrees of freedom

Multiple R-squared: 0.7807, Adjusted R-squared: 0.7442

F-statistic: 21.36 on 1 and 6 DF, p-value: 0.003608

Análisis de Regresión Mayo de 2014 31 / 33

Page 32: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Regresión no lineal.

Ajuste de regresión exponencial

El modelo estimado es:

ln( ˆpob) = 2.874 + 0.0025 ∗ año

Lo cual indica que por cada año la población creció en 0.25%. Para

expresar la anterior ecuación en su forma exponencial sacamos el

antilogaritmo

ˆpob = e2.874+0.0025∗año

= 17.701e0.0025∗año

Este modelo explica un 78.07% (R2 = 0.7807) de la variabilidad de la

pblación en este período. La relación exponencial entre población y año

es signi�cativa al 0.05.

Análisis de Regresión Mayo de 2014 32 / 33

Page 33: Ajuste de Regresión Lineal Simpleseb952972e85ebc4f.jimcontent.com/.../Regresi__n_Lineal_Simple_en… · Aplicación de la Regresión en R Datos Para ilustrar los comandos de R que

Regresión no lineal.

pobes=17.701*exp(0.0025*año)

plot(año,pob)

abline(lineal)

lines(año,pobes,col=�red�)

l

Análisis de Regresión Mayo de 2014 33 / 33