modelos lineales generalizados - uv.es · guion:¶ 1 introducci¶on motivaci¶on. mortalidad por...

49
ESTAD ´ ISTICA ESPACIAL EN EPIDEMIOLOG ´ IA Y MEDIO AMBIENTE DOCTORADO EN ESTAD ´ ISTICA E I.O. Universitat de Val` encia (Estudi General) Burjassot, Primavera de 2004 MODELOS LINEALES GENERALIZADOS AntonioL´opez Dep. d’Estad´ ıstica i Investigaci´ o Operativa Universitat de Val` encia (Estudi General) [email protected] 1

Upload: lytuyen

Post on 03-Oct-2018

225 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

ESTADISTICA ESPACIAL EN EPIDEMIOLOGIA Y MEDIO AMBIENTE

DOCTORADO EN ESTADISTICA E I.O.

Universitat de Valencia (Estudi General)

Burjassot, Primavera de 2004

MODELOS LINEALES GENERALIZADOS

Antonio Lopez

Dep. d’Estadıstica i Investigacio Operativa

Universitat de Valencia (Estudi General)

[email protected]

1

Page 2: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

GUION:

1 IntroduccionMotivacion. Mortalidad por cancer de prostata en Valencia. Regresion

lineal.

2 Modelo Lineal Generalizado (GLM)Definicion. Componentes. Funcion vınculo. Modelos de datos

continuos. Modelos de datos discretos. Parametro de dispersion.

Sobredispersion.

3 Estimacion de un GLMMaxima Verosimilitud. Metodo Scoring de Fisher. Estimacion del

parametro de dispersion.

4 Seleccion del mejor modeloDesviacion. Modelos encajados.

2

Page 3: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

5 Analisis de residuosResiduos de Pearson. Residuos de desviacion. Residuos por exclusion.

6 Extensiones de los GLMQuasi-verosimilitud. Otras extensiones.

7 EjemploMortalidad por cancer de prostata en Valencia.

Bibliografıa

3

Page 4: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

MORTALIDAD POR CANCER DE PROSTATA.

VALENCIA 1975-1980

01 a 5

6 a 10>10

numero de defunciones acumuladas para el perıodo

4

Page 5: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

TASAS DE MORTALIDAD POR CANCER DE

PROSTATA. VALENCIA 1975-80

0]0,5[

[5,10[[10,150[

tasas por 10000 habitantes

5

Page 6: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

CONCENTRACION DE NITRATOS EN AGUAS

POTABLES

[ 0,10[[10,30[

[30,90[[90,300[

Concentracion de nitratos en mg/litro, Llopis (1985)

6

Page 7: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

MODELOS DE REGRESION

yi = f(xi) + εi i = 1, . . . , n indep.

atributo enestudio

=componentesistematica

+componenteerratica

Esperanza[yi] = f(x)

Varianza[yi] = Varianza[εi]

Regresion lineal simple:f(xi) = β0 + β1xi

Ej.: mortalidadi=tasa×poblacioni+εi

i:= ındice de municipio

7

Page 8: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

MODELOS DE REGRESION

yi = f(xi) + εi i = 1, . . . , n indep.

atributo enestudio

=componentesistematica

+componenteerratica

Esperanza[yi] = f(x)

Varianza[yi] = Varianza[εi]

Regresion lineal multiple:f(xi) = β0 + β1x1i + . . . + βkxki

Ej.: mortalidadi=∑

j(tasaj×poblacionji) +εi

i:= ındice de municipioj:= ındice de grupo de edad

8

Page 9: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

C. DE PROSTATA EN VALENCIA (cont.)

NOMBRE DEL cancer conc. edad:

MUNICIPIO habit. prostata nitr. % ≥ 40

Ademuz 1545 1 11 59.0

Ador 1256 5 16 49.4

Adzaneta de Albaida 1364 0 18 42.7

Agullent 2016 0 8 35.8

Alaquas 23728 5 78 32.4

Albaida 5573 3 8 38.7

Albal 8139 4 17 36.0

Albalat de la Ribera 3594 2 76 42.2

Albalat dels Sorells 567 8 60 41.4

Albalat dels Tarongers 3657 0 32 53.4

Alberique 8971 1 28 42.9

Alborache 821 0 12 43.9

Alboraya 10786 4 42 39.2

Albuixech 3005 0 66 47.0

. . . . . . . . . . . . . . .

Datos de nitratos extraıdos de (Llopis, 1985)

9

Page 10: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

REGRESION LINEAL SIMPLE

yi ∼ N(β0 + β1xi︸ ︷︷ ︸media

, σ2︸︷︷︸varianza

) i = 1, . . . , n

independ.

A partir de los n datos se obtienen las estimaciones:

β1 =∑

i(yi − y)(xi − x)n

∑i(xi − x)2

β0 = y − β1x

y se contrasta la hipotesis H0 : β1 = 0

10

Page 11: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

C. DE PROSTATA EN VALENCIA (cont.)

casosi = β0 + β1 × nitratosi + εi

Ajuste

σ2: 16.88 con 261 grados de libertad

Multiple R2: 0.00007167

Estadıstico F : 0.01871 con 1 y 261 gr. libertad,

(p-valor=0.8913) resultado no significativo

Coeficientes Valor Std.Err. estad.t p-valor

Intercept. 3.0091 1.4558 2.0669 0.0397

nitratos 0.0032 0.0234 0.1368 0.8913

11

Page 12: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

C. DE PROSTATA EN VALENCIA (cont.)

Residuos:

Min 1Q Median 3Q Max

-3.534 -3.06 -2.102 -0.3581 265.9

12

Page 13: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

C. DE PROSTATA EN VALENCIA (cont.)

oooo oo o ooooo o o ooo

o oo ooo o ooo oo

o ooo o oo ooo oo oo oooo ooo oooo ooo oo ooo oo ooo o ooo ooo ooooo oo ooo oo oooo oo o oooo ooo oooo oooo o ooo ooo o oooo o oooo oooo oo

oo oo oo o oooo ooooo oo ooo oo oo oooo o o o oo oo ooo ooooo o ooo o ooo oo o o ooo ooo o oo o oooo o o o oo oooo ooo o oo ooo

oo oo o oo ooo

ooo ooo

o o ooo oo oo

oooo o

o

oo o oo ooo o oo oo

nitratos

mor

talid

ad

0 50 100 150 200 250

050

100

200

ajuste de mortalidad vs. nitratos

13

Page 14: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

C. DE PROSTATA EN VALENCIA (cont.)

o

o

oo

oooo

o

ooo

o

o

o

o

o

o

o

o

oo

oooooo

o

o

oo

oo

ooooooo

o

o

o

oooooo

o

oo

oooooo

o

ooooooooo

o

ooooooo

o

oo

o

o

o

oooooooooo

o

oooooo

o

o

oo

ooo

ooo

ooooooo

o

oooooooooooo

o

ooooooooooooo

o

o

o

ooooooooooo

o

oooo

ooo

oo

o

o

o

ooooooooo

o

oo

o

ooooo

ooo

oo

oo

o

ooooooo

o

ooooooo

o

oooooo

o

ooooooooo

o

oooo

o

o

o

o

ooooo

o

oooo

o

ooooooo

o

ooooo

municipios

resi

duos

0 50 100 150 200 250

05

1015

20residuos del ajuste eliminando municipio de Valencia

14

Page 15: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

REGRESION LINEAL MULTIPLE

Aunque estemos interesados en un solo factor de riesgo, convieneincluir en el modelo todos aquellos cuya influencia se sospecha. Conello evitaremos estimaciones sesgadas del factor de interes yconclusiones posiblemente equivocadas.

Ajustandoyi = α0 + α1x1i + εi

y el modelo con factores de riesgo x2, . . . , xk adicionales

yi = β0 + β1x1i + . . . + βkxki + εi

en general se obtiene α1 6= β1

La tabla de ANOVA permite valorar la hipotesis de que todos loscoeficientes de regresion son nulos a la vez, ası como la coleccion dehipotesis de que cada uno de ellos es irrelevante una vez consideradoslos restantes.

15

Page 16: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

C. DE PROSTATA EN VALENCIA (cont.)

casosi = β0 + β1 × poblacioni

+ β2 × envejecimientoi

+ β3 × nitratosi + εi

Ajuste

σ2: 2.058 con 259 grados de libertad

Multiple R2: 0.9852

Estadıstico F : 5765 con 3 y 259 grad. de lib,

(p-valor < 0,00005) muy significativo

16

Page 17: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

C. DE PROSTATA EN VALENCIA (cont.)

Coefs. Estim. StdErr. estad.t p-valor

Intercept. -1.5897 0.8538 -1.8618 0.0638

poblacion 0.0004 0.0000 130.60 0.0000

envejec. 3.5904 1.7374 2.0665 0.0398

nitratos 0.0061 0.0030 2.0291 0.0435

Residuos

Min 1Q Median 3Q Max

-8.765 -0.7577 -0.3334 0.5301 11.65

Incremento R2 ≈ 0.9851

17

Page 18: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

DIAGNOSTICO DEL MODELO

o

o

oo

o

ooo

o

ooooo

oo

o

ooo

oo

oo

oooo

o

oo

o

ooooooooo

o

oo

ooooooooooooooooo

ooooooooooooooooo

oooooo

o

ooooooo

o

o

ooo

o

oo

o

o

oo

o

oo

oo

o

o

oooo

oo

o

oooooooo

oooo

o

ooooooooooo

o

o

o

o

o

ooooooooooo

o

ooooo

oooo

o

oo

oooooo

ooo

o

oooo

o

ooo

o

ooooooo

ooo

oooo

oooooooo

o

o

ooooo

o

ooo

oooooo

o

oooo

o

oo

o

ooooo

o

oooooooooooo

o

o

ooooo

municipio

resi

duos

0 50 100 150 200 250

-50

510

ajuste de mortalidad vs. pobl., envej. y nitratos

18

Page 19: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

DIAGNOSTICO DEL MODELO

o

o

oo

o

o o o

o

ooo o

o

o

o

o

o oooo

oo

ooo o

o

oo

o

o ooo o

oo

oo

o

oo

oooo

ooo

ooo

ooo ooo

ooo

oooo o ooo

ooo oooo

ooo oo

o

o

o ooo

o ooo

ooo

o

o

oo

o

o

oo

o

oo

o o

o

o

ooo

oo

oo

oo ooooo

oooo o

o

oo

oo

oo o ooooo

o

o

o

o

oooo

o oo

ooo

o

o

o o o oo

oo

o o

o

oo

oooo o ooo o

o

oo oo

o

o oo

o

oooo oo

o

ooo

o o oo

o

oo

ooo oo

o

o

ooooo

o

o o

o

o oo ooo

o

ooo

o

o

oo

o

oo oo o

o

ooooo

ooo o oo

o

o

oo o

o oo

nitratos

mor

talid

ad a

just

ada

0 50 100 150 200 250

-50

510

mortalidad ajustada para demografia vs. nitratos

19

Page 20: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Introduccion

Modelo Lineal General: datos independientes, y1, y2, . . . , yn,normalmente distribuidos.

yi ∼ N(β0 + β1x1i + . . . + βpx

pi , σ

2)

predictor lineal β′xi

varianza constante

E[y] = Xβ, V[y] = σ2I

Modelo Lineal Generalizado: datos independientes de unadistribucion de la familia exponencial (binomial, Poisson,gamma, . . .).

modeliza E[y] como una funcion no lineal de Xβ.

20

Page 21: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Introduccion

Analisis de un GLM:

calculo del estimador maximo verosımil

comparacion de modelos encajados

valoracion del ajuste del modelo a los datos

21

Page 22: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Definicion de GLM

Conjunto de variables aleatorias independientes y1, y2, . . . , yn confuncion de densidad, o funcion de probabilidad, que puede escribirsecomo:

p(yi | θi, φ) = exp{yiθi − b(θi)ai(φ)

+ c(yi, φ)}

donde:θi es el parametro natural o canonico

φ es un parametro adicional de escala o dispersion

ai(·), b(·) y c(·) son funciones especıficas

Si φ es conocido este es un modelo de la familia exponencial lineal

Si φ es desconocido es un modelo de dispersion exponencial

22

Page 23: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Definicion de GLM

Bibliografıa general:Nelder y Wedderburn (1972)McCullagh y Nelder (1989)Fahrmeir y Tutz (1994)Garthwaite et al. (1995)

23

Page 24: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Componentes del GLM

Queremos modelizar µi = E[yi] en terminos del predictor lineal β′xi

formado con un conjunto de p covariables

β′xi = β0 + β1x1i + . . . + βpx

pi

Componentes:

1 Conjunto de n variables respuesta independientes, de unadistribucion de la familia exponencial

2 Un vector de parametros β y una matriz del modelo X,determinando el predictor lineal de cada variable β′xi

3 Una funcion vınculo monotona y diferenciable que define larelacion entre µi y su predictor lineal

g(µi) = β′xi

24

Page 25: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Funcion vınculo

Permite modelizar distintas relaciones entre µ y el predictor lineal.

Vınculo natural o canonico:Aquel que es igual a la funcion que define el parametro natural ocanonico de esa distribucion. Por tanto, θ = β′x

25

Page 26: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Funcion vınculo

Vınculos mas usuales:

¦ logit log π1−π

¦ probit Φ−1(π)

¦ complementario

log-log log[− log(1− π)]

¦ identidad µ

¦ inverso −1/µ

¦ logaritmo log µ

¦ raiz cuadrada√

µ

Eleccion del vınculo: depende de la familia de distribuciones, deltipo de respuestas y de la aplicacion.

26

Page 27: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Modelos de datos continuos

Normal:

Distribucion N(µ, σ2)

E[y] = µ

vınculo g(µ) = µ (identidad)

b(θ) = θ2/2

a(φ) = σ2

Otros vınculos: logaritmo

raiz cuadrada

27

Page 28: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Modelos de datos continuos

Gamma:

Distribucion Gamma(λ, ν)

E[y] = λν

vınculo g(µ) = − 1µ = − ν

λ (inverso)

b(θ) = − log(−θ)

a(φ) = 1λ

Otros vınculos: identidad

logaritmo

28

Page 29: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Modelos de datos discretos

Binomial:

Distribucion Bi(n, π)

E[y] = nπ

vınculo g(µ) = log µn−µ = log π

1−π (logit)

b(θ) = n log(1 + eθ)

a(φ) = 1

Otros vınculos: probit

complementario log-log

29

Page 30: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Modelos de datos discretos

Poisson:

Distribucion Po(λ)

E[y] = λ

vınculo g(λ) = log λ (logaritmo)

b(θ) = eθ

a(φ) = 1

Otros vınculos: identidad

raiz cuadrada

30

Page 31: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Parametro de dispersion

Con frecuencia, el termino ai(φ) es de la forma φ/ωi, donde ωi es unpeso.

Si los datos no son agrupados, ωi = 1

Si las variables respuesta expresan promedios, ωi = ni

Si son la suma de ni respuestas individuales, ωi = 1/ni

31

Page 32: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Sobredispersion

Fenomeno que ocurre en aplicaciones con distribuciones con varianzapoco flexible, como Binomial y Poisson.

Al anadir un parametro de dispersion φ, se modifica la varianza

V[y] = a(φ)b′′(θ)

Puede representar una heterogeneidad no observada o una correlacionpositiva entre respuestas individuales.

Tambien se denomina extravarianza.

32

Page 33: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Maxima verosimilitud

El logaritmo de la verosimilitud de θ para las observaciones y es

l(θ | y) =n∑

i=1

yiθi − b(θi)ai(φ)

+n∑

i=1

c(yi, φ)

Nuestro principal interes es la estimacion de β. El estimadormaximo verosımil de cada βj anula la derivada de l

∂l

∂βj=

n∑

i=1

(yi − µi)xij

V[yi]g′(µi)

33

Page 34: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Maxima verosimilitud

En general, estas ecuaciones de estimacion no se pueden resolverdirectamente. Su solucion puede aproximarse por procedimientositerativos, empleando la esperanza de las segundas derivadas

E[

∂2l

∂βj∂βk

]=

n∑

i=1

xijxik

V[yi]g′(µi)2

34

Page 35: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Metodo Scoring de Fisher

Algoritmo de Newton-Raphson:Procedimiento iterativo a partir de una estimacion inicial β0:

βr+1 = βr − [D2βl(βr)]−1Dβl(βr)

donde Dβl(βr) es el vector de primeras derivadas de l, y D2βl(βr)

la matriz de segundas derivadas, evaluadas en βr.

Metodo Scoring de Fisher:Consiste en sustituir D2

βl(βr) por su valor esperado.

E[

∂2l

∂βj∂βk

]=

n∑

i=1

xijxik

V[yi]g′(µi)2

Equivale a resolver iterativamente un problema de mınimoscuadrados ponderados (Jorgensen, 1983).

La sucesion {βr} converge al estimador maximo verosımil de β.

35

Page 36: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Estimacion del

parametro de dispersion

Si φ no es conocido, es necesario usar una estimacion para el calculode V[yi] en el procedimiento anterior.

Cuando ai(φ) = φ/ωi, la expresion de la varianza

V[yi] = ai(φ)b′′(θi)

proporciona un estimador consistente de φ a partir de unaestimacion de β

φ =1

n− p− 1

n∑

i=1

ωi(yi − µi)2

b′′(θi)

36

Page 37: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Estimacion del

parametro de dispersion

Para la normal, el estimador de la varianza del modelo de regresionlineal es la suma de cuadrados residual

σ2 =1

n− p− 1

n∑

i=1

(yi − µi)2

37

Page 38: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Desviacion

Determinaremos la adecuacion del modelo comparandolo con elmodelo saturado.

El modelo saturado tiene la misma forma que el ajustado, perocon tantos parametros como observaciones.

Desviacion escalada: obtenida con el estadıstico cociente deverosimilitudes

S = −2[l(β | y, φ)− l(β | y, φ)]

con β el EMV del modelo saturado.

38

Page 39: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Desviacion

En terminos del parametro natural es

S = 2n∑

i=1

yi(θi − θi)− b(θi) + b(θi)ai(φ)

Cuando φ es conocido, la desviacion escalada mide cuanto se desvıael modelo de los datos.

Distribucion aproximada:Si el modelo se ajusta bien a los datos

S ∼ χ2(n− p− 1)

39

Page 40: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Desviacion

Desviacion (no escalada):Se define por

D(y, µ) = φS

Si ai(φ) = φ/ωi, equivale a

2n∑

i=1

ωi[yi(θi − θi)− b(θi) + b(θi)]

Descomposicion de la desviacion:La desviacion es la suma de las discrepancias para cada uno delos datos

D(y, µ) =n∑

i=1

di(yi, µi)

40

Page 41: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Desviacion

Estimacion de φ:La desviacion de un modelo razonable con q parametros permiteestimar φ mediante

φ = D/(n− q)

debido a que la esperanza aproximada de S es igual a n− q, losgrados de libertad de la distribucion χ2

41

Page 42: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Modelos encajados

La desviacion es util para comparar el ajuste de dos modelosencajados.

Un modelo M1 con q1 parametros esta encajado en otro M2 con q2

parametros (q1 < q2) si son de la misma forma y las covariablesde M1 estan contenidas en las de M2.

La necesidad de los q2 − q1 parametros adicionales se contrasta conun test χ2. Si D1 y D2 son las desviaciones de dos modelosencajados con buen ajuste,

(D1 −D2)/φ ∼ χ2(q2 − q1)

42

Page 43: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Modelos encajados

Si φ tiene que ser estimado, puede hacerse el contraste con un testF, usando

(D1 −D2)(n− q2)(q2 − q1)D2

∼ F(q2 − q1, n− q2)

43

Page 44: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Analisis de residuos

El residuo de cada dato mide la discrepancia entre el valor observadoy el pronosticado por el modelo.

Residuos de Pearson: Generalizacion inmediata de los residuoshabituales para datos normales

rPi =

yi − µi√b′′(θi)

Residuos de desviacion: Es la contribucion de esa observacion ala desviacion escalada

rDi = signo(yi − µi)

√di/φ

Residuos por exclusion: Es el residuo de ese punto para el modeloajustado al excluir esa observacion. Pueden calcularse residuospor exclusion de Pearson y de desviacion.

44

Page 45: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Quasi-verosimilitud

A veces no se conoce la forma de la distribucion de las variablesrespuesta, pero se dispone de la esperanza en funcion de β

E[yi] = µi(β)

y la formula de la varianza en su relacion con la esperanza

V[yi] = φV(µi)

Estimador por quasi-verosimilitudEs la solucion de

D′W (y − µ(β)) = 0

donde el elemento (i, j) de D es ∂µi

∂βjy W es la matriz diagonal

con elementos V(µi)−1.

Quasi-desviacionComo la desviacion, sustituyendo por la quasi-verosimilitud.

45

Page 46: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Otras extensiones

Modelos de regresion no linealEmpleando un predictor no lineal en los parametros β.

Modelos de regresion generalUtilizando distribuciones que no son de la familia exponencial.

Modelos de regresion multivarianteLa variable respuesta es un vector, introduciendo los GLMmultivariantes(Fahrmeir y Tutz, 1994).

O las respuestas no son independientes, como en el caso espacial,llevando a los modelos autoregresivos y a los jerarquicos.

46

Page 47: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Mortalidad por cancer de prostata en Valencia

Estimacion del modelo.

Parametros estimados

MODELO β0 β1 β2

tasas const. -7.172

edad -9.925 5.208

nitratos -7.876 1.23e-3

edad y nit. -10.152 5.539 2.09e-3

47

Page 48: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Mortalidad por cancer de prostata en Valencia

Diferencias entre las desviaciones de los modelos encajados.

const. edad nit. comp.

tasas const. 849.8

edad 488* 361.8

nitratos 443* — 406.8

edad y nit. 495.9* 7.9* 52.9* 353.9

Todas significativas con α = 0,01.

48

Page 49: MODELOS LINEALES GENERALIZADOS - uv.es · GUION:¶ 1 Introducci¶on Motivaci¶on. Mortalidad por c¶ancer de pr¶ostata en Valencia. Regresi¶on lineal. 2 Modelo Lineal Generalizado

Bibliografıa

Fahrmeir, L. y Tutz, G. (1994). Multivariate statistical modelling based

on generalized linear models. Springer-Verlag, New York.

Ferrandiz, J., Lopez, A., Llopis, A., Morales, M., y Tejerizo, M. L.

(1995). Spatial interaction between neighbouring counties: cancer

mortality data in Valencia, (Spain). Biometrics, 51(2):665–678.

Garthwaite, P. H., Jolliffe, I. T. y Jones, B. (1995). Statistical Inference.

Prentice Hall, London.

Jorgensen, B. (1983). Maximum likelihood estimation and large-sample

inference for generalized linear and nonlinear regression models.

Biometrika, 70:19–28.

McCullagh, P. y Nelder, J.A. (1989). Generalized linear models, second

edition. Chapman and Hall, London.

Nelder, J.A. y Wedderburn, R.W.M. (1972). Generalized linear models.

Journal of the Royal Statistical Society, series A, 135:370–384.

49