modelos lineales generalizados - uv.es · guion:¶ 1 introducci¶on motivaci¶on. mortalidad por...

Post on 03-Oct-2018

225 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ESTADISTICA ESPACIAL EN EPIDEMIOLOGIA Y MEDIO AMBIENTE

DOCTORADO EN ESTADISTICA E I.O.

Universitat de Valencia (Estudi General)

Burjassot, Primavera de 2004

MODELOS LINEALES GENERALIZADOS

Antonio Lopez

Dep. d’Estadıstica i Investigacio Operativa

Universitat de Valencia (Estudi General)

Antonio.Lopez@uv.es

1

GUION:

1 IntroduccionMotivacion. Mortalidad por cancer de prostata en Valencia. Regresion

lineal.

2 Modelo Lineal Generalizado (GLM)Definicion. Componentes. Funcion vınculo. Modelos de datos

continuos. Modelos de datos discretos. Parametro de dispersion.

Sobredispersion.

3 Estimacion de un GLMMaxima Verosimilitud. Metodo Scoring de Fisher. Estimacion del

parametro de dispersion.

4 Seleccion del mejor modeloDesviacion. Modelos encajados.

2

5 Analisis de residuosResiduos de Pearson. Residuos de desviacion. Residuos por exclusion.

6 Extensiones de los GLMQuasi-verosimilitud. Otras extensiones.

7 EjemploMortalidad por cancer de prostata en Valencia.

Bibliografıa

3

MORTALIDAD POR CANCER DE PROSTATA.

VALENCIA 1975-1980

01 a 5

6 a 10>10

numero de defunciones acumuladas para el perıodo

4

TASAS DE MORTALIDAD POR CANCER DE

PROSTATA. VALENCIA 1975-80

0]0,5[

[5,10[[10,150[

tasas por 10000 habitantes

5

CONCENTRACION DE NITRATOS EN AGUAS

POTABLES

[ 0,10[[10,30[

[30,90[[90,300[

Concentracion de nitratos en mg/litro, Llopis (1985)

6

MODELOS DE REGRESION

yi = f(xi) + εi i = 1, . . . , n indep.

atributo enestudio

=componentesistematica

+componenteerratica

Esperanza[yi] = f(x)

Varianza[yi] = Varianza[εi]

Regresion lineal simple:f(xi) = β0 + β1xi

Ej.: mortalidadi=tasa×poblacioni+εi

i:= ındice de municipio

7

MODELOS DE REGRESION

yi = f(xi) + εi i = 1, . . . , n indep.

atributo enestudio

=componentesistematica

+componenteerratica

Esperanza[yi] = f(x)

Varianza[yi] = Varianza[εi]

Regresion lineal multiple:f(xi) = β0 + β1x1i + . . . + βkxki

Ej.: mortalidadi=∑

j(tasaj×poblacionji) +εi

i:= ındice de municipioj:= ındice de grupo de edad

8

C. DE PROSTATA EN VALENCIA (cont.)

NOMBRE DEL cancer conc. edad:

MUNICIPIO habit. prostata nitr. % ≥ 40

Ademuz 1545 1 11 59.0

Ador 1256 5 16 49.4

Adzaneta de Albaida 1364 0 18 42.7

Agullent 2016 0 8 35.8

Alaquas 23728 5 78 32.4

Albaida 5573 3 8 38.7

Albal 8139 4 17 36.0

Albalat de la Ribera 3594 2 76 42.2

Albalat dels Sorells 567 8 60 41.4

Albalat dels Tarongers 3657 0 32 53.4

Alberique 8971 1 28 42.9

Alborache 821 0 12 43.9

Alboraya 10786 4 42 39.2

Albuixech 3005 0 66 47.0

. . . . . . . . . . . . . . .

Datos de nitratos extraıdos de (Llopis, 1985)

9

REGRESION LINEAL SIMPLE

yi ∼ N(β0 + β1xi︸ ︷︷ ︸media

, σ2︸︷︷︸varianza

) i = 1, . . . , n

independ.

A partir de los n datos se obtienen las estimaciones:

β1 =∑

i(yi − y)(xi − x)n

∑i(xi − x)2

β0 = y − β1x

y se contrasta la hipotesis H0 : β1 = 0

10

C. DE PROSTATA EN VALENCIA (cont.)

casosi = β0 + β1 × nitratosi + εi

Ajuste

σ2: 16.88 con 261 grados de libertad

Multiple R2: 0.00007167

Estadıstico F : 0.01871 con 1 y 261 gr. libertad,

(p-valor=0.8913) resultado no significativo

Coeficientes Valor Std.Err. estad.t p-valor

Intercept. 3.0091 1.4558 2.0669 0.0397

nitratos 0.0032 0.0234 0.1368 0.8913

11

C. DE PROSTATA EN VALENCIA (cont.)

Residuos:

Min 1Q Median 3Q Max

-3.534 -3.06 -2.102 -0.3581 265.9

12

C. DE PROSTATA EN VALENCIA (cont.)

oooo oo o ooooo o o ooo

o oo ooo o ooo oo

o ooo o oo ooo oo oo oooo ooo oooo ooo oo ooo oo ooo o ooo ooo ooooo oo ooo oo oooo oo o oooo ooo oooo oooo o ooo ooo o oooo o oooo oooo oo

oo oo oo o oooo ooooo oo ooo oo oo oooo o o o oo oo ooo ooooo o ooo o ooo oo o o ooo ooo o oo o oooo o o o oo oooo ooo o oo ooo

oo oo o oo ooo

ooo ooo

o o ooo oo oo

oooo o

o

oo o oo ooo o oo oo

nitratos

mor

talid

ad

0 50 100 150 200 250

050

100

200

ajuste de mortalidad vs. nitratos

13

C. DE PROSTATA EN VALENCIA (cont.)

o

o

oo

oooo

o

ooo

o

o

o

o

o

o

o

o

oo

oooooo

o

o

oo

oo

ooooooo

o

o

o

oooooo

o

oo

oooooo

o

ooooooooo

o

ooooooo

o

oo

o

o

o

oooooooooo

o

oooooo

o

o

oo

ooo

ooo

ooooooo

o

oooooooooooo

o

ooooooooooooo

o

o

o

ooooooooooo

o

oooo

ooo

oo

o

o

o

ooooooooo

o

oo

o

ooooo

ooo

oo

oo

o

ooooooo

o

ooooooo

o

oooooo

o

ooooooooo

o

oooo

o

o

o

o

ooooo

o

oooo

o

ooooooo

o

ooooo

municipios

resi

duos

0 50 100 150 200 250

05

1015

20residuos del ajuste eliminando municipio de Valencia

14

REGRESION LINEAL MULTIPLE

Aunque estemos interesados en un solo factor de riesgo, convieneincluir en el modelo todos aquellos cuya influencia se sospecha. Conello evitaremos estimaciones sesgadas del factor de interes yconclusiones posiblemente equivocadas.

Ajustandoyi = α0 + α1x1i + εi

y el modelo con factores de riesgo x2, . . . , xk adicionales

yi = β0 + β1x1i + . . . + βkxki + εi

en general se obtiene α1 6= β1

La tabla de ANOVA permite valorar la hipotesis de que todos loscoeficientes de regresion son nulos a la vez, ası como la coleccion dehipotesis de que cada uno de ellos es irrelevante una vez consideradoslos restantes.

15

C. DE PROSTATA EN VALENCIA (cont.)

casosi = β0 + β1 × poblacioni

+ β2 × envejecimientoi

+ β3 × nitratosi + εi

Ajuste

σ2: 2.058 con 259 grados de libertad

Multiple R2: 0.9852

Estadıstico F : 5765 con 3 y 259 grad. de lib,

(p-valor < 0,00005) muy significativo

16

C. DE PROSTATA EN VALENCIA (cont.)

Coefs. Estim. StdErr. estad.t p-valor

Intercept. -1.5897 0.8538 -1.8618 0.0638

poblacion 0.0004 0.0000 130.60 0.0000

envejec. 3.5904 1.7374 2.0665 0.0398

nitratos 0.0061 0.0030 2.0291 0.0435

Residuos

Min 1Q Median 3Q Max

-8.765 -0.7577 -0.3334 0.5301 11.65

Incremento R2 ≈ 0.9851

17

DIAGNOSTICO DEL MODELO

o

o

oo

o

ooo

o

ooooo

oo

o

ooo

oo

oo

oooo

o

oo

o

ooooooooo

o

oo

ooooooooooooooooo

ooooooooooooooooo

oooooo

o

ooooooo

o

o

ooo

o

oo

o

o

oo

o

oo

oo

o

o

oooo

oo

o

oooooooo

oooo

o

ooooooooooo

o

o

o

o

o

ooooooooooo

o

ooooo

oooo

o

oo

oooooo

ooo

o

oooo

o

ooo

o

ooooooo

ooo

oooo

oooooooo

o

o

ooooo

o

ooo

oooooo

o

oooo

o

oo

o

ooooo

o

oooooooooooo

o

o

ooooo

municipio

resi

duos

0 50 100 150 200 250

-50

510

ajuste de mortalidad vs. pobl., envej. y nitratos

18

DIAGNOSTICO DEL MODELO

o

o

oo

o

o o o

o

ooo o

o

o

o

o

o oooo

oo

ooo o

o

oo

o

o ooo o

oo

oo

o

oo

oooo

ooo

ooo

ooo ooo

ooo

oooo o ooo

ooo oooo

ooo oo

o

o

o ooo

o ooo

ooo

o

o

oo

o

o

oo

o

oo

o o

o

o

ooo

oo

oo

oo ooooo

oooo o

o

oo

oo

oo o ooooo

o

o

o

o

oooo

o oo

ooo

o

o

o o o oo

oo

o o

o

oo

oooo o ooo o

o

oo oo

o

o oo

o

oooo oo

o

ooo

o o oo

o

oo

ooo oo

o

o

ooooo

o

o o

o

o oo ooo

o

ooo

o

o

oo

o

oo oo o

o

ooooo

ooo o oo

o

o

oo o

o oo

nitratos

mor

talid

ad a

just

ada

0 50 100 150 200 250

-50

510

mortalidad ajustada para demografia vs. nitratos

19

Introduccion

Modelo Lineal General: datos independientes, y1, y2, . . . , yn,normalmente distribuidos.

yi ∼ N(β0 + β1x1i + . . . + βpx

pi , σ

2)

predictor lineal β′xi

varianza constante

E[y] = Xβ, V[y] = σ2I

Modelo Lineal Generalizado: datos independientes de unadistribucion de la familia exponencial (binomial, Poisson,gamma, . . .).

modeliza E[y] como una funcion no lineal de Xβ.

20

Introduccion

Analisis de un GLM:

calculo del estimador maximo verosımil

comparacion de modelos encajados

valoracion del ajuste del modelo a los datos

21

Definicion de GLM

Conjunto de variables aleatorias independientes y1, y2, . . . , yn confuncion de densidad, o funcion de probabilidad, que puede escribirsecomo:

p(yi | θi, φ) = exp{yiθi − b(θi)ai(φ)

+ c(yi, φ)}

donde:θi es el parametro natural o canonico

φ es un parametro adicional de escala o dispersion

ai(·), b(·) y c(·) son funciones especıficas

Si φ es conocido este es un modelo de la familia exponencial lineal

Si φ es desconocido es un modelo de dispersion exponencial

22

Definicion de GLM

Bibliografıa general:Nelder y Wedderburn (1972)McCullagh y Nelder (1989)Fahrmeir y Tutz (1994)Garthwaite et al. (1995)

23

Componentes del GLM

Queremos modelizar µi = E[yi] en terminos del predictor lineal β′xi

formado con un conjunto de p covariables

β′xi = β0 + β1x1i + . . . + βpx

pi

Componentes:

1 Conjunto de n variables respuesta independientes, de unadistribucion de la familia exponencial

2 Un vector de parametros β y una matriz del modelo X,determinando el predictor lineal de cada variable β′xi

3 Una funcion vınculo monotona y diferenciable que define larelacion entre µi y su predictor lineal

g(µi) = β′xi

24

Funcion vınculo

Permite modelizar distintas relaciones entre µ y el predictor lineal.

Vınculo natural o canonico:Aquel que es igual a la funcion que define el parametro natural ocanonico de esa distribucion. Por tanto, θ = β′x

25

Funcion vınculo

Vınculos mas usuales:

¦ logit log π1−π

¦ probit Φ−1(π)

¦ complementario

log-log log[− log(1− π)]

¦ identidad µ

¦ inverso −1/µ

¦ logaritmo log µ

¦ raiz cuadrada√

µ

Eleccion del vınculo: depende de la familia de distribuciones, deltipo de respuestas y de la aplicacion.

26

Modelos de datos continuos

Normal:

Distribucion N(µ, σ2)

E[y] = µ

vınculo g(µ) = µ (identidad)

b(θ) = θ2/2

a(φ) = σ2

Otros vınculos: logaritmo

raiz cuadrada

27

Modelos de datos continuos

Gamma:

Distribucion Gamma(λ, ν)

E[y] = λν

vınculo g(µ) = − 1µ = − ν

λ (inverso)

b(θ) = − log(−θ)

a(φ) = 1λ

Otros vınculos: identidad

logaritmo

28

Modelos de datos discretos

Binomial:

Distribucion Bi(n, π)

E[y] = nπ

vınculo g(µ) = log µn−µ = log π

1−π (logit)

b(θ) = n log(1 + eθ)

a(φ) = 1

Otros vınculos: probit

complementario log-log

29

Modelos de datos discretos

Poisson:

Distribucion Po(λ)

E[y] = λ

vınculo g(λ) = log λ (logaritmo)

b(θ) = eθ

a(φ) = 1

Otros vınculos: identidad

raiz cuadrada

30

Parametro de dispersion

Con frecuencia, el termino ai(φ) es de la forma φ/ωi, donde ωi es unpeso.

Si los datos no son agrupados, ωi = 1

Si las variables respuesta expresan promedios, ωi = ni

Si son la suma de ni respuestas individuales, ωi = 1/ni

31

Sobredispersion

Fenomeno que ocurre en aplicaciones con distribuciones con varianzapoco flexible, como Binomial y Poisson.

Al anadir un parametro de dispersion φ, se modifica la varianza

V[y] = a(φ)b′′(θ)

Puede representar una heterogeneidad no observada o una correlacionpositiva entre respuestas individuales.

Tambien se denomina extravarianza.

32

Maxima verosimilitud

El logaritmo de la verosimilitud de θ para las observaciones y es

l(θ | y) =n∑

i=1

yiθi − b(θi)ai(φ)

+n∑

i=1

c(yi, φ)

Nuestro principal interes es la estimacion de β. El estimadormaximo verosımil de cada βj anula la derivada de l

∂l

∂βj=

n∑

i=1

(yi − µi)xij

V[yi]g′(µi)

33

Maxima verosimilitud

En general, estas ecuaciones de estimacion no se pueden resolverdirectamente. Su solucion puede aproximarse por procedimientositerativos, empleando la esperanza de las segundas derivadas

E[

∂2l

∂βj∂βk

]=

n∑

i=1

xijxik

V[yi]g′(µi)2

34

Metodo Scoring de Fisher

Algoritmo de Newton-Raphson:Procedimiento iterativo a partir de una estimacion inicial β0:

βr+1 = βr − [D2βl(βr)]−1Dβl(βr)

donde Dβl(βr) es el vector de primeras derivadas de l, y D2βl(βr)

la matriz de segundas derivadas, evaluadas en βr.

Metodo Scoring de Fisher:Consiste en sustituir D2

βl(βr) por su valor esperado.

E[

∂2l

∂βj∂βk

]=

n∑

i=1

xijxik

V[yi]g′(µi)2

Equivale a resolver iterativamente un problema de mınimoscuadrados ponderados (Jorgensen, 1983).

La sucesion {βr} converge al estimador maximo verosımil de β.

35

Estimacion del

parametro de dispersion

Si φ no es conocido, es necesario usar una estimacion para el calculode V[yi] en el procedimiento anterior.

Cuando ai(φ) = φ/ωi, la expresion de la varianza

V[yi] = ai(φ)b′′(θi)

proporciona un estimador consistente de φ a partir de unaestimacion de β

φ =1

n− p− 1

n∑

i=1

ωi(yi − µi)2

b′′(θi)

36

Estimacion del

parametro de dispersion

Para la normal, el estimador de la varianza del modelo de regresionlineal es la suma de cuadrados residual

σ2 =1

n− p− 1

n∑

i=1

(yi − µi)2

37

Desviacion

Determinaremos la adecuacion del modelo comparandolo con elmodelo saturado.

El modelo saturado tiene la misma forma que el ajustado, perocon tantos parametros como observaciones.

Desviacion escalada: obtenida con el estadıstico cociente deverosimilitudes

S = −2[l(β | y, φ)− l(β | y, φ)]

con β el EMV del modelo saturado.

38

Desviacion

En terminos del parametro natural es

S = 2n∑

i=1

yi(θi − θi)− b(θi) + b(θi)ai(φ)

Cuando φ es conocido, la desviacion escalada mide cuanto se desvıael modelo de los datos.

Distribucion aproximada:Si el modelo se ajusta bien a los datos

S ∼ χ2(n− p− 1)

39

Desviacion

Desviacion (no escalada):Se define por

D(y, µ) = φS

Si ai(φ) = φ/ωi, equivale a

2n∑

i=1

ωi[yi(θi − θi)− b(θi) + b(θi)]

Descomposicion de la desviacion:La desviacion es la suma de las discrepancias para cada uno delos datos

D(y, µ) =n∑

i=1

di(yi, µi)

40

Desviacion

Estimacion de φ:La desviacion de un modelo razonable con q parametros permiteestimar φ mediante

φ = D/(n− q)

debido a que la esperanza aproximada de S es igual a n− q, losgrados de libertad de la distribucion χ2

41

Modelos encajados

La desviacion es util para comparar el ajuste de dos modelosencajados.

Un modelo M1 con q1 parametros esta encajado en otro M2 con q2

parametros (q1 < q2) si son de la misma forma y las covariablesde M1 estan contenidas en las de M2.

La necesidad de los q2 − q1 parametros adicionales se contrasta conun test χ2. Si D1 y D2 son las desviaciones de dos modelosencajados con buen ajuste,

(D1 −D2)/φ ∼ χ2(q2 − q1)

42

Modelos encajados

Si φ tiene que ser estimado, puede hacerse el contraste con un testF, usando

(D1 −D2)(n− q2)(q2 − q1)D2

∼ F(q2 − q1, n− q2)

43

Analisis de residuos

El residuo de cada dato mide la discrepancia entre el valor observadoy el pronosticado por el modelo.

Residuos de Pearson: Generalizacion inmediata de los residuoshabituales para datos normales

rPi =

yi − µi√b′′(θi)

Residuos de desviacion: Es la contribucion de esa observacion ala desviacion escalada

rDi = signo(yi − µi)

√di/φ

Residuos por exclusion: Es el residuo de ese punto para el modeloajustado al excluir esa observacion. Pueden calcularse residuospor exclusion de Pearson y de desviacion.

44

Quasi-verosimilitud

A veces no se conoce la forma de la distribucion de las variablesrespuesta, pero se dispone de la esperanza en funcion de β

E[yi] = µi(β)

y la formula de la varianza en su relacion con la esperanza

V[yi] = φV(µi)

Estimador por quasi-verosimilitudEs la solucion de

D′W (y − µ(β)) = 0

donde el elemento (i, j) de D es ∂µi

∂βjy W es la matriz diagonal

con elementos V(µi)−1.

Quasi-desviacionComo la desviacion, sustituyendo por la quasi-verosimilitud.

45

Otras extensiones

Modelos de regresion no linealEmpleando un predictor no lineal en los parametros β.

Modelos de regresion generalUtilizando distribuciones que no son de la familia exponencial.

Modelos de regresion multivarianteLa variable respuesta es un vector, introduciendo los GLMmultivariantes(Fahrmeir y Tutz, 1994).

O las respuestas no son independientes, como en el caso espacial,llevando a los modelos autoregresivos y a los jerarquicos.

46

Mortalidad por cancer de prostata en Valencia

Estimacion del modelo.

Parametros estimados

MODELO β0 β1 β2

tasas const. -7.172

edad -9.925 5.208

nitratos -7.876 1.23e-3

edad y nit. -10.152 5.539 2.09e-3

47

Mortalidad por cancer de prostata en Valencia

Diferencias entre las desviaciones de los modelos encajados.

const. edad nit. comp.

tasas const. 849.8

edad 488* 361.8

nitratos 443* — 406.8

edad y nit. 495.9* 7.9* 52.9* 353.9

Todas significativas con α = 0,01.

48

Bibliografıa

Fahrmeir, L. y Tutz, G. (1994). Multivariate statistical modelling based

on generalized linear models. Springer-Verlag, New York.

Ferrandiz, J., Lopez, A., Llopis, A., Morales, M., y Tejerizo, M. L.

(1995). Spatial interaction between neighbouring counties: cancer

mortality data in Valencia, (Spain). Biometrics, 51(2):665–678.

Garthwaite, P. H., Jolliffe, I. T. y Jones, B. (1995). Statistical Inference.

Prentice Hall, London.

Jorgensen, B. (1983). Maximum likelihood estimation and large-sample

inference for generalized linear and nonlinear regression models.

Biometrika, 70:19–28.

McCullagh, P. y Nelder, J.A. (1989). Generalized linear models, second

edition. Chapman and Hall, London.

Nelder, J.A. y Wedderburn, R.W.M. (1972). Generalized linear models.

Journal of the Royal Statistical Society, series A, 135:370–384.

49

top related