modelos de regress~ao para dados correlacionados · dados desbalanceados (grupos de observa˘c~oes...

38
Modelos de regress˜ ao para dados correlacionados Cibele Russo [email protected] ICMC USP Mini-curso oferecido no Workshop on Probabilistic and Statistical Methods 28 a 30 de janeiro de 2013 Cibele Russo (ICMC USP) Modelos para dados correlacionados 1 / 37

Upload: docong

Post on 28-Jan-2019

216 views

Category:

Documents


0 download

TRANSCRIPT

Modelos de regressao

para dados correlacionados

Cibele [email protected]

ICMC USP

Mini-curso oferecido no

Workshop on Probabilistic and Statistical Methods

28 a 30 de janeiro de 2013

Cibele Russo (ICMC USP) Modelos para dados correlacionados 1 / 37

Conteudo da aula

1 Modelos nao lineares

2 Modelos nao lineares com efeitos mistos:

1 Onde introduzir efeitos aleatorios?

2 Qual o resultado da introducao dos efeitos aleatorios?

3 Estimacao no modelo nao linear com efeitos mistos

Referencias: Pinheiro and Bates (2000) ‘Mixed-effects Models in S and S-PLUS’, Springer.

Russo, Paula and Aoki (2009): Influence diagnostics in nonlinear mixed-effects elliptical models.

Computational Statistics & Data Analysis 53(12): 4143–4156.

Cibele Russo (ICMC USP) Modelos para dados correlacionados 2 / 37

Modelos nao lineares

Grande parte da teoria de modelos de regressao

esta desenvolvida para modelos lineares.

Em muitos casos, lineariza-se o problema

e um modelo linear e ajustado.

Problema: os parametros em modelos lineares tem sua

interpretacao, como nos modelos lineares. Porem, ao linearizar os

dados, os parametros perdem sua interpretacao, que muitas vezes e

o principal foco do estudo.

Cibele Russo (ICMC USP) Modelos para dados correlacionados 3 / 37

Modelos nao lineares

Um modelo nao linear para observacoes independentes e dado por

Yi = η(β,Xi ) + εi ,

com

Yi e a variavel resposta (v. aleatoria).

β = (β1, . . . , βp)> vetor de parametros desconhecidos,

η e uma funcao de β e Xi , nao linear em β,

Xi e vetor de variaveis explicativas com valores conhecidos (v. nao

aleatoria),

εi e o erro aleatorio,

Suposicao usual: εii .i .d .∼ N(0, σ2).

Cibele Russo (ICMC USP) Modelos para dados correlacionados 4 / 37

Exemplo: Modelo de crescimento logıstico

> ?SSlogis

> example(SSlogis)

Parameters in the SSlogis model

x

y

φ1

φ2

φ3

Cibele Russo (ICMC USP) Modelos para dados correlacionados 5 / 37

Exemplo: Modelo assintotico com um offset

> ?SSasympOff

> example(SSasympOff)

Parameters in the SSasympOff model

x

y

φ1

φ3

t0.5

Cibele Russo (ICMC USP) Modelos para dados correlacionados 6 / 37

Exemplo: Modelo biexponencial

> ?SSbiexp

> example(SSbiexp)

Components of the SSbiexp model

1

2

3

4

5

1 2 3 4 5

x

y

Cibele Russo (ICMC USP) Modelos para dados correlacionados 7 / 37

Modelos nao lineares

Mesmo sem adicionar efeitos aleatorios, ja e difıcil estimar os

parametros no modelo nao linear

Em geral, recorre-se a metodos iterativos como

Algoritmo de Gauss-Newton

Algoritmo de Newton-Raphson

Metodo Escore de Fisher.

Mesmo assim, ja foi mostrado que as estimativas dos parametros obtidas

iterativamente sao bastante precisas para os parametros de interesse.

Muitas vezes, problemas nao lineares envolvem dados correlacionados.

Cibele Russo (ICMC USP) Modelos para dados correlacionados 8 / 37

Motivacao: Dados de hemodialise

Problema cinetico de hemodialise (Vonesh & Carter, 1992)

UFR: Taxa de ultrafiltracao (ml/h)

TMP: Pressao da transmembrana (mmHg)

E(UFR) = β0{1− exp[−β1(TMP− β2)]}

β0: UFR maxima que pode ser alcancada

β1: taxa de transporte de permeabilizacao hidraulica e

β2: TMP requerida para contrabalancear a pressao oncotica do

paciente.

Cibele Russo (ICMC USP) Modelos para dados correlacionados 9 / 37

Motivacao: Dados de hemodialise

Cibele Russo (ICMC USP) Modelos para dados correlacionados 10 / 37

Dados de hemodialise

Calculando a covariancia amostral

> attach(Dialyzer)

> cov(matrix(rate,nrow=20,byrow=T))

> detach(Dialyzer)

Cibele Russo (ICMC USP) Modelos para dados correlacionados 11 / 37

Dados de hemodialise

Calculando a correlacao amostral

> library(nlme)

> attach(Dialyzer)

> cor(matrix(rate,nrow=20,byrow=T))

> detach(Dialyzer)

Cibele Russo (ICMC USP) Modelos para dados correlacionados 12 / 37

Motivacao: Concentracao de indomethacin

Cinetica do antiinflamatorio indomethacin (Bocheng & Xuping, 2001)

Y : Concentracao de indomethacin (µg/ml)

T : Tempo (h)

E(Y ) = eβ1 exp(−eβ2T ) + eβ3 exp(−eβ4T ).

(funcao biexponencial, Pinheiro & Bates, 2000)

eβ1 e eβ3 : coeficientes de uma combinacao linear entre as duas

parcelas exp(−eβ2T ) e exp(−eβ4T )

β2 e β4: logaritmos de taxas de decaimento.

Cibele Russo (ICMC USP) Modelos para dados correlacionados 13 / 37

Motivacao: Concentracao de indomethacin

Cibele Russo (ICMC USP) Modelos para dados correlacionados 14 / 37

Motivacao: Concentracao de indomethacin

Exercıcio: Calcule a covariancia e correlacao amostrais para os dados de

indomethacin.

> library(nlme)

> attach(Indometh)

> cov(matrix(conc,nrow=6,byrow=T))

> cor(matrix(conc,nrow=6,byrow=T))

> detach(Indometh)

Cibele Russo (ICMC USP) Modelos para dados correlacionados 15 / 37

Motivacao: Concentracao de theophylline

Cinetica do agente antiasmatico theophylline (Pinheiro & Bates 2000)

Y : Concentracao de theophylline (mg/L)

T : Tempo (h)

D: Dose aplicada (mg/kg)

E(Y ) = D exp(lKe + lKa − lCl)[exp(−e lKeT )− exp(−e lKaT )]

e(lKa) − e lKe

lKa: logaritmo da taxa de absorcao da substancia,

lKe : logaritmo da taxa de eliminacao da substancia e

lCl : o logaritmo da depuracao plasmatica.

Cibele Russo (ICMC USP) Modelos para dados correlacionados 16 / 37

Motivacao: Concentracao de theophylline

Cibele Russo (ICMC USP) Modelos para dados correlacionados 17 / 37

Motivacao: Concentracao de theophylline

Exercıcio: Calcule a covariancia e correlacao amostrais para os dados de

theophylline.

> library(nlme)

> attach(Theoph)

> cov(matrix(conc,nrow=12,byrow=T))

> cor(matrix(conc,nrow=12,byrow=T))

> detach(Theoph)

Cibele Russo (ICMC USP) Modelos para dados correlacionados 18 / 37

Motivacao: Crescimento de plantas de soja

Crescimento de plantas (Pinheiro & Bates, 2000)

Y : peso da folha (g)

T : tempo (dias)

E(Y ) =β1

1 + exp{−[

(T−β2)β3

]}(modelo de crescimento logıstico de tres parametros)

β1 representa o peso assintotico das folhas das plantas,

β2 e o tempo em que a folha atinge a metade de seu peso

assintotico

β3 representa o tempo decorrido entre os instantes em que a folha

tem metade e 1/(1 + e−1) ' 3/4 de seu peso.

Cibele Russo (ICMC USP) Modelos para dados correlacionados 19 / 37

Motivacao: Crescimento de plantas de soja

Cibele Russo (ICMC USP) Modelos para dados correlacionados 20 / 37

Motivacao: Crescimento de plantas de soja

Novidade nos dados de plantas de soja

(muito comum em modelos mistos):

Dados desbalanceados

(grupos de observacoes com tamanhos diferentes).

Cibele Russo (ICMC USP) Modelos para dados correlacionados 21 / 37

Modelo nao linear com efeitos mistos

A forma mais comum de definir um modelo nao linear (multivariado) com

efeitos mistos e considerar que{Yi = g(φi ,Xi ) + εi , i = 1, . . . , n,

φi = Aiβ + bi ,

supondo que

bi ∼ Nq(0,D)

εi ∼ Nmi (0, σ2I )

b1, . . . ,bn, ε1, . . . , εn sao independentes

Dificuldade: Nao e possıvel obter o modelo marginal em forma fechada nesse caso.

Cibele Russo (ICMC USP) Modelos para dados correlacionados 22 / 37

Modelos nao lineares com efeitos aleatorios

Outra formulacao, mais geral, e dada por

Yi = η(β,bi , xi ) + εi , i = 1, . . . , n,

em que bi ∼ Nr (0,D) e εi ∼ Nmi (0, σ2Imi ).

Dificuldade: a distribuicao marginal de Yi nao tem forma fechada, sendo

necessario o uso de metodos de integracao numerica, como metodos de

quadratura por exemplo, para a obtencao de formas aproximadas para as

marginais.

Cibele Russo (ICMC USP) Modelos para dados correlacionados 23 / 37

Modelos nao lineares com efeitos aleatorios

Consideramos o modelo analisado por Russo et al (2009) (no contexto de

distribuicoes elıpticas)

Yi = η(β, xi ) + Zibi + εi , i = 1, . . . , n,

β = (β1, . . . , βp)> vetor de parametros desconhecidos,

η(β, xi ) = (f (β, xi1), . . . , f (β, ximi))> funcao nao linear de β,

xi vetor de variaveis explicativas,

Zi matriz constante conhecida,

bi = (bi1, . . . , bir )> vetor de efeitos aleatorios nao observados.

Cibele Russo (ICMC USP) Modelos para dados correlacionados 24 / 37

Modelos nao lineares com efeitos aleatorios

Suposicoes:[Yi

bi

]∼ Nmi+r

{(η(β, xi )

0

),

[ZiDZ>i + σ2Imi ZiD

DZ>i D

]},

Vi = ZiDZ>i + σ2Imi e a matriz de variancias e covariancias Var(Yi ),

D = D(τ ) e a matriz de variancias e covariancias Var(bi )

ZiDe a matriz de variancias e covarianciasCov(Yi ,bi ).

Modelo marginal: Yi ∼ Nmi (η(β, xi );Vi )

Cibele Russo (ICMC USP) Modelos para dados correlacionados 25 / 37

Modelos nao lineares com efeitos aleatorios

Possıveis expressoes para Zi (i = 1, . . . , n):

(i) Zi = 1,

(ii) Zi = (1, xi ),

(iii) Zi = (1, xi , x2i ), e

(iv) modelos mistos pseudo nao lineares (PNMEM), em que

PNMEMβ0β1β2 indica que

Zi =

[∂η(β, xi )

∂β0,∂η(β, xi )

∂β1,∂η(β, xi )

∂β2

]∣∣∣∣β=β

,

em que β e a estimativa de mınimos quadrados de β.

Cibele Russo (ICMC USP) Modelos para dados correlacionados 26 / 37

Modelo nao linear com efeitos mistos

Alternativa: Considerar algoritmos que linearizam o modelo mais geral.

Cibele Russo (ICMC USP) Modelos para dados correlacionados 27 / 37

Modelo nao linear com efeitos mistos

Importante: Na maioria das vezes, nao e interessante introduzir efeito

aleatorio no intercepto, por exemplo. Os efeitos adicionados nos

parametros referentes aos efeitos fixos levam a diferentes perfis

dependendo da nao-linearidade do problema. Mesmo assim, alguns autores

adicionam efeito no intercepto sem fazer a devida interpretacao.

Cibele Russo (ICMC USP) Modelos para dados correlacionados 28 / 37

Interpretando os efeitos aleatorios em modelos nao lineares

Dados de hemodialise

Efeitos aleatorios adicionados nos parametros de efeitos fixos, dentro da

funcao nao linear.

(ver dados originais - slide 10)

Cibele Russo (ICMC USP) Modelos para dados correlacionados 29 / 37

Interpretando os efeitos aleatorios em modelos nao lineares

Dados de hemodialise

Resultado da inclusao de intercepto aleatorio.

(ver dados originais - slide 10)

Cibele Russo (ICMC USP) Modelos para dados correlacionados 30 / 37

Interpretando os efeitos aleatorios em modelos nao lineares

Dados de concentracao de indomethacin

Efeitos aleatorios adicionados nos parametros de efeitos fixos, dentro da

funcao nao linear.

(ver dados originais - slide 14)Cibele Russo (ICMC USP) Modelos para dados correlacionados 31 / 37

Interpretando os efeitos aleatorios em modelos nao lineares

Dados de concentracao de indomethacin

Resultado da inclusao de intercepto aleatorio.

(ver dados originais - slide 14)

Cibele Russo (ICMC USP) Modelos para dados correlacionados 32 / 37

Interpretando os efeitos aleatorios em modelos nao lineares

Dados de concentracao de theophylline

Efeitos aleatorios adicionados nos parametros de efeitos fixos, dentro da

funcao nao linear.

(ver dados originais - slide 17)

Cibele Russo (ICMC USP) Modelos para dados correlacionados 33 / 37

Interpretando os efeitos aleatorios em modelos nao lineares

Dados de concentracao de theophylline

Resultado da inclusao de intercepto aleatorio.

(ver dados originais - slide 17)

Cibele Russo (ICMC USP) Modelos para dados correlacionados 34 / 37

Interpretando os efeitos aleatorios em modelos nao lineares

Dados de crescimento de plantas de soja

Efeitos aleatorios adicionados nos parametros de efeitos fixos, dentro da

funcao nao linear.

(ver dados originais - slide 20)

Cibele Russo (ICMC USP) Modelos para dados correlacionados 35 / 37

Interpretando os efeitos aleatorios em modelos nao lineares

Dados de crescimento de plantas de soja

Resultado da inclusao de intercepto aleatorio.

(ver dados originais - slide 20)

Cibele Russo (ICMC USP) Modelos para dados correlacionados 36 / 37

Comandos em R:

Ver arquivo Aula4Comandos.r

Cibele Russo (ICMC USP) Modelos para dados correlacionados 37 / 37

Proxima aula:

Analise de diagnostico e selecao de modelos

Cibele Russo (ICMC USP) Modelos para dados correlacionados 38 / 37