modelos de regress~ao para dados correlacionados · dados desbalanceados (grupos de observa˘c~oes...
TRANSCRIPT
Modelos de regressao
para dados correlacionados
Cibele [email protected]
ICMC USP
Mini-curso oferecido no
Workshop on Probabilistic and Statistical Methods
28 a 30 de janeiro de 2013
Cibele Russo (ICMC USP) Modelos para dados correlacionados 1 / 37
Conteudo da aula
1 Modelos nao lineares
2 Modelos nao lineares com efeitos mistos:
1 Onde introduzir efeitos aleatorios?
2 Qual o resultado da introducao dos efeitos aleatorios?
3 Estimacao no modelo nao linear com efeitos mistos
Referencias: Pinheiro and Bates (2000) ‘Mixed-effects Models in S and S-PLUS’, Springer.
Russo, Paula and Aoki (2009): Influence diagnostics in nonlinear mixed-effects elliptical models.
Computational Statistics & Data Analysis 53(12): 4143–4156.
Cibele Russo (ICMC USP) Modelos para dados correlacionados 2 / 37
Modelos nao lineares
Grande parte da teoria de modelos de regressao
esta desenvolvida para modelos lineares.
Em muitos casos, lineariza-se o problema
e um modelo linear e ajustado.
Problema: os parametros em modelos lineares tem sua
interpretacao, como nos modelos lineares. Porem, ao linearizar os
dados, os parametros perdem sua interpretacao, que muitas vezes e
o principal foco do estudo.
Cibele Russo (ICMC USP) Modelos para dados correlacionados 3 / 37
Modelos nao lineares
Um modelo nao linear para observacoes independentes e dado por
Yi = η(β,Xi ) + εi ,
com
Yi e a variavel resposta (v. aleatoria).
β = (β1, . . . , βp)> vetor de parametros desconhecidos,
η e uma funcao de β e Xi , nao linear em β,
Xi e vetor de variaveis explicativas com valores conhecidos (v. nao
aleatoria),
εi e o erro aleatorio,
Suposicao usual: εii .i .d .∼ N(0, σ2).
Cibele Russo (ICMC USP) Modelos para dados correlacionados 4 / 37
Exemplo: Modelo de crescimento logıstico
> ?SSlogis
> example(SSlogis)
Parameters in the SSlogis model
x
y
φ1
φ2
φ3
Cibele Russo (ICMC USP) Modelos para dados correlacionados 5 / 37
Exemplo: Modelo assintotico com um offset
> ?SSasympOff
> example(SSasympOff)
Parameters in the SSasympOff model
x
y
φ1
φ3
t0.5
Cibele Russo (ICMC USP) Modelos para dados correlacionados 6 / 37
Exemplo: Modelo biexponencial
> ?SSbiexp
> example(SSbiexp)
Components of the SSbiexp model
1
2
3
4
5
1 2 3 4 5
x
y
Cibele Russo (ICMC USP) Modelos para dados correlacionados 7 / 37
Modelos nao lineares
Mesmo sem adicionar efeitos aleatorios, ja e difıcil estimar os
parametros no modelo nao linear
Em geral, recorre-se a metodos iterativos como
Algoritmo de Gauss-Newton
Algoritmo de Newton-Raphson
Metodo Escore de Fisher.
Mesmo assim, ja foi mostrado que as estimativas dos parametros obtidas
iterativamente sao bastante precisas para os parametros de interesse.
Muitas vezes, problemas nao lineares envolvem dados correlacionados.
Cibele Russo (ICMC USP) Modelos para dados correlacionados 8 / 37
Motivacao: Dados de hemodialise
Problema cinetico de hemodialise (Vonesh & Carter, 1992)
UFR: Taxa de ultrafiltracao (ml/h)
TMP: Pressao da transmembrana (mmHg)
E(UFR) = β0{1− exp[−β1(TMP− β2)]}
β0: UFR maxima que pode ser alcancada
β1: taxa de transporte de permeabilizacao hidraulica e
β2: TMP requerida para contrabalancear a pressao oncotica do
paciente.
Cibele Russo (ICMC USP) Modelos para dados correlacionados 9 / 37
Dados de hemodialise
Calculando a covariancia amostral
> attach(Dialyzer)
> cov(matrix(rate,nrow=20,byrow=T))
> detach(Dialyzer)
Cibele Russo (ICMC USP) Modelos para dados correlacionados 11 / 37
Dados de hemodialise
Calculando a correlacao amostral
> library(nlme)
> attach(Dialyzer)
> cor(matrix(rate,nrow=20,byrow=T))
> detach(Dialyzer)
Cibele Russo (ICMC USP) Modelos para dados correlacionados 12 / 37
Motivacao: Concentracao de indomethacin
Cinetica do antiinflamatorio indomethacin (Bocheng & Xuping, 2001)
Y : Concentracao de indomethacin (µg/ml)
T : Tempo (h)
E(Y ) = eβ1 exp(−eβ2T ) + eβ3 exp(−eβ4T ).
(funcao biexponencial, Pinheiro & Bates, 2000)
eβ1 e eβ3 : coeficientes de uma combinacao linear entre as duas
parcelas exp(−eβ2T ) e exp(−eβ4T )
β2 e β4: logaritmos de taxas de decaimento.
Cibele Russo (ICMC USP) Modelos para dados correlacionados 13 / 37
Motivacao: Concentracao de indomethacin
Cibele Russo (ICMC USP) Modelos para dados correlacionados 14 / 37
Motivacao: Concentracao de indomethacin
Exercıcio: Calcule a covariancia e correlacao amostrais para os dados de
indomethacin.
> library(nlme)
> attach(Indometh)
> cov(matrix(conc,nrow=6,byrow=T))
> cor(matrix(conc,nrow=6,byrow=T))
> detach(Indometh)
Cibele Russo (ICMC USP) Modelos para dados correlacionados 15 / 37
Motivacao: Concentracao de theophylline
Cinetica do agente antiasmatico theophylline (Pinheiro & Bates 2000)
Y : Concentracao de theophylline (mg/L)
T : Tempo (h)
D: Dose aplicada (mg/kg)
E(Y ) = D exp(lKe + lKa − lCl)[exp(−e lKeT )− exp(−e lKaT )]
e(lKa) − e lKe
lKa: logaritmo da taxa de absorcao da substancia,
lKe : logaritmo da taxa de eliminacao da substancia e
lCl : o logaritmo da depuracao plasmatica.
Cibele Russo (ICMC USP) Modelos para dados correlacionados 16 / 37
Motivacao: Concentracao de theophylline
Cibele Russo (ICMC USP) Modelos para dados correlacionados 17 / 37
Motivacao: Concentracao de theophylline
Exercıcio: Calcule a covariancia e correlacao amostrais para os dados de
theophylline.
> library(nlme)
> attach(Theoph)
> cov(matrix(conc,nrow=12,byrow=T))
> cor(matrix(conc,nrow=12,byrow=T))
> detach(Theoph)
Cibele Russo (ICMC USP) Modelos para dados correlacionados 18 / 37
Motivacao: Crescimento de plantas de soja
Crescimento de plantas (Pinheiro & Bates, 2000)
Y : peso da folha (g)
T : tempo (dias)
E(Y ) =β1
1 + exp{−[
(T−β2)β3
]}(modelo de crescimento logıstico de tres parametros)
β1 representa o peso assintotico das folhas das plantas,
β2 e o tempo em que a folha atinge a metade de seu peso
assintotico
β3 representa o tempo decorrido entre os instantes em que a folha
tem metade e 1/(1 + e−1) ' 3/4 de seu peso.
Cibele Russo (ICMC USP) Modelos para dados correlacionados 19 / 37
Motivacao: Crescimento de plantas de soja
Cibele Russo (ICMC USP) Modelos para dados correlacionados 20 / 37
Motivacao: Crescimento de plantas de soja
Novidade nos dados de plantas de soja
(muito comum em modelos mistos):
Dados desbalanceados
(grupos de observacoes com tamanhos diferentes).
Cibele Russo (ICMC USP) Modelos para dados correlacionados 21 / 37
Modelo nao linear com efeitos mistos
A forma mais comum de definir um modelo nao linear (multivariado) com
efeitos mistos e considerar que{Yi = g(φi ,Xi ) + εi , i = 1, . . . , n,
φi = Aiβ + bi ,
supondo que
bi ∼ Nq(0,D)
εi ∼ Nmi (0, σ2I )
b1, . . . ,bn, ε1, . . . , εn sao independentes
Dificuldade: Nao e possıvel obter o modelo marginal em forma fechada nesse caso.
Cibele Russo (ICMC USP) Modelos para dados correlacionados 22 / 37
Modelos nao lineares com efeitos aleatorios
Outra formulacao, mais geral, e dada por
Yi = η(β,bi , xi ) + εi , i = 1, . . . , n,
em que bi ∼ Nr (0,D) e εi ∼ Nmi (0, σ2Imi ).
Dificuldade: a distribuicao marginal de Yi nao tem forma fechada, sendo
necessario o uso de metodos de integracao numerica, como metodos de
quadratura por exemplo, para a obtencao de formas aproximadas para as
marginais.
Cibele Russo (ICMC USP) Modelos para dados correlacionados 23 / 37
Modelos nao lineares com efeitos aleatorios
Consideramos o modelo analisado por Russo et al (2009) (no contexto de
distribuicoes elıpticas)
Yi = η(β, xi ) + Zibi + εi , i = 1, . . . , n,
β = (β1, . . . , βp)> vetor de parametros desconhecidos,
η(β, xi ) = (f (β, xi1), . . . , f (β, ximi))> funcao nao linear de β,
xi vetor de variaveis explicativas,
Zi matriz constante conhecida,
bi = (bi1, . . . , bir )> vetor de efeitos aleatorios nao observados.
Cibele Russo (ICMC USP) Modelos para dados correlacionados 24 / 37
Modelos nao lineares com efeitos aleatorios
Suposicoes:[Yi
bi
]∼ Nmi+r
{(η(β, xi )
0
),
[ZiDZ>i + σ2Imi ZiD
DZ>i D
]},
Vi = ZiDZ>i + σ2Imi e a matriz de variancias e covariancias Var(Yi ),
D = D(τ ) e a matriz de variancias e covariancias Var(bi )
ZiDe a matriz de variancias e covarianciasCov(Yi ,bi ).
Modelo marginal: Yi ∼ Nmi (η(β, xi );Vi )
Cibele Russo (ICMC USP) Modelos para dados correlacionados 25 / 37
Modelos nao lineares com efeitos aleatorios
Possıveis expressoes para Zi (i = 1, . . . , n):
(i) Zi = 1,
(ii) Zi = (1, xi ),
(iii) Zi = (1, xi , x2i ), e
(iv) modelos mistos pseudo nao lineares (PNMEM), em que
PNMEMβ0β1β2 indica que
Zi =
[∂η(β, xi )
∂β0,∂η(β, xi )
∂β1,∂η(β, xi )
∂β2
]∣∣∣∣β=β
,
em que β e a estimativa de mınimos quadrados de β.
Cibele Russo (ICMC USP) Modelos para dados correlacionados 26 / 37
Modelo nao linear com efeitos mistos
Alternativa: Considerar algoritmos que linearizam o modelo mais geral.
Cibele Russo (ICMC USP) Modelos para dados correlacionados 27 / 37
Modelo nao linear com efeitos mistos
Importante: Na maioria das vezes, nao e interessante introduzir efeito
aleatorio no intercepto, por exemplo. Os efeitos adicionados nos
parametros referentes aos efeitos fixos levam a diferentes perfis
dependendo da nao-linearidade do problema. Mesmo assim, alguns autores
adicionam efeito no intercepto sem fazer a devida interpretacao.
Cibele Russo (ICMC USP) Modelos para dados correlacionados 28 / 37
Interpretando os efeitos aleatorios em modelos nao lineares
Dados de hemodialise
Efeitos aleatorios adicionados nos parametros de efeitos fixos, dentro da
funcao nao linear.
(ver dados originais - slide 10)
Cibele Russo (ICMC USP) Modelos para dados correlacionados 29 / 37
Interpretando os efeitos aleatorios em modelos nao lineares
Dados de hemodialise
Resultado da inclusao de intercepto aleatorio.
(ver dados originais - slide 10)
Cibele Russo (ICMC USP) Modelos para dados correlacionados 30 / 37
Interpretando os efeitos aleatorios em modelos nao lineares
Dados de concentracao de indomethacin
Efeitos aleatorios adicionados nos parametros de efeitos fixos, dentro da
funcao nao linear.
(ver dados originais - slide 14)Cibele Russo (ICMC USP) Modelos para dados correlacionados 31 / 37
Interpretando os efeitos aleatorios em modelos nao lineares
Dados de concentracao de indomethacin
Resultado da inclusao de intercepto aleatorio.
(ver dados originais - slide 14)
Cibele Russo (ICMC USP) Modelos para dados correlacionados 32 / 37
Interpretando os efeitos aleatorios em modelos nao lineares
Dados de concentracao de theophylline
Efeitos aleatorios adicionados nos parametros de efeitos fixos, dentro da
funcao nao linear.
(ver dados originais - slide 17)
Cibele Russo (ICMC USP) Modelos para dados correlacionados 33 / 37
Interpretando os efeitos aleatorios em modelos nao lineares
Dados de concentracao de theophylline
Resultado da inclusao de intercepto aleatorio.
(ver dados originais - slide 17)
Cibele Russo (ICMC USP) Modelos para dados correlacionados 34 / 37
Interpretando os efeitos aleatorios em modelos nao lineares
Dados de crescimento de plantas de soja
Efeitos aleatorios adicionados nos parametros de efeitos fixos, dentro da
funcao nao linear.
(ver dados originais - slide 20)
Cibele Russo (ICMC USP) Modelos para dados correlacionados 35 / 37
Interpretando os efeitos aleatorios em modelos nao lineares
Dados de crescimento de plantas de soja
Resultado da inclusao de intercepto aleatorio.
(ver dados originais - slide 20)
Cibele Russo (ICMC USP) Modelos para dados correlacionados 36 / 37
Comandos em R:
Ver arquivo Aula4Comandos.r
Cibele Russo (ICMC USP) Modelos para dados correlacionados 37 / 37