mini-curso mlge 1. programa 2. objectivo 2. regressão logística 3. introdução 4. construção 5....
TRANSCRIPT
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Programa:
1. Introdução aos MLG
2. Regressão Logística*
3. MLG aplicados a variáveis resposta com distribuição contínua
4. MLG aplicados a dados de contagens
5. Análise de variância (ANOVA) com MLG
1. Programa
*Livro de referência: Hosmer, D.W., Lemeshow, S. 2000 Applied Logistic Regression. Wiley & Sons
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Objectivo do Modelo de Regressão Logística
Encontrar um modelo adequado e parcimonioso que permita descrever a relação entre uma variável aleatória binária (i.e., dicotómica) Y e um
conjunto de variáveis não-aleatórias preditoras X1, X2, …, Xp
Atenção:
O objectivo não é obter um modelo que discrimine eficaz e totalmente os dois resultados possíveis de Y, mas sim que indique com precisão a probabilidade de ocorrência de um “sucesso” (ou de um “insucesso”).
Um modelo matemático toma frequentemente a forma de uma equação (ou conjunto de equações) que descrevem a relação entre diversas variáveis, p.ex., E=mc2. Estes modelos são determinísticos e não permitem qualquer incerteza, p.ex., erros de medição.
Um modelo estatístico incorpora variação aleatória em pelo menos uma das quantidades, sendo esta intrínseca ao aspecto do mundo real estudado ou um produto de erros de medição
Lembrar
2. Objectivo
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Objectivo do Modelo de Regressão Logística
Aplicações comuns dos modelos de regressão logística em Ecologia
Estudos de presença/ausência de organismos numa área de estudo - p.ex.
Guisan et al., 1999 (modelação espacial da distribuição de plantas);
Gumpertz et al., 1999 (modelação espaço-temporal da ocorrência de pragas)
Silva et al., 2002 (propagação espacial de uma espécie introduzida)
Ysebaert et al., 2002 (resposta de espécies estuarinas a gradientes ambientais)
Guisan & Hofer, 2003 (comparação de modelos de regressão logística no estudo da distribuição de répteis)
Estudos de selecção de recursos - p.ex.
Bekoff et al., 1999 (estudo do comportamento alimentar de uma espécie de ave)
Flury & Levri, 1999 (análise do ciclo diário do comportamento alimentar de uma espécie de caracol)
Pereira et al., 2001 (sazonalidade na selecção de recursos por uma espécie de morcego)
Outros estudos de sucesso/insucesso
Futter, 1994 (risco de contaminação com mercúrio em trutas)
Reece et al., in press (influência da temperatura sobre o sex-ratio de tartarugas)
Barker et al., 1999 (marcação/recaptura de trutas)
2. Objectivo
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
3. Introdução
Introdução ao Modelo de Regressão Logística
A distribuição da variável resposta
Resultado Probabilidade
Y
“Sucesso” (1)
“Insucesso” (0) 1 -
1| 1
yyf y
Y tem distribuição Bernoulli com parâmetro , Y Be
A sua função de massa probabilística é
Uma característica importante desta distribuição é que E Y
0
1
=0.40 =0.20
~60%
~40%
~80%
~20%
Hipótese: um conjunto de preditores ’influencia’ a probabilidade de sucesso de Y.
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
A relação entre a variável resposta e um preditor
1
0
0.5
Aproximação suave a =1
Aproximação suave a =0
Simetria
X10 +∞-∞
Introdução ao Modelo de Regressão Logística
Curva Logística:
3. Introdução
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Introdução ao Modelo de Regressão Logística
X1
0
A flexibilidade da curva logística
3. Introdução
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Introdução ao Modelo de Regressão Logística
Generalização: o Modelo de Regressão Logística
0 1 1 2 2
0 1 1 2 2
exp ...
1 exp ...
p p
p p
X X X
X X X
O Modelo de Regressão Logística é um MLG
Uma vez obtida uma amostra, pretendemos estimar os coeficientes 1, 2, …, p.
Componente Aleatória Y (variável resposta)
Y tem distribuição pertencente à família
exponencial de distribuições
Amostra dimensão n
Componente Sistemática combinação linear das
variáveis preditoras
o0 1 1 ... p pX X
Função de Ligação função diferenciável e monótona g
que associa as componentes aleatória e sistemática
0 1 1 ... p pg X X
Lembrar
3. Introdução
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Introdução ao Modelo de Regressão Logística
1) A Distribuição Bernoulli pertence à família exponencial
1| 1
yyf y f.m.p
1
a() 1
b()
c(y,) 0
log1
log 1 exp log 1
( )| , exp ( , )
( )
y bf y c y
a
O Modelo de Regressão Logística é um MLG
Fórmula geral das distribuições pertencentes à família exponencial:
3. Introdução
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
0 1 1
0 1 1
0 1 1
exp ...log ...
11 exp ...
p p
p p
p p
X XX X
X X
log1
g
Função de ligação Logit
Introdução ao Modelo de Regressão Logística
O Modelo de Regressão Logística é um MLG
2) A função de ligação é monótona e diferenciável
A função de ligação logit é monótona crescente e diferenciável em ]0,1[
3. Introdução
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Introdução ao Modelo de Regressão Logística
Estimação dos parâmetros pelo Método da Máxima Verosimilhança
1 2
1
, ,..., ,n
i in i
i i
y bl y y y c y
a
, ;
0 1 0 01
,..., ; ,..., ... log 1 exp ...n
p n i p ip p ipi
l y y y x x
1 21
, ,..., ; ,n
n i i ii
y y y f y
L , ;
Lembrar
Função Verosimilhança
Função Log-verosimilhança
0
0
0
exp ...,...,
1 exp ...
ij p ip
i p i ij ij i ij p ip
x xl y x x y
x
2
0 ,..., 1i p ij ik i ij k
l x x
As derivadas parciais das parcelas da log-verosimilhança (necessárias para o algoritmo IRLS) são:
Regressão Logistica na Web http://members.aol.com/JohnP71/logistic.html
3. Introdução
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
4. Construção
Passos na Modelação:
1. O objecto de estudo tem um comportamento binário Y, codificado como 1 (“sucesso”) ou 0 (“insucesso”).
2. Pretende-se modelar a probabilidade de “sucesso” em função de algumas variáveis (candidatas a preditoras), discretas ou contínuas.
3. Recolhe-se uma amostra de n observações independentes de Y, registando-se também o valor das variáveis preditoras.
O software R
Construção de um Modelo de Regressão Logística com recurso ao software R
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Inserção de dados no R – opção 1:
> tab1 <- data.frame(matrix(nrow=100, ncol=6, scan()))
Nome da tabela onde ficam armazenados os dados
Nº observações Nº preditores + 1 (variável resposta)
Copiar
Colar
4. Construção
Construção de um Modelo de Regressão Logística com recurso ao software R
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Inserção de dados no R – opção 2:
> tab1<-read.table(“C:\\exemplo2.txt”, sep=“,”)
Nome da tabela onde ficam armazenados os dados
Nome do documento de importação
Separador (pode ser “ “ ou “/t”)
4. Construção
> names(tab1) <- c(“Y”,”X1”,”X2”,”X3”,”X4”,”X5”)
Construção de um Modelo de Regressão Logística com recurso ao software R
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
4. Análise preliminar univariada.
Passos na Modelação:
3. Recolha da amostra.
4. Construção4.1. Tabelas de contingência 2x2
(variáveis preditoras indicatrizes)
Y=0 Y=1
Xj=0 22 8
Xj=1 13 17
=0.27
2. …
=0.57
4.2. Análise gráfica
Y=0
Y=1
=0.27 =0.57
Xj=0 Xj=1
100%
0%
50%
> plot (tab1$X1,tab1$Y)
> lines(lowess(tab1$X1,tab1$Y))
Construção de um Modelo de Regressão Logística com recurso ao software R
Simetria em torno de 0.5
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
> summary(glm(tab1$Y~tab1$X1,family=binomial(link=logit)))
Call: glm(formula = tab1$Y ~ tab1$X1, family = binomial(link = logit))
Deviance Residuals: Min 1Q Median 3Q Max -1.9832 -1.0172 0.5959 0.9865 1.7571
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.5360 0.2381 2.252 0.024349 * tab1$X1 -0.6271 0.1666 -3.763 0.000168 ***---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 137.19 on 99 degrees of freedomResidual deviance: 120.23 on 98 degrees of freedomAIC: 124.23
Number of Fisher Scoring iterations: 4
4. Análise preliminar univariada.
Var. resposta Preditor
Função de ligação logit
Distribuição de Y
Nº iterações do algoritmo IRLS
Na Regressão Logística = 1
MLG
4. Construção
Construção de um Modelo de Regressão Logística com recurso ao software R
Teste à significância do preditor X1:
> 1-pchisq(137.19-120.23, 1)
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
4. Análise preliminar univariada.
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.5360 0.2381 2.252 0.024349 * tab1$X1 -0.6271 0.1666 -3.763 0.000168 ***
0 0
ˆvar j
0ˆvar 0.2381 1var 0.1666
0ˆ 0.5360 1 0.6271
1 / 2 1 / 2ˆ ˆ ˆ ˆvar ; varj j j jz z
Intervalo de confiança (1-)x100%
Lembrar
Teste à significância do preditor pela construção de Intervalos de Confiança
Não inclui 0 O preditor é relevante (Rej. H0)
> c(-0.6271-qnorm(1-0.25/2)*0.1666, -0.6271+qnorm(1-0.25/2)*0.1666)
= 0.25
[1] -0.8187482 -0.4354518
4. Construção
Esta metodologia equivale ao teste de Wald para um preditor
Construção de um Modelo de Regressão Logística com recurso ao software R
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
4. Análise preliminar univariada.
Passos na Modelação:
3. …
5. Construção do modelo inicial.
4. Construção
Para o modelo inicial, seleccionam-se todas as variáveis preditoras que mostraram associações significativas com a variável resposta ( = 0.25)
> summary(glm(tab1$Y~tab1$X1+tab1$X2+tab1$X4,family=binomial(link=logit)))
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -11.06310 6.89615 -1.604 0.1087 tab1$X1 -3.25560 2.55748 -1.273 0.2030 tab1$X2 0.00144 1.01708 0.001 0.9989 tab1$X4 24.48947 9.61142 2.548 0.0108 *
Se o nº de coeficientes não-significativos for superior a um, remove-se do modelo aquele cuja interpretação ecológica é mais difícil ou aquele cuja medição é mais custosa. Repete-se então o procedimento de ajustamento do modelo:
> summary(glm(tab1$Y~tab1$X1+tab1$X4,family=binomial(link=logit)))
Construção de um Modelo de Regressão Logística com recurso ao software R
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
> summary(glm(tab1$Y~tab1$X1+tab1$X4,family=binomial(link=logit)))
4. Análise preliminar univariada.
Passos na Modelação:
3. …
5. Construção do modelo inicial.
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -11.056 4.554 -2.428 0.0152 *tab1$X1 -3.253 1.438 -2.262 0.0237 *tab1$X4 24.488 9.521 2.572 0.0101 *
Todos os coeficientes são significativos
Fase iterativa terminada
4. Construção
Construção de um Modelo de Regressão Logística com recurso ao software R
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
ATENÇÃO
Não se deve deixar para um computador a remoção de preditores irrelevantes, já que a noção de relevância ultrapassa em muito o valor do p-value.
Exemplo: ocorrência de um organismo aquático num estuário, em função das anomalias da temperatura do ar (X1) e da água (X2)
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.4806 0.2303 2.087 0.036859 * tab1$X1 -0.5527 0.1610 -3.433 0.000597 ***
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6923 0.4717 3.588 0.000333 ***tab1$X2 -0.2935 0.0822 -3.571 0.000356 ***A
nál
ise
Un
ivar
iad
a
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -11.06310 6.89615 -1.604 0.1087 tab1$X1 -3.25560 2.55748 -1.273 0.2030 tab1$X2 0.00144 1.01708 0.001 0.9989 tab1$X4 24.48947 9.61142 2.548 0.0108 *
An
. M
ult
iva
riad
a
4. Construção
Construção de um Modelo de Regressão Logística com recurso ao software R
Associação significativa
Associação significativa
Associações não-significativas
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
5. Construção do modelo inicial.
Passos na Modelação:
4. …
6. “Afinação” do modelo inicial.
Teste à linearidade dos preditores contínuos4. Construção
Construção de um Modelo de Regressão Logística com recurso ao software R
Coefficients: Estimate Std. Error z value(Intercept) -11.056 4.554 -2.428 tab1$X1 -3.253 1.438 -2.262tab1$X4 24.488 9.521 2.572
0 1 1 4 4log1
X X
Análise Univariada
Ao contabilizar a influência de X4 sobre o logit, será que a influência de X1 se mantém linear? Nesse caso, devemos logaritmizar X1, utilizar
um polinómio de 2º grau, etc.?
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Teste à linearidade dos preditores contínuos
> k<-glm(tab1$Y ~ -1+ tab1$X4 + aux, family = binomial(link = logit))> k$coefficientstab1$X4 aux1 aux2 aux3 aux4 21.45 -3.98 -9.55 -12.31 -16.28
> plot(quantile(tab1$X1,probs=c(0.125,0.375, 0.625,0.875)),coefficients(k)[2:5])
> abline(lm(coefficients(k)[2:5]~quantile (tab1$X1,probs=c(0.125,0.375,0.625,0.875))))
A linearidade é aceitável.
4. Construção
Construção de um Modelo de Regressão Logística com recurso ao software R
> quantile(tab1$X1) 0% 25% 50% 75% 100% -2.4395989 -0.6785589 0.5029128 1.4129038 4.0856567
> aux<-matrix(nrow=100,ncol=4,rep(0,400))> for (i in 1:100) {k=1;for (j in 1:3) k=k+1*(tab1$X1[i]>quantile(tab1$X1,j/4));aux[i,k]<-1}
> aux [,1] [,2] [,3] [,4] [1,] 0 0 1 0 [2,] 0 1 0 0 [3,] 1 0 0 0 [4,] 0 1 0 0 [5,] 0 0 0 1 [6,] 0 0 0 1 [7,] 1 0 0 0 [8,] 1 0 0 0 [9,] 1 0 0 0[10,] 1 0 0 0 …
Classe 1 Classe 2 Classe 3 Classe 4
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Outras possibilidades:
coefs
C1 C2 C3 C4
Substituição de X1 por uma variável binária preditora binária:
1 se 1 0.456
0 caso contrário
XX
4. Construção
coefs
C1 C2 C3 C4
Inclusão de X6 = (X1)2 entre os preditores
(em certos casos a substituição de X1 por X6=log(X1) funciona)
Construção de um Modelo de Regressão Logística com recurso ao software R
Teste à linearidade dos preditores contínuos
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
4. Construção
2
2
exp 20 0.6 0.4
1 exp 20 0.6 0.4
pH pH
pH pH
Modelação hipotética da tolerância de um organismo ao pH do substrato:
sendo a probabilidade de sobrevivência
Construção de um Modelo de Regressão Logística com recurso ao software R
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
6. Afinação do modelo inicial.
Passos na Modelação:
5. …
7. Finalização do modelo.
Inclusão de interacções entre variáveis preditoras:
> summary(glm(tab1$Y~tab1$X1+tab1$X4+tab1$X1 : tab1$X4 ,family=binomial(link=logit)))
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -10.941 4.640 -2.358 0.0184 *tab1$X1 -2.665 1.707 -1.561 0.1185 tab1$X4 25.033 9.938 2.519 0.0118 *tab1$X1:tab1$X4 -1.815 3.052 -0.595 0.5521 Interacção
não-significativa
O modelo não beneficia com a inclusão de interacções
4. Construção
0 1 1 4 4
0 1 1 4 4
ˆ ˆ ˆexpˆ
ˆ ˆ ˆ1 exp
X X
X X
Construção de um Modelo de Regressão Logística com recurso ao software R
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
5. Avaliação
Avaliação da qualidade do modelo com recurso ao software R
O teste de Hosmer e Lemeshow (2000)
1. Junto a cada observação de Y colocam-se as estimativas da probabilidade de sucesso fornecidas pelo modelo (numa nova tabela).
> j<-glm(tab1$Y~tab1$X1+tab1$X4,family=binomial(link=logit))
> tab2<-matrix(nrow=100, ncol=2, c(tab1[,1], fitted.values(j)))
> tab2
[,1] [,2] [1,] 0 3.270384e-09 [2,] 1 9.066233e-01 [3,] 0 1.845913e-07 [4,] 1 1.000000e+00 [5,] 0 1.616015e-11 [6,] 0 1.203897e-07 [7,] 1 9.999994e-01 [8,] 1 1.000000e+00 [9,] 1 9.944717e-01 [10,] 1 9.999997e-01
Cada observação possui uma estimativa de que pode não se repetir em toda a amostra, já que entre os preditores há variáveis contínuas.
Nº da observação
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Avaliação da qualidade do modelo com recurso ao software R
O teste de Hosmer e Lemeshow (2000)
2. Ordenam-se os dados da tabela em função de
tab2<-tab2[order(tab2[,2]),]
3. Criam-se 10 grupos de tamanho igual ou semelhante (neste caso, n’ = 10) e analisam-se os resultados do modelo em cada grupo:
'
1
1ˆ 100%
'
n
in
grupo 1 2 3 4 5 6 7 8 9 10
Zeros 10 10 10 9 5 0 0 0 0 0
Uns 0 0 0 1 5 10 10 10 10 10
% 0% 0% 0% 10% 50% 100%
100% 100%
100% 100%
0% 0% 0% 0.1% 61% 98% 99% 100%
100% 100%
5. Avaliação
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
>tab3[1,1:2]<-c(sum(tab2[1:10,1])/10,sum(tab2[1:10,2])/10)> tab3[2,1:2]<-c(sum(tab2[11:20,1])/10,sum(tab2[11:20,2])/10)…> tab3[10,1:2]<-c(sum(tab2[91:100,1])/10,sum(tab2[91:100,2])/10)
> for (i in 1:10) for (j in 1:2) tab3[i,j]<-sum(tab2[(10*i-9):(10*i),j])/10
> plot(1:10,tab3[,1],cex=1.2)> points(1:10,tab3[,2],type="o",pch=20,cex=.8)
Estimativas do modelo
Observações
Erro
# grupo
Avaliação da qualidade do modelo com recurso ao software R
OU
5. Avaliação
> tab3<-matrix(nrow=10,ncol=2)
> tab3 [,1] [,2] [1,] 0.0 1.85e-09 [2,] 0.0 1.28e-07 [3,] 0.0 9.01e-06 [4,] 0.1 0.018 [5,] 0.5 0.613 [6,] 1.0 0.980 [7,] 1.0 0.999 [8,] 1.0 1.00 [9,] 1.0 1.00[10,] 1.0 1.00
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Avaliação da qualidade do modelo com recurso ao software R
O teste de Hosmer e Lemeshow (2000)
4. Constrói-se a estatística de teste
210
1 1
g g
gg g g
yC n
Sob a hipótese do modelo estar bem ajustado, C
tem distribuição qui-quadrado com 8 graus de liberdade (independentemente da dimensão da
amostra).
> cstat<-0> for (i in 1:10) cstat<-cstat+10*(tab3[i,1]-tab3[i,2])^2/(tab3[i,2]*(1-tab3[i,2]))> cstat[1] 4.678233
> 1-pchisq(cstat,8)[1] 0.791348
A hipótese de bom ajustamento não é rejeitada.
5. Avaliação
Outras medidas – Pseudo R2
Ver revisão por Shtatland et al. (2002)
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
6. Interpretação
Interpretação do modelo
Variáveis preditoras binárias:
Razão de probabilidades (RP) versus Razão de “chances” (Odds ratio, OR)
0 5
0 5 0 5 0 55 1
5 0 0 0 0 5
0
ˆ ˆexp
ˆ ˆ ˆ ˆ ˆ ˆ1 exp exp exp 2ˆˆ ˆ ˆ ˆˆ exp exp exp 2
ˆ1 exp
X
X
RP
0 5 5
0 5 5
ˆ ˆexpˆ
ˆ ˆ1 exp
X
X
5 0,1X
0 5
0 5 0 55 1 5 15
5 0 5 0 0
0 0
ˆ ˆexp 1ˆ ˆ ˆ ˆ1 exp 1 expˆ ˆ/ 1 ˆexp
ˆˆ ˆ/ 1 exp 1ˆ ˆ1 exp 1 exp
X X
X X
OR
Odds: nos países anglófonos utilizam-se frequentemente os odds em vez das probabilidades: Ex: “The odds of raining are 2 to 3” em vez de “The probability of raining is 2 out of 5, or 40%”.
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
a) Apresentação de combinações particularmente relevantes dos preditores em tabelas
X1 X4
0 0 1.6x10-5
0.37 0.52 0.61
> exp(-11.056 ) / (1+exp(-11.056 ))
> exp(-11.056-3.253*0.37+24.488*0.52) / (1+exp(-11.056-3.253*0.37+24.488*0.52))
Variáveis preditoras não-binárias:
Interpretação do modelo
6. Interpretação
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
> X.1<-sort (runif(1000,min(tab1$X1),max(tab1$X1)))> pi.X1<-exp(-11.056-3.253*X.1)/(1+exp(-11.056-3.253*X.1))> plot(X.1,pi.X1,type="l")
b) Representação gráfica do impacto de um preditor sobre , fixando os restantes preditores.
Variação de em função de X1, fixando X4 = 0
Interpretação do modelo
Variáveis preditoras não-binárias:
6. Interpretação
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
7. Alternativas
Alternativas ao Modelo de Regressão Logística dentro dos MLG
a) Modelo Probit (muito semelhante ao modelo logístico)
10 1 1 ... p pX X
Função de ligação probit:1( )
0 1 1 ... p pX X
x
x
b) Modelo complementar log-log (possui uma curvatura assimétrica)
0 1 1log log 1 ... p pX X
0 1 11 exp exp ... p pX X
Função de ligação c-log-log: log log 1
Os procedimentos de construção, avaliação e interpretação destes modelos são os mesmos que para o modelo logístico (Nota: as expressões das funções de verosimilhança e log-
verosimilhança mudam). Entre os três tipos de modelo, a escolha do melhor pode basear-se no teste de Hosmer-Lemeshow (quanto maior o p-value, melhor).
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
8. Exemplos (PDF)
Exemplos de aplicações do Modelo de Regressão Logística (PDF)
Exemplo 1: Guisan.pdf
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Exemplos de aplicações do Modelo de Regressão Logística (PDF)
Exemplo 1: Guisan.pdf
Objectivo: Estudar o potencial do clima e da topografia como preditores da distribuição de 13 espécies de répteis na Suiça.
Metodologia: Construção, para cada espécie, de 2 modelos de regressão logística, um com 12 preditores associados ao clima e outro com 8 preditores associados à topografia. Em ambos foram incluídos termos quadráticos.
Nos modelos finais todos os preditores incluídos devem explicar pelo menos 1% do desvio.
A amostra original foi aleatoriamente dividida em duas subamostras, sendo a segunda utilizada para validar os modelos. A validação foi feita com recurso a métodos de classificação:
Se o modelo indica, para uma dada combinação dos preditores, uma probabilidade de sucesso que ultrapassa um dado limiar de corte (c), então considera-se que o modelo prevê um sucesso (y=1); caso contrário, considera-se que prevê um insucesso (y=0).
8. Exemplos (PDF)
Heisenberg: «o melhor modelo que descreve o comportamento de Y é um modelo probabilístico»
Einstein: «Deus não joga aos dados; o modelo deve ser determinístico»
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Previsão do modeloTotal
y=1 y=0
Obs.y=1 n1 n2 n1+n2
y=0 n3 n4 n3+n4
Exemplos de aplicações do Modelo de Regressão Logística (PDF)
Exemplo 1: Guisan.pdf
Sensibilidade = n1 / (n1+n2)
Especificidade = n4 / (n3+n4)
Especificidade
Sensibilidade
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0
1.0
0.8
0.6
0.4
0.2
0.0
Limiar de corte (c)
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0
1-Especificidade
Sensibilidade
1.0
0.8
0.6
0.4
0.2
0.0
Curva ROC
Área debaixo da curva ROC (AUR)
8. Exemplos (PDF)
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Exemplos de aplicações do Modelo de Regressão Logística (PDF)
Exemplo 1: Guisan.pdf
Resultados:
1) Regra geral, os modelos “climáticos” forneceram melhores ajustamentos do que os modelos “topográficos”.
2) As espécies mais ubíquas foram as que forneceram piores modelos, quer “climáticos” quer “topográficos”. Talvez a disponibilidade de recursos seja neste caso um factor determinante para a distribuição espacial.
8. Exemplos (PDF)
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Exemplos de aplicações do Modelo de Regressão Logística (PDF)
Exemplo 2: Pereira.pdf
8. Exemplos (PDF)
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Exemplos de aplicações do Modelo de Regressão Logística (PDF)
Exemplo 2: Pereira.pdf
8. Exemplos (PDF)
Objectivos: Analisar se o morcego Myotis myotis selecciona activamente os seus recursos tróficos ou se a sua dieta reflecte apenas a variação sazonal na abundância destes.
Local: Moura
Hipóteses colocadas:
Se uma presa é preferida, então é tão mais consumida quanto maior for a sua abundância absoluta. As outras presas servem como complemento à presa preferida, pelo que devem surgir em maior quantidade na dieta nos meses em que a primeira é menos abundante. Por não serem seleccionadas, devem surgir na dieta em função da sua abundância relativa.
Modelo para a presa preferida (P) Modelo para as presas não-preferidas (NP)
Cinco períodos de amostragem (em 1999): Mar/Abr, Jul/Ago, Set, Nov.
A abundância dos recursos na zona de estudo foi avaliada através de pitfalls.
Metodologia:
Identificação de presas consumidas em 212 excrementos produzidos por uma colónia com ca. 1000 indivíduos.
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Exemplos de aplicações do Modelo de Regressão Logística (PDF)
Exemplo 2: Pereira.pdf
Se as hipóteses colocadas estiverem correctas, os modelos deverão ajustar-se bem às observações; o valor dos coeficientes terá um significado interpretável em termos ecológicos.
Grilos (presas preferidas)
Carabídeos (NP)
Aranhas (NP)
Coef. positivo
P-value do Desvio (GOF) modelo bem ajustado
Resultados:
Coef. positivoCoef. negativo
8. Exemplos (PDF)
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Exemplos de aplicações do Modelo de Regressão Logística (PDF)
Exemplo 3: Barker.pdf
8. Exemplos (PDF)
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Exemplos de aplicações do Modelo de Regressão Logística (PDF)
Exemplo 3: Barker.pdf
Espécie estudada: Onchorhyncus mykiss (truta arco-íris)
Local: Rio Rangitikei (Nova Zelândia)
Objectivo: avaliar o impacto da introdução de um tamanho máximo de captura (550mm), em 1995, sobre o estado da população e sobre a pesca
Software: MARK
Metodologia: Marcação (n=575) e recaptura (n=246), com ou sem devolução, entre 1993 e 1999
Variáveis resposta:
• Probabilidade de recapturar um peixe, pelo menos uma vez, nos 6 meses seguintes à marcação (P1)
• Probabilidade de um peixe capturado por um pescador ser devolvido (P2)• Probabilidade de sobrevivência de um peixe nos 6 meses seguintes à marcação (P3)
Questão: P1, P2 e P3 dependem da época de marcação (Primavera ou Outono), do comprimento do peixe, do sexo do peixe ou da imposição do tamanho máximo de captura?
Metodologia: Construção de 3 modelos de regressão logística; selecção de preditores relevantes através de uma versão do critério de informação de Akaike – AIC (baseia-se na log-verosimilhança dos modelos estudados e no número de parâmetros que contêm).
8. Exemplos (PDF)
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Model AICc AICcAkaikeWeight
No.Param.
Deviance
P1(season)360.98
5 0 0.999 2 356.964
P1(time)375.42
4 14.44 0.001 13 348.769
P1(time+length)
376.139 15.15 0.001 14 347.382
P1(sex*t)393.86
3 32.88 0 26 339.277
P1(time*length)395.34
2 34.36 0 24 345.14
P1(sex)398.24
5 37.26 0 2 394.224
P1(.)398.98
8 38 0 1 396.981
Exemplos de aplicações do Modelo de Regressão Logística (PDF)
Exemplo 3: Barker.pdf
Resultados:
• A probabilidade de recapturar um peixe, pelo menos uma vez, nos 6 meses seguintes à marcação (P1) depende da estação do ano em que é feita a marcação.
• A probabilidade de um peixe capturado por um pescador ser devolvido (P2) depende do comprimento do peixe e da introdução do tamanho máximo de captura
• A probabilidade de sobrevivência de um peixe nos 6 meses seguintes à marcação (P3) depende da introdução do tamanho máximo de captura
8. Exemplos (PDF)
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Exemplos de aplicações do Modelo de Regressão Logística (PDF)
Exemplo 3: Barker.pdf
Resultados:
Tamanho máximo de captura
8. Exemplos (PDF)
mini-curso mlge
1. Programa
2. Objectivo
2. Regressão logística
3. Introdução
4. Construção
5. Avaliação
6. Interpretação
7. Alternativas
8. Exemplos (PDF)
9. Bibliografia
Bibliografia
•Barker, R.J., et al., in prep., Rainbow trout survival and capture probabilities in the upper Rangitikei river, New Zealand.•Bekoff, M., et al., 1999. Feeding decisions by steller’s jays (Cyanocitta stelleri): the utility of a logistic regression model for analyses of where, what, and with whom to eat. Ethology 105: 393-399.•Czado, C. 1996. Multivariate Probit Analysis of Binary Time Series Data with Missing Responses. Discussion Paper 23, SFB 386 “Diskrete Strukturen”, LMU Munchen•Flury, B.D., Levri, E.P., 1999. Periodic logistic regression. Ecology 80 (7): 2254-2260.•Futter, M. N. 1994. Pelagic food-web structure influences probability of mercury contamination in lake trout (Salvelinus namaycush). The Science of the Total Environment 145:7-12.•Guisan, A., et al., 1999. GLM versus CCA spatial modeling of plant species distribution. Plant Ecology 143: 107-122.•Guisan, A., Hofer, U., 2003. Predicting reptile distributions at the mesoscale: relation to climate and topography. Journal of Biogeography 30: 1233-1243.•Gumpertz, M.L., et al., 1999. Logistic regression for southern pine beetle outbreaks wih spatial and temporal autocorrelation. Forest Science 46 (1): 95-107.•King, G., Zeng, L., 2001. Logistic regression in rare events data. Political Analysis 9 (2):137-63.•Pereira, M.J.R., et al., 2001. Prey selection by Myotis myotis (Vespertilionidae) in a Mediterranean region. Acta Chiropterologica 4 (2): 183-193•Reece, S.E. et al. (in press) Extreme sex ratios of green (Chelonia mydas) and loggerhead (Caretta caretta) sea turtle nests in the Mediterranean and indirect methods for estimating sex ratios.•Shtatland, E.S., et al., 2002. One more time about R2 measures of fit in logistic regression. NESUG 15: 1-6.•Silva, T., et al., 2002. A model for range expansion of an introduced species: the common waxbill Estrilda astrild in Portugal. Diversity & Distributions 8 (6): 319.•Ysebaert, T., et al., 2002. Macrobenthic species response surfaces along estuarine gradients: prediction by logistic regression. Marine Ecology Progress Series 225: 79-95.
9. Bibliografia
LogReg1.PDF LogReg2.PDF LogReg3.PDF