régression logistiquemaths.cnam.fr/img/pdf/logistic_regr_fr_cle479dfe.pdf · • l'espérance...

44
Giorgio Russolillo [email protected] STA201 - Analyse Mutivariée Approfondie Régression Logistique

Upload: others

Post on 16-Apr-2020

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Giorgio [email protected]

STA201 - Analyse Mutivariée Approfondie

Régression Logistique

Page 2: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Example 1: Données sur maladie coronarienne

Giorgio Russolillo – Régression Logistique 2

•  ID: variable identifiante

•  AGE: age

•  CHD: diagnostic de maladie coronarienne

ID Age CHD

1 20 1

2 23 1

3 24 1

4 25 1

5 25 0

. . .

. . .

. . .

97 64 0

98 64 1

99 65 1

100 69 1

Page 3: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Tracé des variables CHD et age

•  Le modèle linéaire n'est pas bien adapté et il n'est pas facile à interpréter

Giorgio Russolillo – Régression Logistique 3

AGE

70605040302010

CHD

1.2

1.0

.8

.6

.4

.2

0.0

-.2

f (xi ) = β0 + β1xi + ε i

Page 4: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Rappel: le modèle linéaire

Giorgio Russolillo – Régression Logistique 4

Modèle:yi = β0 + β1xi +εi

1. ε i ∼ N 0,σ 2( )2. ε i et ε i ' indépendants ∀ i ≠ i ' ⇒ cov(ε i ,ε i ' ) = 0

Hypothèses :

y ∼ N µ,σ 2( )E y | x( ) = µ = β0 + β1x

Page 5: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Modèles linéaires généralisés

•  La variable dépendante est supposée être générée à partir d'une distribution spécifique de la famille exponentielle, une large gamme de distributions de probabilités comprenant les distributions normale, binomiale et de Poisson, entre autres.

•  La moyenne, μ, de la distribution dépend d'une combinaison linéaire des variables indépendantes, X, par le biais d’une fonction non linéaire

•  Cette fonction est l'inverse de la fonction dite de lien (link function), qui exprime le prédicteur linéaire en fonction de μ

Giorgio Russolillo – Régression Logistique 5

µ = g−1 β0 + β1x( )

β0 + β1x = g µ( )

Page 6: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Le modèle logistique : assomptions

La variable dépendante Y est modélisée comme une variable aléatoire de Bernoulli de paramètre π (probabilité que y = 1)

Giorgio Russolillo – Régression Logistique 6

f (Y ;π ) =π si Y = 11−π si Y = 0⎧⎨⎩

or f (Y ;π ) = π Y 1−π( )1−Y

E(Y ) = π var Y( ) = π 1−π( )

Fonction de masse (p.m.f.)

Espérance Variance

Page 7: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Le modèle logistique : assomptions •  L'espérance π est modélisée en fonction de X: π (x).•  En particulier, π dépend d’une combinaison linéaire (prédicteur linéaire) des

variables indépendantes par le biais de la fonction logistique

Giorgio Russolillo – Régression Logistique 7

(NB: la fonction logistique est bornée entre 0 et 1).

π x( ) = E Y | x( ) = g−1(β0 + β1x) =eβ0+β1x

eβ0+β1x +1= 1e− β0+β1x( ) +1

•  Toute fonction de répartition de lois aléatoires continues avec la droite réelle comme support ont la même propriété. mais la fonction logistique a l’avantage de fournir de coefficients interprétables en tant que (log de) odds ratios

Page 8: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Autres fonctions de lien

Toute fonction de répartition de lois aléatoires continues avec la droite réelle comme support ont la même propriété (La même fonction logistique est la cpf de la v.a. logistique)

Giorgio Russolillo – Régression Logistique 8

Toutefois la fonction logistique a l’avantage de fournir de coefficients interprétables en tant que (log de) odds ratios

Autres fonctions de repartition utilisé:–  Loi Normal (modèle probit)–  Loi de Gumbel (modèle log-

log complémentaire)

Source: https://data.princeton.edu/wws509/notes/c3s7

Page 9: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

De la fonction logistique à la fonction Logit

Dans la régression logistique, la fonction de lien est la fonction logit

Giorgio Russolillo – Régression Logistique 9

La logit fonction logit est le log des odds (chances, cotes) que Y soit 1 plutôt que 0

π = eβ0+β1x

eβ0+β1x +1eβ0+β1x +1( )π = eβ0+β1x

πeβ0+β1x +π = eβ0+β1x

eβ0+β1x π −1( ) = −π

eβ0+β1x = π1−π

β0 + β1x = logπ1−π⎛⎝⎜

⎞⎠⎟

Les odds (chances, cotes) pour un événement sont le rapport parmi la probabilité que l'événement se produise et la probabilité que cela n'arrivera pas

Page 10: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

La fonction de lien implique que ..

•  𝛽1 = 0 (i.e. 𝑒𝛽1 = 1 and 𝑒𝛽0+𝛽1x = 𝑒𝛽0): Les odds (et la probabilité) que Y=1 est la même pour chaque niveau de 𝑥

•  𝛽1 > 0 (i.e. 𝑒𝛽1 > 1): Les odds (et la probabilité) que Y=1 augmentent lorque 𝑥 augmente

•  𝛽1 < 0 (i.e. 𝑒𝛽1 < 1): Les odds (et la probabilité) que Y = 1 diminuent avec l'augmentation de 𝑥

Giorgio Russolillo – Régression Logistique 10

eβ0+β1x = eβ0eβ1x = eβ0 eβ1( )x = π1−π

-2 -1 0 1 2

01

23

45

67

beta

exp(beta)

Page 11: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Interprétation du coefficient

Giorgio Russolillo – Régression Logistique 11

•  Si x augmente d’une unité le log des odds augmente de β1

logπ x0+1

1−π x0+1

⎝⎜⎞

⎠⎟= β0 + β1 x0 +1( ) = β0 + β1x0 + β1 = ln

π x0

1−π x0

⎝⎜⎞

⎠⎟+ β1

Ex : Si β1 = 2, l’augmentation d’une unité de X multiplie les chances par e2 = 7.389.

π x0+1

1−π x0+1

= eβ0+β1 x0+1( ) = eβ0+β1x0 × eβ1 =π x0

1−π x0

× eβ1

•  Si x augmente d’une unité les odds sont multipliés par eβ1

π x0= Pr Y =1| x = x0( )

eβ1 can be interpreted as an odds ratio (OR):π x0+1

1−π x0+1

=π x0

1−π x0

× eβ1 ⇒ eβ1 =π x0+1 /1−π x0+1

π x0/1−π x0

Page 12: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Variable indépendante dichotomique

XY x = 1 x = 0

y = 1

y = 0

Total 1 1

Giorgio Russolillo – Régression Logistique 12

π1 =eβ0+β1

eβ0+β1 +1

1−π1 =1

eβ0+β1 +11−π 0 =

1eβ0 +1

π 0 =eβ0

eβ0 +1

Valeurs de πk dans un modèle logistique avec une variable indépendante dichotomique

πk = Prob.(y = 1 | x = k) => 1-πk = Prob.(y = 0 | x = k)

π x( ) = eβ0+β1x

eβ0+β1x +1

Page 13: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Odds Ratio (Rapport des cotes)

Giorgio Russolillo – Régression Logistique 13

OR =π1 / 1−π1[ ]π 0 / 1−π 0[ ] =

eβ0+β1

eβ0+β1 +11

eβ0+β1 +1eβ0

eβ0 +11

eβ0 +1

= eβ0+β1

eβ0= eβ1 ⇒ ln OR( ) = β1

πk = Prob.(y = 1 | x = k)

Dans une régression logistique avec une seule variable indépendante dichotomique (codée 1 et 0), le rapport de cotes, défini comme le rapport entre les odds de x = 1 et de x = 0 est égal à l'exponentielle de β1

Page 14: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Log de l’Odds Ratio

Giorgio Russolillo – Régression Logistique 14

X (AGE)Y (CHD)

x = 1 (Age ≥ 55)

x = 0 (Age < 55) Total

y = 1 (Yes) 21 22 43

y = 0 (No) 6 51 57

Total 27 73 100

OR =π1 / 1− π1[ ]π 0 / 1− π 0[ ] =

21/ 27( )6 / 27( )

22 / 73( )51/ 73( )

= 21/ 622 / 51

= 8.11= eβ1

ln OR( ) = β1 = ln 8.11( ) = 2.09

πk = Prob.(y = 1 | x = k)

Page 15: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Variable indépendante polychotomique

Giorgio Russolillo – Régression Logistique 15

X (Nat)

Y (CHD)

x = 1 (U.S.)

x = 2 (Fr.)

x = 3 (Sp.)

x = 4 (It.) Total

y = 1 (Yes) 5 20 15 3 43

y = 0 (No) 20 10 10 17 57

Total 25 30 25 20 100

OR(1, 4) =π1 / 1− π1[ ]π 4 / 1− π 4[ ] =

5 / 25( ) 20 / 25( )3 / 20( ) 17 / 20( ) =

5 / 203 /17

=1.417 = eβ1

OR(2, 4) =π 2 / 1− π 2[ ]π 4 / 1− π 4[ ] =

20 /103 /17

=11.333 = eβ2

OR(3, 4) =π3 / 1− π3[ ]π 4 / 1− π 4[ ] =

15 /103 /17

= 8.5 = eβ3

OR(4, 4) =1= eβ4

β1 = ln 1.417( )β2 = ln(11.333)β3 = ln 8.5( )β4 = ln(1)

Groupe de référence :Italiens (x = 4)

Page 16: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Ajuster un modèle logistique binaire simple

On cherche les parametres β0 et β1 qui maximizent la fonction de vraisemblance L, c.à d. la probabilité d’observer les données

Giorgio Russolillo – Régression Logistique 16

maxβ0 ,β1

L β0,β1( )

L β0,β1( ) = Prob(Y = yi | X = xi )i=1

n

= π iyi 1−π i( )1−yi

i=1

n

∂ logL∂β01

= yi −π i[ ] = 0i=1

n

∑ ∂ logL∂β1

= xi yi −π i[ ] = 0i=1

n

logL = yi lni=1

n

∑ π i( )+ 1− yi( ) ln 1−π i( )

∂ logL∂β01

= yi −eβ0+β1xi

1+ eβ0+β1xi

⎛⎝⎜

⎞⎠⎟

⎣⎢

⎦⎥ = 0

i=1

n

∑ ∂ logL∂β11

= xi yi −eβ0+β1xi

1+ eβ0+β1xi

⎛⎝⎜

⎞⎠⎟

⎣⎢

⎦⎥ = 0

i=1

n

•  Ces expressions ne sont pas linéaires dans les paramètres.

•  Des méthodes itératives sont utilisées pour calculer leurs solutions

Page 17: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Estimation de la variabilité des parametres

La matrice

Giorgio Russolillo – Régression Logistique 17

V (β) =V (β0 ) Cov(β0 , β1)

Cov(β0 , β1) V (β1)

⎢⎢

⎥⎥

E ∂Log L(β )∂β

⎛⎝⎜

⎞⎠⎟

2⎡

⎣⎢⎢

⎦⎥⎥β=β

−1

= −E ∂2Log L(β )∂β 2

⎛⎝⎜

⎞⎠⎟

⎣⎢

⎦⎥β=β

−1

est estimée par la matrice (inverse de l’information de Fisher)

Page 18: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Estimation des probabilités

Giorgio Russolillo – Régression Logistique 18

estimation⎯ →⎯⎯⎯ β prédicteur linéaire β0+β1x

⎯ →⎯⎯⎯⎯ lnπ x( )

1− π x( )⎛⎝⎜

⎞⎠⎟ fonction logistique

eβ0+β1x

eβ0+β1x+1

⎯ →⎯⎯⎯⎯⎯ π

g(AGE) = ln π (AGE)1− π (AGE)⎛⎝⎜

⎞⎠⎟= −5.309 + 0.111× AGE

Fonction logit estimée

π (AGE)1− π (AGE)

= e−5.309+0.111×AGE

Odds

π (AGE) = eβ0+β1AGE

eβ0+β1AGE +1= e−5.309+0.111×AGE

1+ e−5.309+0.111×AGE

Probabilités estimées

Page 19: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Mesurer la qualité de l'ajustement

Giorgio Russolillo – Régression Logistique 19

•  R2 de Cox & Snell:

•  R2 ajusté de Nagelkerke:

•  Mc Fadden:

•  -2LogLikelihood (Deviance) of the fitted model

R2 = 1− L(β0 )L(β0, β1)

⎣⎢⎢

⎦⎥⎥

2n

Radj2 = R2

Rmax2

Max R2 =1− L(β0 )⎡⎣

⎤⎦

2n <1

Borné entre 0 et 1

RMF2 = 1−

Log L β0,β1( )Log L β0( )

Cette statistique a tendance à être faible et des valeurs de 0,2 à 0,4 sont à considérer satisfaisantes.

0.0 0.2 0.4 0.6 0.8 1.0

-4-3

-2-1

0

x

log(x)

Page 20: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Déviance

•  Il joue le même rôle que la somme des carrés résiduels dans la régression linéaire

•  Des valeurs élevées suggèrent que la ou les variables indépendantes ne sont pas utiles pour prédire la réponse.

•  Le TRV se base sur la déviance pour évaluer l’importance de l’ensemble du modèle et des sous-modèles

Giorgio Russolillo – Régression Logistique 20

D = −2 ln (vraisemblance du modèle)(vraisemblance du modèle saturé)⎡⎣⎢

⎤⎦⎥

= −2 lnπ xi

yi 1− π xiyi( )1−yi

i=1

n

∏yiyi 1− yi( )1−yi

i=1

n

⎢⎢⎢⎢

⎥⎥⎥⎥

= −2 yi lnπ xi

yi

⎛⎝⎜

⎞⎠⎟+ 1− yi( ) ln 1− π xi

1− yi

⎛⎝⎜

⎞⎠⎟

⎣⎢

⎦⎥

i=1

n

= −2 ln π xiyi 1− π xi( )1−yi

i=1

n

∏⎡⎣⎢

⎤⎦⎥

= −2 yi ln π xi( )+ 1− yi( ) ln 1− π xi( )⎡⎣ ⎤⎦i=1

n

∑-2*(-53.67) = 107.35

1 if Y is binary

N.B.:In the saturatedmodel π xi

= yi

Page 21: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Evaluer la qualité du classement (pouvoir discriminant)

•  Sensibilité: capacité de détecter les personnes malades parmi celles qui sont malades (Taux de vrais positifs)

•  Spécificité: capacité de détecter les personnes en bonne santé parmi celles qui sont en bonne santé (Taux de vrais négatifs)

•  1 – Spécificité (antispécificité): risque d'assigner une personne en bonne santé au groupe de personnes malades (taux de faux positifs)

Giorgio Russolillo – Régression Logistique 21

Comment la sensibilité et la spécificité varient-elles tant que c change?Trouvons un compromis acceptable entre forte sensibilité et forte spécificité

ObservéPredite

CHDYes

CHDNo Total

CHD = Yes 29 (VP) 12 (FP) 41

CHD = No 14 (FN) 45 (VN) 59

Total 43 57 100

π i > cUne observation i est assignée au groupe {y = 1} si

If c = 0.5:

Sensibilité (Taux de v. p.) = 29/43Spécificité (Taux de v. n.) = 45/57Taux de faux positifs = 12/57Taux de faux négatifs = 14/43

Page 22: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Évaluer le pouvoir discriminant : La courbe ROC (Receiver Operating Characteristic)

Giorgio Russolillo – Régression Logistique 22

Seuil Sensibilité 1 - Specificité0.0000 1.000 1.0000.0515 1.000 0.9820.0629 1.000 0.9650.0697 1.000 0.9470.0773 0.977 0.9300.0903 0.977 0.8950.1046 0.977 0.860

. . .

. . .

. . .0.8912 0.023 .0001.0000 0.000 0.000

L’aire sous la courbe ROC est une mesure du pouvoir discriminant du modèle. Elle est égale à la probabilité de donner à un évènement (+) choisi au hasard avec un score plus élevé qu'un non-évènement choisi au hasard, à savoir P(score (x +) > score (x−))

= ta

ux d

e vr

ais

posi

tifs

= taux de faux positifs

Page 23: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Évaluer la calibration du modèle : Test de Hosmer et Lemeshow •  Il évalue la qualité de l'ajustement du modèle•  Les données sont triées selon l’ordre décroissante des probabilités estimées,

puis partitionnées en 10 groupes au maximum.

•  Le test du chi deux est utilisé pour comparer les effectifs observés ( )

aux effectifs théoriques (attendus) ( ) pour Y = 1, ainsi que pour Y = 0.•  Nombre de degrés de liberté = Nombre de groupes - 2

Giorgio Russolillo – Régression Logistique 23

yii∈Class∑

π ii∈Class∑

On ne veut pas rejeter H0 (pas de différence significative entre les distributions observées et théoriques)

O1g − E1g( )2E1g

+O0g − E0g( )2

E0gg=1

G

∑ ~ χG−22

O1g : Effectifs observés pour Y = 1 dans le groupe gE1g : Effectifs théoriques pour Y = 1 dans le groupe gO0g : Effectifs observés pour Y = 1 dans le groupe gE0g : Effectifs théoriques pour Y = 0 dans le groupe g

Page 24: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Evaluer la significativité d’un coefficient: le test de Wald

Giorgio Russolillo – Régression Logistique 24

Le modèle π(x) = P(Y =1 | X = x) = eβ0 +β1x

1+ eβ0 +β1x

Décision de rejeter H0 au niveau de risque : On rejete H0 si:

Wald ≥ χ1−α2 (1)

Test d’hypothese

β j

sβ j

∼ N(0.1)⇒β j2

sβ j

2 ∼ χ2 (1)Statistique de test de Wald

β12

sβ1

2 =0.111...( )2

0.024...( )2= 21.254Application à β1

H0 :β j = 0H1 :β j ≠ 0

α

p-value ≤α , i.e. Prob χ1−α2 (1) ≥ Wald( ) ≤α

Le test de Wald teste l'hypothèse nulle selon laquelle un paramètre est égal à une valeur (par exemple zéro).

Page 25: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Intervalles de confiance pour les coefficients

•  Les intervalles de confiance pour β0 et β1 sont basés sur la statistique de Wald correspondante:

Giorgio Russolillo – Régression Logistique 25

β1 ± z1−α /2sβ1 β0 ± z1−α /2sβ0

Où z1-α/2 est le quantile d’ordre 1-α/2 d’une lois normale standard

Dans notre cas, pour 1-α = 0.95 ICβ1: 0.111±1.96 × 0.0241[ ] = [0.064;0.158]

ICeβ1:[e0.064;e0.158 ]

Page 26: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Intervalles de confiance pour les log des odds

Giorgio Russolillo – Régression Logistique 26

g x( ) = β0 + β1x = lnπ1− π⎛⎝⎜

⎞⎠⎟

Var(β0 + β1x) =Var(β0 )+ x2Var(β1)+ 2x ×Cov(β0 , β1)

ICg 50( ) 0.240 ±1.96 × 0.0650⎡⎣

⎤⎦= −0.260,0.740[ ]

ICg x( ) g x( ) ± z1−α /2 × Var g x( )( )⎡⎣

⎤⎦

g 50( ) = −5.31+ 0.111× 50 = 0.240

Var g 50( )( ) =1.28517+ 502 × 0.000576 + 2 ⋅50 ⋅ −0.026677( ) = 0.0650

1.1342

Voir la slide précedente

0.0242

Voir la slide précedente

Page 27: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

706050403020

1.0

.8

.6

.4

.2

0.0

SUP95

INF95

PROBABILITE

Intervalles de confiance pour les probabilites

Giorgio Russolillo – Régression Logistique 27

ICπ (x ) :eg x( )−z1−α /2 Var g x( )( )

1+ eg x( )−z1−α /2 Var g x( )( ); eg x( )+z1−α /2 Var g x( )( )

1+ eg x( )+z1−α /2 Var g x( )( )

⎣⎢⎢

⎦⎥⎥

π(x) = eβ0 +β1x

1+ eβ0 +β1x= eg x( )

1+ eg x( )

π(50) = e−5.31+0.111×50

1+ e−5.31+0.111×50

ICπ (50)e−0.260

1+ e−0.260; e0.740

1+ e0.740⎡

⎣⎢

⎦⎥= 0.435,0.677[ ]

Estimation de la probabilité d’avoir la maladie pour quelqu'un de 50 ans

Page 28: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

G = D(model without the variable)−D(model with the variable) ~ χ df1−df2( )2

= −2 ln (likelihood without the variable)(likelihood with the variable)

⎡⎣⎢

⎤⎦⎥

= −2 lnn1 / n( )n1 n0 / n( )n0

π iyi 1− π i( )1−yi∏

⎣⎢⎢

⎦⎥⎥

= −2 n1 ln n1( )+ n0 ln n0( )− n ln n( )⎡⎣ ⎤⎦ − yi lni=1

n

∑ π i( )+ 1− yi( ) ln 1− π i( )⎡⎣⎢

⎤⎦⎥

⎧⎨⎩

⎫⎬⎭

= −2 43ln 43( )+ 57ln 57( )−100 ln 100( )⎡⎣ ⎤⎦ − −53.677[ ]{ } = −2 −68.331[ ]− −53.677[ ]{ } = = 2 × 68.331[ ]− 2 × 53.677[ ] =136.66 - 107.35 = 29.31

Evaluer la significativité du modèle: Test du rapport des vraisemblances (TRV)

Giorgio Russolillo – Régression Logistique 28

n1: Nb y=1n0: Nb y=0

LogVrais. du modèle nulle

LogVrais. du modèle

Deviance du modèle nulleDéviance du modèle

(-2LogLik )

Valeur observée de Statistique du TRV

Page 29: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Evaluer la significativité des coefficients: le test du Score de Rao •  Il est basé sur la pente de la fonction de vraisemblance au point

correspondant aux valeurs observées dans le modèle

•  Cette pente estimée, ou "score", est ensuite utilisée pour estimer l'amélioration de l'ajustement du modèle si des variables supplémentaires étaient incluses dans le modèle.

•  La statistique de test est le changement attendu de la statistique du chi-deux pour le modèle si une variable ou un ensemble de variables est ajouté au modèle (c'est-à-dire si un ou plusieurs paramètres actuellement soumis à des contraintes peuvent être estimés librement.

Giorgio Russolillo – Régression Logistique 29

Statistique du TRVStatistique du test du scoreDéviance du modèle nulle

Déviance du modèle

Page 30: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Test du rapport de vraisemblances, de Wald et du Score

Giorgio Russolillo – Régression Logistique 30

Source: http://www.ats.ucla.edu/stat/mult_pkg/faq/general/nested_tests.htm

Page 31: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Régression logistique Multiple

Giorgio Russolillo – Régression Logistique 31

π x( ) = E Y | x( ) = g−1 β0 + β j x jj=1

J

∑⎛

⎝⎜⎞

⎠⎟= e

β0+ β j x jj=1

J

eβ0+ β j x j

j=1

J

∑+1

= 1

e− β0+ β j x j

j=1

J

∑⎛

⎝⎜⎜

⎠⎟⎟+1

FonctionLogistique :

β0 + β j x jj∑ = g π( ) = ln π x( )1− π x( )⎛

⎝⎜⎜

⎠⎟⎟Fonction Logit:

Odds:

π x( )1− π x( )

= eβ0 + β j x jj∑ = eβ0 × eβ1( )x1 × eβ2( )x2 ×…× eβJ( )xJ

Page 32: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Evaluer la significativité de groupes de coefficients

Giorgio Russolillo – Régression Logistique 32

Le modéle π(x) = P(Y =1 / X = x) = eβ0 +β1x1+...+βJ xJ

1+ eβ0 +β1x1+...+βJ xJ

Hypothèses du Test

Statistiques de test

1. LRT = [-2Log L(Modèle Reduit)] - [-2Log L(Modèle Complet)]

2. Wald = βr+1,..., βJ⎡⎣

⎤⎦ Var

βr+1

!

βJ

⎜⎜⎜

⎟⎟⎟

⎢⎢⎢⎢

⎥⎥⎥⎥

−1

βr+1

!

βJ

⎢⎢⎢⎢

⎥⎥⎥⎥

H0 :βr+1 = ...= βJ = 0H1 : au moins un β j ≠ 0

3. Score test

Page 33: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Règle de décision

Giorgio Russolillo – Régression Logistique 33

On rejet au niveau de risque α de se tromper

si

Ou bien si

H0 :βr+1 = ...= βJ = 0

Statistique obs.≥ χ1−α2 J − r[ ] (P-value)

Prob χ 2 J − r[ ]≥ statistique obs.( ) ≤α

Page 34: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Exemple 2: prediction de faillite

Les rapports suivants ont été observés sur 46 entreprises :

•  X1 = Flux de trésorerie (Cash Flow) / Dette totale•  X2 = Revenu net /Total de l'actif•  X3 = Actif à court terme / Passif à court terme•  X4 = Actif à court terme / Ventes nettes

Deux ans plus tard, 21 entreprises ont fait faillite et 25 ont conservé leur bonne santé financière:

•  Y = Oui en cas de faillite, Non si non

Giorgio Russolillo – Régression Logistique 34

Page 35: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Evaluation de la significativité des coefficients

Giorgio Russolillo – Régression Logistique 35

X1 X2 X3 X4

X1 = Cash Flow /Total Debt (Flux de trésorerie / Dette totale)X2 = Net Income / Total assets (Revenu net /Total de l'actif)X3 = Current assets / Current Liabilities (Actif à court terme / Passif à court terme)X4 = Current assets / Net Sales (Actif à court terme / Ventes nettes)

Page 36: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Correlations

Giorgio Russolillo – Régression Logistique 36

X2

X1

X3

X4

Page 37: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

ACP des entreprises

Giorgio Russolillo – Régression Logistique 37

Page 38: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

ACP des entreprises (sans x4)

Giorgio Russolillo – Régression Logistique 38

Page 39: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Procedure de selection pas à pas : Backward stepwise

•  Nous partons du modèle complet.

•  A chaque étape, on enlève la variable avec la plus petite valeur statistique pour une statistique (ici AIC)

Giorgio Russolillo – Régression Logistique 39

Page 40: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Régression pas à pas: modéle final

Giorgio Russolillo – Régression Logistique 40

Page 41: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Carte des entreprises dans le plan(X1, X3)

Giorgio Russolillo – Régression Logistique 41

cash flow / total debt

.6.4.2-.0-.2-.4-.6

curr

ent a

sset

s / c

urre

nt li

abilit

ies

6

5

4

3

2

1

0

FAILLITE

F

NF

46

45

44

43

42

41

40

39

38

3736

35

34

33

32

31

30

29

28

2726

25

24

23

22

2120

19

1817

1615

14

13

12

11

10 987

6

54

3

2

1 FailliteF

NF

Act

if à

cour

t ter

me

/ Pas

sif à

cou

rt te

rme

Flux de trésorerie (Cash Flow) / Dette totale

Page 42: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

cash flow / total debt

.6.4.2-.0-.2-.4-.6

curr

ent a

sset

s / c

urre

nt li

abilit

ies

6

5

4

3

2

1

0

46

42

3922

41

44

24

16

2627

38

30

4325

31

45373632

15

34

35

20

28

23

912

3

187

19

1329

8417

33

510

6

11

1421

40

1

2

Carte des entreprises dans le plan(X1, X3) avec la fonction discriminante de la régr. logistique

Giorgio Russolillo – Régression Logistique 42

Prob(Y = Yes | X) = e5.940−6.556×X1−3.019×X3

1+ e5.940−6.556×X1−3.019×X3= 0.5 ⇒ e5.940−6.556×X1−3.019×X3 = 1

⇒ 5.940 − 6.556 × X1 − 3.019 × X3 = 0 ⇒ X3 =5.940 − 6.556 × X1

3.019

Curre

nt A

sset

s / C

urre

nt L

iabi

litie

s A

ctif

à co

urt t

erm

e / P

assif

à c

ourt

term

e

Flux de trésorerie (Cash Flow) / Dette totale

NB : Linéaire!

Page 43: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Régression Logistique vs AD de Fisher

Giorgio Russolillo – Régression Logistique 43

•  Les deux sont des classificateurs linéaires•  Apprentissage génératif (estimation de P (X | Y = k)) vs discriminant

(estimation de (P (Y | x = xi))•  L’AD est plus affectée par les valeurs (très) aberrantes•  Si les données d'un modèle de régression logistique à deux classes peuvent

être parfaitement séparées par un hyperplan, les estimations des paramètres issues du maximum de vraisemblance ne sont pas définies.

•  Le modéle de l’AD suppose que les observations sont tirées d'une distribution gaussienne avec une matrice de covariance commune dans chaque classe. Lorsque cette hypothèse est approximativement vérifiée l’AD marche mieux de la régression logistique. Inversement, la régression logistique peut surperformer l’AD si ces hypothèses ne sont pas satisfaites.

•  Dans les deux cas, en pratique on ne observe pas des différences importantes: Résultats très similaires surtout si la taille de l'échantillon est grand

Page 44: Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

44Giorgio Russolillo – Régression Logistique

This presentation is made available through a Creative Commons Attribution-Noncommercial license. Details of the license and permitted uses are available at

http://creativecommons.org/licenses/by-nc/3.0/

© 2018 G. Russolillo – Régression Logistique Title: Régression logistique – STA201 Attribution: . G. Russolillo, CNAM