modèle de régression linéaire: cas bivarié...– corrélation de rang (tau de kendall,...

Post on 12-Jul-2020

5 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

U. Paris Nanterre,

M1 - Cours de Modélisation Appliquée

Modèle de régression linéaire:

cas bivarié

Laurent Ferrara

Février 2018

Paris Nanterre L. Ferrara, 2017-18

Soit 2 variables continues X et Y. On observe les unités

expérimentales : (xi , yi), pour i = 1, …, n.

• 1. Existe-t-il un lien entre X et Y?

• 2. Comment le mesurer ?

• 3. Comment modéliser ce lien?

• 4. Comment estimer les paramètres de ce modèle?

• 5. Comment valider ce modèle ?

• 6. Comment tirer partie de ce modèle pour prévoir les

valeurs d’une variable d’après les valeurs de l’autre?

Paris Nanterre L. Ferrara, 2017-18

Exemple : données USA 1992 sur 50 états (state.x77)

Existe-t-il un lien entre :

les revenus d’un état et le nombre de ses « high-school graduates »?

Inc

Gra

3000 3500 4000 4500 5000 5500 6000

4045

5055

6065

Paris Nanterre L. Ferrara, 2017-18

Causalité?

Existe-t-il un lien entre :

Le nombre de meurtres et l ’espérance de vie?

Murder

Life E

xp

2 4 6 8 10 12 14

68

69

70

71

72

73

Paris Nanterre L. Ferrara, 2017-18

Existe-t-il un lien entre :

L’arrivée de migrants et le vote aux élections US ?

Paris Nanterre L. Ferrara, 2017-18

Quel type de lien?

• Mise en évidence un lien linéaire entre les 2 variables:

– Y est considérée comme la variable à expliquer, ou dépendante, ou

endogène

– X est considérée comme la variable explicative, ou indépendante, ou

exogène

• Relation statistique entre les 2 variables (non-déterministe) :

la connaissance de X n’implique pas la connaissance parfaite

de Y : il existe une erreur aléatoire autour de la valeur

prédite

Paris Nanterre L. Ferrara, 2017-18

Comment mesurer un lien linéaire?

• Outil principal : Coefficient de corrélation linéaire

Estimateur empirique :

n

i

i

n

i

i

n

i

ii

YyXx

YyXx

YX

1

2

1

2

1

)()(

))((

),(

)()(

),(),(

YVXV

YXCovYXc

Paris Nanterre L. Ferrara, 2017-18

Comment mesurer un lien linéaire?

• Signification :

• Test de Student

– H0 :

– H1 :

baXYqtbaYXc :..,1),(

?1),( YXc

0),( YX

0),( YX

Paris Nanterre L. Ferrara, 2017-18

Comment mesurer un lien linéaire?

• Sous l’hypothèse nulle H0 :

suit une loi de Student à (n-2) dl

Donc, si

est tq :

< T* <

Alors on accepte H0 au risque

2)),(1(

),(

2 nYX

YX

2/1

2

nt

2)),(1(

),(*

2

nYX

YXT

Paris Nanterre L. Ferrara, 2017-18

2/

2

nt

Paris Nanterre L. Ferrara, 2017-18

Exemple :

Evolution des taux souverains à 10 ans pour US et Royaume Uni

Coefficient de corrélation de 0,92

Question économique:

quel est le degré d’indépendance des politiques monétaires ?

Lien avec le triangle d’incompatibilité de Mundell en macro inter

Paris Nanterre L. Ferrara, 2017-18

Exemple :

Corrélation des taux souverains pour US et Royaume Uni

pour différentes maturités sous forme de heat map

Attention au piège : dépendance non linéaire

le coeff de corrélation ne mesure que la dépendance linéaire.

• Effectuer une analyse graphique au préalable pour identifier

la forme de la dépendance.

• Un coeff de corrélation élevé ne signifie pas forcément une

dépendance linéaire.

> cor(x, y)

[1] 0.99

> cor(x, y2)

[1] 0.246

> cor(x, y3)

[1] 0.854

> cor(x, yexp)

[1] 0.898

Paris Nanterre L. Ferrara, 2017-18

x

y

-1 0 1

-10

1

x

y2

-1 0 1

01

23

x

y3

-1 0 1

-4-2

02

46

x

ye

xp

-1 0 1

01

23

45

6

Paris Nanterre L. Ferrara, 2017-18

Attention au piège : Corrélation fallacieuse

Existence d’un coeff de corrélation non nul entre deux

variables qu’aucune théorie économique, physique … ne

relie.

2 cas :

– résultat purement aléatoire

– existence d’un troisième variable qui explique conjointement les 2

phénomènes (en général : le temps)

Exemple de Krugman :

lien désindustrialisation - délocalisation aux USA (Application à la France)

Paris Nanterre L. Ferrara, 2017-18

empindus

4000,0

4100,0

4200,0

4300,0

4400,0

4500,0

4600,0

4700,0

mar

s-91

juil-

91

nov-

91

mar

s-92

juil-

92

nov-

92

mar

s-93

juil-

93

nov-

93

mar

s-94

juil-

94

nov-

94

mar

s-95

juil-

95

nov-

95

mar

s-96

juil-

96

nov-

96

mar

s-97

juil-

97

nov-

97

mar

s-98

juil-

98

nov-

98

mar

s-99

juil-

99

nov-

99

mar

s-00

juil-

00

nov-

00

mar

s-01

juil-

01

nov-

01

mar

s-02

juil-

02

nov-

02

mar

s-03

Evolution de l’emploi industriel France (Trimestriel 1991-2003)

Paris Nanterre L. Ferrara, 2017-18

Imports

0,70

0,90

1,10

1,30

1,50

1,70

1,90

2,10

mar

s-91

juil-

91

nov-

91

mar

s-92

juil-

92

nov-

92

mar

s-93

juil-

93

nov-

93

mar

s-94

juil-

94

nov-

94

mar

s-95

juil-

95

nov-

95

mar

s-96

juil-

96

nov-

96

mar

s-97

juil-

97

nov-

97

mar

s-98

juil-

98

nov-

98

mar

s-99

juil-

99

nov-

99

mar

s-00

juil-

00

nov-

00

mar

s-01

juil-

01

nov-

01

mar

s-02

juil-

02

nov-

02

mar

s-03

Evolution des importations de biens en volume France 1991-2003

Paris Nanterre L. Ferrara, 2017-18

Corrélation = - 0,50, t de Student = 3,99

Conclusion statistique : on rejette l’hypothèse H0 de nullité de

la corrélation linéaire entre les 2 variables

Conclusion économique rapide : les pays à faibles coûts

salariaux détruisent les emplois dans l ’industrie Française

Hypothèse alternative : les destructions d’emplois industriels

peuvent être causées en partie par la baisse des dépenses (en

valeur) des ménages en produits manufacturés, liée à la forte

hausse de la productivité dans l’industrie par comparaison

avec celle dans les services

Paris Nanterre L. Ferrara, 2017-18

On remarque également que les coefficients de corrélation

entre chacune des variables et le temps sont de :

-0,75 pour l’emploi industriel

0,94 pour les imports

Nécessité de développer des modèles structurels pour identifier

les facteurs explicatifs

Exercice :

Proposer des exemples de corrélation fallacieuse

Paris Nanterre L. Ferrara, 2017-18

Attention au piège :

Un coeff de corrélation nul ne signifie pas que les variables

sont indépendantes (sauf dans le cas Gaussien)

En particulier, il peut exister une relation sur les moments

d’ordre supérieur du modèle

Exemple : lien linéaire entre les variances de X et Y

(cas des processus ARCH en séries chronologiques)

Paris Nanterre L. Ferrara, 2017-18

Autres outils de mesure de dépendance:

– Concordance

– Corrélation de rang (Tau de Kendall, coefficient de Spearman)

– Corrélation conditionnelle

– …

– L’expression générale de la dépendance ne peut se faire que par la

loi jointe.

Si celle-ci n’est pas calculable: concept de copules

Paris Nanterre L. Ferrara, 2017-18

Comment modéliser un lien linéaire?

• Quel est le « meilleur » ajustement linéaire entre 2 v.a. ?

• Exemple : taux longs souverains / dette publique brute

Paris Nanterre L. Ferrara, 2017-18

Notation

iy est la ième observation de la variable exogène

ix est la ième observation de la variable endogène

iy Est la valeur ajustée (estimée) de la ième observation

Equation de la meilleure

droite d’ajustement: ii xbby 10ˆ

Paris Nanterre L. Ferrara, 2017-18

Erreur de prévision

(ou erreur résiduelle)

En utilisant iy pour prédire ,

iy

on fait une erreur de prévision:

iii yye ˆ

La droite d’ajustement qui colle le mieux aux

données est celle pour laquelle les n erreurs de

prévisions sont les plus petites possibles au sens

d’un certain critère. Paris Nanterre L. Ferrara, 2017-18

Critère des “Moindres Carrés”

Choisir les valeurs b0 et b1 qui minimise la somme

des carrés des erreurs.

Equation de la droite : ii xbby 10ˆ

i.e. : minimiser:

2

1

ˆ

n

i

ii yyQParis Nanterre L. Ferrara, 2017-18

La droite de régression

Par le calcul, minimiser (dériver, annuler et résoudre

pour b0 et b1):

2

1

10

n

i

ii xbbyQ

et obtenir les estimateurs des moindres carrés

ordinaires (MCO) de b0 et b1:

n

i

i

n

i

ii

xx

yyxx

b

1

2

11ˆ xbyb 10

ˆˆ

Paris Nanterre L. Ferrara, 2017-18

Remarques

En termes géométriques

• la droite de régression est celle qui minimise la distance

quadratique entre les points et les projections orthogonales

de ces points sur cette droite.

• la droite de régression est celle qui maximise la variance du

nuage de points projetés orthogonalement sur cette droite.

Paris Nanterre L. Ferrara, 2017-18

Formalisation

Hypothèses du modèle linéaire :

• H1 : E(Yi) fonction linéaire des xi (déterministes)

yi = b0 + b1 xi + i , pour i=1,…,n

• H2 : Les erreurs, i, sont indépendantes entre elles

• H3 : E(i) = 0, les erreurs sont d’espérance nulle

(en moyenne le modèle est bien spécifié)

Paris Nanterre L. Ferrara, 2017-18

• H4 : E(2i) = 2 , les erreurs sont de variance égale

pour toute valeur de X

(hypothèse d ’homoscédasticité)

• H5 : E(Xi i) = 0 , les erreurs,sont indépendantes des valeurs de X

• H6 : Hypothèse de Normalité

Les erreurs, i, sont identiquement distribuées selon la loi Normale.

Paris Nanterre L. Ferrara, 2017-18

Estimation des paramètres

Quels paramètres ? b0 , b1 , 2

estimés par MCO

estimée par l’erreur quadratique moyenne ou Mean Squared Error (MSE)

2

10ˆ,ˆ,ˆ bb

10ˆ,ˆ bb

2

Paris Nanterre L. Ferrara, 2017-18

La MSE est définie par :

On pondère par le nombre de degrés de liberté du modèle

défini par :

degrés de liberté = nbre d’observations - nbre de paramètres

2

ˆ

ˆ 1

2

2

n

YY

MSE

n

i

ii

Paris Nanterre L. Ferrara, 2017-18

Loi asymptotique des paramètres

Les estimateurs MCO sont sans biais et convergents

• On montre que :

• On montre que :

Donc

00 )ˆ( bbE 11)ˆ( bbE

n

i

i Xx

bV

1

2

2

1

)(

ˆ)ˆ(

nsibV 0)ˆ( 1

Paris Nanterre L. Ferrara, 2017-18

Loi asymptotique des paramètres

• De même,

n

i

i Xx

X

nbV

1

2

22

0

)(

1ˆ)ˆ(

nsibV 0)ˆ( 0

Paris Nanterre L. Ferrara, 2017-18

Remarques

• Dans ce cadre, sous l ’hypothèse de normalité des erreurs,

estimateur MCO = estimateur EMV

• La variance estimée par le modèle est différente de la

variance empirique (valable pour tout échantillon qui suit le

modèle linéaire)

• La variance résiduelle mesure avec quelle amplitude les

valeurs de Y s ’écartent de la droite de régression.

– C ’est une mesure de la précision du modèle

– C ’est une mesure du risque associé au modèle

Paris Nanterre L. Ferrara, 2017-18

Exemple : 2 précisions différentes

Paris Nanterre L. Ferrara, 2017-18

Remarques

• Quel est le but du jeu de toute tentative de modélisation

d’une variable Y ?

Minimiser la variance résiduelle

Y = partie déterministe + partie aléatoire

Y = f(X) +

Par indépendance, V(Y) = V(f(X)) + V()

(Voir partie « Analyse de la Variance »)

Paris Nanterre L. Ferrara, 2017-18

Validation du modèle

On valide le modèle à l’aide des tests statistiques.

2 types de tests d’hypothèses sont développés :

1) Tests sur les paramètres du modèle

2) Tests sur les résidus du modèle

Paris Nanterre L. Ferrara, 2017-18

(1-) IC pour la pente

Formule en mots:

Paramètre estimé ± (t-multiplier × standard error)

Formule en notations:

22,

211

ˆˆ

Xx

tb

i

n

1b

Paris Nanterre L. Ferrara, 2017-18

Test sur la pente

Null hypothesis H0: 1 = (en général =0)

Alternative hypothesis H1: 1 ≠ (en général 0)

1

1

2

1*bse

b

xx

MSE

bt

i

Test statistic

P-value = Risque maximum d’accepter H1 à tort (à

comparer avec le risque de première espèce )

La P-value est déterminée par référence à une t-

distribution avec n-2 degrés de liberté

1b

Paris Nanterre L. Ferrara, 2017-18

Formule en notations:

Formule en mots:

Paramètre estimé ± (t-multiplier × standard error)

2

2

2,2

10

1ˆˆ

Xx

x

ntb

i

n

0b(1-) IC pour la constante

Paris Nanterre L. Ferrara, 2017-18

Null hypothesis H0: 0 = (en général = 0)

Alternative hypothesis HA: 0 ≠ (en général 0)

P-value = Risque maximum d’accepter H1 à tort

(à comparer avec le risque de première espèce )

La P-value est déterminée par référence à une t-

distribution avec n-2 degrés de liberté.

0

0

2

2

0

1

*bse

b

xx

x

nMSE

bt

i

Test statistic

Test sur la constante 0b

Paris Nanterre L. Ferrara, 2017-18

Test sur le terme d’erreur

Les intervalles et les tests précédents sont basés

sur la Normalité du terme d’erreur. Il importe

donc de tester les résidus.

– Test d’adéquation (Jarque-Bera, KS, …)

– Test graphiques (QQ-Plot)

Les résultats restent valides en cas d’écart à la loi

Normale si l’échantillon est grand. (résultats

asymptotiques) Paris Nanterre L. Ferrara, 2017-18

Mesure de la qualité du modèle

On mesure la qualité du modèle par l’analyse de la variance

On montre les 2 relations suivantes :

• la somme des résidus est nulle, i.e. :

• la moyenne de la variable et la moyenne de la variable estimée sont égales, i.e. :

n

i

ie1

0

n

i

n

i

ii yy1 1

ˆ

Paris Nanterre L. Ferrara, 2017-18

i

i

i

i

i

i eyyyy 222)ˆˆ()(

On en déduit l’équation de l’analyse de la variance: Variance totale = Variance expliquée + Variance résiduelle Objectif : Maximiser la variance expliquée

Paris Nanterre L. Ferrara, 2017-18

• R2 : mesure de la variance expliquée

valeur entre 0 et 1

• Critères d’information : Akaike (1971)

n

i

i YY

R

1

2

22

)(

ˆ1

Paris Nanterre L. Ferrara, 2017-18

Prévision

Que veut-on prévoir?

• La réponse «moyenne» de la population = E(Yh) pour une valeur xh

– Ex : Quel est le poids moyen pour une taille donnée?

(Plus précis que le poids moyen de l’échantillon)

• La réponse Yh(new) à une nouvelle valeur donnée xh

– Ex : Quel est le poids estimé par le modèle d’un nouvel individu choisi au hasard de taille donnée?

Paris Nanterre L. Ferrara, 2017-18

est le meilleur estimateur dans chaque cas. hh xbbY 10

ˆ

En fait les 2 prévisions sont égales :

Seuls les intervalles de confiance autour des réponses vont varier

Paris Nanterre L. Ferrara, 2017-18

Intervalle de confiance pour la

réponse moyenne de la population

E(Yh)

Paris Nanterre L. Ferrara, 2017-18

Formule en notation:

Formule en mots:

Sample estimate ± (t-multiplier × standard error)

2

2

2

2,2

1

1ˆˆ

Xx

Xx

nty

i

h

nh

(1-) IC pour la réponse moyenne

E(Yh)

Paris Nanterre L. Ferrara, 2017-18

Implications sur la précision

• Au plus les valeurs des xi sont étalées, au plus

l’intervalle de confiance est petit,

donc l’estimation de E(Yh) est plus précise.

• Suivant le même échantillon de xi, au plus la

valeur de xh est loin de la moyenne empirique, au

plus l’intervalle de confiance est grand,

donc l’estimation de E(Yh) est moins précise.

Paris Nanterre L. Ferrara, 2017-18

Remarques

• xh est une valeur correspondant au champ de l’étude

mais pas nécessairement une valeur de l’échantillon

• L’IC pour E(Yh) est correct même si le terme

d’erreur est seulement approché par une loi Normale

• Si le nombre d’observations est grand, l’IC pour

E(Yh) est correct même si le terme d’erreur s’écarte

fortement d’une loi Normale

Paris Nanterre L. Ferrara, 2017-18

Intervalle de Prévision pour la

réponse Yh(new) à une nouvelle

valeur xh(new)

Paris Nanterre L. Ferrara, 2017-18

Prévision de Yh(new)

si la moyenne E(Y) n’est pas connue

ie : si les paramètres sont estimés

on rajoute une incertitude sur la moyenne

de Y

Paris Nanterre L. Ferrara, 2017-18

La prévision est non biaisée

hh xbbY 10

ˆˆˆ

hh

hhh

hhh

xbbbb

xbbxbb

YYe

)ˆ()ˆ(

)ˆˆ(

ˆ

1100

1010

Propriété:

0)( heE

Paris Nanterre L. Ferrara, 2017-18

Variance de la prévision

n

i

i

h

n

i

i

h

xx

xx

nxx

xx

n

1

2

2

2

1

2

2

22 11ˆ

1ˆˆ

Estimation:

Elle dépend de 2 composantes :

1. Variance due à l’estimation de E(Yh) par

2. Variance de Y inhérente à sa distribution

hy

Paris Nanterre L. Ferrara, 2017-18

Sample prediction ± (t-multiplier × standard error)

2

2

2

2,2

1

11ˆˆ

xx

xx

nty

i

h

nh

(1-) IC pour la réponse Yh

Paris Nanterre L. Ferrara, 2017-18

504030

250

150

50

Latitude

Mo

rtalit

yS = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 %

Mortality = 389.189 - 5.97764 Latitude

95% PI

95% CI

Regression

Regression Plot

Paris Nanterre L. Ferrara, 2017-18

top related