modèle de régression linéaire: cas bivarié...– corrélation de rang (tau de kendall,...

56
U. Paris Nanterre, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2018 Paris Nanterre L. Ferrara, 2017-18

Upload: others

Post on 12-Jul-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

U. Paris Nanterre,

M1 - Cours de Modélisation Appliquée

Modèle de régression linéaire:

cas bivarié

Laurent Ferrara

Février 2018

Paris Nanterre L. Ferrara, 2017-18

Page 2: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Soit 2 variables continues X et Y. On observe les unités

expérimentales : (xi , yi), pour i = 1, …, n.

• 1. Existe-t-il un lien entre X et Y?

• 2. Comment le mesurer ?

• 3. Comment modéliser ce lien?

• 4. Comment estimer les paramètres de ce modèle?

• 5. Comment valider ce modèle ?

• 6. Comment tirer partie de ce modèle pour prévoir les

valeurs d’une variable d’après les valeurs de l’autre?

Paris Nanterre L. Ferrara, 2017-18

Page 3: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Exemple : données USA 1992 sur 50 états (state.x77)

Existe-t-il un lien entre :

les revenus d’un état et le nombre de ses « high-school graduates »?

Inc

Gra

3000 3500 4000 4500 5000 5500 6000

4045

5055

6065

Paris Nanterre L. Ferrara, 2017-18

Page 4: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Causalité?

Existe-t-il un lien entre :

Le nombre de meurtres et l ’espérance de vie?

Murder

Life E

xp

2 4 6 8 10 12 14

68

69

70

71

72

73

Paris Nanterre L. Ferrara, 2017-18

Page 5: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Existe-t-il un lien entre :

L’arrivée de migrants et le vote aux élections US ?

Paris Nanterre L. Ferrara, 2017-18

Page 6: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Quel type de lien?

• Mise en évidence un lien linéaire entre les 2 variables:

– Y est considérée comme la variable à expliquer, ou dépendante, ou

endogène

– X est considérée comme la variable explicative, ou indépendante, ou

exogène

• Relation statistique entre les 2 variables (non-déterministe) :

la connaissance de X n’implique pas la connaissance parfaite

de Y : il existe une erreur aléatoire autour de la valeur

prédite

Paris Nanterre L. Ferrara, 2017-18

Page 7: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Comment mesurer un lien linéaire?

• Outil principal : Coefficient de corrélation linéaire

Estimateur empirique :

n

i

i

n

i

i

n

i

ii

YyXx

YyXx

YX

1

2

1

2

1

)()(

))((

),(

)()(

),(),(

YVXV

YXCovYXc

Paris Nanterre L. Ferrara, 2017-18

Page 8: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Comment mesurer un lien linéaire?

• Signification :

• Test de Student

– H0 :

– H1 :

baXYqtbaYXc :..,1),(

?1),( YXc

0),( YX

0),( YX

Paris Nanterre L. Ferrara, 2017-18

Page 9: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Comment mesurer un lien linéaire?

• Sous l’hypothèse nulle H0 :

suit une loi de Student à (n-2) dl

Donc, si

est tq :

< T* <

Alors on accepte H0 au risque

2)),(1(

),(

2 nYX

YX

2/1

2

nt

2)),(1(

),(*

2

nYX

YXT

Paris Nanterre L. Ferrara, 2017-18

2/

2

nt

Page 10: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Paris Nanterre L. Ferrara, 2017-18

Exemple :

Evolution des taux souverains à 10 ans pour US et Royaume Uni

Coefficient de corrélation de 0,92

Question économique:

quel est le degré d’indépendance des politiques monétaires ?

Lien avec le triangle d’incompatibilité de Mundell en macro inter

Page 11: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Paris Nanterre L. Ferrara, 2017-18

Exemple :

Corrélation des taux souverains pour US et Royaume Uni

pour différentes maturités sous forme de heat map

Page 12: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Attention au piège : dépendance non linéaire

le coeff de corrélation ne mesure que la dépendance linéaire.

• Effectuer une analyse graphique au préalable pour identifier

la forme de la dépendance.

• Un coeff de corrélation élevé ne signifie pas forcément une

dépendance linéaire.

> cor(x, y)

[1] 0.99

> cor(x, y2)

[1] 0.246

> cor(x, y3)

[1] 0.854

> cor(x, yexp)

[1] 0.898

Paris Nanterre L. Ferrara, 2017-18

Page 13: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

x

y

-1 0 1

-10

1

x

y2

-1 0 1

01

23

x

y3

-1 0 1

-4-2

02

46

x

ye

xp

-1 0 1

01

23

45

6

Paris Nanterre L. Ferrara, 2017-18

Page 14: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Attention au piège : Corrélation fallacieuse

Existence d’un coeff de corrélation non nul entre deux

variables qu’aucune théorie économique, physique … ne

relie.

2 cas :

– résultat purement aléatoire

– existence d’un troisième variable qui explique conjointement les 2

phénomènes (en général : le temps)

Exemple de Krugman :

lien désindustrialisation - délocalisation aux USA (Application à la France)

Paris Nanterre L. Ferrara, 2017-18

Page 15: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

empindus

4000,0

4100,0

4200,0

4300,0

4400,0

4500,0

4600,0

4700,0

mar

s-91

juil-

91

nov-

91

mar

s-92

juil-

92

nov-

92

mar

s-93

juil-

93

nov-

93

mar

s-94

juil-

94

nov-

94

mar

s-95

juil-

95

nov-

95

mar

s-96

juil-

96

nov-

96

mar

s-97

juil-

97

nov-

97

mar

s-98

juil-

98

nov-

98

mar

s-99

juil-

99

nov-

99

mar

s-00

juil-

00

nov-

00

mar

s-01

juil-

01

nov-

01

mar

s-02

juil-

02

nov-

02

mar

s-03

Evolution de l’emploi industriel France (Trimestriel 1991-2003)

Paris Nanterre L. Ferrara, 2017-18

Page 16: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Imports

0,70

0,90

1,10

1,30

1,50

1,70

1,90

2,10

mar

s-91

juil-

91

nov-

91

mar

s-92

juil-

92

nov-

92

mar

s-93

juil-

93

nov-

93

mar

s-94

juil-

94

nov-

94

mar

s-95

juil-

95

nov-

95

mar

s-96

juil-

96

nov-

96

mar

s-97

juil-

97

nov-

97

mar

s-98

juil-

98

nov-

98

mar

s-99

juil-

99

nov-

99

mar

s-00

juil-

00

nov-

00

mar

s-01

juil-

01

nov-

01

mar

s-02

juil-

02

nov-

02

mar

s-03

Evolution des importations de biens en volume France 1991-2003

Paris Nanterre L. Ferrara, 2017-18

Page 17: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Corrélation = - 0,50, t de Student = 3,99

Conclusion statistique : on rejette l’hypothèse H0 de nullité de

la corrélation linéaire entre les 2 variables

Conclusion économique rapide : les pays à faibles coûts

salariaux détruisent les emplois dans l ’industrie Française

Hypothèse alternative : les destructions d’emplois industriels

peuvent être causées en partie par la baisse des dépenses (en

valeur) des ménages en produits manufacturés, liée à la forte

hausse de la productivité dans l’industrie par comparaison

avec celle dans les services

Paris Nanterre L. Ferrara, 2017-18

Page 18: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

On remarque également que les coefficients de corrélation

entre chacune des variables et le temps sont de :

-0,75 pour l’emploi industriel

0,94 pour les imports

Nécessité de développer des modèles structurels pour identifier

les facteurs explicatifs

Exercice :

Proposer des exemples de corrélation fallacieuse

Paris Nanterre L. Ferrara, 2017-18

Page 19: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Attention au piège :

Un coeff de corrélation nul ne signifie pas que les variables

sont indépendantes (sauf dans le cas Gaussien)

En particulier, il peut exister une relation sur les moments

d’ordre supérieur du modèle

Exemple : lien linéaire entre les variances de X et Y

(cas des processus ARCH en séries chronologiques)

Paris Nanterre L. Ferrara, 2017-18

Page 20: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Autres outils de mesure de dépendance:

– Concordance

– Corrélation de rang (Tau de Kendall, coefficient de Spearman)

– Corrélation conditionnelle

– …

– L’expression générale de la dépendance ne peut se faire que par la

loi jointe.

Si celle-ci n’est pas calculable: concept de copules

Paris Nanterre L. Ferrara, 2017-18

Page 21: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Comment modéliser un lien linéaire?

• Quel est le « meilleur » ajustement linéaire entre 2 v.a. ?

• Exemple : taux longs souverains / dette publique brute

Paris Nanterre L. Ferrara, 2017-18

Page 22: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Notation

iy est la ième observation de la variable exogène

ix est la ième observation de la variable endogène

iy Est la valeur ajustée (estimée) de la ième observation

Equation de la meilleure

droite d’ajustement: ii xbby 10ˆ

Paris Nanterre L. Ferrara, 2017-18

Page 23: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Erreur de prévision

(ou erreur résiduelle)

En utilisant iy pour prédire ,

iy

on fait une erreur de prévision:

iii yye ˆ

La droite d’ajustement qui colle le mieux aux

données est celle pour laquelle les n erreurs de

prévisions sont les plus petites possibles au sens

d’un certain critère. Paris Nanterre L. Ferrara, 2017-18

Page 24: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Critère des “Moindres Carrés”

Choisir les valeurs b0 et b1 qui minimise la somme

des carrés des erreurs.

Equation de la droite : ii xbby 10ˆ

i.e. : minimiser:

2

1

ˆ

n

i

ii yyQParis Nanterre L. Ferrara, 2017-18

Page 25: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

La droite de régression

Par le calcul, minimiser (dériver, annuler et résoudre

pour b0 et b1):

2

1

10

n

i

ii xbbyQ

et obtenir les estimateurs des moindres carrés

ordinaires (MCO) de b0 et b1:

n

i

i

n

i

ii

xx

yyxx

b

1

2

11ˆ xbyb 10

ˆˆ

Paris Nanterre L. Ferrara, 2017-18

Page 26: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Remarques

En termes géométriques

• la droite de régression est celle qui minimise la distance

quadratique entre les points et les projections orthogonales

de ces points sur cette droite.

• la droite de régression est celle qui maximise la variance du

nuage de points projetés orthogonalement sur cette droite.

Paris Nanterre L. Ferrara, 2017-18

Page 27: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Formalisation

Hypothèses du modèle linéaire :

• H1 : E(Yi) fonction linéaire des xi (déterministes)

yi = b0 + b1 xi + i , pour i=1,…,n

• H2 : Les erreurs, i, sont indépendantes entre elles

• H3 : E(i) = 0, les erreurs sont d’espérance nulle

(en moyenne le modèle est bien spécifié)

Paris Nanterre L. Ferrara, 2017-18

Page 28: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

• H4 : E(2i) = 2 , les erreurs sont de variance égale

pour toute valeur de X

(hypothèse d ’homoscédasticité)

• H5 : E(Xi i) = 0 , les erreurs,sont indépendantes des valeurs de X

• H6 : Hypothèse de Normalité

Les erreurs, i, sont identiquement distribuées selon la loi Normale.

Paris Nanterre L. Ferrara, 2017-18

Page 29: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Estimation des paramètres

Quels paramètres ? b0 , b1 , 2

estimés par MCO

estimée par l’erreur quadratique moyenne ou Mean Squared Error (MSE)

2

10ˆ,ˆ,ˆ bb

10ˆ,ˆ bb

2

Paris Nanterre L. Ferrara, 2017-18

Page 30: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

La MSE est définie par :

On pondère par le nombre de degrés de liberté du modèle

défini par :

degrés de liberté = nbre d’observations - nbre de paramètres

2

ˆ

ˆ 1

2

2

n

YY

MSE

n

i

ii

Paris Nanterre L. Ferrara, 2017-18

Page 31: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Loi asymptotique des paramètres

Les estimateurs MCO sont sans biais et convergents

• On montre que :

• On montre que :

Donc

00 )ˆ( bbE 11)ˆ( bbE

n

i

i Xx

bV

1

2

2

1

)(

ˆ)ˆ(

nsibV 0)ˆ( 1

Paris Nanterre L. Ferrara, 2017-18

Page 32: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Loi asymptotique des paramètres

• De même,

n

i

i Xx

X

nbV

1

2

22

0

)(

1ˆ)ˆ(

nsibV 0)ˆ( 0

Paris Nanterre L. Ferrara, 2017-18

Page 33: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Remarques

• Dans ce cadre, sous l ’hypothèse de normalité des erreurs,

estimateur MCO = estimateur EMV

• La variance estimée par le modèle est différente de la

variance empirique (valable pour tout échantillon qui suit le

modèle linéaire)

• La variance résiduelle mesure avec quelle amplitude les

valeurs de Y s ’écartent de la droite de régression.

– C ’est une mesure de la précision du modèle

– C ’est une mesure du risque associé au modèle

Paris Nanterre L. Ferrara, 2017-18

Page 34: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Exemple : 2 précisions différentes

Paris Nanterre L. Ferrara, 2017-18

Page 35: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Remarques

• Quel est le but du jeu de toute tentative de modélisation

d’une variable Y ?

Minimiser la variance résiduelle

Y = partie déterministe + partie aléatoire

Y = f(X) +

Par indépendance, V(Y) = V(f(X)) + V()

(Voir partie « Analyse de la Variance »)

Paris Nanterre L. Ferrara, 2017-18

Page 36: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Validation du modèle

On valide le modèle à l’aide des tests statistiques.

2 types de tests d’hypothèses sont développés :

1) Tests sur les paramètres du modèle

2) Tests sur les résidus du modèle

Paris Nanterre L. Ferrara, 2017-18

Page 37: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

(1-) IC pour la pente

Formule en mots:

Paramètre estimé ± (t-multiplier × standard error)

Formule en notations:

22,

211

ˆˆ

Xx

tb

i

n

1b

Paris Nanterre L. Ferrara, 2017-18

Page 38: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Test sur la pente

Null hypothesis H0: 1 = (en général =0)

Alternative hypothesis H1: 1 ≠ (en général 0)

1

1

2

1*bse

b

xx

MSE

bt

i

Test statistic

P-value = Risque maximum d’accepter H1 à tort (à

comparer avec le risque de première espèce )

La P-value est déterminée par référence à une t-

distribution avec n-2 degrés de liberté

1b

Paris Nanterre L. Ferrara, 2017-18

Page 39: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Formule en notations:

Formule en mots:

Paramètre estimé ± (t-multiplier × standard error)

2

2

2,2

10

1ˆˆ

Xx

x

ntb

i

n

0b(1-) IC pour la constante

Paris Nanterre L. Ferrara, 2017-18

Page 40: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Null hypothesis H0: 0 = (en général = 0)

Alternative hypothesis HA: 0 ≠ (en général 0)

P-value = Risque maximum d’accepter H1 à tort

(à comparer avec le risque de première espèce )

La P-value est déterminée par référence à une t-

distribution avec n-2 degrés de liberté.

0

0

2

2

0

1

*bse

b

xx

x

nMSE

bt

i

Test statistic

Test sur la constante 0b

Paris Nanterre L. Ferrara, 2017-18

Page 41: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Test sur le terme d’erreur

Les intervalles et les tests précédents sont basés

sur la Normalité du terme d’erreur. Il importe

donc de tester les résidus.

– Test d’adéquation (Jarque-Bera, KS, …)

– Test graphiques (QQ-Plot)

Les résultats restent valides en cas d’écart à la loi

Normale si l’échantillon est grand. (résultats

asymptotiques) Paris Nanterre L. Ferrara, 2017-18

Page 42: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Mesure de la qualité du modèle

On mesure la qualité du modèle par l’analyse de la variance

On montre les 2 relations suivantes :

• la somme des résidus est nulle, i.e. :

• la moyenne de la variable et la moyenne de la variable estimée sont égales, i.e. :

n

i

ie1

0

n

i

n

i

ii yy1 1

ˆ

Paris Nanterre L. Ferrara, 2017-18

Page 43: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

i

i

i

i

i

i eyyyy 222)ˆˆ()(

On en déduit l’équation de l’analyse de la variance: Variance totale = Variance expliquée + Variance résiduelle Objectif : Maximiser la variance expliquée

Paris Nanterre L. Ferrara, 2017-18

Page 44: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

• R2 : mesure de la variance expliquée

valeur entre 0 et 1

• Critères d’information : Akaike (1971)

n

i

i YY

R

1

2

22

)(

ˆ1

Paris Nanterre L. Ferrara, 2017-18

Page 45: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Prévision

Que veut-on prévoir?

• La réponse «moyenne» de la population = E(Yh) pour une valeur xh

– Ex : Quel est le poids moyen pour une taille donnée?

(Plus précis que le poids moyen de l’échantillon)

• La réponse Yh(new) à une nouvelle valeur donnée xh

– Ex : Quel est le poids estimé par le modèle d’un nouvel individu choisi au hasard de taille donnée?

Paris Nanterre L. Ferrara, 2017-18

Page 46: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

est le meilleur estimateur dans chaque cas. hh xbbY 10

ˆ

En fait les 2 prévisions sont égales :

Seuls les intervalles de confiance autour des réponses vont varier

Paris Nanterre L. Ferrara, 2017-18

Page 47: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Intervalle de confiance pour la

réponse moyenne de la population

E(Yh)

Paris Nanterre L. Ferrara, 2017-18

Page 48: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Formule en notation:

Formule en mots:

Sample estimate ± (t-multiplier × standard error)

2

2

2

2,2

1

1ˆˆ

Xx

Xx

nty

i

h

nh

(1-) IC pour la réponse moyenne

E(Yh)

Paris Nanterre L. Ferrara, 2017-18

Page 49: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Implications sur la précision

• Au plus les valeurs des xi sont étalées, au plus

l’intervalle de confiance est petit,

donc l’estimation de E(Yh) est plus précise.

• Suivant le même échantillon de xi, au plus la

valeur de xh est loin de la moyenne empirique, au

plus l’intervalle de confiance est grand,

donc l’estimation de E(Yh) est moins précise.

Paris Nanterre L. Ferrara, 2017-18

Page 50: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Remarques

• xh est une valeur correspondant au champ de l’étude

mais pas nécessairement une valeur de l’échantillon

• L’IC pour E(Yh) est correct même si le terme

d’erreur est seulement approché par une loi Normale

• Si le nombre d’observations est grand, l’IC pour

E(Yh) est correct même si le terme d’erreur s’écarte

fortement d’une loi Normale

Paris Nanterre L. Ferrara, 2017-18

Page 51: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Intervalle de Prévision pour la

réponse Yh(new) à une nouvelle

valeur xh(new)

Paris Nanterre L. Ferrara, 2017-18

Page 52: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Prévision de Yh(new)

si la moyenne E(Y) n’est pas connue

ie : si les paramètres sont estimés

on rajoute une incertitude sur la moyenne

de Y

Paris Nanterre L. Ferrara, 2017-18

Page 53: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

La prévision est non biaisée

hh xbbY 10

ˆˆˆ

hh

hhh

hhh

xbbbb

xbbxbb

YYe

)ˆ()ˆ(

)ˆˆ(

ˆ

1100

1010

Propriété:

0)( heE

Paris Nanterre L. Ferrara, 2017-18

Page 54: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Variance de la prévision

n

i

i

h

n

i

i

h

xx

xx

nxx

xx

n

1

2

2

2

1

2

2

22 11ˆ

1ˆˆ

Estimation:

Elle dépend de 2 composantes :

1. Variance due à l’estimation de E(Yh) par

2. Variance de Y inhérente à sa distribution

hy

Paris Nanterre L. Ferrara, 2017-18

Page 55: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

Sample prediction ± (t-multiplier × standard error)

2

2

2

2,2

1

11ˆˆ

xx

xx

nty

i

h

nh

(1-) IC pour la réponse Yh

Paris Nanterre L. Ferrara, 2017-18

Page 56: Modèle de régression linéaire: cas bivarié...– Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale

504030

250

150

50

Latitude

Mo

rtalit

yS = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 %

Mortality = 389.189 - 5.97764 Latitude

95% PI

95% CI

Regression

Regression Plot

Paris Nanterre L. Ferrara, 2017-18