Chapitre 7

 

Régression et prévision

1. Modèle de régression simple.

1.1 Modèle de régression.

                                                           Y = f(X) + e

Définitions :

·        La variable Y est appelée variable expliquée.

·        La variable X est appelée variable explicative.

·        La variable e est une variable aléatoire appelée variable résiduelle.

·        La variance notée se2 de la variable e est appelée variance résiduelle.

Deux hypothèses initiales :

·           La variable résiduelle ne dépend pas de X ;

·           la v.a. e suit la loi normale de moyenne nulle et de variance s2.

1.2 Objectifs de la régression.

·           préciser la nature de la régression (la fonction f) ;

·           mesurer le degré d’imprécision (la variance résiduelle) ;

·           détecter les observations qui ne suivent pas le modèle ;

·           effectuer des prévisions de Y pour différentes valeurs de X.

Données : suite de n couples [x(i), y(i)], numérotés de i = 1 à i = n

Notations : mx, sx², my, sy² moyennes et variances observées des x(i) et des y(i).

2. liaison linéaire.

2.1 Courbe de régression.

Les observations (yi)  (supposées nombreuses) sont réparties dans des groupes définis par la répartition des observations (xi) des intervalles Il, l = 1, …, k.

Définition : on appelle courbe de régression de Y par X la représentation graphique des couples (mxl, myl) où mxl et myl sont les moyennes des variables X et Y dans les groupes. Cette courbe est une approximation de la fonction f.

propriété fondamentale : la variance totale sY2 de de la variable Y est égale à la somme de la variance pondérée des moyennes sm2 et de la moyenne pondérée sr2 des variances syl 2 de la variable Y dans chaque groupe :

 

1

n

 

1

k

 

1

k

 

sY2 = (1/n)

____

S

(yi – my)2 =

____

S

nl (myl - my)2 +

____

S

nl syl 2

 

n

i = 1

 

n

l = 1

 

n

l = 1

 

 

sY2= sm2 + sr2

Définition : on appelle rapport de corrélation de Y par rapport à X le rapport h2 de la variance expliquée à la variance totale :

h2 = sm2 / sY2

 

Propriétés du rapport de corrélation :

·           h2est compris entre 0 et 1 ;

·           h2 proche de 1 : la valeur y ne varie pas beaucoup à l’intérieur de chaque classe  ;

·           h2 proche de 0 : les moyennes myl sont très proches les unes des autres (sm2 » 0).

2.1 Liaison linéaire et représentation graphique des couples :

Représentation graphique : cf. chapitre 3.

On suppose que la liaison est linéaire tant que la représentation graphique ne fait pas apparaître une autre relation :

f(x) = b x + a

b et a représentent des paramètres théoriques et inconnus de la régression.

3. Modèle linéaire.

Définition : on appelle droite de régression théorique la droite d’équation y = b x + a, et coefficients de régression théoriques les coefficients b et a.

3.1 Critère des moindres carrés

L’objectif est de déterminer les coefficients de la droite y = b x + a la plus proche possible des n points. Le critère utilisé est le critère des moindres carrés.

Remarque : la notation b et a est classique mais est l’inverse de celle qui est utilisée par de nombreuses calculatrices.

3.2 Estimation des coefficients de régression.

Théorème : les estimations b et a des coefficients de régression théoriques b et a sont données par les formules ci-dessous :

 

b = cov(x y) / sx2

a = my – b mx

 


Remarque : la droite de régression passe par le point moyen :

pour x = mx, on obtient y = my

4. Etude des résidus.

4.1 Résidus.

Définition : on appelle résidus les erreurs observées e(i) définies par :

e(i) = y(i) – [ b x(i) + a ]

Propriétés numériques :

·           Les résidus sont de moyenne nulle

·           le coefficient de corrélation entre les résidus et la série (xi) est nul

·           La variance s2 des résidus vérifie l’équation : s2 = (1 – r2 ) sy2

4.2 Propriétés statistiques des résidus.

·           Les résidus et la variable explicative doivent être indépendants : on contrôle cette propriété par la représentation des couples (xi, ei) i = 1, …, n.

·           La normalité de la variable résiduelle e est difficile à contrôler (test de normalité du c2 sur les résidus, histogramme, coefficients d’asymétrie et d’aplatissement).

5. Prévisions.

5.1 Estimation et intervalle de confiance de la variance résiduelle.

Définition : l’estimation « sans biais » de la variance résiduelle est égale à :

s’2 = n s2 / (n – 2)

Propriété : la variable X2 = n S2 / se2 suit la loi de probabilité du c2 de degré de liberté égal à n - 2, lorsque la variable résiduelle suit la loi normale. On peut en déduire l’intervalle de confiance de la variance résiduelle (cf. chap.6).

5.2 Test sur les coefficients de régression.

Définition : L’intervalle de confiance du coefficient de régression b au niveau de confiance (100-a)% est l’intervalle :

 

[ b – ta s’ / (n sx), b + ta s’ / (n sx) ]

 

dans lequel ta est choisi dans la table de Student en fonction du niveau de confiance 1 – a et du degré de liberté n = n – 2.

5.3 Prévision ponctuelle et par intervalle de confiance.

intervalle de confiance de la moyenne de Y pour x fixé :

[ b x + a - ta [vy ]1/2, b x + a + ta [vy ]1/2 ]

 

où ta est choisi dans la table de la loi de Student en fonction du niveau de confiance 1 - a et du degré de liberté n = n – 2 et vy est donné par la formule :

vY = s’2 [1/n + (x – mx)2 / (n sx2) ]

 

intervalle de confiance d’une valeur individuelle:

[ b x + a - ta [vy’]1/2, b x + a + ta [vy’]1/2 ]

 

où ta est choisi dans la table de la loi de Student en fonction du niveau de confiance 1 - a et du degré de liberté n = n – 2 et vy’ est égal à :

vY = s’2 [1/n + (x – mx)2 / (n sx2) ] + s’2