Régression et prévision
· La variable Y est appelée variable expliquée.
· La variable X est appelée variable explicative.
· La variable e est une variable aléatoire appelée variable résiduelle.
· La variance notée se2 de la variable e est appelée variance résiduelle.
Deux
hypothèses initiales :
· La variable résiduelle ne dépend pas de X ;
· la v.a. e suit la loi normale de moyenne nulle et de variance s2.
· préciser la nature de la régression (la fonction f) ;
· mesurer le degré d’imprécision (la variance résiduelle) ;
· détecter les observations qui ne suivent pas le modèle ;
· effectuer des prévisions de Y pour différentes valeurs de X.
Données : suite de n couples [x(i), y(i)], numérotés de i = 1 à i = n
Notations : mx, sx², my, sy² moyennes et variances observées des x(i) et des y(i).
Les observations (yi) (supposées nombreuses) sont réparties dans des groupes définis par la répartition des observations (xi) des intervalles Il, l = 1, …, k.
Définition : on appelle courbe de régression de Y par X la représentation graphique des couples (mxl, myl) où mxl et myl sont les moyennes des variables X et Y dans les groupes. Cette courbe est une approximation de la fonction f.
propriété fondamentale : la variance totale sY2 de de la variable Y est égale à la somme de la variance pondérée des moyennes sm2 et de la moyenne pondérée sr2 des variances syl 2 de la variable Y dans chaque groupe :
|
n |
|
1 |
k |
|
1 |
k |
|
|
sY2 = (1/n) |
____ |
S |
(yi – my)2 = |
____ |
S |
nl (myl - my)2
+ |
____ |
S |
nl syl 2 |
|
n |
i = 1 |
|
n |
l = 1 |
|
n |
l = 1 |
|
sY2= sm2
+ sr2 |
Définition : on appelle rapport de corrélation de Y par rapport à X le rapport h2 de la variance expliquée à la variance totale :
h2 = sm2 / sY2 |
Propriétés du rapport de
corrélation :
· h2est compris entre 0 et 1 ;
· h2 proche de 1 : la valeur y ne varie pas beaucoup à l’intérieur de chaque classe ;
· h2 proche de 0 : les moyennes myl sont très proches les unes des autres (sm2 » 0).
Représentation graphique : cf. chapitre 3.
On suppose que la liaison est linéaire tant que la représentation graphique ne fait pas apparaître une autre relation :
f(x) = b x + a
b et a représentent des paramètres théoriques et inconnus de la régression.
Définition : on appelle droite de régression théorique la droite d’équation y = b x + a, et coefficients de régression théoriques les coefficients b et a.
L’objectif est de déterminer les coefficients de la droite y = b x + a la plus proche possible des n points. Le critère utilisé est le critère des moindres carrés.
Remarque : la notation b et a est classique mais est l’inverse de celle qui est utilisée par de nombreuses calculatrices.
Théorème : les estimations b et a des coefficients de régression théoriques b et a sont données par les formules ci-dessous :
b = cov(x y) / sx2 |
a = my – b mx |
Remarque : la droite de régression passe par le point moyen :
pour x = mx, on obtient y = my
Définition : on appelle résidus les erreurs observées e(i) définies par :
e(i) =
y(i) – [ b x(i) + a ] |
Propriétés numériques
:
· Les résidus sont de moyenne nulle
· le coefficient de corrélation entre les résidus et la série (xi) est nul
· La variance s2 des résidus vérifie l’équation : s2 = (1 – r2 ) sy2
· Les résidus et la variable explicative doivent être indépendants : on contrôle cette propriété par la représentation des couples (xi, ei) i = 1, …, n.
· La normalité de la variable résiduelle e est difficile à contrôler (test de normalité du c2 sur les résidus, histogramme, coefficients d’asymétrie et d’aplatissement).
Définition : l’estimation « sans biais » de la variance résiduelle est égale à :
s’2 = n s2 / (n – 2) |
Propriété :
la variable X2 = n S2 / se2 suit la loi de probabilité du c2
de degré de liberté égal à n - 2,
lorsque la variable résiduelle suit la loi normale. On peut en déduire l’intervalle
de confiance de la variance
résiduelle (cf. chap.6).
Définition : L’intervalle de confiance du coefficient de régression b au niveau de confiance (100-a)% est l’intervalle :
[ b – ta s’ / (n sx), b + ta s’ /
(n sx) ] |
dans lequel ta est choisi dans la table de Student en fonction du niveau de confiance 1 – a et du degré de liberté n = n – 2.
intervalle
de confiance de la moyenne de Y pour x fixé :
[ b x + a - ta [vy ]1/2, b x + a + ta [vy ]1/2 ] |
où ta est choisi dans la table de la loi de Student en fonction du niveau de confiance 1 - a et du degré de liberté n = n – 2 et vy est donné par la formule :
vY = s’2 [1/n
+ (x – mx)2 / (n sx2) ]
intervalle
de confiance d’une valeur individuelle:
[ b x + a - ta [vy’]1/2, b x + a + ta [vy’]1/2 ] |
où ta est choisi dans la table de la loi de Student en fonction du niveau de confiance 1 - a et du degré de liberté n = n – 2 et vy’ est égal à :
vY’ = s’2 [1/n + (x – mx)2 / (n sx2) ] + s’2