4. Droite de régression.

Nous donnons une première approche de la régression linéaire, limitée à la statistique descriptive, que nous complétons dans le chapitre 7 dans le cadre général du modèle linéaire.

4.1 Critère des moindres carrés.

Figure 8.3 : Critère des moindres carrés

origine des axes en (mx, my)

Nous avons représenté en figure 8.3 un ensemble de couples (xi, yi) i = 1, …, n en fixant l’origine du repère au point moyen (mx, my). La droite que nous cherchons est la doite la plus proche possible des points, de façon que, pour chaque couple (xi, yi), l’ordonnée yi soit la plus près possible de l’ordonnée b xi +a du point de la droite d’abscisse xi.

 

remarque : en mathématiques, l’équation d’une droite est notée y = a x + b. En statistique, l’usage est la notation choisie ici y = b x + a.

 

Critère des moindres carrés : Pour que chaque valeur yi soit la plus proche possible de l’ordonnée b xi + a du point d’abscisse xi de la droite, on minimise la somme des carrés des différences :

 

n

 

S =

S

[ yi – (b xi + a) ]2

 

i = 1

 

Les différences ïyi – (b xi + a)ï sont représentées sur la figure 8.3 par les longueurs des segments de couleur rouge (elles ne sont pas toutes représentées).

4.2 Estimation des coefficients de régression. Résidus.

Le calcul mathématique permet de déterminer les valeurs des coefficients b et a de façon que cette somme soit la plus petite possible.

 

Définition : on appelle droite de régression de Y en X calculée sur les couples (xi, yi)
i = 1, …, n la droite d’équation la plus proche des points de coordonnées (xi, yi) au sens des moindres carrés.

 

Remarque : on peut évidemment définir la droite de régression de X en Y. Cette procédure n’est pas compatible avec le modèle linéaire généralisée et il est préférable de ne pas en parler.

 

Théorème et définition : les coefficients b et a de la droite de régression sont appelés coefficients de régression. Ils sont donnés par les formules ci-dessous :

b = cov(x, y) / sx2

= r sy / sx

a = my – b mx

 

Conséquence importante : la droite de régression toujours passe par le point moyen :

pour x = mx, on obtient y = my.

 

Définition : on appelle résidu ei le terme défini par la différence entre la valeur observée yi et l’ordonnée du point de la droite de régression d’abscisse xi, pour i = 1, …, n.

ei = yi – (b xi + a) , i = 1, … n

 

Théorème : la série des résidus possède les propriétés suivantes :

·           sa moyenne est nulle ;

·           sa variance est égale à s2 = (1 – r2) sy2, où r est le coefficient de corrélation des couples (xi, yi) i = 1, …, n, et sy2 la variance des yi, i = 1, …, n ;

·           le coefficient de corrélation entre les xi et les ei est égal à 0.

 

Les résidus ei étant de moyenne nulle, leur variance est la moyenne de leurs carrés. Ils mesurent la proximité entre la droite et les points, et ce sont les plus petites erreurs possibles suivant ce critère. Plus la moyenne de leurs carrés est faible, plus la droite est proche des points.

Les propriétés des résidus s’expriment sous la forme ci-dessous :

1

-

n

n

S

i = 1

 

ei = 0

1

-

n

n

S

i = 1

 

ei2 = (1 – r2) sy2

1

-

n

n

S

i = 1

 

xi ei = 0

 

On suppose généralement que les résidus sont répartis à peu près suivant la courbe en cloche. La classification des résidus est alors donnée par la règle habituelle moyenne ± deux fois l’écart-type (cf.chapitre 2). La moyenne étant nulle, on comparera les résidus à l’écart-type et à deux fois l’écart-type.

4.3 Exemple : régression des revenus par l’âge des clients.

Nous avons analysé précédemment la relation existant entre le revenu et l’âge parmi les clients d’Euromarket. Nous abordons maintenant un problème différent : nous cherchons à reconstituer approximativement le revenu de quelqu’un en fonction de son âge. Il s’agit d’un problème de régression. Les résultats numériques ci-dessous sont obtenus par le logiciel :

équation de la droite de régression

y = 946.174 x âge + 69735.75

coefficient de corrélation linéaire

r = 0.298

variance des résidus

s2 = 798 979 500

 

Figure 9.3 : représentation graphique des couples (âge, revenu)

Droite de régression et prévision du revenu pour 55 ans.

Les valeurs du revenu estimé pour 55 ans et 65 ans sont données par l’équation de la droite :

y = 946.174 x 55 + 69 735.75 = 121 775.3

y = 946.174 x 65 + 69 735.75 = 131 237.1

Ces estimations ne sont pas satisfaisantes :

·      tous les clients âgés de 55 ans environ (n° 1, 8 et 10) ont un revenu largement supérieur à 121 775.32.

·      tous les clients âgés de 65 ans environ (n° 25, 31 et 43) ont un revenu largement inférieur à la valeur estimée par la droite (131 237.1).

On peut le vérifier en effectuant le calcul des résidus : 

e1

=

195 888 – (946.174 x 51 + 69 735.75)

=

195 888 – 117 990

=

77 897.38

e8

=

155 989 – (946.174 x 53 + 69 735.75)

=

155 989 – 119 883

=

36 106.03

e10

=

196 484 – (946.174 x 57 + 69 735.75)

=

196 484 – 123 667.7

=

72 816.34

Le calcul des résidus e25, e31 et e43 donne les résultats ci-dessous :

e25 = -51533.54

e31 = -47607.58

e43 = -60130.41

Suivant la régle, les résidus e1, e8 et e10 peuvent être considérés comme grands (supérieurs à l‘écart-type 28 266.23) ou très grands (supérieurs à deux fois l’écart-type 56 532.45), tandis que les résidus e25, e31 et e43 sont petits ou très petits. Le problème n’est pas l’existence de tels résidus, mais le fait que tous les résidus correspondant à l’âge de 55 ans soient grands et tous les résidus correspondant à l’âge de 60 ans petits.

L’analyse plus approfondie des résultats de la régression nécessite l’utilisation des probabilités et des tests statistiques. Nous en présentons les grandes lignes dans les chapitres suivants et revenons sur la régression linéaire dans le chapitre 7.