3. Modèle linéaire.

Nous allons supposer maintenant qu’il est raisonnable de supposer que la liaison entre les deux variables étudiées soit linéaire. Le modèle de régression s’exprime donc de la façon suivante :

y = b x + a + e

 

Définition : on appelle droite de régression théorique la droite d’équation y = b x + a, et coefficients de régression théoriques les coefficients b et a.


3.1 Critère des moindres carrés

Le problème consiste à calculer les coefficients de régression. Nous ne pouvons évidemment calculer les valeurs exactes, mais seulement des estimations, que nous noterons b pour b et a pour a.

Nous avons représenté sur la figure 2 deux points i et i’ caractérisant les couples [x(i), y(i)] et [x(i’), y(i’)] parmi les n couples. L’objectif est de déterminer les coefficients de la droite y = b x + a la plus proche possible des n points.

Figure 2.7 : critère des moindres carrés dans le modèle linéaire

 

Plus précisément, il s’agit de reconstruire le mieux possible la variable Y en fonction de la variable X, et donc de déterminer la droite de façon à ce que les termes d’erreur de la forme e(i) = y(i) – [b x(i) + a ] soient les plus petits possible, les plus proches de 0.

Nous avons défini dans le chapitre 2 deux critères pour mesurer la proximité de la valeur 0 à ces erreurs : la somme des valeurs absolues et la somme des carrés de ces termes. Pour des raisons diverses, de calcul en particulier, ce sont les carrés que l’on considère généralement (mais l’autre méthode existe) et l’on cherche donc les coefficients b et a tels que la somme des carrés soit minimale ; d’où l’expression « droite des moindres carrés », fréquemment employée pour désigner la droite de régression.

3.2 Estimation des coefficients de régression.

Théorème : les estimations b et a des coefficients de régression théoriques b et a sont telles que la somme des carrés des erreurs soit la plus petite possible. Elles sont données par les formules ci-dessous :

 

 

cov(x,y)

 

 

sy

 

 

b

=

¾-¾¾

=

r(x,y)

-¾

 

 

 

 

sx2

 

 

sx

 

 

a

=

my - b mx

 

 

 

 

 

 

Ces formules dépendent des moyennes mx et my, de la covariance cov(x,y), des écarts-types sx et sy, et du coefficient de corrélation r(x,y) que l’on calculera avec les formules adaptées au cas des données individuelles, des données groupées, ou des tableaux de corrélation. Les démonstrations des formules sont données dans les compléments pédagogiques.

Les estimations b et a sont appelées coefficients de régression estimés. Ce sont les valeurs observées des estimateurs empiriques B et A. La droite y = b x + a est la droite de régression estimée (on omet souvent le terme « estimé »).

 

Remarque : la droite de régression passe par le point moyen :

pour x = mx, on obtient y = my.

 

Exemple : nous avons vu dans le chapitre précédent que la liaison entre l’âge et le revenu des clients de l’hypermarché peut être considérée comme linéaire lorsqu’on se limite aux personnes en activité, c’est-à-dire lorsqu’on élimine les clients 25, 31 et 43.

On a effectué ici la régression du revenu par l’âge tout d’abord sur toutes les observations, puis après avoir effectué cette élimination. Les droites de régression ont pour équations :

Estimation du Revenu = 946.174 x âge + 69735.75

(toutes les observations)

Estimation du Revenu = 2875.963 x âge - 1028.645

(après élimination)

 

Nous avons représenté l’ensemble des 50 couples, la droite de régression obtenue en effectuant les calculs sur la totalité des observations et la droite de régression obtenue après élimination des clients 25, 31 et 43 (figure 3).

Figure 3.7 : régression linéaire du revenu par l’âge

avec et sans les clients n° 25, 31 et 43

 

Les deux droites de régression sont très différentes l’une de l’autre : la première passe par l’origine des axes (point moyen des 50 observations), et la seconde passe par le point moyen calculé sur les 47 observations, différent donc du précédent. Les trois clients 25, 31 et 43 perturbent nettement les calculs.