On considère les données traitées dans l’exercice 2.
1) Les trois variables explicatives possibles de la note sont le poids, la taille et l’âge. Celle qui donnera les meilleurs résultats a priori est celle dont le coefficient de corrélation avec la note est le plus élevé en valeur absolue. Il s’agit de la taille (r = –0.629).
La régression de la note par la taille est une régression linéaire simple puisqu’il n’y a qu’une seule variable explicative. En appliquant les formules qui sont données dans le chapitre 3, on trouve :
b = –28.0543 |
a = 57.868787 |
C’est-à-dire :
Note » –28.0543 x Taille + 57.868787 |
2) Il n’est pas facile de choisir une seconde variable explicative. On peut penser au poids, dont le coefficient de corrélation avec la note est le plus grand des restants (en valeur absolue), mais il faut tenir compte des coefficients de corrélation avec la variable explicative déjà considérée : si ce dernier est très élevé, cela peut montrer une redondance, l’information apportée par le poids étant alors plus ou moins la même que celle apportée par la taille (il y aurait même identité en cas d’un coefficient de corrélation entre la taille et le poids égal à 1). Comme le poids maximise la corrélation avec la note et minimise la corrélation avec la taille, cette redondance n’est guère possible, et c’est très vraisemblablement le poids qui complète le mieux la taille pour reconstituer la note. Ce raisonnement n’est pas toujours possible : il nécessite le calcul d’un « coefficient de corrélation partielle.»
3) On effectue les régressions de la variable poids par la variable taille et de la variable âge par la taille. On sait que la moyenne des résidus est égale à 0. La variance s12 des résidus obtenus en régressant le poids par la taille est égale à :
s12
= (1 – 0.36652) x 55.25 |
On trouve :
s12
= 47.82805 |
De même, la variance s22 des résidus obtenus en régressant le poids par la taille est égale à :
s32 = 0.472398 |
On calcule le cœfficient de corrélation entre la série de résidus obtenus dans la régression de la note par la taille et les résidus obtenus dans la régression du poids par la taille. Ce coefficient est appelé coefficient de corrélation partielle entre la note et le poids conditionnellement à la taille. On calcule la moyenne des produits :
|
y = note/x = taille |
y = poids/x = taille |
produits |
1 |
-1.7873 |
-8.5520 |
15.2850 |
2 |
3.0181 |
-7.2172 |
– 21.7822 |
3 |
3.4208 |
-9.0498 |
– 30.9576 |
4 |
0.2262 |
-2.7149 |
– 0.6141 |
5 |
-0.1765 |
-0.8824 |
0.1557 |
6 |
-3.1765 |
-0.8824 |
2.8029 |
7 |
-4.9819 |
12.7828 |
– 63.6826 |
8 |
0.0181 |
7.7828 |
0.1409 |
9 |
2.6154 |
4.6154 |
12.0711 |
10 |
0.8235 |
4.1176 |
3.3884 |
Sommes |
0 |
0 |
– 83.1925 |
La moyenne des produits est égale à la covariance puisque la moyenne des résidus est nulle, et donc le produit des moyennes. Le coefficient de corrélation partielle rp1 du poids et de la note conditionnellement à la taille est obtenu en divisant la moyenne des produits par le produit des écarts-types :
rp1 = – 8.31925 / [47.82805 x 6.647949]1/2 |
Soit :
rp1 = -0.466 |
On trouve par un calcul identique le coefficient de corrélation partielle rp3 de l’âge et de la note conditionnellement à la taille :
rp3 = -0.103 |
On peut maintenant justifier théoriquement le choix de la variable poids pour compléter la variable explicative taille dans la régression de la note. En effet, on peut séparer l’information apportée par la variable poids sur la taille de la façon suivante :
- l’information commune apportée à la note par la taille et le poids : elle est inutile puisqu’en régressant la note par la taille, on en tient déjà compte ;
- l’information apportée par le poids sur la note, complémentaire à l’information apportée par la taille. Les résidus obtenus en régressant le poids par la taille apporte cette information complémentaire, et on la mesure par le coefficient de corrélation partielle.
La variable supplémentaire que l’on introduit est donc le poids, dont le coefficient de corrélation partielle est le plus grand en valeur absolue.
4) On effectue maintenant la régression en considérant le poids et la taille comme variables explicatives. Les résultats numériques sont les suivants :
Note » –0.1739 x Poids –21.6793 x Taille + 57.6209 |
Le coefficient de détermination est :
R2 = 0.5269 |
On peut continuer le processus, et calculer les résidus donnés par le modèle précédent :
|
y = note / x1 = taille, x2 = poids |
y = âge /x1 = taille, x2 = poids |
1 |
-3.2748 |
0.0762 |
2 |
1.7628 |
-0.3749 |
3 |
1.8467 |
-0.5014 |
4 |
-0.2460 |
0.8496 |
5 |
-0.3299 |
-0.0239 |
6 |
-3.3299 |
-0.0239 |
7 |
-2.7585 |
-0.1667 |
8 |
1.3718 |
-0.9688 |
9 |
3.4182 |
1.3557 |
10 |
1.5397 |
-0.2219 |
La première colonne est l’information concernant la note des étudiants qui reste à expliquer. La seconde est l’information donnée par l’âge indépendamment de la taille et du poids. On peut donc mesurer comme précédemment l’information sur la note apportée par l’âge en plus de la taille et du poids : on calcule le coefficient de corrélation entre les deux séries de résidus. C’est le « coefficient de corrélation partielle de la note et de l’âge conditionnellement à la taille et au poids ».
On calcule comme précédemment les variances et la moyenne des produits pour en déduire le coefficient de corrélation partielle. On trouve :
rp3 = 0.102 |
L’algorithme suivi ici est appelé algorithme ascendant : on introduit les variables explicatives dans l’ordre décroissant de leur coefficient de corrélation partielle. Dans ce cas particulier, le faible nombre d’observations limite le nombre de variables explicatives à 1 (cf. ex. 1).