5. coefficient de corrélation partielle.

On considère les données traitées dans l’exercice 2.

1) Les trois variables explicatives possibles de la note sont le poids, la taille et l’âge. Celle qui donnera les meilleurs résultats a priori est celle dont le coefficient de corrélation avec la note est le plus élevé  en valeur absolue. Il s’agit de la taille (r = –0.629).

La régression de la note par la taille est une régression linéaire simple puisqu’il n’y a qu’une seule variable explicative. En appliquant les formules qui sont données dans le chapitre 3, on trouve :

b = –28.0543

a  = 57.868787

C’est-à-dire :

Note » –28.0543 x Taille + 57.868787

2) Il n’est pas facile de choisir une seconde variable explicative. On peut penser au poids, dont le coefficient de corrélation avec la note est le plus grand des restants (en valeur absolue), mais il faut tenir compte des coefficients de corrélation avec la variable explicative déjà considérée : si ce dernier est très élevé, cela peut montrer une redondance, l’information apportée par le poids étant alors plus ou moins la même que celle apportée par la taille (il y aurait même identité en cas d’un coefficient de corrélation entre la taille et le poids égal à 1). Comme le poids maximise la corrélation avec la note et minimise la corrélation avec la taille, cette redondance n’est guère possible, et c’est très vraisemblablement le poids qui complète le mieux la taille pour reconstituer la note. Ce raisonnement n’est pas toujours possible : il nécessite le calcul d’un « coefficient de corrélation partielle.»

3) On effectue les régressions de la variable poids par la variable taille et de la variable âge par la taille. On sait que la moyenne des résidus est égale à 0. La variance s12 des résidus obtenus en régressant le poids par la taille est égale à :

s12 = (1 – 0.36652) x 55.25

On trouve :

s12 = 47.82805

De même, la variance s22 des résidus obtenus en régressant le poids par la taille est égale à :

s32 = 0.472398

On calcule le cœfficient de corrélation entre la série de résidus obtenus dans la régression de la note par la taille et les résidus obtenus dans la régression du poids par la taille. Ce coefficient est appelé coefficient de corrélation partielle entre la note et le poids conditionnellement à la taille. On calcule la moyenne des produits :

 

y = note/x = taille

y = poids/x = taille

produits

1

-1.7873

-8.5520

15.2850

2

3.0181

-7.2172

– 21.7822

3

3.4208

-9.0498

– 30.9576

4

0.2262

-2.7149

– 0.6141

5

-0.1765

-0.8824

0.1557

6

-3.1765

-0.8824

2.8029

7

-4.9819

12.7828

– 63.6826

8

0.0181

7.7828

0.1409

9

2.6154

4.6154

12.0711

10

0.8235

4.1176

3.3884

Sommes

0

0

– 83.1925

La moyenne des produits est égale à la covariance puisque la moyenne des résidus est nulle, et donc le produit des moyennes. Le coefficient de corrélation partielle rp1 du poids et de la note conditionnellement à la taille est obtenu en divisant la moyenne des produits par le produit des écarts-types :

rp1 = – 8.31925 / [47.82805 x 6.647949]1/2

Soit :

rp1 = -0.466

On trouve par un calcul identique le coefficient de corrélation partielle rp3 de l’âge et de la note conditionnellement à la taille :

rp3 = -0.103

On peut maintenant justifier théoriquement le choix de la variable poids pour compléter la variable explicative taille dans la régression de la note. En effet, on peut séparer l’information apportée par la variable poids sur la taille de la façon suivante :

-           l’information commune apportée à la note par la taille et le poids : elle est inutile puisqu’en régressant la note par la taille, on en tient déjà compte ;

-           l’information apportée par le poids sur la note, complémentaire à l’information apportée par la taille. Les résidus obtenus en régressant le poids par la taille apporte cette information complémentaire, et on la mesure par le coefficient de corrélation partielle.

La variable supplémentaire que l’on introduit est donc le poids, dont le coefficient de corrélation partielle est le plus grand en valeur absolue.

4) On effectue maintenant la régression en considérant le poids et la taille comme variables explicatives. Les résultats numériques sont les suivants :

Note » –0.1739 x Poids –21.6793 x Taille + 57.6209

Le coefficient de détermination est :

R2 = 0.5269

On peut continuer le processus, et calculer les résidus donnés par le modèle précédent :

 

y = note

/ x1 = taille, x2 = poids

y = âge

/x1 = taille, x2 = poids

1

-3.2748

0.0762

2

1.7628

-0.3749

3

1.8467

-0.5014

4

-0.2460

0.8496

5

-0.3299

-0.0239

6

-3.3299

-0.0239

7

-2.7585

-0.1667

8

1.3718

-0.9688

9

3.4182

1.3557

10

1.5397

-0.2219

La première colonne est l’information concernant la note des étudiants qui reste à expliquer. La seconde est l’information donnée par l’âge indépendamment de la taille et du poids. On peut donc mesurer comme précédemment l’information sur la note apportée par l’âge en plus de la taille et du poids : on calcule le coefficient de corrélation entre les deux séries de résidus. C’est le « coefficient de corrélation partielle de la note et de l’âge conditionnellement à la taille et au poids ».

On calcule comme précédemment les variances et la moyenne des produits pour en déduire le coefficient de corrélation partielle. On trouve :

rp3 = 0.102

L’algorithme suivi ici est appelé algorithme ascendant : on introduit les variables explicatives dans l’ordre décroissant de leur coefficient de corrélation partielle. Dans ce cas particulier, le faible nombre d’observations limite le nombre de variables explicatives à 1 (cf. ex. 1).