Une composante principale d’un tableau de données constituées des observations de p variables sur n individus constitue une variable particulière : à chaque individu est associée une coordonnée sur un axe principal, et la liste des coordonnées sur un axe définit la composante principale dont on sait qu’elle est de moyenne nulle et de variance appelée valeur propre.
La régression sur composantes principales consiste à effectuer la régression d’une variable expliquée Y sur les composantes principales calculées sur un tableau X dont les variables X1, X2, …, Xp sont les variables explicatives.
1) On considère le modèle de régression de Y par la composante principale C1 :
Y = b0 + b1C1
+ E
E étant la série des résidus.
Il s’agit ici de régression linéaire simple. Le coefficient de régression b1 est calculé par la formule :
b1 = cov(C1, Y) / l1 = r(C1, Y) sY 1/2 / l11/2
On a calculé le coefficient de corrélation linéaire r(C1, Y) dans l’exercice 4 (–0.708), on connaît la moyenne et la variance de C1 (0 et l1 = 2.5299) et celles de Y (mY = 10.9 et sy2 = 4.69). On en déduit :
b1 = – 0.708 x [ 4.69 / 2.5299]1/2 = –0.964
Le coefficient b0 est calculé par la relation entre les moyennes : la moyenne de C1 étant égale à 0 , on a :
b0 = 10.9
b1 =– 0.964 |
b0 = 10.9 |
La variance des résidus est égale à :
s2 = (1 – r2
)sY2
On
trouve :
s2 = 2.336 |
2) On sait que la première composante principale C1 est égale à :
C1 |
= |
– 0.5456 X1 |
– |
0.4727 X2 |
– |
0.4986 X3 |
– |
0.4798 X4 |
On trouve une première expression de Y en fonction des quatre variables X1, X2, X3 et X4 en remplaçant C1 par cette formule dans le modèle de régression :
Y » 0.5260 X1 + 0.4557 X2 + 0.4807 X3 + 0.0.4625 X4 + 10.9 |
Pour compléter les résidus, on utilise le modèle avec la composante principale C1 :
e2 = 8 – (– 0.964 x (–0.164) + 10.9) = –
3.058 |
e6 = 15 – (– 0.964 x (–1.915) + 10.9) =
2.253 |
e2 =– 3.058 |
e6 = = 2.253 |
On pourra vérifier que les résidus sont de moyenne nulle.
3) On considère maintenant le modèle de régression linéaire ci-dessous :
Y = b0 +
b1C1 + b2 C2 + E
On note r1
et r2 les coefficients de corrélation de Y avec C1 et
avec C2. On
a :
cov(Y, C1 ) = cov(b0
+ b1C1 + b2 C2 + E, C1) |
cov(Y, C1 ) = cov(b0,
C1) + cov(b1C1, C1) + cov(b2
C2, C1) + cov(E, C1) |
Le premier, le troisième et le quatrième terme sont nuls. On en déduit :
cov(Y, C1
) = b1 cov(C1, C1 ) = b1 l1
D’où :
b1
= cov(Y, C1 ) / l1 = r1 sY / l11/2
On démontre de la même façon la formule de b2.
Le coefficient de corrélation de Y et C2 est égal à :
r2 = 0.496
On en déduit :
b2 = 1.078 |
4) On sait que la deuxième composante principale C2 est calculée de la façon suivante, en fonction des variables centrées réduites :
C2 |
= |
0.3787 X1 |
+ |
0.5975 X2 |
– |
0.5039 X3 |
– |
0.4957 X4 |
On remplace C1 et C2 par leurs expressions dans le modèle :
Y» – 0.964 C1 + 1.078 C2 + 10.9
On trouve :
Y » 0.934 X1 + 1.100 X2 – 0.062 X3 – 0.071 X4 + 10.9 |
On note la différence entre les deux modèles, en particulier dans les coefficients de régression des variables X3 et X4.
Pour calculer les résidus, on utilise le modèle de régression par les composantes principales :
e2 = 8 – (– 0.964 x (–0.164) + 1.078 x (–1.632) + 10.9) = –
1.299 |
e6 = 15 – (– 0.964 x (–1.915) + 1.078 x (0.939) + 10.9) =
1.242 |
5) On effectue la régression linéaire multiple de Y par X1, X2, X3 et X4 directement, à l’aide d’un logiciel. Les résultats sont les suivants (modèle 3) :
Y = 0.8874 X1 + 0.2520 X2 – 0.9393 X3 + 0.5527 X4 + 10.9000
Pour calculer les résidus manquants, on doit d’abord déterminer les valeurs centrées réduites des notes en gestion, mathématiques, langue et expression des individus 2 et 6 :
|
X1 |
X2 |
X3 |
X4 |
2 |
-0.5264 |
-0.8990 |
0.8607 |
0.9310 |
6 |
1.1185 |
1.7110 |
0.4303 |
0.5862 |
On remplace ensuite X1, X2, X3 et X4 par ces valeurs dans la formule précédente. Les résidus obtenues sont :
e2 = – 1.368 |
e6 = 1.599 |
6) On calcule tout d’abord la variance des résidus dans chacun des trois cas. Les résidus étant centrés (de moyenne nulle), ces variances sont les moyennes des carrés :
s12 = 2.336 |
s22 = 1.1819 |
s32 = 0.9778 |
La première variance a déjà été calculée (1e question).
On en déduit les estimations sans biais des variances résiduelles, en fonction du nombre de variables explicatives considérées :
s1’2 = 10 x 2.336 / 8 |
s22 = 10 x 1.1819 / 7 |
s32 = 10 x 0.9778 / 5 |
s1’2 = 2.9204 |
s22 = 1.6885 |
s32 = 1.9555 |
Le modèle le meilleur au sens de l’estimation sans biais de la variance résiduelle est le second.
|
e1 |
e2 |
e3 |
e4 |
e5 |
e6 |
e7 |
e8 |
e9 |
e10 |
1 |
0.884 |
– 3.058 |
– 1.233 |
– 0.907 |
1.677 |
2.253 |
1.308 |
0.0205 |
0.176 |
– 1.121 |
2 |
0.836 |
– 1.300 |
– 0.008 |
0.202 |
1.991 |
1.242 |
– 0.566 |
0.0125 |
– 0.629 |
– 1.781 |
3 |
0.298 |
– 1.368 |
0.200 |
0.695 |
1.238 |
1.599 |
– 0.897 |
– 0.314 |
0.063 |
– 1.515 |
résidus obtenus dans chacun des trois modèles considérés