6. régression sur composantes principales.

Une composante principale d’un tableau de données constituées des observations de p variables sur n individus constitue une variable particulière : à chaque individu est associée une coordonnée sur un axe principal, et la liste des coordonnées sur un axe définit la composante principale dont on sait qu’elle est de moyenne nulle et de variance appelée valeur propre.

La régression sur composantes principales consiste à effectuer la régression d’une variable expliquée Y sur les composantes principales calculées sur un tableau X dont les variables X1, X2, …, Xp sont les variables explicatives.

1) On considère le modèle de régression de Y par la composante principale C1 :

Y = b0 + b1C1 + E

E étant la série des résidus.

Il s’agit ici de régression linéaire simple. Le coefficient de régression b1 est calculé par la formule :

b1 = cov(C1, Y) / l1 = r(C1, Y) sY 1/2 / l11/2

On a calculé le coefficient de corrélation linéaire r(C1, Y) dans l’exercice 4 (–0.708), on connaît la moyenne et la variance de C1 (0 et l1 = 2.5299) et celles de Y (mY = 10.9 et sy2 = 4.69). On en déduit :

b1 = – 0.708 x [ 4.69 / 2.5299]1/2 = –0.964

Le coefficient b0 est calculé par la relation entre les moyennes : la moyenne de C1 étant égale à 0 , on a :

b0 = 10.9

b1 =– 0.964

b0 = 10.9

La variance des résidus est égale à :

s2 = (1 – r2 )sY2

On trouve :

s2 = 2.336

2) On sait que la première composante principale C1 est égale à :

C1

=

– 0.5456 X1

 0.4727 X2

0.4986 X3

0.4798 X4

On trouve une première expression de Y en fonction des quatre variables X1, X2, X3 et X4 en remplaçant C1 par cette formule dans le modèle de régression :

Y » 0.5260 X1 + 0.4557 X2 + 0.4807 X3 + 0.0.4625 X4 + 10.9

Pour compléter les résidus, on utilise le modèle avec la composante principale C1 :

e2 = 8 – (– 0.964 x (–0.164) + 10.9) = – 3.058

e6 = 15 – (– 0.964 x (–1.915) + 10.9) = 2.253

 

e2 =– 3.058

e6 = = 2.253

On pourra vérifier que les résidus sont de moyenne nulle.

 

3) On considère maintenant le modèle de régression linéaire ci-dessous :

Y = b0 + b1C1 + b2 C2 + E

On note r1 et r2 les coefficients de corrélation de Y avec C1 et avec C2. On a :

cov(Y, C1 ) = cov(b0 + b1C1 + b2 C2 + E, C1)

cov(Y, C1 ) = cov(b0, C1) + cov(b1C1, C1) + cov(b2 C2, C1) + cov(E, C1)

Le premier, le troisième et le quatrième terme sont nuls. On en déduit :

cov(Y, C1 ) = b1 cov(C1, C1 ) = b1 l1

D’où :

b1 = cov(Y, C1 ) / l1 = r1 sY / l11/2

On démontre de la même façon la formule de b2.

Le coefficient de corrélation de Y et C2 est égal à :

r2 = 0.496

On en déduit :

b2 = 1.078

4) On sait que la deuxième composante principale C2 est calculée de la façon suivante, en fonction des variables centrées réduites :

C2

=

0.3787 X1

+

0.5975 X2

0.5039 X3

0.4957 X4

On remplace C1 et C2 par leurs expressions dans le modèle :

Y» – 0.964 C1 + 1.078 C2 + 10.9

On trouve :

Y » 0.934 X1 + 1.100 X2 – 0.062 X3 – 0.071 X4 + 10.9

On note la différence entre les deux modèles, en particulier dans les coefficients de régression des variables X3 et X4.

Pour calculer les résidus, on utilise le modèle de régression par les composantes principales :

e2 = 8 – (– 0.964 x (–0.164) + 1.078 x (–1.632) + 10.9) = – 1.299

e6 = 15 – (– 0.964 x (–1.915) + 1.078 x (0.939) + 10.9) = 1.242

 

5) On effectue la régression linéaire multiple de Y par X1, X2, X3 et X4 directement, à l’aide d’un logiciel. Les résultats sont les suivants (modèle 3) :

Y = 0.8874 X1 + 0.2520 X2 – 0.9393 X3 + 0.5527 X4 + 10.9000

Pour calculer les résidus manquants, on doit d’abord déterminer les valeurs centrées réduites des notes en gestion, mathématiques, langue et expression des individus 2 et 6 :

 

X1

X2

X3

X4

2

-0.5264

-0.8990

0.8607

0.9310

6

1.1185

1.7110

0.4303

0.5862

On remplace ensuite X1, X2, X3 et X4 par ces valeurs dans la formule précédente. Les résidus obtenues sont :

e2 =  – 1.368

e6 = 1.599

6) On calcule tout d’abord la variance des résidus dans chacun des trois cas. Les résidus étant centrés (de moyenne nulle), ces variances  sont les moyennes des carrés :

s12 =  2.336

s22 =  1.1819

s32 = 0.9778

La première variance a déjà été calculée (1e question).

On en déduit les estimations sans biais des variances résiduelles, en fonction du nombre de variables explicatives considérées :

s12 =  10 x 2.336 / 8

s22 =  10 x 1.1819 / 7

s32 = 10 x 0.9778 / 5

 

s12 =  2.9204

s22 =  1.6885

s32 = 1.9555

Le modèle le meilleur au sens de l’estimation sans biais de la variance résiduelle est le second.

Annexe

 

e1

e2

e3

e4

e5

e6

e7

e8

e9

e10

1

0.884

– 3.058

– 1.233

– 0.907

1.677

2.253

1.308

0.0205

0.176

– 1.121

2

0.836

– 1.300

– 0.008

0.202

1.991

1.242

– 0.566

0.0125

– 0.629

– 1.781

3

0.298

 – 1.368

 0.200

 0.695

 1.238

 1.599

 – 0.897

 – 0.314

 0.063

 – 1.515

résidus obtenus dans chacun des trois modèles considérés