6. régression sur composantes principales.

Une composante principale d’un tableau de données constituées des observations de p variables sur n individus constitue une variable particulière : à chaque individu est associée une coordonnée sur un axe principal, et la liste des coordonnées sur un axe définit la composante principale dont on sait qu’elle est de moyenne nulle et de variance appelée valeur propre.

La régression sur composantes principales consiste à effectuer la régression d’une variable expliquée Y sur les composantes principales calculées sur un tableau X dont les variables X₁, X₂, …, X_p sont les variables explicatives.

1) On considère le modèle de régression de Y par la composante principale C₁ :

Y = b₀ + b₁C₁ + E

E étant la série des résidus.

Il s’agit ici de régression linéaire simple. Le coefficient de régression b₁ est calculé par la formule :

b₁ = cov(C₁, Y) / l₁ = r(C₁, Y) s_Y ^1/2 / l₁^1/2

On a calculé le coefficient de corrélation linéaire r(C₁, Y) dans l’exercice 4 (–0.708), on connaît la moyenne et la variance de C₁ (0 et l₁ = 2.5299) et celles de Y (m_Y = 10.9 et s_y² = 4.69). On en déduit :

b₁ = – 0.708 x [ 4.69 / 2.5299]^1/2 = –0.964

Le coefficient b₀ est calculé par la relation entre les moyennes : la moyenne de C₁ étant égale à 0 , on a :

b₀ = 10.9

b₁ =– 0.964

b₀ = 10.9

La variance des résidus est égale à :

s² = (1 – r² )s_Y²

On trouve :

s² = 2.336

2) On sait que la première composante principale C₁ est égale à :

C₁

– 0.5456 X₁

–

0.4727 X₂

–

0.4986 X₃

–

0.4798 X₄

On trouve une première expression de Y en fonction des quatre variables X₁, X₂, X₃ et X₄ en remplaçant C₁ par cette formule dans le modèle de régression :

Y » 0.5260 X₁ + 0.4557 X₂ + 0.4807 X₃ + 0.0.4625 X₄ + 10.9

Pour compléter les résidus, on utilise le modèle avec la composante principale C₁ :

e₂ = 8 – (– 0.964 x (–0.164) + 10.9) = – 3.058

e₆ = 15 – (– 0.964 x (–1.915) + 10.9) = 2.253

e₂ =– 3.058

e₆ = = 2.253

On pourra vérifier que les résidus sont de moyenne nulle.

3) On considère maintenant le modèle de régression linéaire ci-dessous :

Y = b₀ + b₁C₁ + b₂ C₂ + E

On note r₁ et r₂ les coefficients de corrélation de Y avec C₁ et avec C₂. On a :

cov(Y, C₁ ) = cov(b₀ + b₁C₁ + b₂ C₂ + E, C₁)

cov(Y, C₁ ) = cov(b₀, C₁) + cov(b₁C₁, C₁) + cov(b₂ C₂, C₁) + cov(E, C₁)

Le premier, le troisième et le quatrième terme sont nuls. On en déduit :

cov(Y, C₁ ) = b₁ cov(C₁, C₁ ) = b₁ l₁

D’où :

b₁ = cov(Y, C₁ ) / l₁ = r₁s_Y / l₁^1/2

On démontre de la même façon la formule de b₂.

Le coefficient de corrélation de Y et C₂ est égal à :

r₂ = 0.496

On en déduit :

b₂ = 1.078

4) On sait que la deuxième composante principale C₂ est calculée de la façon suivante, en fonction des variables centrées réduites :

C₂

0.3787 X₁

0.5975 X₂

–

0.5039 X₃

–

0.4957 X₄

On remplace C₁ et C₂ par leurs expressions dans le modèle :

Y» – 0.964 C₁ + 1.078 C₂ + 10.9

On trouve :

Y » 0.934 X₁ + 1.100 X₂ – 0.062 X₃ – 0.071 X₄ + 10.9

On note la différence entre les deux modèles, en particulier dans les coefficients de régression des variables X₃ et X₄.

Pour calculer les résidus, on utilise le modèle de régression par les composantes principales :

e₂ = 8 – (– 0.964 x (–0.164) + 1.078 x (–1.632) + 10.9) = – 1.299

e₆ = 15 – (– 0.964 x (–1.915) + 1.078 x (0.939) + 10.9) = 1.242

5) On effectue la régression linéaire multiple de Y par X₁, X₂, X₃ et X₄ directement, à l’aide d’un logiciel. Les résultats sont les suivants (modèle 3) :

Y = 0.8874 X₁ + 0.2520 X₂ – 0.9393 X₃ + 0.5527 X₄ + 10.9000

Pour calculer les résidus manquants, on doit d’abord déterminer les valeurs centrées réduites des notes en gestion, mathématiques, langue et expression des individus 2 et 6 :

	X₁	X₂	X₃	X₄
2	-0.5264	-0.8990	0.8607	0.9310
6	1.1185	1.7110	0.4303	0.5862

On remplace ensuite X1, X2, X3 et X4 par ces valeurs dans la formule précédente. Les résidus obtenues sont :

e₂ = – 1.368

e₆ = 1.599

6) On calcule tout d’abord la variance des résidus dans chacun des trois cas. Les résidus étant centrés (de moyenne nulle), ces variances sont les moyennes des carrés :

s₁² = 2.336

s₂² = 1.1819

s₃² = 0.9778

La première variance a déjà été calculée (1^e question).

On en déduit les estimations sans biais des variances résiduelles, en fonction du nombre de variables explicatives considérées :

s₁’² = 10 x 2.336 / 8

s₂² = 10 x 1.1819 / 7

s₃² = 10 x 0.9778 / 5

s₁’² = 2.9204

s₂² = 1.6885

s₃² = 1.9555

Le modèle le meilleur au sens de l’estimation sans biais de la variance résiduelle est le second.

Annexe

	e₁	e₂	e₃	e₄	e₅	e₆	e₇	e₈	e₉	e₁₀
1	0.884	– 3.058	– 1.233	– 0.907	1.677	2.253	1.308	0.0205	0.176	– 1.121
2	0.836	– 1.300	– 0.008	0.202	1.991	1.242	– 0.566	0.0125	– 0.629	– 1.781
3	0.298	– 1.368	0.200	0.695	1.238	1.599	– 0.897	– 0.314	0.063	– 1.515

résidus obtenus dans chacun des trois modèles considérés