3. introduction théorique à l’analyse en composantes principales .

On établit dans cet exercice les propriétés mathématiques des composantes principales dans le cas particulier de données constituées des observations de deux variables X1 et X2 centrées réduites (analye en composantes principales normée). La généralisation des propriétés obtenues est indiquée dans la correction.

Les variables statistiques X1, X2 étant centrées réduites, on a :

E(X1) = E(X2) = 0

V(X1) = V(X2 ) = 1

E(X1 X2) = cov(X1 , X2) = r

Soient les variables Z et Z’ de la forme :

Z = a1 X1 + a2 X2 :

quel que soit i = 1, …, n

Z(i) = a1 X1(i) + a2 X2(i)

Z’ = a1’ X1 + a2’ X2 :

quel que soit i = 1, …, n

Z’(i) = a1’ X1(i) + a2’ X2(i)

1) On a :

E(Z) =

E(a1 X1 + a2 X2) =

a1 E(X1) + a2 E(X2) = 0

V(Z) =

a12 V(X1) + a22 V(X2) + 2 a1 a2 cov(X1, X2) =

a12 + a22 + 2 a1 a2 r

De la même façon :

E(Z’) =

E(a1’ X1 + a2’ X2) = a1’ E(X1) + a2’ E(X2) =

0

V(Z’) =

a12 V(X1) + a22 V(X2) + 2 a1’ a2’ cov(X1, X2) =

a12 + a22 + 2 a1 a2 r

La covariance de Z et Z’ est égale à :

cov(Z, Z’) =

 E[ (a1 X1 + a2 X2)( a1’ X1 + a2’ X2) ]

cov(Z, Z’) =

 a1 a1’ E(X12) + a2 a2’ E(X2)2 + (a1’ a2 + a1 a2’) E(X1 X2)

cov(Z, Z’) =

 a1 a1’ + a2 a2’ + (a1’a2 + a1 a2’) r

Les résultats sont donc les suivants :

E(Z) = 0

V(Z) = a12 + a22 + 2 a1 a2 r

cov(Z, Z’) = a1 a1’ + a2 a2’ + (a1’a2 + a1 a2’) r

2) On cherche le vecteur u = (a1, a2) vérifiant la condition :

a12 + a22 = 1

et tel que la variance de Z soit maximale.

Cela revient à maximiser le produit a1 a2 sous la contrainte a12 + a22 = 1. On pose :

a1 = sint t

a2 = cos t

On a alors :

a1 a2 = sin t cos t = 0.5 sin (2 t)

Le maximum de sin (2 t) est atteint pour 2 t = p / 2 , soit t = p / 4. On en déduit :

a1 = Ö2 / 2

a2 = Ö2 / 2

On en déduit évidemment :

V(C1) = l1 = 1 + r

La méthode proposée ici est particulière. Dans le cas général, le calcul est effectué par la méthode des multiplicateurs de Lagrange.

3) On note C1 la variable Z précédente et l1 sa variance. On cherche la variable Z’ de la forme a1’ X1 + a2’ X2 telle que :

a12 + a22 = 1

cov(C1, Z’) = 0

On a :

cov(C1, Z’) = Ö2 a1’/ 2 + Ö2 a2’/ 2 = 0

On en déduit :

a1’ = -a2

D’où évidemment, avec la contrainte  :

a1’ = Ö2 / 2

a2’= – Ö2 / 2

On en déduit :

V(C2) = l2 = 1 - r

l1 + l2 = 2.

Les valeurs obtenues a1, a2, a1’, a2’ sont particulières. Les vecteurs de la forme a = (a1, a2, …) sont des vecteurs propres de la matrice de corrélation associés aux valeurs propre l, appelés vecteurs principaux. Ils sont unitaires (la somme des carrés des coordonnées est égale à 1) et orthogonaux deux à deux (la somme des produits de leurs coordonnées est égale à 0). .

4) On peut exprimer X1 et X2 en fonction de C1 et C2 :

C1 = Ö2 / 2 X1 + Ö2 / 2 X2

C2 = Ö2 / 2 X1Ö2 / 2 X2

D’où :

C1 + C2 = Ö2 X1

C1 – C2 = Ö2 X2

Enfin :

X1 = Ö2 / 2 C1 + Ö2 / 2 C2

X2 = Ö2 / 2 C1Ö2 / 2 C2

Les coefficients des composantes principales C1 et C2 sont des valeurs particulières au cas de deux variables. Dans le cas général, les coefficients des composantes principales sont déduits des coordonnées des vecteurs principaux a.

Pour calculer r(X1, C1), on calcule tout d’abord la covariance :

cov(X1, C1)  = cov (Ö2 / 2 C1 + Ö2 / 2 C2, C1) = Ö2 / 2 V(C1)

On en déduit le coefficient de corrélation en divisant par les écarts-types. On obtient  :

r(X1, C1)  = (Ö2 / 2) Öl1

De la même façon :

r(X2, C1)  = (Ö2 / 2) Öl1

r(X1, C2) = (Ö2 / 2) Öl2

r(X2, C2) = – (Ö2 / 2) Öl2

Ces propriétés se généralisent de la façon suivante :

r(Xj, Cl ) = alj Öll

où alj est la je coordonnée du vecteur principal de rang l.

On a aussi de façon quasi évidente :

S1 = l1

S2 = l2

Ces propriétés sont exprimées de façon générale : la somme des carrés des coefficients de corrélation d’une composante principale avec les variables est égale à la valeur propre correspondante.

5) On trouve :

S1’ = r2(X1, C1) + r2(X1, C2) = 1

S2’ = r2(X2, C1) + r2(X2, C2) = 1

La propriété est générale : la somme des carrés des coefficients de corrélation d’une variable avec toutes les composantes principales est égale à 1.

La somme S3 est égale à la somme des produits des coefficients de corrélation des variables X1 et X2 avec les composantes principales : elle est égale au coefficient de corrélation de X1 et X2 :

S3 = r

Il s’agit ici aussi d’une propriété générale.