1. analyse en composantes principales.

1.1 Objectifs.

L’objectif de l’analyse en composantes principales (ou ACP) est purement descriptif : il s’agit « d’explorer » un ensemble d’observations rassemblées sous la forme d’un tableau de données indiquant pour chaque unité statistique les valeurs observées d’un certain nombre de variables quantitatives, comme le tableau des données Euromarket (50 lignes, 5 colonnes).

Ce tableau peut être de dimensions importantes : le nombre de lignes (d’unités statistiques) peut atteindre plusieurs centaines, et le nombre de colonnes (de variables) plusieurs dizaines. Le nombre d’observations, suivant son importance, pourra donner un caractère de généralité aux propriétés structurelles ; il est en effet rare que l’on fasse appel, dans le cadre de l’analyse de données multidimensionnelles, à la statistique inférentielle.

L’analyse en composantes principales est fondée sur le calcul des moyennes, variances et coefficients de corrélation. Les données doivent donc être quantitatives : elles peuvent être discrètes ou ordinales (par ordre de préférence).

 

Exemple : On étudie les données sur 50 clients de l’hypermarché EUROMARKET constituées de l’âge, du revenu, du montant des achats, du nombre d’enfants, de la catégorie socioprofessionnelle (CSP) et du sexe. Les variables quantitatives sont les suivantes : l’âge, le revenu, le montant des achats, le nombre d’enfants. Nous verrons ultérieurement comment tenir compte du sexe et de la catégorie socioprofessionnelle dans les analyses.

Nous avons étudié dans le chapitre 3 les couples d’observations (âge, revenu) en les représentant graphiquement et en calculant le coefficient de corrélation. Cette représentation graphique nous a montré que le revenu s’accroît en fonction de l’âge, jusqu’à 60 ans environ, ce que nous avons expliqué par le fait qu’au-delà de 60 ans, les clients sont en retraite et voient leurs ressources financières diminuer.

L’analyse en composantes principales généralise cette démarche en prenant en compte la totalité des variables quantitatives : ainsi, nous verrons que les personnes de 60 ans et plus n’ont en général pas d’enfant à charge, et par suite le montant de leurs achats est moins élevé : il y a donc une tendance générale dans les données, liée à l’âge, qui permet d’expliquer la diminution de la consommation de plusieurs façons.

La taille de ce tableau est insuffisante pour que les interprétations soient intéressantes. Mais elle permet de donner la totalité des résultats concernant les variables et d’effectuer des calculs sur quelques unités statistiques à l’aide d’une simple calculatrice.

1.2 Distance entre deux unités statistiques.

Un des objectifs de l’analyse en composantes principales est de grouper des unités statistiques se ressemblant suivant les variables observées et de différencier les groupes ainsi obtenus. Pour être analysée mathématiquement, cette ressemblance doit être mesurée quantitativement. Pour cela, on généralise la distance que l’on définit habituellement entre deux points du plan.

En géométrie euclidienne classique, chaque point M du plan est repéré par deux coordonnées xM et yM, et la distance entre deux points M et M’ a pour carré :

d2(M,M’) = (xM - xM’)2 + (yM - yM’)2

En ACP, on considère chaque unité statistique comme un point repéré par ses valeurs. Si à chaque unité statistique i sont associées p valeurs xj(i) j = 1, …, p, le point est dans un espace de « dimension p ».

Pour comparer deux unités statistiques i et i’, il est naturel de généraliser la distance précédente en considérant la somme des carrés des différences entre toutes les variables.

 

Exemple : voici deux clients d’Euromarket :

âge

revenu

achats

enfants

CSP

sexe

1

51

195888

150.15

3

Agri.

M

2

39

128456

173.12

2

Ouv.

F

Nous cherchons à mesurer quantitativement la distance entre ces deux clients : l’impossibilité de tenir compte dans le calcul numérique de la CSP et du sexe est évidente, et nous nous limitons aux variables quantitatives. La distance habituelle est définie par son carré : elle consiste à effectuer la somme des carrés des différences entre les valeurs observées.

d2(1,2) = (51 – 39)2 +(195888- 128456)2 + (150.15 – 173.12)2 + (3 – 2)2 = 4.547 109

Le deuxième terme du second membre est très élevé par rapport aux autres, que l’on peut considérer comme négligeables. Une différence d’âge de 10 ans a le même effet sur le carré de la distance qu’une différence de revenu annuel de 10F : cela ne correspond pas à la notion intuitive de la distance entre deux clients. Chaque terme du second membre est en fait dépendant de l’unité de mesure de l’observation, ce qui rend la distance sans intérêt puisque l’on n’aura pas la même valeur si les revenus sont mesurés en francs, en KF ou en euros par exemple.

 

La distance entre deux unités statistiques doit donc être indépendante des unités de mesure. Pour cela on la calcule sur les données centrées réduites.

 


Exemple : les moyennes et les écarts-types des variables sont les suivantes :

Variable

Moyenne

Écart-type

Âge

40.06

9.34111

Revenu

107639.48

29615.79478

achats

316.945

207.12912

enfant

1.82

1.03325

Les données centrées réduites sont les suivantes :

 

âge

revenu

achats

enfants

1

 

51 - 40.06

195888 - 107639.48

150.15 - 316.945

3 - 1.82

 

 

9.34111

29615.79478

207.12912

1.03325

 

=

1.1712

2.9798

-0.8053

1.1420

 

 

 

 

 

 

2

 

39 - 40.06

128456 - 107639.48

173.12 - 316.945

2 - 1.82

 

 

9.34111

29615.79478

207.12912

1.03325

 

=

-0.1135

0.7029

-0.6944

0.1742

 

Le carré de la distance est ici aussi égal à la somme des carrés des différences. Il ne dépend plus des unités de mesure puisque si les revenus sont exprimés en euros et non en francs, la valeur numérique est divisée par 6.56, mais la moyenne et l’écart type aussi. Cette transformation est donc sans effet sur la valeur centrée réduite. On trouve finalement la valeur suivante :

d2(1,2) =7.784

On notera que le calcul peut être effectué de la façon suivante :

 

(51 – 39) 2

 

(19588 – 128456)2

 

(150.15-173.12) 2

 

(3 – 2)2

 

–––––––––

+

–––––––––––––––––

+

–––––––––––––––––––––

+

–––––––––––––––

 

9.341112

 

29615.794782

 

207.129122

 

1.033252

 

Cas général :

·      Les unités statistiques sont définies par les observations de p variables quantitatives ; on dit qu’elles appartiennent à un espace de dimension p ;

·      On calcule les moyennes et les variances des p variables initiales ;

·      On en déduit les valeurs centrées réduites notées xj’(i) (1 £ i £n, 1 £ j £p) ;

·      La distance entre deux unités statistiques i et i’ est donnée par son carré :

 

 

p

 

d2(i,i’)

=

S

[ xj’(i) – xj’(i’)]2

 

 

j = 1

 

Le regroupement des unités statistiques dont les distances sont faibles devient impossible à effectuer de façon empirique dès qu’elles deviennent nombreuses. Il faut donc procéder autrement :

·      Soit par un algorithme de classification, sans intervention de l’utilisateur (c’est la classification automatique, par exemple la classification ascendante hiérarchique, que nous présentons rapidement dans le paragraphe 3.3) ;

·      Soit par une suite de représentations graphiques conservant au mieux l’information contenue dans les données et directement interprétables : il s’agit d’analyse factorielle.

1.3 Représentations graphiques des unités statistiques.

Pour regrouper les unités statistiques en fonction de leur distance et constituer ainsi des groupes homogènes, on utilise des représentations graphiques analogues à celles que l’on construit pour représenter des couples. Il faut donc définir le repère, c’est-à-dire l’origine, les axes et les coordonnées des u.s. sur les axes.

La figure 1.9 ci-dessous représente par des points les observations de deux variables centrées réduites X1 et X2. On choisit un système d’axes orthonormés puisque les variables sont centrées réduites. L’origine des axes est donc le point représentant une unité statistique dont toutes les valeurs centrées réduites sont nulles, ce qui signifie que toutes les valeurs initiales sont égales aux moyennes, et la longueur unité est la même sur chaque axe. Cette u.s. et le point sont qualifiés de « moyens ».

On considère la somme des carrés des distances des points à un axe D : ces distances sont les longueurs des segments représentés en rouge. L’axe qui minimise cette somme s’appelle par définition axe principal. Nous l’avons noté D1 sur la figure 1.9.

On cherche ensuite les axes D2, D3, etc.

Nous n’avons représenté sur le schéma que certaines distances, mais il est bien évident qu’il est tenu compte de tous les points. On notera que ce critère est différent de celui que l’on utilise en régression (les distances considérées en régression sont représentées en bleu), et l’axe principal est en général différent de la droite de régression : on pourra visualiser ces deux droites à l’aide du programme de test du F.

 

Figure 1.9: Critère des moindres carré en analyse en composantes principales

représentation graphique des couples (X1(i), X2(i))

 

Ce qui se passe dans le cas général n’est pas représentable dès que le nombre de variables dépasse 3 : l’espace physique est en effet limité à trois dimensions. Mais la procédure est exactement la même, et consiste à chercher un repère dont les axes sont les plus proches possibles de l’ensemble des points caractérisés par leurs p observations x1(i), x2(i), …, xp(i) (centrées réduites).

 

On suppose que les points sont répartis à la surface d’un ballon de rugby (figue 2.9). Ce ballon possède trois axes d’allongement maximum :

Figure 2.9 : axes principaux (espace de dimension 3)

 

Une fois le premier axe déterminé, on cherche le second : le critère des moindres carrés est le même, mais on impose au second axe d’être orthogonal au précédent et de passer par l’origine des axes ; dans le cas de la figure 1.9, il n’existe qu’un axe orthogonal D2 au premier, mais en dimension trois (figure 2.9), le second axe est dans le plan orthogonal au premier axe. Le troisième, orthogonal aux deux premiers, est alors complètement déterminé par les deux précédents. Et ainsi de suite suivant le nombre de variables.

 

Définition :

Les axes principaux sont les droites déterminées au fur et à mesure de façon que :

·        les unités statistiques soient aussi proches que possible des axes suivant le critère des moindres carrés ;

·        chaque droite soit orthogonale aux précédentes.

 

Les axes sont ordonnés suivant la part d'information que chacun représente, mesurée par la somme des carrés des distances entre les unités statistiques qu’il permet de conserver. Cette part d'information représentée par un axe est évaluée par un paramètre appelé valeur propre et notée en général l : l’axe 1 correspond à la plus grande valeur propre l1, l’axe 2 à la suivante  l2, etc.

On notera que les axes sont orientés de façon quelconque : deux logiciels différents peuvent donner deux axes de même rang orientés inversement l’un de l’autre sur les mêmes données, la coordonnée de chaque individu étant alors de signe opposé.

 

Définition : Les composantes principales sont les variables statistiques dont les valeurs sont les coordonnées des points sur les axes.

·           première composante principale : c1(1), c1(2), …, c1(i), …c1(n)

·           deuxième composante principale : c2(1), c2(2), …, c2(i), …c2(n)

·           etc.

 

Les composantes principales sont obtenues comme des combinaisons linéaires des variables centrées réduites, c’est-à-dire qu’elles sont de la forme :

Cl = ul1 X1 + ul2 X2 + … + ulp Xp

expression dans laquelle X1, X2, …, Xp désignent les variables centrées réduites et ul1, ul2, …, ulp une suite de valeurs numériques possédant les propriétés suivantes :

·           chaque suite ul1, ul2, …, ulp est notée ul et est appelée vecteur propre de rang l.

·           la somme des carrés ul1 2 + …+ulp 2 est égale à 1.

·           la somme des produits des termes de même rang pour deux composantes principales différentes Cl et Ck est égale à 0 :

ul1 x uk1 + ul2 x uk2 + … + ulp x ukp = 0

·           les valeurs propres sont les variances des composantes principales, ou les variances des coordonnées sur les axes. Le premier axe est donc celui de la dispersion maximale des unités statistiques, le second aussi en étant orthogonal au premier etc.

 

Propriété : les axes principaux constituent un système d’axes orthonormés dont chacun est le plus proche des unités statistiques observées compte tenu des axes précédents. Un plan principal est un plan défini par deux axes principaux.

 

Exemple : la première composante principale est calculée à partir des variables centrées réduites par la formule suivante :

C1 = 0.1200 âge - 0.3825 revenu - 0.6115 achats - 0.6822 enfants

En donnant à l’âge, au revenu, aux achats et au nombre d’enfants les valeurs centrées réduites du client de rang 1, on obtient sa coordonnée sur l’axe 1 du plan principal 1x2.

De même pour les autres clients.

Concrètement, la composante principale de rang 1 est la suite des coordonnées des clients sur l’axe 1.

Nous donnons ci-dessous la représentation graphique des 50 clients sur le plan principal 1x2. Au groupe (25, 31, 43) détecté par la représentation graphique des couples (âge, revenu) s’ajoute le client de rang 28. On peut définir un groupe opposé au précédent : (9, 11, 37, 7, 6, 45). Le client de rang 10 est assez particulier.

Le coefficient de corrélation des deux composantes principales est nul, par définition des composantes principales : il est donc impossible de distinguer une liaison linéaire sur ce plan. Par contre, dans certains cas (mais pas ici), on pourra constater une liaison non linéaire.

Figure 3.9 : plan défini par les axes principaux de rang 1 et 2 (l1 = 1.810,l2 = 1.290)

(certains clients sont confondus avec d’autres)

 

Constituer des groupes d’unités statistiques sans expliquer ce qu’elles ont en commun ne présente qu’un intérêt limité. Ces propriétés communes sont données par l’interprétation des composantes principales.

1.4 Interprétation des axes. Cercles de corrélation.

Pour caractériser les composantes principales, on calcule les coefficients de corrélation des variables initiales et des composantes principales. Ces coefficients indiquent l’intensité et la nature de la liaison entre une composante principale et les variables initiales et s’interprètent de la façon habituelle que nous avons expliquée dans le chapitre 3.

 

Exemple : les coefficients de corrélation des variables initiales et des composantes principales d’Euromarket sont donnés dans le tableau ci-dessous.

La corrélation entre la première composante principale d’une part, le montant des achats et le nombre d’enfant d’autre part est proche de –1 (-0.823 et –0.918) : ces valeurs numériques montrent qu’une forte valeur de cette composante principale (ce qui correspond à une coordonnée élevée sur l’axe 1, par exemple les clients 28, 25, 43 et 31) correspond à une faible valeur du montant des achats, du nombre d’enfants et du revenu dans une moindre mesure (coefficient de corrélation égal à –0.515).

 

C1

C2

C3

C4

âge

0.161

0.863

-0.458

0.140

revenu

-0.515

0.707

0.436

-0.211

achats

-0.823

-0.200

-0.461

-0.266

enfants

-0.918

-0.065

0.088

0.381

Les propriétés mises en évidence par les composantes principales sont globales, vraies en général. Elles peuvent être inexactes dans des cas particuliers. Par exemple, on notera que le montant des achats du client 25 n’est pas particulièrement faible, de même que le revenu du 28.

Âge

revenu

achats

enfants

CSP

sexe

25

62

76865

293.12

0

C.sup.

M

28

48

96885

63.22

0

PIC

F

31

68

86468

104.57

0

PIC

M

43

67

72999

241.78

0

Emp.

M

 

Pour interpréter les coefficients de corrélation, il est plus commode de les représenter graphiquement que de lire le tableau, surtout dans le cas d’un grand nombre de variables. Ces représentations graphiques s’appellent les cercles de corrélation. Un abus fréquent consiste à superposer les cercles de corrélation et les plans principaux, mais au plan mathématique, cette démarche est inexacte : la démarche exacte consiste à représenter les axes définissant les variables initiales sur les plans principaux, de la même façon qu’en figure 3.9, nous avons représenté les axes principaux dans le plan représentant les variables X1 et X2.

 

Exemple : cercle de corrélation C1xC2 des données Euromarket.

Ce cercle de corrélation montre que la seconde composante principale est fortement corrélée au revenu et surtout à l’âge : un client d’Euromarket dont la coordonnée est élevée sur l’axe 2 aura très vraisemblablement un âge supérieur à la moyenne et inversement. C’est le cas des n°1 et 10. On retrouve les clients n° 25, 31 et 43 dont la coordonnée élevée sur l’axe 1 montrent que le nombre d’enfants et le montant des achats sont faibles. Réciproquement, les client 9 et 37 dont les coordonnées sur l’axe 2 sont fortement négatives sont jeunes et ont un revenu faible. Rappelons que ces propriétés peuvent être inexactes sur des cas particuliers, et que l’orientation des axes peut être inversée si l’on utilise un autre logiciel.

Figure 4.9 : Cercle de corrélation C1 x C2 (l1 = 1.810,l2 = 1.290)

1.5 Paramètres numériques complémentaires.

Nous résumons et complétons dans ce paragraphe les résultats donnés précédemment de l’analyse en composantes principales des données Euromarket, en expliquant leur signification au fur et à mesure.

Nous donnons ci-dessous un extrait des résultats numériques concernant les unités statistiques :

Axe 1

Cos2

Axe 2

Cos2

Axe 3

Cos2

Axe 4

Cos2

1

-1.286

0.135

2.822

0.653

1.569

0.202

0.350

0.010

2

0.023

0.001

0.464

0.211

0.881

0.762

0.164

0.026

3

0.411

0.123

0.309

0.069

0.917

0.614

0.514

0.193

4

1.343

0.720

-0.352

0.050

0.759

0.230

0.024

0.000

5

1.503

0.848

-0.164

0.010

0.575

0.124

0.220

0.018

Les lignes du tableau donnent les paramètres calculés sur chaque client.

Les colonnes intitulées Axe 1, Axe 2, … donnent les coordonnées des clients sur les axes principaux, c’est-à-dire les valeurs numériques des composantes principales.

Les colonnes intitulées Cos2 contiennent un paramètre appelé cosinus carré qui indique la proximité d’un client avec le point qui le représente.

 

Figure 5.9 : projection d’unités statistiques sur le plan principal 1 x 2.

Le cosinus carré du client de rang 1 avec le plan 1 x 2 est égal à 0.135+0.653 = 0.788. Le cosinus de l’angle q est donc de l’ordre de 0.9, ce qui signifie que l’angle q est presque nul. On peut considérer que le client de rang est proche de sa projection sur le plan 1 x 2 représentée par le chiffre 1. C’est le cas du point i’ (figure 5.9), pour lequel nous avons :

cos2q = cos2q1 + cos2q2

Il n’en est pas de même du client 2 : 0.001+0.211 = 0.212. Cette valeur est faible, et le client 2 est mal représenté par sa projection sur le plan 1 x 2 : c’est le cas du point i (figure 5.9). Les unités statistiques i et i’ sont donc différentes tout en étant projetées à proximité l’une de l’autre . On notera qu’il est bien représenté sur le plan 2 x 3.

Une autre propriété générale peut être vérifiée à l’aide d’une simple calculatrice : la somme des cosinus carrés des angles entre une unité statistique et chaque axe est égale à 1. De façon analogue, la somme des carrés des coefficients de corrélation d’une variable avec chaque composante principale est égale à 1.