L’objectif de l’analyse en composantes principales (ou ACP) est purement descriptif : il s’agit « d’explorer » un ensemble d’observations rassemblées sous la forme d’un tableau de données indiquant pour chaque unité statistique les valeurs observées d’un certain nombre de variables quantitatives, comme le tableau des données Euromarket (50 lignes, 5 colonnes).
Ce tableau peut être de dimensions importantes : le nombre de lignes (d’unités statistiques) peut atteindre plusieurs centaines, et le nombre de colonnes (de variables) plusieurs dizaines. Le nombre d’observations, suivant son importance, pourra donner un caractère de généralité aux propriétés structurelles ; il est en effet rare que l’on fasse appel, dans le cadre de l’analyse de données multidimensionnelles, à la statistique inférentielle.
L’analyse en composantes principales est fondée sur le calcul des moyennes, variances et coefficients de corrélation. Les données doivent donc être quantitatives : elles peuvent être discrètes ou ordinales (par ordre de préférence).
Exemple : On étudie les données sur 50 clients de
l’hypermarché EUROMARKET constituées de l’âge, du revenu, du montant des
achats, du nombre d’enfants, de la catégorie socioprofessionnelle (CSP) et du
sexe. Les variables quantitatives
sont les suivantes : l’âge, le revenu, le montant des achats, le nombre
d’enfants. Nous verrons ultérieurement comment tenir compte du sexe et de la
catégorie socioprofessionnelle dans les analyses.
Nous
avons étudié dans le chapitre 3 les couples d’observations (âge, revenu) en les
représentant graphiquement et en calculant le coefficient de corrélation. Cette
représentation graphique nous a montré que le revenu s’accroît en fonction de
l’âge, jusqu’à 60 ans environ, ce que nous avons expliqué par le fait
qu’au-delà de 60 ans, les clients sont en retraite et voient leurs ressources
financières diminuer.
L’analyse
en composantes principales généralise cette démarche en prenant en compte la
totalité des variables quantitatives : ainsi, nous verrons que les personnes de
60 ans et plus n’ont en général pas d’enfant à charge, et par suite le montant
de leurs achats est moins élevé : il y a donc une tendance générale dans
les données, liée à l’âge, qui permet d’expliquer la diminution de la
consommation de plusieurs façons.
La taille de ce tableau est insuffisante pour que les interprétations soient intéressantes. Mais elle permet de donner la totalité des résultats concernant les variables et d’effectuer des calculs sur quelques unités statistiques à l’aide d’une simple calculatrice.
Un des objectifs de l’analyse en composantes principales est de grouper des unités statistiques se ressemblant suivant les variables observées et de différencier les groupes ainsi obtenus. Pour être analysée mathématiquement, cette ressemblance doit être mesurée quantitativement. Pour cela, on généralise la distance que l’on définit habituellement entre deux points du plan.
En géométrie euclidienne classique, chaque point M du plan est repéré par deux coordonnées xM et yM, et la distance entre deux points M et M’ a pour carré :
d2(M,M’) = (xM - xM’)2
+ (yM - yM’)2
En ACP, on considère chaque unité statistique comme un point repéré par ses valeurs. Si à chaque unité statistique i sont associées p valeurs xj(i) j = 1, …, p, le point est dans un espace de « dimension p ».
Pour comparer deux unités statistiques i et i’, il est naturel de généraliser la distance précédente en considérant la somme des carrés des différences entre toutes les variables.
Exemple :
voici deux clients d’Euromarket :
n° |
âge |
revenu |
achats |
enfants |
CSP |
sexe |
1 |
51 |
195888 |
150.15 |
3 |
Agri. |
M |
2 |
39 |
128456 |
173.12 |
2 |
Ouv. |
F |
Nous cherchons à mesurer quantitativement la
distance entre ces deux clients : l’impossibilité de tenir compte dans le
calcul numérique de la CSP et du sexe est évidente, et nous nous limitons aux
variables quantitatives. La distance habituelle est définie par son
carré : elle consiste à effectuer la somme des carrés des différences
entre les valeurs observées.
d2(1,2) = (51 – 39)2 +(195888- 128456)2 + (150.15 – 173.12)2 + (3 – 2)2 = 4.547 109
Le deuxième terme du
second membre est très élevé par rapport aux autres, que l’on peut considérer comme
négligeables. Une différence d’âge de 10 ans a le même effet sur le carré de la
distance qu’une différence de revenu annuel de 10F : cela ne correspond pas à
la notion intuitive de la distance entre deux clients. Chaque terme du second
membre est en fait dépendant de l’unité de mesure de l’observation, ce qui rend
la distance sans intérêt puisque l’on n’aura pas la même valeur si les revenus
sont mesurés en francs, en KF ou en euros par exemple.
La distance entre deux unités statistiques doit donc être indépendante des unités de mesure. Pour cela on la calcule sur les données centrées réduites.
Exemple : les moyennes et les écarts-types des
variables sont les suivantes :
Variable |
Moyenne |
Écart-type |
Âge |
40.06 |
9.34111 |
Revenu |
107639.48 |
29615.79478 |
achats |
316.945 |
207.12912 |
enfant |
1.82 |
1.03325 |
Les données centrées réduites sont les suivantes :
n° |
|
âge |
revenu |
achats |
enfants |
|
51 - 40.06 |
195888 - 107639.48 |
150.15 - 316.945 |
3 - 1.82 |
|
|
|
9.34111 |
29615.79478 |
207.12912 |
1.03325 |
|
= |
1.1712 |
2.9798 |
-0.8053 |
1.1420 |
|
|
|
|
|
|
2 |
|
39 - 40.06 |
128456 - 107639.48 |
173.12 - 316.945 |
2 - 1.82 |
|
|
9.34111 |
29615.79478 |
207.12912 |
1.03325 |
|
= |
-0.1135 |
0.7029 |
-0.6944 |
0.1742 |
Le carré de la
distance est ici aussi égal à la somme des carrés des différences. Il ne dépend
plus des unités de mesure puisque si les revenus sont exprimés en euros et non en
francs, la valeur numérique est divisée par 6.56, mais la moyenne et l’écart
type aussi. Cette transformation est donc sans effet sur la valeur centrée
réduite. On trouve finalement la valeur suivante :
d2(1,2) =7.784
On notera que le calcul peut être effectué de la
façon suivante :
|
(51 – 39) 2 |
|
(19588 – 128456)2 |
|
(150.15-173.12) 2 |
|
(3 – 2)2 |
|
––––––––– |
+ |
––––––––––––––––– |
+ |
––––––––––––––––––––– |
+ |
––––––––––––––– |
|
9.341112 |
|
29615.794782 |
|
207.129122 |
|
1.033252 |
Cas général :
· Les unités statistiques sont définies par les observations de p variables quantitatives ; on dit qu’elles appartiennent à un espace de dimension p ;
· On calcule les moyennes et les variances des p variables initiales ;
· On en déduit les valeurs centrées réduites notées xj’(i) (1 £ i £n, 1 £ j £p) ;
· La distance entre deux unités statistiques i et i’ est donnée par son carré :
|
|
p |
|
d2(i,i’) |
= |
S |
[ xj’(i) – xj’(i’)]2 |
|
|
j = 1 |
|
Le regroupement des unités statistiques dont les distances sont faibles devient impossible à effectuer de façon empirique dès qu’elles deviennent nombreuses. Il faut donc procéder autrement :
· Soit par un algorithme de classification, sans intervention de l’utilisateur (c’est la classification automatique, par exemple la classification ascendante hiérarchique, que nous présentons rapidement dans le paragraphe 3.3) ;
· Soit par une suite de représentations graphiques conservant au mieux l’information contenue dans les données et directement interprétables : il s’agit d’analyse factorielle.
Pour regrouper les unités statistiques en fonction de leur distance et constituer ainsi des groupes homogènes, on utilise des représentations graphiques analogues à celles que l’on construit pour représenter des couples. Il faut donc définir le repère, c’est-à-dire l’origine, les axes et les coordonnées des u.s. sur les axes.
La figure 1.9 ci-dessous représente par des points les observations de deux variables centrées réduites X1 et X2. On choisit un système d’axes orthonormés puisque les variables sont centrées réduites. L’origine des axes est donc le point représentant une unité statistique dont toutes les valeurs centrées réduites sont nulles, ce qui signifie que toutes les valeurs initiales sont égales aux moyennes, et la longueur unité est la même sur chaque axe. Cette u.s. et le point sont qualifiés de « moyens ».
On considère la somme des carrés des distances des points à un axe D : ces distances sont les longueurs des segments représentés en rouge. L’axe qui minimise cette somme s’appelle par définition axe principal. Nous l’avons noté D1 sur la figure 1.9.
On cherche ensuite les axes D2, D3, etc.
Nous n’avons représenté sur le schéma que certaines distances, mais il est bien évident qu’il est tenu compte de tous les points. On notera que ce critère est différent de celui que l’on utilise en régression (les distances considérées en régression sont représentées en bleu), et l’axe principal est en général différent de la droite de régression : on pourra visualiser ces deux droites à l’aide du programme de test du F.
Figure 1.9: Critère des moindres carré en analyse en composantes principales
représentation graphique des couples (X1(i), X2(i))
Ce qui se passe dans le cas général n’est pas représentable dès que le nombre de variables dépasse 3 : l’espace physique est en effet limité à trois dimensions. Mais la procédure est exactement la même, et consiste à chercher un repère dont les axes sont les plus proches possibles de l’ensemble des points caractérisés par leurs p observations x1(i), x2(i), …, xp(i) (centrées réduites).
On suppose que les points sont répartis à la surface d’un ballon de rugby (figue 2.9). Ce ballon possède trois axes d’allongement maximum :
Figure 2.9 : axes principaux (espace de dimension 3)
Une fois le premier axe déterminé, on cherche le second : le critère des moindres carrés est le même, mais on impose au second axe d’être orthogonal au précédent et de passer par l’origine des axes ; dans le cas de la figure 1.9, il n’existe qu’un axe orthogonal D2 au premier, mais en dimension trois (figure 2.9), le second axe est dans le plan orthogonal au premier axe. Le troisième, orthogonal aux deux premiers, est alors complètement déterminé par les deux précédents. Et ainsi de suite suivant le nombre de variables.
Définition :
Les axes principaux sont les droites déterminées au fur et à mesure de façon que :
· les unités statistiques soient aussi proches que possible des axes suivant le critère des moindres carrés ;
· chaque droite soit orthogonale aux précédentes.
Les axes sont ordonnés suivant la part d'information que chacun représente, mesurée par la somme des carrés des distances entre les unités statistiques qu’il permet de conserver. Cette part d'information représentée par un axe est évaluée par un paramètre appelé valeur propre et notée en général l : l’axe 1 correspond à la plus grande valeur propre l1, l’axe 2 à la suivante l2, etc.
On notera que les axes sont orientés de façon quelconque : deux logiciels différents peuvent donner deux axes de même rang orientés inversement l’un de l’autre sur les mêmes données, la coordonnée de chaque individu étant alors de signe opposé.
Définition : Les composantes principales sont les variables statistiques dont les valeurs sont les coordonnées des points sur les axes.
· première composante principale : c1(1), c1(2), …, c1(i), …c1(n)
· deuxième composante principale : c2(1), c2(2), …, c2(i), …c2(n)
· etc.
Les composantes principales sont obtenues comme des combinaisons linéaires des variables centrées réduites, c’est-à-dire qu’elles sont de la forme :
Cl = ul1 X1 + ul2 X2 + … + ulp Xp
expression dans laquelle X1, X2, …, Xp désignent les variables centrées réduites et ul1, ul2, …, ulp une suite de valeurs numériques possédant les propriétés suivantes :
· chaque suite ul1, ul2, …, ulp est notée ul et est appelée vecteur propre de rang l.
· la somme des carrés ul1 2 + …+ulp 2 est égale à 1.
· la somme des produits des termes de même rang pour deux composantes principales différentes Cl et Ck est égale à 0 :
ul1 x uk1
+ ul2 x uk2 + … + ulp x ukp = 0
· les valeurs propres sont les variances des composantes principales, ou les variances des coordonnées sur les axes. Le premier axe est donc celui de la dispersion maximale des unités statistiques, le second aussi en étant orthogonal au premier etc.
Propriété : les axes principaux constituent un système d’axes orthonormés dont chacun est le plus proche des unités statistiques observées compte tenu des axes précédents. Un plan principal est un plan défini par deux axes principaux.
Exemple : la première composante principale est
calculée à partir des variables centrées réduites par la formule
suivante :
C1 = 0.1200 âge - 0.3825
revenu - 0.6115 achats - 0.6822 enfants
En donnant à
l’âge, au revenu, aux achats et au nombre d’enfants les valeurs centrées
réduites du client de rang 1, on obtient sa coordonnée sur l’axe 1 du plan
principal 1x2.
De même pour
les autres clients.
Concrètement,
la composante principale de rang 1 est la suite des coordonnées des clients sur
l’axe 1.
Nous donnons ci-dessous la représentation graphique des
50 clients sur le plan principal 1x2. Au groupe (25, 31, 43) détecté par la
représentation graphique des couples (âge, revenu) s’ajoute le client de rang
28. On peut définir un groupe opposé au précédent : (9, 11, 37, 7, 6, 45).
Le client de rang 10 est assez particulier.
Le coefficient
de corrélation des deux composantes principales est nul, par définition des
composantes principales : il est donc impossible de distinguer une liaison
linéaire sur ce plan. Par contre, dans certains cas (mais pas ici), on pourra
constater une liaison non linéaire.
Figure 3.9 : plan défini par les axes principaux
de rang 1 et 2 (l1 =
1.810,l2 = 1.290)
(certains clients sont confondus avec d’autres)
Constituer des groupes d’unités statistiques sans expliquer ce qu’elles ont en commun ne présente qu’un intérêt limité. Ces propriétés communes sont données par l’interprétation des composantes principales.
Pour caractériser les composantes principales, on calcule les coefficients de corrélation des variables initiales et des composantes principales. Ces coefficients indiquent l’intensité et la nature de la liaison entre une composante principale et les variables initiales et s’interprètent de la façon habituelle que nous avons expliquée dans le chapitre 3.
Exemple : les coefficients de corrélation des
variables initiales et des composantes principales d’Euromarket sont donnés
dans le tableau ci-dessous.
La corrélation entre la première composante principale d’une part, le
montant des achats et le nombre d’enfant d’autre part est proche de
–1 (-0.823 et –0.918) : ces valeurs numériques montrent qu’une forte
valeur de cette composante principale (ce qui correspond à une coordonnée
élevée sur l’axe 1, par exemple les clients 28, 25, 43 et 31) correspond à une
faible valeur du montant des achats, du nombre d’enfants et du revenu dans une
moindre mesure (coefficient de corrélation égal à –0.515).
|
C1 |
C2 |
C3 |
C4 |
âge |
0.161 |
0.863 |
-0.458 |
0.140 |
revenu |
-0.515 |
0.707 |
0.436 |
-0.211 |
achats |
-0.823 |
-0.200 |
-0.461 |
-0.266 |
enfants |
-0.918 |
-0.065 |
0.088 |
0.381 |
Les propriétés mises en évidence par les composantes principales sont globales,
vraies en général. Elles peuvent être inexactes dans des cas particuliers. Par
exemple, on notera que le montant des achats du client 25 n’est pas
particulièrement faible, de même que le revenu du 28.
n° |
Âge |
revenu |
achats |
enfants |
CSP |
sexe |
25 |
62 |
76865 |
293.12 |
0 |
C.sup. |
M |
28 |
48 |
96885 |
63.22 |
0 |
PIC |
F |
31 |
68 |
86468 |
104.57 |
0 |
PIC |
M |
43 |
67 |
72999 |
241.78 |
0 |
Emp. |
M |
Pour interpréter les coefficients de corrélation, il est plus commode de les représenter graphiquement que de lire le tableau, surtout dans le cas d’un grand nombre de variables. Ces représentations graphiques s’appellent les cercles de corrélation. Un abus fréquent consiste à superposer les cercles de corrélation et les plans principaux, mais au plan mathématique, cette démarche est inexacte : la démarche exacte consiste à représenter les axes définissant les variables initiales sur les plans principaux, de la même façon qu’en figure 3.9, nous avons représenté les axes principaux dans le plan représentant les variables X1 et X2.
Exemple : cercle de corrélation C1xC2
des données Euromarket.
Ce cercle de
corrélation montre que la seconde composante principale est fortement corrélée
au revenu et surtout à l’âge : un client d’Euromarket dont la coordonnée
est élevée sur l’axe 2 aura très vraisemblablement un âge supérieur à la
moyenne et inversement. C’est le cas des n°1 et 10. On retrouve les clients n°
25, 31 et 43 dont la coordonnée élevée sur l’axe 1 montrent que le nombre
d’enfants et le montant des achats sont faibles. Réciproquement, les client 9
et 37 dont les coordonnées sur l’axe 2 sont fortement négatives sont jeunes et
ont un revenu faible. Rappelons que ces propriétés peuvent être inexactes sur
des cas particuliers, et que l’orientation des axes peut être inversée si l’on
utilise un autre logiciel.
Figure 4.9 : Cercle de corrélation C1
x C2 (l1
= 1.810,l2
= 1.290)
Nous résumons et complétons dans ce paragraphe les résultats donnés précédemment de l’analyse en composantes principales des données Euromarket, en expliquant leur signification au fur et à mesure.
Nous donnons ci-dessous un extrait des résultats numériques concernant les unités statistiques :
n° |
Axe
1 |
Cos2 |
Axe
2 |
Cos2 |
Axe
3 |
Cos2 |
Axe 4 |
Cos2 |
1 |
-1.286 |
0.135 |
2.822 |
0.653 |
1.569 |
0.202 |
0.350 |
0.010 |
2 |
0.023 |
0.001 |
0.464 |
0.211 |
0.881 |
0.762 |
0.164 |
0.026 |
3 |
0.411 |
0.123 |
0.309 |
0.069 |
0.917 |
0.614 |
0.514 |
0.193 |
4 |
1.343 |
0.720 |
-0.352 |
0.050 |
0.759 |
0.230 |
0.024 |
0.000 |
5 |
1.503 |
0.848 |
-0.164 |
0.010 |
0.575 |
0.124 |
0.220 |
0.018 |
… |
… |
… |
… |
… |
… |
… |
… |
… |
Les lignes du tableau donnent les paramètres calculés sur chaque client.
Les colonnes intitulées Axe 1, Axe 2, … donnent les coordonnées des clients sur les axes principaux, c’est-à-dire les valeurs numériques des composantes principales.
Les colonnes intitulées Cos2 contiennent un paramètre appelé cosinus carré qui indique la proximité d’un client avec le point qui le représente.
Figure 5.9 : projection d’unités statistiques sur le plan principal 1 x 2.
Le cosinus carré du client de rang 1 avec le plan 1 x 2 est égal à 0.135+0.653 = 0.788. Le cosinus de l’angle q est donc de l’ordre de 0.9, ce qui signifie que l’angle q est presque nul. On peut considérer que le client de rang est proche de sa projection sur le plan 1 x 2 représentée par le chiffre 1. C’est le cas du point i’ (figure 5.9), pour lequel nous avons :
cos2q = cos2q1 + cos2q2 |
Il n’en est pas de même du client 2 : 0.001+0.211 = 0.212. Cette valeur est faible, et le client 2 est mal représenté par sa projection sur le plan 1 x 2 : c’est le cas du point i (figure 5.9). Les unités statistiques i et i’ sont donc différentes tout en étant projetées à proximité l’une de l’autre . On notera qu’il est bien représenté sur le plan 2 x 3.
Une autre propriété générale peut être vérifiée à l’aide d’une simple calculatrice : la somme des cosinus carrés des angles entre une unité statistique et chaque axe est égale à 1. De façon analogue, la somme des carrés des coefficients de corrélation d’une variable avec chaque composante principale est égale à 1.