8. A.C.P. et centres de gravité

Les données se trouvent sur le fichier ex7xchap9.dat (fichier de paramètres ex7chap9.par). On note X1, X2, X3 et X4 les variables centrées réduites.

1) Les distances d(1,7) et d(4,8) utilisées en analyse en composantes principales sont calculées sur les valeurs centrées réduites.

distance entre les clients n°1 et n°7 :

variables

ind. n°1

ind. n°7

carré de la différence

X1

0.957

-1.469

5.8813

X2

2.355

-1.140

12.2124

X3

0.450

0.755

0.0926

X4

2.004

-1.145

9.9180

Le carré de la distance entre les clients n°1 et 7 est la somme des carrés des différences entre les valeurs centrées réduites de chaque variable :

d(1,7)2 = 28.1044

distance entre les clients n°4 et n°8 :

variables

ind. n°4

ind. n°8

 carré de la différence

X1

-0.256

1.765

4.0842

X2

0.339

-0.065

0.1626

X3

-1.163

0.450

2.6025

X4

-0.501

0.000

0.2510

Le carré de la distance entre les clients n°1 et 7 est la somme des carrés des différences entre les valeurs centrées réduites de chaque variable :

d(4,8)2 = 7.1003

Il s’agit ici des distances exactes.

d(1,7)2 = 28.1044

d(4,8)2 = 7.1003

2) On donne les trois premières valeurs propres : l1 = 1.998, l2 = 1.245, l3 = 0.451. Le nombre de variables étirant égal à 4, il y a 4 composantes principales et 4 valeurs propres dont la somme est égale à 4. On obtient évidemment :

l4 = 0.3068

Pour déterminer le nombre d’axes dont l’interprétation est a priori pertinente, on construit le diagramme des valeurs propres :

l

%exp

S%

 

1.998

50

50

**************************************************

1.245

31

81

*******************************

0.451

11

92

***********

0.307

8

100

*******

Les deux premières composantes principales ont des variances relativement élevées et supérieures à 1. Les deux premiers axes permettent de reconstruire 80% de la somme des carrés des distances entre les individus. Le troisième n’apportera  guère d’information et le quatrième encore moins.

3) Le cercle de corrélation 1 x 2 est donné ci-dessous :

Cercle de corrélation C1 x C2

La première composante principale caractérise l’âge et le revenu fortement liés dans ces données. La seconde oppose le patrimoine, plus ou moins indépendant de l’âge et du revenu, à l’emprunt  d’autant plus élevé que le client est âgé et bénéficie d’un revenu élevé.

4) Les composantes principales sont toujours de moyenne nulle. Leurs variances sont les valeurs propres. La variance de la troisième composante principale est donc égale à l3 = 0.451. On peut le vérifier en calculant la moyenne des carrés.

Les composantes principales sont toujours non corrélées deux à deux. Le coefficient de corrélation de C3 et C4 est donc égal à 0.

5) L’origine du repère caractérise les moyennes des variables initiales, c’est-à-dire un client dont toutes les valeurs observées initiales serraient égales aux moyennes. C’est en quelque sorte le « client moyen ». Les axes permettent de reconstruire les distances entre les clients, et sont des variables particulières.

Plan principal 1 x 2

Les caractéristiques du  client n° 1 sont les opposées de celles des clients 5 et 7 : les premier est âgé et son revenu est élevé, contrairement aux deux autres. Les clients 5 et 7 se distinguent par le patrimoine,  celui du n°7 étant nettement plus élevé que celui du n°5. Les clients n°4, 8 et 10 sont relativement proches du client moyen. Le n°8 est un peu plus âgé et son revenu est un peu plus élevé, le patrimoine du n°4, plus jeune, est un peu plus faible, à l’inverse du 10.

Ces interprétations sont soumises à la condition que les individus soient bien représentés, ce qui n’est le cas que du client n° 10.

 

axe

1

axe

2

c1

cos2

c2

cos2

1

-3.056

0.874

-0.431

0.017

4

0.421

0.099

-0.604

0.204

5

1.958

0.415

-2.309

0.577

7

1.954

0.715

1.088

0.222

8

-1.108

0.369

0.364

0.040

10

0.412

0.096

1.210

0.828

Coordonnées des unités statistiques sur les axes principaux et cosinus carrés

Pour les autres clients, il est préférable de contrôler sur les données.

âge

revenu

patrimoine

emprunt

4

36

175kF

770kF

250kF

8

51

160kF

1300kF

320kF

10

35

170kF

1400kF

180kF

moyennes

37.9

162.4

1152

320

Toutes les comparaisons précédentes sont faites par rapport aux moyennes. Normalement, il faudrait tenir compte des écarts-types, ce n’est guère possible ici compte tenu de la faiblesse de l’effectif.

Les carrés des distances entre les projections sur le plan 1 x 2 des unités statistiques 1 et 7, puis 4 et 8 sont les sommes des carrés des différences de leurs coordonnées :

Axes

n°1

n°7

Distance reconstruite par les axes cumulés

1

-3.056

1.954

25.0961

2

-0.431

1.088

27.4020

 

Axes

n°4

n°8

Distance reconstruite par les axes cumulés

1

0.421

-1.108

2.3377

2

-0.604

0.364

3.2746

 

La distance totale entre les clients n°1 et n°2 calculée dans la première question (d(1,2)2 = 28.10) est bien reconstruite sur le plan 1 x 2, mais pas celle entre les clients n°4 et n°8 (d(4,8)2 = 7.10). On le voit directement en examinant les cosinus carrés dont la somme est proche de 1 pour les clients n°1 et n°2, et inférieure nettement pour les deux autres..

6) Les clients du groupe 1 portent les n° 3, 4 et 5. Leur centre de gravité est celui du triangle représenté sur le schéma (point d’intersection des médiane). Le centre de gravité du groupe 2 est le barycentre des quatre points. et celui du groupe 3 le centre de gravité du triangle.

Le client moyen du groupe 3 (sans risque financier) est relativement âgé,  et possède un revenu  élevé. Le client présentant un risque financier moyen (groupe 2) se distingue du précédent par son plus jeune âge et un revenu plus faible. Son patrimoine est relativement élevé : c’est ce qui le distingue du client présentant un risque élevé (groupe 1) dont le patrimoine est faible.

7) Les coordonnées des unités statistiques g1, g2 et g3 définies par les moyennes des variables dans chaque groupe sont simplement les moyennes des coordonnées. Le centre de gravité des unités statistiques g1, g2 et g3, pondérées par les effectifs des groupes correspondants est le centre de gravité de l’ensemble des observations. Il est représenté à l’origine des axes et ses coordonnées sont donc toutes égales à 0.

groupes

moyenne de C1

moyenne de C2

variance de C1

variance de C2

3, 4, 5 :

0.785

–1.283

.7202956

.5451092

2, 7, 9, 10 :

0.380

0.614

1.1862

.4792975

1, 6, 8 :

–1.291

0.464

1.881799

.5997707

8) Les rapport de corrélation des composantes principales par rapport aux trois groupes sont :

C1

C2

h12 = 0.372

h22 = 0.570

La composante principale séparant le mieux les groupes est celle dont le rapport de corrélation est le plus élevé. Il s’agit ici de la seconde.