4. exemple élémentaire d’analyse en composantes principales

On considère le poids, la taille, l’âge et la note de dix élèves de 4e d’un collège :

Poids

Taille

Age

Note

Poids

Taille

Age

Note

1

45

1.50

13

14

6

60

1.70

14

7

2

50

1.60

13

16

7

70

1.60

14

8

3

50

1.65

13

15

8

65

1.60

13

13

4

60

1.75

15

9

9

60

1.55

15

17

5

60

1.70

14

10

10

65

1.70

14

11

Tableau de données initiales

1) Moyennes, variances et coefficients de corrélation :

Variable

moyenne

écart-type

variance

Poids

58.500

7.43303

55.250000

Taille

1.635

0.07433

0.005525

Age

13.800

0.74833

0.560000

Note

12.000

3.31662

11.000000

Moyennes et variances

 

 

Poids

Taille

Age

Note

Poids

1.0000

0.3665

0.4854

-0.5679

Taille

0.3665

1.0000

0.3955

-0.6287

Age

0.4854

0.3955

1.0000

-0.3223

Note

-0.5679

-0.6287

-0.3223

1.0000

Corrélations entre les variables initiales

2) Calcul des distances.

 

poids

taille

âge

note

total

d²(4,5) =

(60-60)²/55.25

+(1.75 - 1.70)²/0.005525

+ (15-14)²/0.56

+ (9-10)²/11

= 2.328

d²(4,6) =

(60-60)²/55.25

+(1.75-1.70)²/0.005525

+ (15-14)²/0.56

+ (9-7)²/11

= 2.601

d²(5,6) =

(60-60)²/55.25

+(1.70-1.70)²/0.005525

+ (14-14)²/0.56

+ (10-7)²/11

= 0.818

Distances entre les u.s. 4, 5 et 6 (variables centrées réduites)

3) valeurs propres.

Valeurs propres

%

% cumulé

diagramme

l1 =2.391

60

60

**************************************************

l2 =0.750

19

79

***************

l3 =0.584

15

93

************

l4 =0.274

7

100

*****

Valeurs propres

4) Composantes principales :

 

Axe

1

Axe

2

Axe

3

Axe

4

 

c1

cos²

c2

cos²

c3

cos²

c4

cos²

1

-2.638

0.859

-0.203

0.005

-0.104

0.001

1.044

0.135

2

-1.943

0.915

-0.358

0.031

0.316

0.024

-0.350

0.030

3

-1.442

0.628

-0.803

0.195

0.591

0.105

-0.486

0.071

4

2.083

0.745

0.078

0.001

1.201

0.248

0.192

0.006

5

0.987

0.785

-0.420

0.142

0.296

0.071

-0.053

0.002

6

1.474

0.690

-0.816

0.212

0.061

0.001

0.555

0.098

7

1.317

0.419

0.353

0.030

-1.454

0.511

0.409

0.040

8

-0.431

0.084

-0.136

0.008

-1.249

0.703

-0.674

0.205

9

-0.571

0.053

2.386

0.919

0.413

0.028

-0.071

0.001

10

1.166

0.804

-0.082

0.004

-0.069

0.003

-0.566

0.189

Composantes principales

5) plan principal 1x2, en axes orthonormés :

Plan principal 1 x 2 (l1 = 2.391, l2 = 0.750)

On peut alors constituer des groupes :

G1 = élèves 1, 2, 3

G2 = élèves 4, 5, 6, 7, 10.

On constate la présence de deux points isolés : le 9 et le 8.

 

6) Cercle de corrélation 1 x 2 :

 

Cercle de corrélation 1 x 2 (l1 = 2.391, l2 = 0.750)

 

On observe donc sur ce cercle un coefficient de corrélation entre la note x4’ et la première composante principale proche c1 de –1 (-0.832) : une composante principale c1(i)  faible correspond à une note x4’(i) élevée en règle générale, et inversement. Les coefficients de corrélation entre C1 et les trois autres variables âge, poids, taille sont fortement positifs : une composante principale c1(i)  élevée correspond à un âge, une taille et un poids élevés en règle générale, et inversement.

Le groupe 1 rassemble donc des élèves peu développés au plan physique, mais qui réussissent bien, et le groupe 2 des élèves plus âgés, plus développés physiquement, mais travaillant mal.

Le point 8 est très proche de l’origine des axes qui représente le point moyen : c’est l’élève moyen. La composante principale de rang 2 de l’élève 9 est très élevée : compte tenu des coefficients de corrélation entre C2 et les variables initiales, on peut penser qu’il est âgé, lourd, petit, et qu’il travaille bien. Il est impossible de le classer dans le groupe 2 puisqu’il travaille bien, ni dans le groupe 1 puisqu’il est développé au plan physique, sauf en ce qui concerne la taille.

On pourra vérifier toutes ces propriétés sur les données initiales.