5. ANALYSE EN composantes principales de notes.

Les notes obtenues par les 10 étudiants en gestion, en mathématiques, langue, expression, économie sont des données quantitatives et peuvent être décrites par l’analyse en composantes principales.

1) La moyenne de chaque composante principale est égale à 0. Leur variance est donc la moyenne des carrés des coordonnées sur chaque axes. On en déduit :

l1 = 2.5299     l2 = 0.9939     l3 = 0.4053

L’économie étant une variable supplémentaire, le nombre de variables utilisées pour calculer les distances entre les individus est égale à 4. La somme des valeurs propres est donc égale à p = 4. On déduit la quatrième valeur propre des trois premières :

2.5299 + 0.9939 + 0.4053 + l4 = 1

l4 = 0.0709

2) On observe une forte diminution de la 4e valeur propre par rapport à la 3e (l4 » l3 / 6). Le nombre de composantes principales significatives est donc de 3. Toutefois, le très faible nombre d’observations impose la plus grande prudence dans les interprétations, surtout celle de la 3e composante principale.

l

%

S%

 

2.530

63

 63

**************************************************

0.994

25

 88

*******************

0.405

10

 98

********

0.071

 2

100

*

 

Le pourcentage d’information conservée par les deux premières composantes principales est de 88%, et par les trois premières de 98%.

3) Pour calculer les coefficients de corrélation entre la note d’économie et les deux premières composantes principales, on réécrit le tableau des données de la façon suivante :

étudiant n°

économie

C1

C2

1

13

– 1.261

 0.044

2

8

– 0.164

– 1.632

3

12

– 2.419

– 1.137

4

9

 1.029

– 1.029

5

10

 2.672

– 0.291

6

15

– 1.915

 0.939

7

13

– 0.821

 1.739

8

11

– 0.082

 0.007

9

9

 2.152

 0.746

10

9

 0.808

 0.612

On connaît la variance de l’économie et de chaque composante principale (l1 et l2). On sait que les moyennes des composantes principales sont nulles. La covariance entre l’économie et chaque composante principale est donc la moyenne des produits, qu’il suffit de diviser par le produit des écarts-types pour obtenir le coefficient de corrélation. On trouve :

r(économie, C1) = – 0.708

r(économie, C2) = 0.496

4) Le point représentant la note d’expression est presque confondu avec le point représentant la note de langue. Il n’apparaît pas toujours sur les représentations graphiques obtenues par logiciel.

Cercle de corrélation C1 x C2.

L’axe 1 montre l’échec et la réussite des étudiants : les valeurs fortement négatives de la première composante principale caractérisent des élèves dont les quatre notes considérées sont plus élevées que leur moyenne observée, et inversement. L’axe 2 sépare les disciplines scientifiques des disciplines littéraires : un étudiant dont la seconde composante principale est positive aura en général de meilleures notes dans les matières scientifiques que dans les matières littéraires.

La note d’économie, qui n’intervient pas dans les calculs, est proche des notes de gestion et de mathématiques. Cela signifie qu’un étudiant réussissant bien dans les disciplines scientifiques réussit généralement bien aussi en économie, et inversement.

5) On distingue les caractéristiques de chaque étudiant sur le plan principal 1 x 2.

Plan principal 1 x 2

 

 

L’individu 8 est proche de l’origine des axes, et a vraisemblablement des notes voisines des moyennes observées. Sa troisième composante principale est élevée, comme celle de l’étudiant de rang 1. Leurs notes en expression et mathématiques sont nettement supérieures aux moyennes correspondantes.

Le meilleur élève semble être l’élève n°3, au sens de la première composante principale (ce n’est pas nécessairement celui qui a la meilleure moyenne). Il réussit mieux en expression et en langue qu’en dans les matières scientifiques, contrairement à l’élève n°6, qui est aussi l’un des meilleurs. L’étudiant 5 est le plus faible.

Les moyennes observées sont toutes supérieures à 10 : un étudiant qui aurait 10 partout serait plutôt moins bon que les autres, surtout en expression et en langue. Il se trouverait légèrement à gauche de l’origine des axes et au-dessus de l’axe des abscisses.

En admettant que les composantes principales C1 et C2 sont égales à :

C1

=

– 0.5456 X1

 0.4727 X2

0.4986 X3

0.4798 X4

C2

=

0.3787 X1

+

0.5975X2

0.5039X3

0.4957X4

le calcul donne comme coordonnées : c1 = 0.551 et c2 = 0.347.

On pourra vérifier toutes ces propriétés directement sur les données.