Discrimination du sexe et de l’âGE

 

L’étude de cas que nous proposons ci-dessous a pour intérêt de montrer sur des données simples la mise en oeuvre et les propriétés de l’analyse factorielle discriminante, et d’en vérifier l’efficacité en donnant des résultats connus par ailleurs

 

Les données traitées sont réelles (fichier heredite.par). Elles sont constituées de la taille, du poids et de la pointure de 63 étudiants, de 90 étudiantes, et de leurs parents. On obtient ainsi 459 observations de la forme (taille, poids, pointure) réparties en 4 groupes :

groupe 1 : fils (étudiants)

groupe 2 : pères

groupe 3 : mères

groupe 4 : filles (étudiantes)

L’objectif est de déterminer l’existence d’une liaison entre les variables et les groupes et d’établir une règle d’affectation.

On dispose donc de trois variables, de quatre groupes et de 459 unités statistiques. Au plan statistique, ces données présentent un inconvénient : les unités statistiques ne sont pas indépendantes, puisque les groupes sont constitués des enfants et des parents. Il faudrait théoriquement en tenir compte dans l’analyse, mais les méthodes qui le permettent sont trop complexes pour être présentées ici.

 

Nous indiquons dans le texte les programmes donnant les résultats demandés. On pensera, après chaque utilisation, à fermer les programmes inutiles.

I. analyse préalable des données

1) L’effectif est suffisant pour permettre la création de deux échantillons par un tirage au hasard parmi les 459 u.s.. En procédant par tirage au hasard dans le fichier heredite.dat (fichier de paramètres heredite.par), déterminer :

·        un premier échantillon de calcul de 200 unités statistiques actives ;

·        un second échantillon test de 259 unités statistiques.

On pourra utiliser le programme « Tirage aléatoire dans un tableau » du menu « Simulation de lois de probabilités » et pour effectuer le tirage et sauvegarder ces échantillons dans un fichier chacun par l’option 8, par exemple data.dat et test.dat (data.par et test.par pour les paramètres).

Contrôler que les effectifs des groupes dans chacun des deux échantillons sont proches (programme « étude d’une variable statistique » du menu « Analyse statistique descriptive »).

2) A l’aide du programme « Gestion d’un tableau de données » du menu « Analyse statistique descriptive », créer un fichier par groupe d’unités statistiques du fichier de calcul. On appellera ces fichiers data1, data2, data3 et data4 (.par pour les paramètres , .dat pour les données). étudier la normalité des variables statistiques sur chaque fichier data1, data2, data3 et data4. On pourra effectuer un test d’asymétrie et d’aplatissement (programme « étude d’une variable statistique « du menu « Analyse statistique descriptive »).

II. Analyse factorielle discriminante.

1) Calculer, à l’aide du programme d’analyse discriminante, les moyennes des variables calculés sur les 200 unités statistiques et sur chaque groupe. Calculer les rapports de corrélation des trois variables. Quelle est celle qui permet de distinguer le mieux les quatre groupes ? Les autres rapports de corrélation sont-ils négligeables ?

2) Combien de composantes discriminantes obtient-on ? Quels sont leurs pouvoirs discriminants ? Interpréter les composantes discriminantes en étudiant les coordonnées des centres de gravité sur les deux premiers axes discriminants et les corrélations aux variables initiales.

3) On décide de conserver les trois composantes discriminantes pour classer les individus. Calculer les pourcentages de bien classés sur l’échantillon test et l’échantillon de calcul lorsque la règle de classement est définie par la plus petite distance aux centres de gravité.

4) On décide maintenant d’écarter la troisième composante discriminante de la règle de décision. Est-ce judicieux ? Calculer et comparer les pourcentages de bien classés sur l’échantillon test et l’échantillon de calcul suivant la plus petite distance aux centres de gravité. Ce pourcentage est-il significatif ?

5) On veut vérifier que les matrices de covariances théoriques des variables dans chaque groupe sont égales. Centrer et réduire les variables sur l’échantillon de calcul, et calculer les covariances des variables ainsi centrées et réduites sur chaque groupe. On pourra utiliser le programme « Analyse de groupes d’individus » du menu « Traitements de statistique descriptive ». Ces matrices paraissent-elles comparables ? Conclure sur la validité de la règle de classement.

6) Représenter graphiquement le plan discriminant 1 x 2, en caractérisant les individus par le rang du groupe auquel ils appartiennent et en représentant les centres de gravité des groupes. Commenter ce plan.

7) On considère quelqu’un qui mesure 165 cm, qui pèse 54 kg et qui chausse du 39. Dans quel groupe cette personne est-elle classée par la règle précédente ?

On dispose par ailleurs d’informations sur cette personne qui nous amène à définir les probabilités a priori suivante : p1 = 0.1, p2 = 0.2, p3 = 0.5, p4 = 0.2. Dans quel groupe cette personne est-elle alors classée ?

8) Tester la règle de décision par chaotisation.

 


EXEMPLE

 

I. Analyse préalable des données.

1) Les effectifs des groupes dans les fichiers data et test créés sont les suivants :

 

groupe 1

groupe 2

groupe 3

groupe 4

data

25

63

68

44

test

38

90

85

46

Le test d’indépendance du c2 montre que les répartitions suivant les groupes sont comparables dans le fichier data et dans le fichier test :

Chi² observé: 1.826893  degré de liberté: 3  Probabilité critique: PC= .6132301

2) Normalité des variables :

Groupe 1 (effectif 25):

variable

coefficient d’asymétrie

coefficient d’aplatissement

Taille

0.493

2.903

Poids

0.747

3.494

Pointure

0.389

2.231

Seuils (5%)

< 0.711

[1.91, 4.16]

Groupe 2 (effectif 63)

variable

coefficient d’asymétrie

coefficient d’aplatissement

Taille

-0.124

2.199

Poids

0.112

3.813

Pointure

0.112

3.346

Seuils (5%)

< 0.492

[2.27, 3.87]

Groupe 3 (effectif 68)

variable

coefficient d’asymétrie

coefficient d’aplatissement

Taille

-0.020

3.058

Poids

0.317

3.097

Pointure

-0.089

2.670

Seuils (5%)

< 0.492

[2.27, 3.87]

Groupe 4 (effectif 44)

variable

coefficient d’asymétrie

coefficient d’aplatissement

Taille

-0.005

2.674

Poids

1.052

3.478

Pointure

-0.296

2.472

Seuils (5%)

< 0.587

[2.07, 4.06]

 

Les seuils sont respectés dans l’ensemble. On note toutefois une asymétrie de la répartition de poids dans le groupe 1, due à un étudiant de 85 kg, et surtout dans le groupe 4, à cause de six étudiantes pesant nettement plus que les autres. En ce qui concerne l’aplatissement, il n’y a rien d’anormal.  La répartition des poids n’est donc pas toujours proche de la loi normale.

 

II. analyse factorielle discriminante.

1) Les moyennes des variables calculés sur les 200 unités statistiques du fichier de calcul et sur chaque groupe sont les suivantes :

 

Échantillon

Fils

(groupe 1)

Pères

(groupe 2)

Mère

(groupe 3)

Filles

(groupe 4)

Écart-type

(échantillon)

Effectifs

200

25

63

68

44

200

Taille

165.755

174.8

170.6

160.2

162.3

7.84

Poids

61.505

64.4

70.5

57.2

53.7

9.73

Pointure

39.525

41.6

41.7

38.0

37.7

2.27

Les colonnes donnent les centres de gravité des groupes ; en comparant les moyennes des groupes et compte tenu des écarts-types, les groupes 1 et 2 (fils et pères) apparaissent très différents des groupes 3 et 4 (mères et filles).

Les rapports de corrélation permettent d’évaluer les écarts entre ces groupes par rapport à la dispersion totale :

 

 

Variances

 

rapport

Variable

totale

inter

intra

de corrélation

Taille

61.51

30.80

30.71

.50

Poids

94.73

46.59

48.141

.49

Pointure

5.13

3.54

1.60

.69

Parmi les variables initiales, c’est la pointure qui permet de distinguer le mieux les quatre groupes. Mais les autres rapports de corrélation ne sont pas négligeables et l’analyse discriminante, qui prend en compte toutes les variables, peut aboutir à une règle de décision plus efficace, d’autant plus que la pointure ne discrimine pas bien les groupes 1 et 2, ni surtout les groupes 3 et 4.

2) En effectuant l’A.F.D. de ces données, on obtient trois composantes discriminantes puisqu’il y a trois variables et quatre groupes. Nous donnons ci-dessous les pouvoirs discriminants et les corrélations avec les variables initiales :

 

Valeurs propres : l1 = 2.3548     l2 = 0.3164     l3 = 0.0025

Pouvoirs discriminants :     p1 =0.7019      p2 = 0.2404     p3 = 0.0025

 

Corrélations des variables et des composantes discriminantes

 

D1

D2

D3

Taille

0.796

0.480

-0.369

Poids

0.809

-0.367

-0.460

Pointure

0.990

0.049

0.129

 


La première composante discriminante est fortement corrélée aux trois variables initiales, surtout à la pointure ; elle caractérise un effet appelé taille (cette terminologie est indépendante de la nature des variables) : les personnes dont la coordonnée sur l’axe correspondant est élevée sont des personnes de grande taille, d’un poids élevé et avec de grands pieds. On voit apparaître les personnes de sexe masculin (groupes 1 et 2). Inversement, on trouve de l’autre coté de l’axe les personnes de sexe féminin (groupes 3 et 4) :

La seconde composante discriminante oppose le poids et la taille ; on parle souvent d’effet forme, par opposition à l’effet taille. Compte tenu de l’effet taille précédent, on peut donc discriminer les groupes par leur forme, en comparant les tailles aux poids : pour un même effet taille, les légers sont du côté positif de l’axe 2, les lourds du coté négatif.

Les coordonnées des centres de gravité des groupes nous précisent les intuitions précédentes : l’axe 1 permet effectivement de séparer les sexes, et l’axe 2 les générations.

Coordonnées des centres de gravité sur les axes discriminants

Groupe

Axe 1

Axe 2

Axe 3

fils

1.5862

1.1659

0.0645

pères

1.7803

-0.3983

-0.0289

mères

-1.2329

-0.3689

0.0469

filles

-1.5449

0.4780

-0.0679

 

3) On conserve les trois composantes discriminantes pour affecter les individus à un groupe suivant la règle de la plus petite distance. Les tableaux de classement dans l’échantillon de calcul et dans l’échantillon test sont les suivants :

 


 

Fils

Père

Mère

Fille

Fils

21

4

0

0

Père

11

48

3

1

Mère

1

4

41

22

Fille

2

0

11

31

Classement du fichier de calcul

Pourcentage de bien-classés 70.50%

(trois composantes discriminantes)

 

Fils

Père

Mère

Fille

Fils

32

6

0

0

Père

8

73

8

1

Mère

3

6

41

35

Fille

4

2

6

34

Classement du fichier  test

Pourcentage de bien-classés 69.5%

(trois composantes discriminantes)


Le pourcentage de bien classés dans le fichier test est très légèrement inférieur à celui que l’on observe dans le fichier de calcul : on pouvait s’y attendre, puisque la règle est établie sur le fichier de calcul, mais la très faible différence est déjà une indication de la validité de la règle, plus sensible à la structure des données qu’aux valeurs numériques observées.

 

4) Le principe de limitation des variables dans la règle d’affectation et son très faible pouvoir discriminant (p3 = 0.0025) aboutissent évidemment à écarter la troisième composante discriminante. En limitant le calcul de la distance des individus aux centres de gravité de groupes au premier plan discriminant, on obtient les résultats suivants :


 


 

Fils

Père

Mère

Fille

Fils

21

4

0

0

Père

11

48

3

1

Mère

1

4

42

21

Fille

2

0

10

32

Classement du fichier  de calcul

Pourcentage de bien-classés 71.5%

(deux composantes discriminantes)

 

Fils

Père

Mère

Fille

Fils

33

5

0

0

Père

8

73

8

1

Mère

3

6

46

30

Fille

4

2

6

34

Classement du fichier  de calcul

Pourcentage de bien-classés 71.8%

(deux composantes discriminantes)


L’élimination de la troisième composante discriminante augmente légèrement le pourcentage de bien classés sur l’échantillon de calcul et sur l’échantillon test : le choix de la règle d’affectation est confirmé.

L’examen du tableau de classement de l’échantillon test montre que la discrimination est très bonne suivant le sexe et un peu moins bonne suivant la génération .

5) Cette règle de décision est purement géométrique et n’est réellement efficace que si les matrices de covariances théoriques des variables calculées sur chaque groupe sont égales. Pour comparer ces matrices, nous avons centré et réduit les variables sur l’échantillon de calcul ; les covariances des variables ainsi centrées et réduites, calculées sur chaque groupe sont les suivantes :


Fils

 

Taille

Poids

Pointure

Taille

0.60

 

 

Poids

0.42

0.58

 

Pointure

0.18

0.22

0.28

Pères

 

Taille

Poids

Pointure

Taille

0.51

 

 

Poids

0.27

0.49

 

Pointure

0.24

0.18

0.36

 

Mères

 

Taille

Poids

Pointure

Taille

0.44

 

 

Poids

0.20

0.63

 

Pointure

0.16

0.17

0.28

Filles

 

Taille

Poids

Pointure

Taille

0.51

 

 

Poids

0.10

0.30

 

Pointure

0.25

0.10

0.29


Nous admettrons que les matrices observées précédentes ne contredisent pas l’hypothèse d’égalité des matrices théoriques en remarquant simplement que tous les termes sont du même ordre. Nous pouvons donc considérer que la règle d’affectation que nous avons choisie est satisfaisante. Le classement suivant la distance normalisée donne d’ailleurs des résultats très voisins.

6 ) Nous donnons ci-dessous la représentation graphique des unités statistiques actives sur le plan principal 1x2, caractérisées par le rang du groupe auquel elles appartiennent ; les centres de gravité des groupes y figurent en italiques. La discrimination est très visible sur ce schéma, et l’on note le léger mélange des groupes 3 et 4 à gauche de l’axe des ordonnées, des groupes 1 et 2 à droite, que nous avons constaté dans les tableaux de classement. La position des centres de gravité permet de penser que la discrimination entre les pères et les fils est meilleure qu’entre les mères et les filles,


                              |        3

                              |

            2                 |

                  2 2      1  |4    3   4  4

                   4   3      |      2   4  3    3

   1                   2 2    |   4  3          3    2 2   2  2

   1        3     1 2      4  | 3      4   G1

 3           43   41     2    |1             42       23 2       4

       4    1    G4 2  31     |   4    2  3                3

    3 2      3   42     33   3|   2      2    4    1

------1----3-3--4---1---3-----|----2-----2---3---1------------3---

      3     1      G3  3   3 2|   1      1   G2  4   3     3

                 4  3   3   2 |  42     3             2

3     3  4   2          2     |  3     3      2 4            1

 3         2       2        32|  2       4        3   3     1

                           2  |  4                  4

               4      3       3     3

                    3         |

                             1|                            2

                              |

                              |

                          2   |      3

          2    3              |

 

Plan discriminant 1 x 2 (l1 = 2.355, l2 = 0.316)

(fichier de calcul)

 

7) Imaginons maintenant que nous voulions classer des personnes dans l’un des quatre groupes en fonction de sa taille, de son poids et de sa pointure.

Il est possible que l’on connaisse de quelle population est issue cette personne : si c’est un spectateur d’un match de football, il y a de plus chances a priori qu’elle soit de sexe masculin ! Inversement, s’il s’agit d’un client d’une entreprise de ventes par correspondances, ce serait plutôt une mère : c’est ce dernier cas que nous considérons. Les probabilités a priori sont données par la répartition des clients de l’entreprise suivant les groupes : p1 = 0.1, p2 = 0.2, p3 = 0.5, p4 = 0.2.

Effectuons les calculs sur la personne à classer :


 

Distances

Statistique

 

(carrés)

de décision

G1

5.327626

9.932797

G2

6.531511

9.750387

 

 

Distances

Statistique

 

(carrés)

de décision

G3

2.163703

3.549997

G4

1.123633

4.342509


Si l’on tient compte des probabilités a priori, cette personne est classée dans le groupe 3, parmi les mères (statistique de décision), sinon dans le groupe 4 avec les étudiantes (distance).

8) Nous avons effectué cinq chaotisations : les pourcentages de bien classés en considérant les trois composantes discriminantes ont été les suivants : 40.5%, 13.5%, 7%, 22.5%, 32.5%.

Le pourcentage de 70% obtenu sur les données réelles est donc largement supérieur aux pourcentages obtenus par un simple hasard : on peut considérer que la règle d’affectation ne résulte pas du hasard.