1. Diagrammes.

Il est facile de représenter graphiquement la répartition des observations suivant une variable qualitative, ordinale ou quantitative codée par valeurs entières. Il existe de nombreuses méthodes, disponibles sur la plupart des tableurs comme Excel, et les erreurs sont dues fréquemment à des choix malheureux.

1.1 Généralités. Diagrammes de base.

Dans le cas général des données qualitatives, la variable qualitative est constituée de « modalités » dont le codage peut être effectué par des caractères alphabétiques (par exemple, F pour Féminin, M pour Masculin) mais il est fréquent, pour faciliter le traitement informatique des données, d’utiliser un codage numérique (1 pour Féminin, 2 pour Masculin).

La plupart des erreurs, dans les graphiques concernant les variables qualitatives, viennent de ce codage par des chiffres qui n’a en réalité aucun sens numérique ni ordinal. La CSP agriculteur, codée par 1, n’est pas « avant » la CSP ouvrier, codée par 2. Le sexe peut être codé par 1 pour Féminin et par 2 pour Masculin ou inversement, cela n’a aucune importance. L’ordre des valeurs n’a pas de sens particulier et peut être modifié.

Les variables quantitatives discrètes sont définies par des grandeurs numériques exprimées en nombres entiers. Le nombre d’enfants par foyer en est un exemple, de même que le nombre de personnes attendant l’autobus à un arrêt, faisant la queue à une caisse d’un hypermarché etc.…Ces variables sont quantitatives : on peut en calculer et en interpréter la moyenne. On peut les représenter par des diagrammes comme les variables qualitatives, mais le codage a un sens numérique, et on ne peut inverser l’ordre des valeurs.

Il existe deux diagrammes de base : un diagramme en bâtons, appelé fréquemment et improprement histogramme, et un diagramme circulaire.

Ces diagrammes représentent les effectifs ou les pourcentages de l’échantillon suivant chaque modalité de la variable qualitative :

·      Le diagramme en bâtons est élémentaire : on reporte le long de l’axe des abscisses la liste des modalités de la variable et le long de l’axe des ordonnées l’effectif de l’échantillon correspondant à chacune d’entre elles.

·      Le diagramme circulaire est constitué d’un disque représentant la totalité de l’échantillon. Chaque modalité de la variable qualitative est caractérisée par un secteur circulaire dont l’aire, et par suite l’angle au centre, représente l’effectif de l’échantillon correspondant.

Il est préférable dans la quasi totalité des cas de représenter non les effectifs correspondant à chaque modalité ou à chaque valeur entière, mais les proportions. Les deux méthodes sont équivalentes, mais la représentation des pourcentages permet de comparer deux diagrammes entre eux indépendamment des effectifs totaux.

On peut créer d’autres graphiques à partir de ces deux types de diagrammes, par juxtaposition, superposition etc. On peut aussi trier les modalités dans l’ordre des effectifs décroissants, l’objectif étant alors de classer les modalités.

Certains logiciels proposent des graphiques très élaborés, dont la compréhension devient cependant difficile ; le but de ces graphiques est plus commercial que de fournir un outil statistique de qualité.

1.2 Diagrammes d’EXCEL.

L’assistant du tableur EXCEL propose un certain nombre de graphiques, parmi lesquels des histogrammes (qui sont en réalité des diagrammes en bâtons) et des graphiques circulaires (figure 1.1) :


Parmi les histogrammes, on choisit un des formats suivants (figure 2.1):

 

La variété offerte dans le choix du diagramme a pour réciproque le danger de sélectionner un type de schéma ne convenant pas aux données étudiées. Ceux qui proposent une représentation de valeurs négatives (types 1, 2, 4, 6, 7 et 8) sont à éviter en statistique et conviennent pour représenter des résultats financiers par exemple.

Les diagrammes circulaires peuvent être créés sous forme d’ellipses donnant une représentation dans l’espace (3D) pour améliorer l’esthétique( figure 3.1) :

 

1.3 Exemples.

Les répartitions des clients du tableau 2.1 sont les suivantes :

Sexe

Effectifs

Catégorie socioprofessionnelle

Effectifs

1. sexe féminin :

30

1. Agriculteur :

3

2. sexe masculin :

20

2. Ouvrier :

10

 

 

3. Employé :

17

 

 

4. Cadre moyen :

8

 

 

5. Cadre supérieur :

4

 

 

6. Commerçants, artisans :

4

 

 

7. Inactifs :

4

 

Les diagrammes en bâtons donnés en figures 4.1, 5.1, 6.1, 7.1, 8.1 ont été obtenus par Excel :

On notera que dans les figures 4.1 à 7.1, ce sont les effectifs qui sont reportés en ordonnée. Il est préférable que ce soient les proportions, ou les pourcentages, par homogénéité avec la procédure générale et pour faciliter les comparaisons de diagrammes établis à partir d’ensembles de données différents.

Le diagramme donné en figure 5.1 représente les effectifs par catégorie socioprofessionnelle. Ces CSP ont été classées suivant les effectifs décroissants : les employés sont très nombreux parmi les clients, les ouvriers et les cadres moyens sont à peu près deux fois moins nombreux. Les autres CSP ne sont guère présentes dans l’échantillon.

 

On peut calculer aussi les répartitions des hommes et des femmes suivant la CSP, et les représenter simultanément. On obtient un diagramme en bâtons permettant de comparer les effectifs et non les proportions : la différence est importante, puisqu’il y a 30 femmes et 20 hommes.

 

Femmes :

Hommes

Agriculteur :

1

2

Ouvrier :

6

4

Employé :

11

6

Cadre moyen :

4

4

Cadre supérieur :

2

2

Commerçant, artisan :

3

1

Inactif :

3

1

 

Le premier diagramme circulaire ci-dessous représente la répartition des hommes suivant la catégorie socioprofessionnelle et est obtenu avec un effet en trois dimensions :

Le second, qui représente la répartition des femmes suivant la catégorie socioprofessionnelle, se présente sous la forme d’un disque.

L’aire S d’un secteur circulaire caractérisant une proportion p de l’échantillon doit être égale à une proportion p de l’aire A du disque. En notant Q son angle au centre, on a les angles suivants dans le cas de la répartition des femmes :

p = 0.03

Q = 0.03 x 360

=

10.8°

p = 0.07

Q = 0.07 x 360

=

25.2°

p = 0.10

Q = 0.10 x 360

=

36°

p = 0.13

Q = 0.13 x 360

=

46.8°

p = 0.20

Q = 0.20 x 360

=

72°

p = 0.37

Q = 0.37 x 360

=

133.2°


 

 

Lorsque l’aire totale du disque caractérise le nombre total d’observations, l’aire de chaque secteur caractérise l’effectif de la modalité correspondante. En construisant deux disques, on peut alors comparer la répartition des hommes à celles des femmes suivant les CSP en pourcentages (caractérisés par les angles) et en effectifs (caractérisés par les aires).