3. Histogrammes.

Dans toutes les analyses statistiques, on donne une représentation graphique particulière de la répartition des observations, appelée « histogramme ». Il s’agit mathématiquement de la représentation approximative d’une fonction appelée densité, dont l’interprétation est analogue à la densité classique utilisée par exemple en démographie, et dont nous introduisons la notion torique dans le chapitre 4.

Cette notion de densité dépend de l’unité de mesure utilisée pour effectuer les observations et les classer dans des intervalles.

3.1 Notion de densité.

En géographie on définit la densité de population par le nombre d’habitants par unité d’aire, en général par km² et on la calcule dans des zones géographiques parfaitement définies (par exemple, les villes, les états, …). C’est ainsi que l’on divise la population de la France (60 millions d’habitants) par sa superficie (550 000 km2) pour trouver le nombre d’habitants au km2 (109 h/km2). On peut calculer la densité par région, par département, etc.

La densité statistique est analogue, mais pour obtenir des valeurs indépendantes du nombre total d’observations, on préfère utiliser les proportions d’observations plutôt que les effectifs. On la calcule ensuite dans chacun des intervalles préalablement définis pour répartir les observations, en divisant la proportion d’observations par la longueur de l’intervalle. Mathématiquement, c’est une approximation de la « densité de probabilité ». (cf. chapitre 4).

 

Définition : on appelle densité de la série (xi) i = 1, …, n dans l’intervalle [a, b [ la proportion d’observations par unité de mesure dans cet intervalle.

 

Le calcul est le suivant :

·      soit p la proportion d’observations contenue dans la classe [a, b [.

·      la densité est donnée par d = p/[b-a] dans tout l’intervalle [a, b [.

 

Exemple : on considère la répartition des achats des 50 clients suivant les intervalles arbitraires préalablement choisis (tableau 5.1). La densité est calculée de la façon suivante :






Classe 1 : d = 0.32/200 = 0.0016

Classe 2 : d = 0.28/100 = 0.0028

Classe 3 : d = 0.14/100 = 0.0014

Classe 4 : d = 0.14/200 = 0.0007

Classe 5 : d = 0.12/400 = 0.0003

 

On présente souvent les résultats sous la forme suivante :

Classe

 

Inf.

Sup.

 

longueur

%

densité

1

[

0,

200

[

200

32

0.0016

2

[

200,

300

[

100

28

0.0028

3

[

300,

400

[

100

14

0.0014

4

[

400,

600

[

200

14

0.0007

5

[

600,

1000

]

400

12

0.0003

 

Tableau 8.1 : densité dans le cas de 5 classes de longueurs différentes.

 

Dans le cas de 10 classes de même longueur, on obtient le tableau 9.1. La longueur des classes étant constante, la densité est directement proportionnelle à la fréquence relative ou encore au nombre des observations qui lui appartiennent. Cette particularité est à l’origine de l’erreur fréquente consistant à reporter en ordonnée les pourcentages au lieu de la densité dans le tracé de l’histogramme.

Classe

 

Inf.

Sup.

 

longueur

%

densité

1

[

39.9000,

131.0260

[

91.126

16

0.00176

2

[

131.0260,

222.1520

[

91.126

22

0.00241

3

[

222.1520,

313.2780

[

91.126

28

0.00307

4

[

313.2780,

404.4040

[

91.126

8

0.00088

5

[

404.4040,

495.5300

[

91.126

8

0.00088

6

[

495.5300,

586.6560

[

91.126

4

0.00044

7

[

586.6560,

677.7820

[

91.126

6

0.00066

8

[

677.7820,

768.9080

[

91.126

4

0.00044

9

[

768.9080,

860.0340

[

91.126

2

0.00022

10

[

860.0340,

951.1600

[

91.126

2

0.00022

Tableau 9.1 : densité dans le cas de 10 classes de même longueur.

3.2 Représentation graphique de la densité : histogrammes.

définition : on appelle histogramme[1] la représentation graphique de la densité.

 

Il est construit de la façon suivante :

·      en abscisse, on reporte les valeurs observées et les classes que l’on a définies ;

·      en ordonnée, on reporte la densité.

Les valeurs observées sont quantitatives : l’ordre des classes et leur longueur sont imposés sur l’axe des abscisses et une modification de cet ordre ou le non-respect de la longueur n’a aucun sens. L’origine représente toujours la valeur 0 en ordonnée. Par contre, elle peut être choisie différemment sur l’axe des abscisse.

La proportion observée d’unités statistiques dans une classe est donc caractérisée par l’aire du rectangle correspondant.

Il est possible d’obtenir par des logiciels classiques des histogrammes, mais on prendra garde qu’en général, ces logiciels supposent que les classes sont de même longueur, et reportent en ordonnée les proportions, au lieu des densités. Les résultats qu’ils donnent lorsque les intervalles choisis sont de longueur variable sont donc erronés. C’est le cas en particulier d’EXCEL.

 

Exemple : Les densités calculées précédemment dans les tableaux 7.1, 8.1 et 9.1 sont représentée par les histogrammes ci-dessous :

Figure 9.1 : histogramme des achats suivant la répartition 7.1

 

Figure 10.1 : histogramme des achats suivant la répartition 8.1

Figure 11.1 : histogramme des achats suivant la répartition 9.1

3.3 Stabilité de l’histogramme. Classe modale. Courbe en cloche.

Il est évident que le choix des classes est fondamental dans le calcul de la densité et que des difficultés pratiques peuvent apparaître suivant les données étudiées.

Tout d’abord, la densité dans la première classe est très dépendante de sa borne inférieure dont le choix est arbitraire. De même, la densité dans la dernière classe dépend de sa borne supérieure.

 

Exemple : considérons comme borne inférieure 39.9 F au lieu de 0 F et comme borne supérieure 951.16 F au lieu de 1000 F (tableau 8.1). Les densités dans les classes 1 et 5 deviennent :

Classe 1 : d = 0.32/(200 - 39.90)

 =

0.32/160.10 = 0.00200

(au lieu de 0.0016)

Classe 5 : d = 0.12/(951.16 - 600)

 =

0.12/351.16 = 0.00034

(au lieu de 0.0003)

La relative stabilité de la densité laisse penser que le choix des valeurs extrêmes est correct.

 

Ensuite, la définition précédente utilise des intervalles de la forme [a, b [ : une observa­tion égale à la borne a est donc prise en compte, à l’inverse d’une observation égale à la borne b. Si l’on préfère les intervalles de la forme ]a, b], on obtiendra la difficulté inverse. L’effectif peut donc être différent bien que la longueur de la classe soit toujours égale à b-a. Ces difficultés sont souvent présentes dans le cas de données entières (variables discrètes) : on peut les éviter en donnant des valeurs décimales aux bornes des intervalles. Dans tous les cas, un histogramme très dépendant du choix des classes n’est pas satisfaisant, et on recherche systématiquement des intervalles donnant une bonne stabilité à l’histogramme.

 

Les histogrammes précédents font apparaître une classe dont la densité est plus grande que les autres.

 

Définition : on appelle classe modale une classe dont la densité est supérieure à celles de ses deux voisines.

 

Une classe modale peut être unique : la répartition (ou l’histogramme) est dite « unimodale ». Lorsqu’il y en a plusieurs, elle est qualifiée de « plurimodale » ; ce dernier cas peut se produire lorsque les observations proviennent de populations différentes.

Les histogrammes donnés en figure 9, figure 10 et figure 11 sont unimodaux.

Il est souvent utile de superposer à l’histogramme la représentation graphique d’une densité théorique, appelée loi normale, qui se présente sous la forme d’une courbe en cloche. Nous verrons en effet que cette densité sert de référence dans de nombreux cas, et que la proximité de l’histogramme avec cette courbe est nécessaire pour appliquer des méthodes statistiques telles que tests, prévision, etc. On se gardera bien toutefois de représenter cette courbe en cloche manuellement : cette représentation nécessite des calculs compliqués et un tracé manuel donne en général des résultats très médiocres.

 

Exemple : nous avons représenté sur la figure 12 ci-dessous l’histogramme de la répartition donnée dans le tableau 4.1 et superposé à cet histogramme la courbe en cloche caractéristique de la densité théorique de la loi normale. La superposition montre bien que la distribution des achats ne suit pas la loi normale.


 

Figure 12.1 : histogramme des achats et courbe en cloche..



[1] Il existe d’autres méthodes pour représenter une densité (estimation de la densité), cf. Saporta (1989).