Choix des classes

Cette application pédagogique permet de comprendre l’importance du choix des intervalles dans le tracé des histogrammes.

Nous analysons ci-dessous les revenus des clients d’Euromarket pour étudier l’effet du choix des bornes sur l’histogramme et comparer l’histogramme à la courbe en cloche. On pourra effectuer cette procédure sur les autres variables quantitatives des données Euromarket.

Pour calculer approximativement la densité d’une série d’observations, on commence évidemment par préciser les intervalles dans lesquels ces observations vont être réparties. Il faut donc choisir le nombre de classes, les bornes intermédiaires et les bornes extrêmes.

1. Nombre de classes.

Le nombre de classes (ou d’intervalles, nous utilisons les deux ytermes indifférement) est un paramètre important parce que la qualité de l’histogramme en dépend étroitement.

Un petit nombre de classes donne une approximation très grossière de la densité, et l’histogramme peut cacher des propriétés intéressantes comme l’existence d’une classe modale.

Un grand nombre de classes donne un histogramme instable, très dépendant des bornes choisies.

Il est donc nécessaire de choisir un nombre de classes suffisant mais donnant une estimation stable de la densité.

On pourra donc procéder de façon empirique pour déterminer le nombre de classes en fonction de la taille de l’échantillon.

1) Répartir les revenus des clients d’Euromarket dans 10 classes de même amplitude, en fixant comme bornes extrêmes la plus petite et la plus grande des valeurs observées (le choix de ces bornes est discuté ci-dessous). Construire l’histogramme.

2) On suppose que l’un des clients dont le revenu se trouve dans la première classe s’est légèrement trompé : son revenu appartient à la seconde classe. Quel est le pourcentage de variation des densités de ces deux classes ?

3) Même question concernant les cinquième et la sixième classes. Les variations relatives sont-elles comparables à celles de la question précédente ?

4) Visualiser ces variations sur l’histogramme.

6) Construire l’histogramme avec cinq classes de même amplitude. Cet histogramme est-il plus stable que le précédent ?

2. Choix des bornes extrêmes

Les bornes extrêmes ont une importance particulière parce qu’elles interviennent dans le calcul de la densité de la première classe et de la dernière et que ce sont ces classes qui donnent à l’histogramme un aspect plus ou moins proche de la courbe en cloche, qui est dans beaucoup de situations la courbe de référence.

La méthode consistant à choisir la plus petite et la plus grande des observations n’est pas toujours satisfaisante. En effet, ces valeurs sont des valeurs observées : un autre échantillon donnera d’autres valeurs.

Le choix des valeurs extrêmes doit donc être raisonné. Bien entendu, la première borne doit être inférieure à la plus petite valeur observée, et la dernière supérieure à la plus grande, pour que toutes les observations soient prises en compte dans la répartition. Mais leurs valeurs doivent être fixées en fonction de la connaissance a priori de la variable que l’on étudie.

Pour classer des notes sur 20, on peut choisir 0 et 20 comme bornes extrêmes. Pour classer des observations qui n’ont pas de limites précises, mais dont on  peut penser qu’elles sont réparties suivant la courbe en cloche, on peut choisir comme borne extrême inférieure la moyenne moins trois fois l’écart type et comme borne extrême supérieure la moyenne plus trois fois l’écart type[1]. On sait en effet que dans la quasi totalité des cas, des valeurs qui sont réparties suivant la courbe en cloche sont comprises entre ces deux bornes.

On constate donc que la construction de l’histogramme, dont le but est de mettre en évidence les propriétés de la série d’observations que l’on a effectuées, dépend en partie des hypothèses que l’on émet sur cette série et ses propriétés.

Parfois, on pourra éliminer des données une observation considérée comme aberrante, dont la valeur n’a rien à voir avec les autres. Par exemple, Bill Gates est allé par hasard faire ses courses ce jour-là et figure dans la liste des 50 clients : sa présence fausse toutes les statistiques que l’on peut faire, et il faut l’extraire des données pour pouvoir construire l’histogramme.

Par suite, choisir, pour classer les revenus, comme première borne 0F n’a pas de sens, pas plus que 1 000 000F comme dernière borne, parce que ces deux valeurs sont quasiment impossibles. On pourra procéder à plusieurs choix de bornes extrêmes et comparer les histogrammes.

3. Choix définitif

Pour choisir les bornes des classes de revenus, on pourra suivre rn fin de compte la procédure suivante :

1) On fixe à 50 000F et 250 000F les valeurs extrêmes. Construire l’histogramme des revenus en définissant vingt classes. Cet histogramme est-il satisfaisant ?

2) On effectue une nouvelle répartition. Combien faut-il considérer de classes pour obtenir un histogramme relativement stable ? Regrouper les classes de façon à n’obtenir que cinq classes.

3) Construire l’histogramme. Une erreur de classement en modifie-t-elle la forme ? Quelle est la classe modale ? La répartition est-elle symétrique ? L’histogramme est-il proche de la courbe en cloche ?

 



[1] Ces paramètres sont définis dans le chapitre 2.