convergence d’un histogramme
vers la densité théorique

 

Cette application a pour objectif principal de visualiser la convergence d’un histogramme vers la densité de la loi de probabilité théorique suivie par les observations simulées. Elle utilise les programmes Simulation de la loi ….

Dans le cas d’une variable discrète, la démarche générale peut être la suivante :

·      on simule un échantillon d’une loi de probabilité théorique connue (par exemple, la loi binomiale de paramètres n = 15 et p = 0.3)

·      on fixe la taille des échantillons simulés, à n = 20 : on affiche la représentation du diagramme et de la densité :

·      en répétant l’expérience, on constate une certaine variation du diagramme par rapport à la densité. Par contre, en augmentant la taille de l’échantillon (100, 500, 1000), cette variation a tendance à diminuer. Pour des échantillons de grande taille, on observe que le diagramme est quasiment toujours proche de la densité :

En ce qui concerne les lois continues, la convergence de l’histogramme vers la densité passe d’abord par celle de l’histogramme vers la densité par classes lorsque le nombre d’observations augmente : c’est une convergence de même nature que la précédente. Pour la constater, on fixe cinq classes et on augmente l’effectif de l’échantillon : on constate que l’histogramme se stabilise.

Ensuite, il faut introduire la convergence de la densité par classes vers la courbe représentative de la densité théorique lorsque le nombre de classes tend vers l’infini et que leur amplitude tend vers 0. Pour cela, on choisit un échantillon de grande taille (15 000 par exemple), et on augmente peu à peu le nombre de classes. On aboutit finalement à l’histogramme ci-dessous, sur lequel  la convergence vers la densité théorique est apparente, et qui est relativement stable dans les différentes simulations que l’on peut effectuer :

Les logiciels permettent de multiplier les expériences, en augmentant les effectifs ou le nombre de classes. On pourra donc observer que, lorsque le nombre de classes est important par rapport au nombre d’observations, la convergence peut être moins claire. Dans la figure ci-dessous, il y a 1000 observations pour 25 classes : la densité estimée par l’histogramme est beaucoup plus irrégulière.

C’est là un autre objectif de l’application : montrer qu’un trop grand nombre de classes aboutit paradoxalement à une perte d’information.

Cette remarque peut être suivie d’exemples obtenus par la simulation d’échantillons de taille plus faible. On peut ainsi répondre à la question suivante : pour un échantillon de taille donné de la loi normale, quel est le nombre de classes qui permet de visualiser la convergence de l’histogramme vers la densité de la loi normale ?

De façon plus précise :

·      on choisit la taille de l’échantillon, 200 par exemple ;

·      on fixe le nombre de classes à 3

·      on affiche l’histogramme et la densité de la loi normale

·      on augmente le nombre de classes peu à peu jusqu’à une bonne approximation ;

·      on effectue d’autres simulations d’échantillons de la loi normale de même taille pour vérifier que l’histogramme reste stable, c’est-à-dire la plupart du temps proche de la densité théorique ;

·      on décide alors du nombre de classes qu’il est préférable de choisir pour l’effectif choisi.

Au plan théorique, on peut introduire une réflexion sur la démarche de test statistique expliquée dans les chapitres suivants, en particulier sur la notion de décision : l’histogramme est-il en contradiction avec la loi théorique simulée ? Comment mesurer l’écart entre l’histogramme et la densité ?