1. Des probabilités à la statistique.

La statistique inférentielle repose sur une hypothèse intuitive élaborée à partir d’expériences diverses : celle de la convergence de la proportion dans laquelle un événement est réalisé au cours d’expériences répétées vers sa probabilité telle que nous l’avons définie dans le chapitre précédent.

1.1 Simulation.

Les expériences montrant cette convergence sont nombreuses : les jeux de hasard (jeux de casino, loto, etc.) en produisent un grand nombre, et le calcul des gains est fondé sur cette convergence. Certains jeux de stratégie sont fondés aussi sur le calcul des probabilités, comme le bridge.

Nous utilisons dans cet ouvrage des expériences virtuelles, effectuées à l’aide d’un ordinateur[1] et de logiciels spécifiques[2] : ces expériences relèvent ce que l’on appelle la simulation. Cette démarche, qui consiste à générer des nombres « pseudo-aléatoires »[3], est fréquemment utilisée dans le cas où il est difficile ou impossible d’effectuer un calcul numérique (ce sont « les méthodes de Monte Carlo », appliquées par exemple au calcul d’intégrales).

Ces nombres pseudo-aléatoires peuvent être considérés comme des observations d’une v.a. suivant la loi uniforme, et, à l’aide de transformations mathématiques (données dans les exercices 1 et 2), on peut en déduire des observations d’une v.a. suivant une loi quelconque.

Ce qui nous intéresse particulièrement ici, c’est la facilité avec laquelle on peut observer une variable aléatoire autant de fois que l’on veut sans problème matériel. On crée ainsi des données vérifiant les propriétés que l’on a choisies et que l’analyse statistique permet de détecter. Inversement, lorsqu’une méthode n’est efficace que si les données possèdent des propriétés particulières, on pourra vérifier qu’elle ne donne pas de bon résultat dans le cas où les données ne les possèdent pas.

 

Exemple de tableau de données simulées (ou table de nombres au hasard) :

 

 

1

2

3

4

5

6

7

8

1

0.833

0.275

0.972

0.004

0.978

0.532

0.376

0.516

2

0.518

0.936

0.341

0.333

0.177

0.879

0.010

0.090

3

0.863

0.195

0.187

0.439

0.436

0.870

0.226

0.374

 

Tableau 1.5 : nombres pseudo-aléatoires


On déduit facilement de ces nombres compris entre 0 et 1 (exclus) des nombres pseudo-aléatoires variant entre deux valeurs a et b fixées, ou des nombres entiers.

Par exemple, on obtiendra des nombres compris entre –1 et 2 en effectuant la transformation suivante, pour toute valeur x du tableau précédent :

y = 3 x - 1

Pour obtenir des nombres entiers compris entre 1 et 6, on pose :

y = Int(6 x +1)

Int(z) désignant le plus grand entier inférieur ou égal à z : Int(5.456) = 5, Int(4) = 4.

1.2 Loi des grands nombres.

Considérons le cas d’un dé à 6 faces, que l’on suppose parfaitement équilibré : la population est P = {1, 2, 3, 4, 5, 6}. L’équilibre parfait de ce dé signifie qu’il n’y a aucune raison physique d’observer une face plus qu’une autre dans une série de lancers.

En jetant le dé n fois, on obtient bien sûr n faces : à chaque jet, la probabilité d’obtenir {1} est égale à 1/6, et la face obtenue au ie jet n’a aucune incidence sur les autres faces obtenues : il y a équiprobabilité, et les lancers sont indépendants.

Dans ces conditions, l’expérience montre que, pour n suffisamment grand, la proportion de faces {1} va tourner autour de 1/6. De même la proportion de faces {2}, de faces {3} etc.

Considérons les faces 1 à 4 du dé. On définit ainsi un événement A = {1, 2, 3, 4}dont la probabilité est égale à 4/6 = 2/3. L’événement A se produit dans une proportion égale à la somme des proportions de chaque face et est donc de l’ordre de 4 x 1/6 soit 2/3. Cette proportion est là aussi de l’ordre de la probabilité.

 

Exemple : nous avons effectué n = 600 lancers d’un dé parfaitement équilibré.

Les numéros ont tous été observés dans une proportion voisine de 1/6.

L’événement A = {1,2,3,4} et l’événement B = {5,6} ont été observés dans des proportions proches de 2/3 et de 1/3 de l’effectif total : P(A) = 2/3, P(B) = 1/3.

numéros

événements

n° 1

n° 2

n° 3

n° 4

n° 5

n° 6

A

B

102

103

99

92

102

102

396

204

 


L’expérience du dé peut être schématisée à l’aide d’une urne contenant six boules numérotées de 1 à 6. Pour que les tirages soient indépendants, il suffit de remettre chaque boule tirée dans l’urne : les tirages sont donc effectués « avec remise ». On peut généraliser l’expérience en tirant dans une urne contenant un nombre quelconque de boules numérotées à partir de 1.

 

Axiome de la loi des grands nombres : On considère une population contenant N unités statistiques. On y effectue n tirages avec remise et on compte le nombre nA de réalisations d’un événement A donné d’effectif NA. La proportion observée nA / n converge vers la probabilité NA / N de l’événement A lorsque le nombre de tirages augmente indéfiniment.

 

Dans la pratique des sondages, on évite d’interroger deux fois une même personne. Les tirages d’unités statistiques sont donc effectués sans remise, et, par suite, ne sont pas indépendants. Mais on montre que si la taille de la population dans laquelle on effectue les tirages est grande par rapport au nombre d’unités statistiques que l’on tire au hasard, on peut considérer les tirages comme indépendants.

Comme nous supposerons toujours cette condition réalisée, il n’est pas gênant de supposer que les tirages sont effectués avec remise.

1.3 Notion de convergence.

La loi des grands nombres utilise une notion de convergence particulière qui demande des explications.

Considérons l’ensemble des 6 faces du dé. La loi de probabilité de la v.a. X définie par le numéro de la face obtenue est la loi uniforme sur {1, 2, 3, 4, 5, 6} :

Pour tout i de 1 à 6

P(X=i) = 1/6

Les proportions dans lesquelles les faces ont été observées en jetant le dé plusieurs fois est une approximation de cette loi, chacune étant plus ou moins proche de 1/6.

Nous avons réalisé cette expérience en lançant 100 fois le dé. On constate (figure 1.5) une proximité entre ces proportions et ces probabilités. Les proportions observées des faces 1, 4, 5 et 6 sont inférieures aux probabilités.

 

Ces écarts sont compensés par des écarts opposés concernant les faces 2 et 3. Cela s’explique par le fait que la somme des proportions comme la somme des probabilités est toujours égale à 1.

Effectuons la même expérience, mais en lançant le dé 1000 fois : il est clair que les proportions sont plus proches des probabilités que précédemment (figure 2.5).

 

 

En augmentant le nombre de tirages, les proportions donnent généralement une meilleure approximation des probabilités. Mais ce n’est pas toujours vrai : on aurait pu obtenir des proportions plus proches de 1/6 en lançant le dé 100 fois, et même il n’est pas exclu qu’en lançant le dé 6 fois seulement, on obtienne les six faces une fois chacune et par suite des proportions strictement égales à 1/6 (la probabilité de cet événement est toutefois faible : 6!/66 = 0.0154).

En conclusion, dans le cas d’une variable aléatoire discrète, il y a convergence des proportions vers les probabilités, mais cette convergence dépend elle-même du hasard. Elle n’est pas systématique.

 

Définition : la convergence de la proportion de réalisations d’un événement au cours d’une suite d’expériences vers sa probabilité est appelée « convergence en probabilité ».

 

Propriété fondamentale : la densité observée d’une variable qualitative ou discrète converge en probabilité vers la densité de la v.a. lorsque le nombre d’observations augmente indéfiniment.

 

Les densités observées et théoriques sont en effet définies par les suites des proportions et des probabilités. Cette convergence apparaît dans les diagrammes : les figures 1.5 et 2.5 en donnent une illustration.

 

Remarque : La convergence des proportions vers les probabilités ne signifie pas qu’il y ait convergence des effectifs. Dans le cas du dé par exemple, la convergence de la proportion de l’événement {1, 3, 5} vers 1/2 ne montre pas que le nombre d’observations de cet événement tend vers la moitié du nombre d’expériences. Une explication est donnée par les deux formules :

n1 = 0.5 n + Ön

n2 = 0.5 n - Ön

La somme n1 + n2 est égale à n , et les proportions n1/n et n2/n tendent vers 0.5 lorsque n tend vers l’infini :

lim(n1/n ) = lim (0.5 + 1/Ön) = 0.5

lim(n2/n ) = lim (0.5 - 1/Ön) = 0.5

Pourtant, la différence n1 – 0.5 n, égale à Ön, tend vers l’infini : il y a divergence entre les valeurs 0.5 n et n1 (de même entre n2 et 0.5 n). On peut vérifier aussi que n1 – n2 = 2Ön augmente indéfiniment.

1.4 Densité et histogramme.

Nous avons vu dans le chapitre 1 comment construire l’histogramme d’une variable statistique quantitative continue définie par n observations (xi) i = 1, …, n. : on choisit k intervalles I1, I2, …, Ii, …, Ik, de longueur l1, l2, …, lk, et on dénombre les observations appartenant à chaque intervalle : n1, n2, …, nk. On en déduit enfin la densité observée d1, d2, …, dk par la formule :

Pour tout i de 1 à k

di = [ni / n] / li

Pour chaque intervalle Ii, la proportion ni / n est une approximation de la probabilité P(XÎIi), et la densité observée di est une valeur approchée de la densité par intervalle di que nous avons définie dans le chapitre précédent.

La densité observée est donc une approximation de la densité par intervalle et par suite de la densité théorique lorsque le nombre d’observations augmente indéfiniment et que les longueurs des intervalles deviennent de plus en plus petites. L’histogramme, qui représente la densité observée, est une approximation de la représentation graphique de la densité théorique.

 

Propriété fondamentale : la densité observée d’une variable quantitative converge « en probabilité » vers la densité de la v.a. lorsque le nombre d’observations augmente indéfiniment et que la longueur des intervalles tend vers 0.

 

Exemple : Considérons une série de 100 nombres pseudo-aléatoires compris entre 0 et 1. L’histogramme (figure 3.5) apparaît de façon évidente comme une approximation de la courbe représentant la densité théorique de la loi uniforme continue sur [0, 1].

En générant 10 000 valeurs comprises entre 0 et 1, nous pouvons diminuer la taille des intervalles en augmentant leurs effectifs pour observer la convergence. L’histogramme est alors plus proche de la densité théorique de la loi uniforme sur [0, 1].

 

On examinera aussi la figure 6.5 du chapitre 4.



[1] Une calculatrice munie de la touche Rnd (ou Random) peut suffire pour des expériences simples.

[2] Nous avons aussi utilisé des logiciels publiés dans Introduction aux tests statistiques, Enseignement Assisté par Ordinateur, de T. Foucart, édité par Technip, Paris, 1991.

[3] Ces nombres ne sont pas tirés au hasard au sens strict du terme, d’où le préfixe pseudo.