Normalité et loi uniforme

Le test d’ajustement du c2 est un des tests statistiques les plus pratiqués. Il présente pourtant des inconvénients, dans sa mise en œuvre comme dans l’interprétation des résultats qu’il donne, surtout lorsque les données traitées sont continues. Il est  important de l’expérimenter sur un grand nombre de données diverses, et le logiciel fourni dans StatPC permet de multiplier les expériences et les lois théoriques.

Nous proposons ici son application sur des données obtenues par simulation. La démarche consiste donc :

·      à simuler un fichier de données, en choisissant les lois de probabilités simulées et les effectifs ;

·      à effectuer un test d’ajustement du c2 sur chacune des séries d’observations simulées, en choisissant comme loi théorique celle qui a été effectivement  choisie.

·      à effectuer un test d’ajustement du c2 sur chacune des séries d’observations simulées, en choisissant comme loi théorique une loi différente de celle qui a été effectivement  choisie.²

·      L’option 1 du logiciel Simulation d’échantillons (option 5 du menu général de StatPC) permet de créer un tableau de données suivant des lois de probabilités diverses.

Nous choisissons tout d’abord la loi normale.

On procède de la même façon pour créer des échantillons d’autres lois de probabilité (cf. tableau ci-dessous).

On obtient très rapidement un tableau qu’il suffit ensuite de sauvegarder :

Paramètres théoriques des lois simulées :


Rang

type

effectifs

moyennes

variances

1

Loi normale

100

0

1

2

Loi uniforme

100

0

1.333333

3

Loi de Cauchy

100

 

 

4

Loi normale

100

10

4

5

Loi uniforme

100

10

3

6

Loi normale

100

.5

0.04

 

·      Nous créons ainsi le fichier de données SIMECH.DAT affecté du fichier de paramètres SIMECH.PAR. Pour effectuer les tests d’ajustement du c2 dans le cas de lois continues,  on choisit l’option 4 du menu Tests et tables statistiques  :

La procédure consiste :

·      à choisir le fichier de données (option 1) ;

·      à choisir une variable par son rang (option 3) ;

·      à choisir la loi théorique (option 4) ;

·      à définir des classes (option 5) ;

·      à calculer les probabilités théoriques (option 7) ;

·      à contrôler la convergence de X(option 8) ;

·      à effectuer le test (option 9)

L’option 2 affiche les observations classées par valeurs croissantes de la variable que l’on a choisie. On peut par l’option 6 afficher la répartition et par l’option 10 afficher l’histogramme et la densité théorique.

 

Nous allons effectuer le test d’ajustement du c2 sur la première variable statistique X1 du tableau simulé. Nous commençons par définir les hypothèses du test :

Hypothèse nulle : la loi de X1 est la loi normale centrée réduite (m = 0, s = 1).

Hypothèse alternative : la loi de X1 n’est pas la loi normale centrée réduite.

On fixe le risque de première espèce à a = 0.05.

L’hypothèse alternative n’est visiblement pas très précise. En réalité, ce qui est testé, c’est l’égalité des proportions observées dans chaque classe avec les probabilités théoriques calculées sous l’hypothèse nulle.

On peut choisir des classes de différentes façons :

L’option Loi normale consiste à définir les classes suivantes :

]-¥,m–2s]

]m–2s,m–1.5s]

]m–1.5s,ms]

]ms,m–0.5s]

]m–0.5s,m]

]m,m+0.5s]

]m+0.5s,m+s]

]m+s,m+1.5s]

]m+1.5s,m+2s]

m+2s,+¥[

Ces classes sont recommandées par Kendall et Stuart (The advanced theory of statistics, vol. 2 p. 431, 1961, Griffin, London). On obtient la répartition suivante :

Le logiciel considère comme classes extrêmes dans les calculs ] -¥, -2[ et [2, +¥ [. En effet, la somme des probabilités théoriques doit être égale à 1.

Le calcul des probabilités théoriques donne les résultats suivants :

Les classes marquées d’une étoile ne vérifient pas la condition de convergence et il est donc nécessaire de procéder à des regoupements. On regroupe les classes 1 et 2, puis 9 et 10 :

La convergence étant assurée, on peut effectuer le test d’ajustement (option 9) :

 

La probabilité critique étant supérieure à 0.05, l’hypothèse de normalité est acceptée.

 

La construction de l’histogramme (option 10) nécessite de choisir des bornes extrêmes : le logiciel détermine des valeurs min et max de la forme m ±k s dans le cas de la loi normale, , k étant déterminé de façon que la plus petite et la plus grande des valeurs appartiennent à la première et à la dernière des classes respectivement. L’histogramme est le suivant :

Nous allons effectuer maintenant un test sur la deuxième variable X2 du tableau. On sait que cette variable suit la loi uniforme sur l’intervalle ] -2, 2 [. Nous allons supposer qu’elle suit la loi normale dont les paramètres estimés sur l’échantillon  sont m = 0.0328877 et s = 1.101207 ). Nous savons donc ici que l’hypothèse nulle est fausse, et nous allons voir si le test aboutit à son rejet.

Hypothèse nulle : la loi de X1 est la loi normale

Hypothèse alternative : la loi de X1 n’est pas la loi normale

On fixe le risque de première espèce à a = 0.05.

En définissant les mêmes classes que précédemment, on obtient les résultats suivants :

On est amené aux mêmes regroupements que précédemment, et on obtient le résultat suivant :

La condition de convergence est satisfaite et on accepte l’hypothèse nulle puisque la probabilité critique est supérieure à 0.05. .

On commet ici l’erreur de première espèce : le test ne permet pas de détecter que la loi simulée n’est pas la loi normale.

Supposer la loi normale revient en fait à considérer l’histogramme ci-dessous :

Inversement, si l’on suppose que a loi est uniforme, l’histogramme calculé avec comme bornes extrêmes la plus petite (-1.9605) et la plus grande (1.9792) des valeurs observées montre une proximité évidente avec la densité de la loi uniforme :

 

En conclusion, le test du c2 permet de vérifier une hypothèse que l’on suppose vraie a priori. Il est construit en supposant que cette hypothèse est vraie. Mais l’acceptation de l’hypothèse ne signifie pas qu’elle soit vraie. Inversement, son rejet signifie qu’elle est très vraisemblablement fausse, suivant le risque de première espèce choisie.