2. Test d’ajustement du c² de Pearson.

2.1 Cas d’une variable discrète.

On considère le cas d’un dé à 6 faces. Les hypothèses concernent  la loi de probabilité de la face obtenue en lançant le dé.

·        Hypothèse nulle H0 : cette loi est la loi uniforme discrète sur {1, …, 6} (le dé est parfaitement équilibré).

·        Hypothèse alternative : ce n’est pas la loi uniforme discrète sur {1, …, 6} (les faces n’ont pas toutes la même probabilité, et le dé est mal équilibré).

 

L’expérience consiste à lancer le dé n fois (100, 200 ou 1000 fois par exemple). On compare ensuite les proportions fi (i = 1, …, 6) observées aux probabilités théoriques pi (i = 1, …, 6) de chaque face du dé. Elle est généralisable à toutes les v.a. discrètes ou qualitatives :

·           L’hypothèse nulle est définie par la loi de probabilité supposée vraie, dont la densité est définie par la suite (pi), i = 1, …, k (chapitre IV, paragraphe 2.3).

·           L’hypothèse alternative est que la loi de probabilité n’est pas égale à la précédente, sans plus de précision.

Pour contrôler l’hypothèse nulle, on compare les proportions ni/n observées sur un échantillon de taille n aux probabilités théoriques pi..

 

Exemple : on donne le nombre de faces obtenues en lançant le dé 100 fois :

i = 1

i = 2

i = 3

i = 4

i = 5

i = 6

16

15

18

14

19

18

 

Si le dé est parfaitement équilibré, on devrait obtenir des proportions fi = ni/n de l’ordre de 1/6 = 0.1667. Il est évident que cette proportion de 1/6 ne sera jamais obtenue exactement, et que l’écart peut provenir du hasard ou d’un mauvais équilibrage du dé.

 

On doit donc mesurer l’écart entre les proportions ni/n obtenues et les probabilités pi, par une statistique, et donner une règle, appelée règle de décision, permettant de considérer ou non que l’écart est dû au hasard.

 

Définition : on appelle X2 la statistique choisie pour comparer les proportions observées aux probabilités théoriques :

 

 

 

k

 

 

k

 

X2

=

n

S

(ni/n – pi)2 / pi

=

S

(ni – n pi)2 /n pi

 

 

 

i = 1

 

 

i = 1

 

 

Reprenons l’exemple du dé : s’il est bien équilibré, les proportions ni/n convergent vers les probabilités pi = 1/6, et la valeur prise par la v.a. X2 est faible. Inversement,  si la valeur prise par X2 est élevée, on peut penser que le dé n’est pas bien équilibré puisque les proportions sont différentes de 1/6.


Le raisonnement est exactement identique dans le cas général, et nous allons déterminer une valeur xa2  indiquant la limite à partir de laquelle nous considérons que la valeur de X2 est trop élevée pour que l’hypothèse nulle soit vraie.

Pour déterminer cette valeur xa2, on utilise le risque de première espèce a, qui est la probabilité de rejeter l’hypothèse nulle alors qu’elle est vraie (considérer le dé pipé alors qu’il est bien équilibré).

La valeur xa2 est donc telle que :

P(X2>xa2) = a

Cette valeur dépend bien entendu de la loi de probabilité de la v.a. X: cette loi est approximativement la loi du c2 définie dans le chapitre 4.

 

Théorème : si les termes n x pi sont tous supérieurs ou égaux à 5,  la loi de probabilité de la v.a. X2 est approximativement la loi du c2 de degré de liberté n = k – l – 1, où k est le nombre de valeurs possibles des observations et l le nombre de paramètres calculés à l’aide des données.

 

Lorsque la condition de convergence n x pi > 5 n’est pas toujours satisfaite, il faut regrouper les valeurs qui ne la vérifient pas avec d’autres, en cumulant les probabilités correspondantes.

Conséquence : la valeur xa2 telle que la proportion des valeurs de X2 supérieures à xa2 soit égale à a est donnée dans la table statistique de la loi du c2.

 

Définition : la région critique du test d’ajustement du c2 est l’intervalle :

RC = [xa2, + ¥ [

dans lequel xa2 est déterminé de façon que P(X2>xa2) = a.

 

Exemple numérique : dans le cas du dé, le degré de liberté est égal à n = 5, et, pour a = 0.05, la table statistique donne xa2 = 11.07. Un dé bien équilibré donnera donc rarement (dans 5% des cas) une valeur x2 de X2 supérieure à 11.07.

Figure 2.6 : densité de la loi du c2 (n = 5)  et région critique (a = 5%)

Les calculs sur le tableau précédent sont les suivants :

x2

=

(16 – 100/6)2/(100/6)

+

(15 – 100/6)2/(100/6)

+

(18 – 100/6)2/(100/6)

 

+

 (14 – 100/6)2/(100/6)

+

(19 – 100/6)2/(100/6)

+

(18 – 100/6)2/(100/6)

x2 = 1.16

 

 

 

 

 

Tous les termes de la forme n x pi sont égaux à 100 / 6 = 16.66 et donc supérieurs à 5 : la condition de convergence est satisfaite. La valeur X2 obtenue 1.16 est inférieure à 11.07 : on peut considérer que le dé est bien équilibré. Plus exactement, les 100 lancers n’ont pas permis de montrer si le dé est mal équilibré : l’accusé n’est peut-être pas coupable.

 

Définition: on appelle probabilité critique (en anglais « p-value ») la probabilité que la valeur observée x2 de la statistique X2 soit dépassée.

 

Cette probabilité critique est l’aire de l’ensemble des points d’abscisses supérieures à la valeur observée x2 compris entre la courbe représentant la densité, l’axe des abscisses.

Lorsqu’elle est supérieure au risque de première espèce a, cela signifie que xa2 est supérieure à la valeur observée x2, qui n’appartient donc pas à la région critique (figure 2.6).

Dans le cas contraire, x2 appartient à la région critique et on rejette l’hypothèse nulle.

 

Exemple : le programme donne P(X2 > 1.16)= 0.94716. La probabilité critique est donc supérieure au risque de première espèce a = 0.05. La table statistique n’est pas indis­pensable pour conclure puisque cela signifie que xa2 est supérieur à 1.16, comme on peut le voir sur la figure 2.6 : on accepte l’hypothèse nulle.

2.2 Cas d’une variable continue.

Considérons maintenant le cas des v.a. continues :

·           L’hypothèse nulle est définie par une densité théorique de X ;

·           L’hypothèse alternative est une loi non précisée de X.

La procédure est la suivante :

·           On définit des intervalles Ii, i = 1, …, k, dont on calcule les probabilités théoriques p= P( XÎIi ).

·           On répartit les n observations de la v.a. X dans ces intervalles.

·           On en déduit la densité observée égale à la suite des proportions ni/n, où ni est le nombre d’observations classées dans l’intervalle Ii.

·           On applique la procédure du paragraphe 2.1 pour comparer pi et ni/n.

Remarques :

·      Les classes seront choisies toujours a priori, avant le calcul de X2,  et de préférence de probabilité égale.[1]

·      Le calcul des probabilités théoriques peut exiger préalablement l’estimation de paramètres de la densité théorique.

·      Deux densités différentes peuvent donner la même densité par intervalle. L’hypothèse nulle ne les distingue pas l’une de l’autre et le test donne la même valeur de X2 et par suite , pour un même degré de liberté, la même décision. 

 

Exemple : nous voulons savoir si l’âge est réparti suivant une loi normale dans la clientèle de l’hypermarché EUROMARKET. On choisit comme risque de première espèce a = 0.05.

La figure 3.6 permet de comparer la densité de la loi normale à l’histogramme, mais ne donne pas d’indications quantitatives et ne prend pas en compte le nombre d’observations.

 

Figure 3.6 : histogramme de l’âge (8 classes)

et densité de la loi normale de mêmes paramètres

Nous effectuons ci-dessous l’ajustement en considérant la répartition de l’âge des 50 clients d’EUROMARKET en 8 classes de même longueur.

 


Classe

Effectifs en %

1

[24.0, 29.5[

12

2

[29.5, 35.0[

16

3

[35.0, 40.5[

34

4

[40.5, 46.0[

20

5

[46.0, 51.5[

8

6

[51.5, 57.0[

2

7

[57.0, 62.5[

4

8

[62.5, 68.0[

4

Répartition des 50 observations dans les huit classes

Pour calculer les probabilités théoriques pi de chaque intervalle, il faut connaître les paramètres de la densité théorique, c’est-à-dire la moyenne et l’écart type dans le cas de la loi normale. Les valeurs calculées sur les données individuelles sont m = 40.06 et s = 9.341 : ce sont ces valeurs qui seront utilisées pour calculer les probabilités théoriques.

Une loi normale peut prendre des valeurs allant de -¥ à+ ¥. Il faut donc considérer comme première classe ]-¥ , 29.5[ et comme dernière classe [62.5, +¥ [. On obtient :

 


 

 


Classes

probabilités

condition

1

[-¥, 29.5[

0.12914

6.46

2

[29.5, 35.0[

0.16488

8.24

3

[35.0, 40.5[

0.22477

11.24

4

[40.5, 46.0[

0.21879

10.94

5

[46.0, 51.5[

0.15208

7.60

6

[51.5, 57.0[

0.07547

3.77 *

7

[57.0, 62.5[

0.02673

1.34 *

8

[62.5, + ¥ [

0.00815

0.41 *

Classes avant regroupement

L’étoile * indique que dans les classes 6, 7 et 8 la condition de convergence n x pi ³5 n’est pas vérifiée. On doit donc réunir ces classes de façon à vérifier cette condition :

 


Classe

probabilités

condition

proportions

1

[-¥, 29.5[

0.12914

6.46

0.12

2

[29.5, 35.0[

0.16488

8.24

0.16

3

[35.0, 40.5[

0.22477

11.24

0.34

4

[40.5, 46.0[

0.21879

10.94

0.20

5

[46.0, 51.5[

0.15208

7.60

0.08

6 = 6+7+8

[51.5, + ¥ [

0.11035

5.52

0.10

Classes après regroupement

Les probabilités des classes étant proches les unes des autres, la répartition paraît satisfaisante. Le nombre de paramètres estimés est égal à 2 (moyenne et écart-type). Le degré de liberté est donc fixé à n =6 –2- 1 = 3. On en déduit la région critique (a = 0.05) :

RC = [7.815, + ¥ [

Le calcul de X2 donne :

x2 = 50 x   [(0.12 – 0.12914)2 + (0.16 – 0.16488)2 + (0.34 – 0.22477)2

              + (0.20 – 0.21879)2 + (0.08 – 0.15208)2 + (0.10 – 0.11035)2 ]

Soit :

x2 = 4.8305

La valeur observée x2 de X2 n’appartient pas à la région critique RC. On accepte donc l’hypothèse que l’âge est réparti dans la clientèle totale suivant une loi normale. Cela signifie plus précisément que les observations effectuées ne remettent pas en cause cette hypothèse.

La probabilité critique de la valeur observée est supérieure au risque a choisi :

P(X2> 4.8305 )= 0.18289 > 0.05

La décision est évidemment la même.



[1] Kendall et Stuart, The advanced theory of statictics, vol. 2, p. 431, 30.22 (Griffin, London, 1961).