3. Test d’indépendance du c² de Pearson.

Le test d’indépendance du c2 de Pearson permet d’étudier la liaison entre deux variables qualitatives X et Y que l’on a observées sur des unités statistiques que l’on suppose tirées au hasard au sein d’une population. Ces variables aléatoires se présentent sous la forme de questions proposant k et l réponses possibles, une seule étant choisie. Nous avons étudié dans le chapitre 4 la loi de probabilité du couple (X, Y). Nous en reprenons les notations.

3.1 Tableau des effectifs théoriques.

La démarche est la suivante :

·        L’hypothèse nulle est définie par l’indépendance des deux v.a. X et Y ;

·        L’hypothèse alternative n’est pas précisée ;

 

L’expérience consiste à tirer au hasard un échantillon d’unités statistiques et à en comparer la répartition à la répartition « théorique » déduite de l’indépendance supposée des variables.

 

Définition : on appelle répartition théorique des unités statistiques d’un échantillon  suivant deux critères la répartition que l’on aurait si ces deux critères étaient indépendants.

 

La procédure consiste à comparer ces répartitions :

·     si la répartition théorique et la répartition observée sont voisines l’une de l’autre, on peut considérer que la répartition observée ne remet pas en cause l’indépendance des v.a. X et Y considérées.

·     si les deux répartitions présentent de grandes différences, c’est que l’indépendance des deux v.a. X et Y  étudiées est contestable.

 

Le calcul de la répartition théorique découle de l’hypothèse d’indépendance : les réponses données à chaque question X ou Y  sont réparties théoriquement de la même façon quelle que soit la réponse donnée à la seconde. L’effectif théorique ni,j’ est donné par la formule :

ni,j’ = n pi. p.j = ni. n.j / n

dans laquelle les termes ni., n.j sont les effectifs marginaux calculés sur le tableau de données et pi. et p.j les proportions marginales.

 

Exemple : nous étudions le tableau donnant la répartition de 200 étudiants suivant le sexe et la couleur des cheveux, en supposant qu’ils ont été tirés au hasard dans l’ensemble des étudiants de l’université. Le tableau est le suivant :



Cheveux blonds

(j = 1)

Cheveux bruns

(j = 2)

Autre couleur

(j = 3)

Effectifs marginaux

Masculin ( i = 1)

25

51

17

n1. = 93

Féminin ( i = 2)

62

31

14

n2. = 107

Effectifs marginaux

n.1 = 87

n.2 =82

n.3 = 31

200

S’il y a indépendance entre le sexe et la couleur des cheveux, la répartition théorique des étudiants est la suivante :

 

Cheveux blonds

Cheveux bruns

Autre couleur

Masculin

40.46

38.13

14.42

féminin

46.54

43.87

16.58

Par exemple, l’effectif théorique d’étudiantes au cheveux blonds est 107 x 87 / 200 = 46.54.

3.2 Test d’indépendance du c² de Pearson.

Pour comparer les effectifs théoriques et les effectifs observés, on utilise la même statistique que dans le cas du test d’ajustement.

Définition : la statistique X2 utilisée pour comparer les répartitions théoriques et observées est définie par :

 

 

p

q

 

X2

=

S

S

(ni,j - ni,j’)2 / ni,j

 

 

i = 1

j = 1

 

 

L’hypothèse d’indépendance est contestable lorsque les effectifs observés ni,j sont très différents des effectifs théoriques ni,j’, donc lorsque X² prend de grandes valeurs. Il reste à décider à partir de quelle valeur X² peut être considéré comme grand. Pour cela, on utilise la loi de X2 sous l’hypothèse d’indépendance qui est la loi du c2 de degré de liberté n :

n = (p - 1) ( q - 1 )

 

Ce degré de liberté est calculé comme le précédent, par la formule n = k – l – 1 :

·        le nombre de valeurs possibles est k = p x q

·        les paramètres estimés sont les lois de probabilités marginales : p – 1 termes pour la loi de X, q – 1 pour la loi de Y puisque la somme des probabilités marginales est égale à 1. On a donc l =  (p – 1) + (q – 1)

·        Le degré de liberté est égal à : p x q – (p – 1) – (q – 1) - 1  = (p - 1) ( q - 1 )

 

Définition : la région critique du test d’indépendance du c2 est l’intervalle [ca² , + µ [, ca² étant le nombre auquel une proportion a de X² est supérieure si l’hypothèse d’indépendance est vraie.

 

Les observations remettent donc en cause l’hypothèse d’indépendance si X² prend une valeur supérieure à xa² ; on rejette alors l’hypothèse d’indépendance.

Supposons maintenant que nous ayons rejeté l’hypothèse d’indépendance. Pour expliquer la liaison entre les variables, on examine l’observation x² de la statistique X2, et l’on recherche, parmi les termes dont il est la somme, ceux qui sont les plus grands : les indices i et j correspondants indiquent les modalités des questions X et Y dont les effectifs théoriques et observés sont les plus différents. Ce sont ces modalités qui provoquent la liaison entre les deux riables.

 

Exemple : chaque terme du tableau ci-dessous indique la valeur du terme correspondant dans la somme donnant le X² appelé parfois « contribution au x² » :

5.907 = (25-40.46)² / 40.46

4.344 = (51-38.13)² /38.13

0.462 = (17-14.42)²/14.42

5.136 = (62-46.54)²/46.54

3.776 = (31-43.87)²/43.87

0.401 = (14-16.58)²/16.58

La valeur x2 de X² est la somme des termes du tableau. On obtient :

x2 = 20.02

Une liaison entre la couleur des cheveux et le sexe n’étant pas du tout invraisemblable, nous choisissons un risque raisonnable a égal à 5%.

Figure 4.6 : densité de la loi du c2 (n = 2)

Le degré de liberté est égal à (2-1) x (3-1), soit 2, et la région critique est définie par [5.991, + µ [ (on notera la différence entre les densités du c2 de degré de liberté 2 et 5, cf. figure 2.6 et 4.6). La valeur x2 de X² appartient à la région critique. On rejette donc l’hypothèse d’indépendance.

Les valeurs les plus grandes du tableau indiquent que la liaison est due à la couleur brune ou blonde et le sexe des étudiants. La modalité « autre couleur » n’intervient pas.