Tests
d’ajustement et D’indépendance
· H0 : les probabilités théoriques de chaque valeur i sont égales à pi ;
· H1 : au moins une probabilité théorique est différente de la valeur supposée pi.
Définition : statistique X2 choisie pour comparer les proportions observées aux probabilités théoriques :
· X2 grand : ni/n et pi trop différents pour que l’égalité soit vraisemblable. On rejette H0.
· X2 faible : les différences ne sont pas contraires à l’hypothèse nulle.
· Région critique et risque a :
P(X2>xa2) = a |
Théorème : si les termes n x pi sont tous supérieurs ou égaux à 5, la loi de probabilité de la v.a. X2 est approximativement la loi du c2 de degré de liberté n = k – l – 1, où k est le nombre de valeurs possibles des observations et l le nombre de paramètres calculés à l’aide des données.
Définition: on appelle probabilité critique (en anglais « p-value ») la probabilité que la valeur observée x2 de la statistique X2 soit dépassée.
Considérons maintenant le cas des v.a. continues :
· L’hypothèse nulle est définie par une densité théorique de X ;
· L’hypothèse alternative est une loi non précisée de X.
La procédure est la suivante :
· On définit des intervalles Ii, i = 1, …, k, donc on calcule les probabilités théoriques pi.
· On répartit les n observations de la v.a. X dans ces intervalles.
· On en déduit la densité observée égale à la suite des proportions ni/n, où ni est le nombre d’observations classées dans l’intervalle Ii.
· On applique la procédure précédente pour les comparer.
Données étudiées : tableau de contingence donnant la répartition d’un ensemble d’u.s. suivant deux critères X et Y (p lignes et q colonnes).
Cheveux blonds (j = 1) |
Cheveux bruns (j = 2) |
Autre couleur (j = 3) |
Effectifs marginaux |
|
Masculin ( i = 1) |
25 |
51 |
17 |
n1. = 93 |
Féminin ( i = 2) |
62 |
31 |
14 |
n2. = 107 |
Effectifs marginaux |
n.1 = 87 |
n.2 =82 |
n.3 = 31 |
200 |
· Hypothèse nulle : indépendance des deux questions ;
· Hypothèse alternative : non précisée ;
Définition : on appelle répartition théorique des unités statistiques d’un échantillon suivant deux critères la répartition que l’on aurait si ces deux critères étaient indépendants.
ni,j’ = n pi. p.j = ni. n.j / n |
dans laquelle les termes ni., n.j sont les effectifs marginaux calculés sur le tableau de données et pi. et p.j les proportions marginales.
S’il y a indépendance entre le sexe et la couleur des cheveux, la répartition théorique des étudiants est la suivante :
Par exemple, l’effectif théorique d’étudiantes au cheveux blonds est 107 x 87 / 200 = 46.54.
Définition : la statistique X2 utilisée pour comparer les répartitions théoriques et observées est définie par :
|
p |
q |
|
X2 = |
S |
S |
(ni,j - ni,j’)2 / ni,j’ |
|
i = 1 |
j = 1 |
|
La loi de X2 sous l’hypothèse d’indépendance est loi du c2 de degré de liberté n :
n = (p - 1) ( q - 1 ) |
Définition: région critique = [ca² , + µ [ , ca² étant le nombre auquel une proportion a de X² est supérieure si l’hypothèse d’indépendance est vraie.
Exemple : chaque terme du tableau ci-dessous indique la valeur du terme correspondant dans la somme donnant le X² appelé parfois « contribution au X² » :
5.907 = (25-40.46)² / 40.46 |
4.344 = (51-38.13)² /38.13 |
0.462 = (17-14.42)²/14.42 |
5.136 = (62-46.54)²/46.54 |
3.776 = (31-43.87)²/43.87 |
0.401 = (14-16.58)²/16.58 |
La valeur de X² est la somme des termes du tableau. On obtient :
X2
= 20.02 |
Une liaison entre la couleur des cheveux et le sexe n’étant pas du tout invraisemblable, nous choisissons un risque raisonnable a égal à 5%.
RC = [5.991,
+ µ
[ |
Les données sont ici quantitatives, et la liaison entre les deux variables (X,Y) est mesurée par le coefficient de corrélation linéaire.
Soit r le coefficient de corrélation théorique des variables X et Y supposées normales.
· Hypothèse nulle H0 : |
r = 0. |
· Hypothèse alternative H1 : |
r ¹ 0. |
Définition : l’estimateur empirique du coefficient de corrélation théorique r est la v.a. notée R dont la valeur observée sur un échantillon de couples est le coefficient de corrélation observé r.
On pose :
F = (n-2) R2/ (1 – R2) |
La loi théorique de F est la loi de Fisher Snedecor de degrés de libertés n1, n2 :
n1 = 1, n2 = n-2. |
Exemple : on admet qu’après l’exclusion des clients retraités 25, 31 et 43, l’âge et le logarithme du revenu suivent la loi normale.
Risque de première espècea = 0.05 |
région critique
RC = [4.05, +¥ [. . |
r =
0.6846 |
f =
27.027. |
f >
4.05 |
on rejette l’hypothèse nulle. |