Tests d’ajustement et D’indépendance

1. test d’ajustement du c² de Pearson

1.1 Cas discret.

· H₀ : les probabilités théoriques de chaque valeur i sont égales à p_i ;

· H₁ : au moins une probabilité théorique est différente de la valeur supposée p_i.

Définition : statistique X² choisie pour comparer les proportions observées aux probabilités théoriques :

	k		k
X² =n	S	(n_i/n – p_i)² / p_i =	S	(n_i – n p_i)² /n p_i
	i = 1		i = 1

· X² grand : n_i/n et p_i trop différents pour que l’égalité soit vraisemblable. On rejette H₀.

· X² faible : les différences ne sont pas contraires à l’hypothèse nulle.

· Région critique et risque a :

P(X²>x_a²) = a

Théorème : si les termes n x p_i sont tous supérieurs ou égaux à 5, la loi de probabilité de la v.a. X² est approximativement la loi du c² de degré de liberté n = k – l – 1, où k est le nombre de valeurs possibles des observations et l le nombre de paramètres calculés à l’aide des données.

Définition: on appelle probabilité critique (en anglais « p-value ») la probabilité que la valeur observée x² de la statistique X² soit dépassée.

1.2 Cas d’une variable continue.

Considérons maintenant le cas des v.a. continues :

· L’hypothèse nulle est définie par une densité théorique de X ;

· L’hypothèse alternative est une loi non précisée de X.

La procédure est la suivante :

· On définit des intervalles I_i, i = 1, …, k, donc on calcule les probabilités théoriques p_i.

· On répartit les n observations de la v.a. X dans ces intervalles.

· On en déduit la densité observée égale à la suite des proportions n_i/n, où n_i est le nombre d’observations classées dans l’intervalle I_i.

· On applique la procédure précédente pour les comparer.

2. Test d’indépendance du c² de Pearson.

Données étudiées : tableau de contingence donnant la répartition d’un ensemble d’u.s. suivant deux critères X et Y (p lignes et q colonnes).

	Cheveux blonds (j = 1)	Cheveux bruns (j = 2)	Autre couleur (j = 3)	Effectifs marginaux
Masculin ( i = 1)	25	51	17	n₁. = 93
Féminin ( i = 2)	62	31	14	n₂. = 107
Effectifs marginaux	n.₁ = 87	n.₂ =82	n.₃ = 31	200

2.1 Tableau des effectifs théoriques.

· Hypothèse nulle : indépendance des deux questions ;

· Hypothèse alternative : non précisée ;

Définition : on appelle répartition théorique des unités statistiques d’un échantillon suivant deux critères la répartition que l’on aurait si ces deux critères étaient indépendants.

n_i,j’ = n p_i. p._j = n_i. n._j / n

dans laquelle les termes n_i., n._j sont les effectifs marginaux calculés sur le tableau de données et p_i. et p._j les proportions marginales.

S’il y a indépendance entre le sexe et la couleur des cheveux, la répartition théorique des étudiants est la suivante :

	Cheveux blonds	Cheveux bruns	Autre couleur
Masculin	40.46	38.13	14.42
féminin	46.54	43.87	16.58

Par exemple, l’effectif théorique d’étudiantes au cheveux blonds est 107 x 87 / 200 = 46.54.

2.2 Test d’indépendance du c² de Pearson.

Définition : la statistique X² utilisée pour comparer les répartitions théoriques et observées est définie par :

	p	q
X² =	S	S	(n_i,j- n_i,j’)² / n_i,j’
	i = 1	j = 1

La loi de X² sous l’hypothèse d’indépendance est loi du c² de degré de liberté n :

n = (p - 1) ( q - 1 )

Définition: région critique = [c_a² , + µ [ , c_a² étant le nombre auquel une proportion a de X² est supérieure si l’hypothèse d’indépendance est vraie.

Exemple : chaque terme du tableau ci-dessous indique la valeur du terme correspondant dans la somme donnant le X² appelé parfois « contribution au X² » :

5.907 = (25-40.46)² / 40.46	4.344 = (51-38.13)² /38.13	0.462 = (17-14.42)²/14.42
5.136 = (62-46.54)²/46.54	3.776 = (31-43.87)²/43.87	0.401 = (14-16.58)²/16.58

La valeur de X² est la somme des termes du tableau. On obtient :

X² = 20.02

Une liaison entre la couleur des cheveux et le sexe n’étant pas du tout invraisemblable, nous choisissons un risque raisonnable a égal à 5%.

RC = [5.991, + µ [

3. Test sur le coefficient de corrélation linéaire.

Les données sont ici quantitatives, et la liaison entre les deux variables (X,Y) est mesurée par le coefficient de corrélation linéaire.

4.1 Hypothèses et erreurs.

Soit r le coefficient de corrélation théorique des variables X et Y supposées normales.

· Hypothèse nulle H₀ :	r = 0.
· Hypothèse alternative H₁ :	r ¹ 0.

Définition : l’estimateur empirique du coefficient de corrélation théorique r est la v.a. notée R dont la valeur observée sur un échantillon de couples est le coefficient de corrélation observé r.

4.2 Région critique.

On pose :

F = (n-2) R²/ (1 – R²)

La loi théorique de F est la loi de Fisher Snedecor de degrés de libertés n₁, n₂ :

n₁ = 1, n₂ = n-2.

Exemple : on admet qu’après l’exclusion des clients retraités 25, 31 et 43, l’âge et le logarithme du revenu suivent la loi normale.

Risque de première espècea = 0.05	région critique RC = [4.05, +¥ [. .
r = 0.6846	f = 27.027.
f > 4.05	on rejette l’hypothèse nulle.

1. test d’ajustement du c2 de Pearson