4. Test sur le coefficient de corrélation linéaire.

Nous avons constaté chez les 50 clients du supermarché une relation entre l’âge et le revenu. La question que l’on se pose maintenant est de savoir si cette relation existe sur l’ensemble des clients, ou si elle n’est due qu’aux tirages au hasard que l’on a effectués. Les données sont ici quantitatives, et la liaison entre les deux variables est mesurée par le coefficient de corrélation linéaire.

4.1 Hypothèses et erreurs.

La procédure consiste d’abord à vérifier que l’échantillon observé vérifie les propriétés présentées dans le chapitre 4 : théoriquement, le couple (âge, revenu) doit suivre la loi binormale pour que le test sur le coefficient de corrélation soit valide. L’équivalence entre la nullité du coefficient de corrélation et l’indépendance n’est assurée en effet que sous cette condition.

On se limite en pratique à vérifier que les répartitions de l’âge et du revenu ne sont pas trop différentes de la loi normale, par un test d’ajustement du c2 ou l’étude des coefficients d’asymétrie et d’aplatissement que nous avons expliquée dans le paragraphe 1.3. Dans le cas contraire, il est possible de transformer les données, en passant par exemple aux logarithmes.

On suppose a priori qu’il n’existe pas de liaison entre les séries : les variables sont supposées « indépendantes ». Le coefficient de corrélation exact et inconnu, que l’on appelle coefficient de corrélation théorique (noté r), est alors nul. Nous choisissons comme hypothèse alternative que le coefficient de corrélation théorique est différent de 0 (on pourrait choisir strictement positif, ou strictement négatif).

·        Hypothèse nulle H0 :

r = 0.

·        Hypothèse alternative H1 :

r ¹ 0.

Une valeur approchée du coefficient de corrélation théorique est donnée par la valeur observée r de son estimateur empirique. La démarche consistant à définir cet estimateur est strictement la même que celle qui a abouti à la définition des estimateurs empiriques de la moyenne et de la variance.

 

Définition : l’estimateur empirique du coefficient de corrélation théorique r est la v.a. notée R dont la valeur observée sur un échantillon de couples est le coefficient de corrélation observé r.

 

Le coefficient de corrélation observé n’a évidemment n’a aucune raison d’être exactement égal à 0 même si l’indépendance des v.a. est vraie. Deux cas peuvent se produire :

·      le coefficient de corrélation r est proche de 0. Les données ne contredisent pas l’hypothèse d’indépendance : on accepte l’hypothèse d’indépendance.

·      le coefficient de corrélation  r est très différent de 0. Il est alors peu vraisemblable que la valeur théorique r soit nulle : on rejette l’hypothèse d’indépendance. 

4.2 Région critique.

Les statisticiens utilisent pour des raisons mathématiques et historiques une v.a. notée F déduite de l’estimateur empirique R du coefficient de corrélation r par la formule suivante :

 

 

R2

F =

(n-2)

___________

 

 

(1 – R2)

La loi théorique de la v.a. F est la loi de Fisher Snedecor que nous avons définie dans le chapitre 4, et qui dépend de deux degrés de liberté, ici n1 = 1, n2 = n - 2. Les valeurs utiles sont données dans la table statistique appelée table du F.

Pour n = 50, on trouve n2 = 48 et on trouve dans la table fa = 4.04. Un calcul simple donne la valeur du coefficient de corrélation ra correspondant :


 

fa

ra2

=

––––––––––

 

 

(n – 2) + fa

On trouve :

ra2 = 0.078

ra = ± 0.28.

La décision peut être aussi prise en fonction de la probabilité critique donnée fréquemment par les programmes.

 

Exemple : on sait que la liaison entre l’âge et le revenu ne vérifie pas les propriétés nécessaires pour que l’on puisse effectuer un test de Fisher sur le coefficient de corrélation : la liaison n’est pas linéaire et la répartition du revenu ne ressemble pas à la loi normale (cf. figure 2 du chapitre 3). Nous allons limiter notre étude aux clients en activité, et éliminer des données les clients retraités 25, 31 et 43 : il reste 47 unités statistiques.

En ce qui concerne les revenus, nous en considérons ici les logarithmes de façon à obtenir une distribution un peu plus symétrique. Nous admettrons la normalité des lois de probabilité après l’élimination de ces trois u.s..

L’hypothèse nulle considérée est la nullité du coefficient de corrélation théorique r entre l’âge et le revenu. On choisit donc un risque de première espècea égal à 0.05. On en déduit la région critique sur la statistique F :

RC = [4.05, +¥ [.

Le coefficient de corrélation entre l’âge et le logarithme des revenus calculé sur les 47 observations est égal à r = 0.6846, ce qui donne r2 = 0.469 et f = 39.746.

On constate évidemment que f appartient à cette région critique. La liaison entre l’âge et le revenu constatée sur l’échantillon observé ne peut donc pas être due au hasard : elle existe très vraisemblablement dans l’ensemble des clients de l’hypermarché et on peut considérer que r est différent de 0.