Le coefficient de corrélation linéaire de Bravais-Pearson, appelé souvent simplement coefficient de corrélation, est une mesure de la liaison entre les variables. Avant d’en préciser les propriétés et les limites, nous introduisons la notion de covariance en utilisant les propriétés illustrées dans la figure 1.
Comme nous l’avons expliqué précédemment, les deux variables sont liées quand une information sur l’une donne une information sur l’autre, plus précisément ici quand la position d’une des variables par rapport à la moyenne donne une indication sur la position de l’autre.
Les quatre quadrants définis par les axes contiennent des unités statistiques telles que :
dans le quadrant I : |
x > mx, y > my |
dans le quadrant II : |
x < mx, y > my |
dans le quadrant III : |
x < mx, y < my |
dans le quadrant IV : |
x > mx, y < my |
On en déduit le signe des produits (x – mx) (y – my) dans chacun des quadrants :
quadrant I
: |
(x – mx) (y – my)
> 0 |
quadrant II : |
(x – mx) (y – my) < 0 |
quadrant III : |
(x – mx) (y – my) > 0 |
quadrant IV : |
(x – mx) (y – my) < 0 |
Supposons que la plupart des unités statistiques se trouvent dans les quadrants I et III. Les produits de la forme (x – mx) (y – my) sont généralement positifs. Leur moyenne est positive et sera d’autant plus grande que les unités statistiques représentées dans les quadrants I et III seront nombreuses et éloignées de l’origine des axes.
Supposons que la plupart des unités statistiques se trouvent dans les quadrants II et IV. Les produits (x – mx) (y – my) sont généralement négatifs, et par suite leur moyenne est négative. Cette moyenne sera d’autant plus petite (grande en valeur absolue) que les unités statistiques représentées dans les quadrants II et IV seront nombreuses et éloignées de l’origine des axes.
Lorsque la plupart des unités statistiques se trouvent régulièrement réparties dans les quatre quadrants, on ne constate pas de liaison entre les variables : les produits positifs et les produits négatifs se compensent plus ou moins les uns les autres. Leur moyenne est relativement proche de 0.
Exemple : les 50 clients de l’hypermarché se répartissent de la façon suivante dans les quatre quadrants :
quadrant I |
(x > mx, y > my) : |
12 |
quadrant II |
(x < mx, y > my) : |
6 |
quadrant III |
(x < mx, y < my) : |
25 |
quadrant IV |
(x > mx, y < my) : |
7 |
Les quadrants I et III contiennent 37 unités statistiques sur 50. L’âge et le revenu sont en général placés de façon identique par rapport à leurs moyennes : un client plus âgé que la moyenne (ou moins âgé) bénéficie en général d’un revenu supérieur à la moyenne (ou inférieur) et inversement. Les produits de la forme (x – mx) (y – my) sont généralement positifs, et par suite leur moyenne.
Définition : on appelle covariance cov(x,y) de la série (xi, yi) la moyenne des produits de la forme (xi – mx) (yi – my) :
|
1 |
n |
|
cov(x,y) = |
––– |
S |
( xi – mx)( yi – my ) |
|
n |
i = 1 |
|
Le calcul de la covariance par la formule ci-dessus n’est guère commode : il faut d’abord calculer les moyennes, puis les différences, puis leur produit et enfin la moyenne des produits. On préfère utiliser une autre formule pour le calcul.
Propriété : la covariance est égale à la moyenne des produits moins le produit des moyennes.
|
1 |
n |
|
cov(x,y) = |
––– |
S |
xi yi – mx my |
|
n |
i = 1 |
|
Remarque : la covariance d’une variable avec elle-même est égale à la variance de cette variable : cov(x,x) = sx2.
La covariance est un paramètre statistique difficile à interpréter : comment évaluer la taille de ce paramètre ? A partir de quelle valeur peut-il être considéré comme « grand », ou « petit » ? Comment comparer deux covariances calculées sur des données totalement différentes ? La difficulté de répondre à ces questions est due en particulier au fait que la covariance dépend des unités de mesure choisies pour observer les séries (xi) et (yi).
Si l’âge est en années et le revenu en francs, la covariance entre l’âge et le revenu est en « années francs » ; si l’âge est en mois (1 année = 12 mois) et le revenu en dollars (1 F = 1/6 $), la valeur numérique de la « même » covariance sera égale à la précédente multipliée par 12 x 1/6 = 2. C’est pourquoi l’on préfère en général calculer la covariance des séries centrées réduites (xi’) et (yi’), qui sont indépendantes des unités de mesure, et dont les formules ont été données dans le chapitre 2 :
Définition : on appelle coefficient de corrélation linéaire de la série (xi, yi) la covariance des variable centrées réduites (xi’, yi’).
Formule : le coefficient de corrélation linéaire est égal à :
r(x,y)
= cov(x,y)/sx sy |
Le coefficient de corrélation est du même signe que la covariance et indépendant des unités de mesures. Nous verrons qu’il est compris entre –1 et 1. On peut donc comparer deux coefficients de corrélation calculés sur des données statistiques différentes.
i |
xi |
yi |
i |
xi |
yi |
1 |
-1.1281 |
-0.8054 |
6 |
0.8253 |
0.1334 |
2 |
1.0119 |
-0.4356 |
7 |
0.9883 |
-0.9250 |
3 |
-0.7513 |
0.4391 |
8 |
0.4276 |
0.0813 |
4 |
-0.3582 |
0.6185 |
9 |
-0.4186 |
-0.9395 |
5 |
-2.4488 |
0.7595 |
10 |
0.1263 |
-1.0540 |
Figure 4.3 : représentation graphique des dix couples (xi, yi)
Pour calculer le coefficient de corrélation linéaire entre les deux variables, on peut construire le tableau de calcul suivant :
i |
xi |
yi |
xi² |
yi² |
xiyi |
(xi-mx)² |
(yi-my)² |
(xi – mx)x (yi – my) |
1 |
-1.1281 |
-0.8054 |
1.2727 |
0.6487 |
0.9086 |
0.9131 |
0.3512 |
0.5663 |
2 |
1.0119 |
-0.4356 |
1.0238 |
0.1898 |
-0.4408 |
1.4029 |
0.0497 |
-0.2639 |
3 |
-0.7513 |
0.4391 |
0.5644 |
0.1928 |
-0.3299 |
0.3349 |
0.4249 |
-0.3773 |
4 |
-0.3582 |
0.6185 |
0.1283 |
0.3826 |
-0.2215 |
0.0345 |
0.6910 |
-0.1543 |
5 |
-2.4488 |
0.7595 |
5.9966 |
0.5768 |
-1.8599 |
5.1813 |
0.9453 |
-2.2131 |
6 |
0.8253 |
0.1334 |
0.6811 |
0.0178 |
0.1101 |
0.9957 |
0.1198 |
0.3454 |
7 |
0.9883 |
-0.9250 |
0.9767 |
0.8557 |
-0.9142 |
1.3476 |
0.5073 |
-0.8268 |
8 |
0.4276 |
0.0813 |
0.1828 |
0.0066 |
0.0347 |
0.3602 |
0.0865 |
0.1765 |
9 |
-0.4186 |
-0.9395 |
0.1752 |
0.8826 |
0.3933 |
0.0605 |
0.5281 |
0.1788 |
10 |
0.1263 |
-1.0540 |
0.0160 |
1.1108 |
-0.1331 |
0.0893 |
0.7077 |
-0.2514 |
Ce tableau permet de calculer les moyennes, les variances, la covariance et le coefficient de corrélation linéaire. Les trois dernières colonnes, qu’on ne peut remplir qu’après le calcul de la moyenne, ne sont pas indispensables si on utilise les formules de calcul des variances et de la covariance. Elles permettent de détecter les unités statistiques particulières dans la liaison, ici l’unité statistique 5 dont on examinera la position sur la figure 4.
Cette unité statistique particulière donne un produit de la forme (x – mx) x (y-my ) relativement élevé en valeur absolue par rapport aux autres. La covariance et par suite le coefficient de corrélation en dépendent beaucoup. On trouve :
|
Sommes |
Moyennes |
des observations x |
-1.7256 |
-0.1726 |
des observations y |
-2.1277 |
-0.2128 |
des carrés x² |
11.0178 |
1.1018 |
des carrés y² |
4.8642 |
0.4864 |
des produits xy |
-2.4527 |
-0.2453 |
des produits (x – mx)(y – my) |
-2.8198 |
-0.2820 |
variances |
écarts-types |
|
des observations x |
1.0720 |
1.0354 |
des observations y |
0.4411 |
0.6642 |
On en déduit le coefficient de corrélation :
r(x,y) =-0.2820 / (1.0354 x 0.6642)
Soit :
r(x,y) = -0.4101 |
Le coefficient de corrélation calculé sans tenir compte de l’u.s. 5 est égal à -0.0883 : son influence est donc très forte, comme on peut le supposer en examinant la figure 4.
Définitions :
· On appelle point aberrant dans la liaison entre deux variables statistiques un point qui est en contradiction flagrante avec la liaison constatée sur les autres observations.
· On appelle point influent dans la liaison entre deux variables statistiques un point qui accentue considérablement la liaison constatée sur les autres observations.
La recherche des points aberrants et influents est fondée sur la première règle de classification que nous avons donnée dans le chapitre 2.
Exemple : la représentation graphique donnée en figure 4 permet de détecter deux points particuliers :
· L’u.s. i = 1 est en contradiction avec la liaison observée sur les autres points, mais n’est pas suffisamment écartée du point moyen pour que l’on puisse la considérer comme aberrante.
·
L’u.s. i = 5 à
l’extrémité du nuage de points est une observation influente : la
valeur x5 est très petite par rapport à la moyenne et la valeur y5
grande (cf. tableau de calcul). Elle accentue considérablement la liaison entre
les variables.
Lorsque les données sont présentées sous la forme de données groupées (nk, xk, yk), il suffit d’introduire les effectifs nk dans les calculs des moyennes, variances et covariances.
Dans le cas d’un tableau de corrélation, à chaque couple (ck, dl) défini par les centres des intervalles k et l est associé l’effectif nk,l. Le nombre d’observations xi dans l’intervalle de centre ck est noté nk., le nombre d’observations yi dans l’intervalle de centre dl est noté n.l. Les moyennes et variances des centres sont pondérées par les effectifs nk. pour les centres ck, n.l pour les centres dl. De même chaque terme dans le calcul de la covariance est pondéré par nk,l.
En notant p et q les nombres des intervalles définis sur les xi et yi, la covariance est donnée par la formule ci-dessous :
|
1 |
p |
q |
|
cov (c,d) = |
––– |
å |
å |
nk,l (ck
– mc) (dl – md) |
|
n |
k = 1 |
l = 1 |
|
On la calcule comme la moyenne pondérée des produits moins le produit des moyennes pondérées :
|
1 |
p |
q |
|
cov (c,d) = |
––– |
å |
å |
nk,l ck
dl – md mc |
|
n |
k = 1 |
l = 1 |
|
Dans la formule précédente, la somme ne concerne que les produits de la forme nk,l ck dl et le facteur 1/n ne divise que cette somme.
Comme précédemment, le coefficient de corrélation est le rapport de la covariance aux produits des écarts-types :
r(c,d) =
cov(c,d) / (sc sd ) |
Exemple : Considérons la répartition des 50 clients suivant l’âge et le revenu des clients d’Euromarket donnée précédemment. On calcule tout d’abord les paramètres de chaque série d’observations en tenant compte des effectifs de chaque classe. :
l |
dl |
n.l |
n.l dl |
n.l dl 2 |
1 |
85.35 |
26 |
2219.1 |
189400.18 |
2 |
110.04 |
14 |
1540.56 |
169523.22 |
3 |
134.74 |
5 |
673.7 |
90774.34 |
4 |
159.44 |
2 |
318.4 |
50765.70 |
5 |
184.14 |
3 |
552.42 |
101722.61 |
Somme |
|
50 |
5304.18 |
602186.05 |
revenu annuel
k |
ck |
nk. |
nk. ck |
nk. ck2 |
1 |
29.5 |
14 |
413.0 |
12183.50 |
2 |
40.5 |
27 |
1093.5 |
44286.75 |
3 |
51.5 |
5 |
257.5 |
13261.25 |
4 |
62.5 |
4 |
250.0 |
15625.00 |
Somme |
|
50 |
2014.0 |
85356.50 |
âge
Pour simplifier les résultats, nous avons exprimé les revenus en milliers de francs et ne conservons que deux décimales. On déduit de ces deux tableaux de calcul les variances et les écarts-types à l’aide des formules correspondantes :
|
âge |
revenu |
Moyenne |
40.28 |
106.08 |
Variance |
84.65 |
790.75 |
Écart-type |
9.20 |
28.12 |
Il reste à calculer le coefficient de corrélation, donc d’abord la covariance, égale à la moyenne des produits moins le produit des moyennes. Pour chaque classe de centre ck définie sur l’âge et chaque classe de centre dl définie sur le revenu, on calcule le produit nk,l ck dl . On remplit ainsi le tableau ci-dessous :
|
d1 = 85.35 |
d2 = 110.04 |
d3 = 134.74 |
d4 = 159.44 |
d5 = 184.14 |
c1 = 29.5 |
13x29.5x85.35 |
1x29.5x110.04 |
0 |
0 |
0 |
c2 = 40.5 |
9x40.5x85.35 |
12x40.5x110.04 |
4x40.5x134.74 |
1x40.5x159.44 |
1x40.5x184.14 |
c3 = 51.5 |
1x51.5x85.35 |
1x51.5x110.04 |
1x51.5x134.74 |
1x51.5x159.44 |
1x51.5x184.14 |
c4 = 62.5 |
3x62.5 85.35 |
0 |
0 |
0 |
1x62.5x184.14 |
Sommes |
84240.45 |
62392.68 |
28766.99 |
14668.48 |
28449.63 |
La somme totale est égale à 218 518.23, et la moyenne des produits à 4 370.36. On en déduit la covariance :
cov(âge, revenu) = 4370.36 – 40.28 x 106.08 = 97.46
D’où enfin le coefficient de corrélation :
r(âge, revenu)= 97.46 / [9.20 x 28.12]
r(âge, revenu)= 0.377 |
La répartition des données dans un tableau de corrélation n’a pas modifié sensiblement les moyennes ni les variances. Par contre le coefficient de corrélation est égal à 0.377. Il est ici supérieur au coefficient de corrélation calculé sur les données individuelles (0.298), mais ce n’est pas toujours le cas. Avec toutes les décimales, on obtient r = 0.375.
On pourra vérifier cette stabilité du coefficient de corrélation en changeant de classes, en les caractérisant par leurs moyennes. Les calculs peuvent être effectués par StatPC.