2. Coefficient de corrélation linéaire.

Le coefficient de corrélation linéaire de Bravais-Pearson, appelé souvent simplement coefficient de corrélation, est une mesure de la liaison entre les variables. Avant d’en préciser les propriétés et les limites, nous introduisons la notion de covariance en utilisant les propriétés illustrées dans la figure 1.

2.1 Covariance.

Comme nous l’avons expliqué précédemment, les deux variables sont liées quand une information sur l’une donne une information sur l’autre, plus précisément ici quand la position d’une des variables par rapport à la moyenne donne une indication sur la position de l’autre.

Les quatre quadrants définis par les axes contiennent des unités statistiques telles que :

dans le quadrant I :

x > mx, y > my

dans le quadrant II :

x < mx, y > my

dans le quadrant III :

x < mx, y < my

dans le quadrant IV :

x > mx, y < my

 

On en déduit le signe des produits (x – mx) (y – my) dans chacun des quadrants :

 

quadrant I :

(x – mx) (y – my) > 0

quadrant II :

(x – mx) (y – my) < 0

quadrant III :

(x – mx) (y – my) > 0

quadrant IV :

(x – mx) (y – my) < 0

 

Supposons que la plupart des unités statistiques se trouvent dans les quadrants I et III. Les produits de la forme (x – mx) (y – my) sont généralement positifs. Leur moyenne est positive et sera d’autant plus grande que les unités statistiques représentées dans les quadrants I et III seront nombreuses et éloignées de l’origine des axes.

Supposons que la plupart des unités statistiques se trouvent dans les quadrants II et IV. Les produits (x – mx) (y – my) sont généralement négatifs, et par suite leur moyenne est négative. Cette moyenne sera d’autant plus petite (grande en valeur absolue) que les unités statistiques représentées dans les quadrants II et IV seront nombreuses et éloignées de l’origine des axes.

Lorsque la plupart des unités statistiques se trouvent régulièrement réparties dans les quatre quadrants, on ne constate pas de liaison entre les variables : les produits positifs et les produits négatifs se compensent plus ou moins les uns les autres. Leur moyenne est relativement proche de 0.

 

Exemple : les 50 clients de l’hypermarché se répartissent de la façon suivante dans les quatre quadrants :

quadrant I

(x > mx, y > my) :

12

quadrant II

(x < mx, y > my) :

6

quadrant III

(x < mx, y < my) :

25

quadrant IV

(x > mx, y < my) :

7

 

Les quadrants I et III contiennent 37 unités statistiques sur 50. L’âge et le revenu sont en général placés de façon identique par rapport à leurs moyennes : un client plus âgé que la moyenne (ou moins âgé) bénéficie en général d’un revenu supérieur à la moyenne (ou inférieur) et inversement. Les produits de la forme (x – mx) (y – my) sont généralement positifs, et par suite leur moyenne.

 

Définition : on appelle covariance cov(x,y) de la série (xi, yi) la moyenne des produits de la forme (xi – mx) (yi – my) :

 

1

n

 

cov(x,y) =

–––

S

( xi – mx)( yi – my )

 

n

i = 1

 

 

Le calcul de la covariance par la formule ci-dessus n’est guère commode : il faut d’abord calculer les moyennes, puis les différences, puis leur produit et enfin la moyenne des produits. On préfère utiliser une autre formule pour le calcul.

 

Proprié : la covariance est égale à la moyenne des produits moins le produit des moyennes.

 

1

n

 

cov(x,y) =

–––

S

xi yi – mx my

 

n

i = 1

 

 

Remarque : la covariance d’une variable avec elle-même est égale à la variance de cette variable : cov(x,x) = sx2.

2.2 Coefficient de corrélation linéaire.

La covariance est un paramètre statistique difficile à interpréter : comment évaluer la taille de ce paramètre ? A partir de quelle valeur peut-il être considéré comme « grand », ou « petit » ? Comment comparer deux covariances calculées sur des données totalement différentes ? La difficulté de répondre à ces questions est due en particulier au fait que la covariance dépend des unités de mesure choisies pour observer les séries (xi) et (yi).

Si l’âge est en années et le revenu en francs, la covariance entre l’âge et le revenu est en « années francs » ; si l’âge est en mois (1 année = 12 mois) et le revenu en dollars (1 F = 1/6 $), la valeur numérique de la « même » covariance sera égale à la précédente multipliée par 12 x 1/6 = 2. C’est pourquoi l’on préfère en général calculer la covariance des séries centrées réduites (xi’) et (yi’), qui sont indépendantes des unités de mesure, et dont les formules ont été données dans le chapitre 2 :

 

xi – mx

 

 

yi – my

 xi’ =

––––––

 

yi’ =

––––––––

 

sx

 

 

sy

 

Définition : on appelle coefficient de corrélation linéaire de la série (xi, yi) la covariance des variable centrées réduites (xi’, yi’).

 

Formule : le coefficient de corrélation linéaire est égal à :

r(x,y) = cov(x,y)/sx sy

 

Le coefficient de corrélation est du même signe que la covariance et indépendant des unités de mesures. Nous verrons qu’il est compris entre –1 et 1. On peut donc comparer deux coefficients de corrélation calculés sur des données statistiques différentes.

 

Exemple de calcul : nous considérons ci-dessous une série de 10 couples d’observations. Nous en construisons la représentation graphique, puis calculons en détail le coefficient de corrélation.

i

xi

yi

i

xi

yi

1

-1.1281

-0.8054

6

0.8253

0.1334

2

1.0119

-0.4356

7

0.9883

-0.9250

3

-0.7513

0.4391

8

0.4276

0.0813

4

-0.3582

0.6185

9

-0.4186

-0.9395

5

-2.4488

0.7595

10

0.1263

-1.0540

 

 

Figure 4.3 : représentation graphique des dix couples (xi, yi)

 

Pour calculer le coefficient de corrélation linéaire entre les deux variables, on peut construire le tableau de calcul suivant :




i

xi

yi

xi²

yi²

xiyi

(xi-mx

(yi-my

(xi – mx)x (yi – my)

1

-1.1281

-0.8054

1.2727

0.6487

0.9086

0.9131

0.3512

0.5663

2

1.0119

-0.4356

1.0238

0.1898

-0.4408

1.4029

0.0497

-0.2639

3

-0.7513

0.4391

0.5644

0.1928

-0.3299

0.3349

0.4249

-0.3773

4

-0.3582

0.6185

0.1283

0.3826

-0.2215

0.0345

0.6910

-0.1543

5

-2.4488

0.7595

5.9966

0.5768

-1.8599

5.1813

0.9453

-2.2131

6

0.8253

0.1334

0.6811

0.0178

0.1101

0.9957

0.1198

0.3454

7

0.9883

-0.9250

0.9767

0.8557

-0.9142

1.3476

0.5073

-0.8268

8

0.4276

0.0813

0.1828

0.0066

0.0347

0.3602

0.0865

0.1765

9

-0.4186

-0.9395

0.1752

0.8826

0.3933

0.0605

0.5281

0.1788

10

0.1263

-1.0540

0.0160

1.1108

-0.1331

0.0893

0.7077

-0.2514

Ce tableau permet de calculer les moyennes, les variances, la covariance et le coefficient de corrélation linéaire. Les trois dernières colonnes, qu’on ne peut remplir qu’après le calcul de la moyenne, ne sont pas indispensables si on utilise les formules de calcul des variances et de la covariance. Elles permettent de détecter les unités statistiques particulières dans la liaison, ici l’unité statistique 5 dont on examinera la position sur la figure 4.

Cette unité statistique particulière donne un produit de la forme (x – mx) x (y-my ) relativement élevé en valeur absolue par rapport aux autres. La covariance et par suite le coefficient de corrélation en dépendent beaucoup. On trouve :

 

 

 Sommes

Moyennes

des observations x

-1.7256

-0.1726

des observations y

-2.1277

-0.2128

des carrés x²

11.0178

1.1018

des carrés y²

4.8642

0.4864

des produits xy

-2.4527

-0.2453

des produits (x – mx)(y – my)

-2.8198

-0.2820


variances

écarts-types

des observations x

1.0720

1.0354

des observations y

0.4411

0.6642

 

On en déduit le coefficient de corrélation :

r(x,y) =-0.2820 / (1.0354 x 0.6642)

Soit :

r(x,y) = -0.4101

 

Le coefficient de corrélation calculé sans tenir compte de l’u.s. 5 est égal à -0.0883 : son influence est donc très forte, comme on peut le supposer en examinant la figure 4.

 

Définitions :

·           On appelle point aberrant dans la liaison entre deux variables statistiques un point qui est en contradiction flagrante avec la liaison constatée sur les autres observations.

·           On appelle point influent dans la liaison entre deux variables statistiques un point qui accentue considérablement la liaison constatée sur les autres observations.

 

La recherche des points aberrants et influents est fondée sur la première règle de classification que nous avons donnée dans le chapitre 2.

 

Exemple : la représentation graphique donnée en figure 4 permet de détecter deux points particuliers :

·           L’u.s. i = 1 est en contradiction avec la liaison observée sur les autres points, mais n’est pas suffisamment écartée du point moyen pour que l’on puisse la considérer comme aberrante.

·           L’u.s. i = 5 à l’extrémité du nuage de points est une observation influente : la valeur x5 est très petite par rapport à la moyenne et la valeur y5 grande (cf. tableau de calcul). Elle accentue considérablement la liaison entre les variables.

 

Lorsque les données sont présentées sous la forme de données groupées (nk, xk, yk), il suffit d’introduire les effectifs nk dans les calculs des moyennes, variances et covariances.

Dans le cas d’un tableau de corrélation, à chaque couple (ck, dl) défini par les centres des intervalles k et l est associé l’effectif nk,l. Le nombre d’observations xi dans l’intervalle de centre ck est noté nk., le nombre d’observations yi dans l’intervalle de centre dl est noté n.l. Les moyennes et variances des centres sont pondérées par les effectifs nk. pour les centres ck, n.l pour les centres dl. De même chaque terme dans le calcul de la covariance est pondéré par nk,l.

En notant p et q les nombres des intervalles définis sur les xi et yi, la covariance est donnée par la formule ci-dessous :

 

1

p

q

 

cov (c,d) =

–––

å

å

nk,l (ck – mc) (dl – md)

 

n

k = 1

l = 1

 

 

On la calcule comme la moyenne pondérée des produits moins le produit des moyennes pondérées :

 

1

p

q

 

cov (c,d) =

–––

å

å

nk,l ck dl – md mc

 

n

k = 1

l = 1

 

 

Dans la formule précédente, la somme ne concerne que les produits de la forme nk,l ck dl et le facteur 1/n ne divise que cette somme.

Comme précédemment, le coefficient de corrélation est le rapport de la covariance aux produits des écarts-types :

r(c,d) = cov(c,d) / (sc sd )

 

Exemple : Considérons la répartition des 50 clients suivant l’âge et le revenu des clients d’Euromarket donnée précédemment. On calcule tout d’abord les paramètres de chaque série d’observations en tenant compte des effectifs de chaque classe. :

 

l

dl

n.l

n.l dl

n.l dl 2

1

85.35

26

2219.1

189400.18

2

110.04

14

1540.56

169523.22

3

134.74

5

673.7

90774.34

4

159.44

2

318.4

50765.70

5

184.14

3

552.42

101722.61

Somme

 

50

5304.18

602186.05

revenu annuel

 


k

ck

nk.

nk. ck

nk. ck2

1

29.5

14

413.0

12183.50

2

40.5

27

1093.5

44286.75

3

51.5

5

257.5

13261.25

4

62.5

4

250.0

15625.00

Somme

 

50

2014.0

85356.50

âge

Pour simplifier les résultats, nous avons exprimé les revenus en milliers de francs et ne conservons que deux décimales. On déduit de ces deux tableaux de calcul les variances et les écarts-types à l’aide des formules correspondantes :

 

âge

revenu

Moyenne

40.28

106.08

Variance

84.65

790.75

Écart-type

9.20

28.12

 

Il reste à calculer le coefficient de corrélation, donc d’abord la covariance, égale à la moyenne des produits moins le produit des moyennes. Pour chaque classe de centre ck définie sur l’âge et chaque classe de centre dl définie sur le revenu, on calcule le produit nk,l ck dl . On remplit ainsi le tableau ci-dessous :

 

d1 = 85.35

d2 = 110.04

d3 = 134.74

d4 = 159.44

d5 = 184.14

c1 = 29.5

13x29.5x85.35

1x29.5x110.04

0

0

0

c2 = 40.5

9x40.5x85.35

12x40.5x110.04

4x40.5x134.74

1x40.5x159.44

1x40.5x184.14

c3 = 51.5

1x51.5x85.35

1x51.5x110.04

1x51.5x134.74

1x51.5x159.44

1x51.5x184.14

c4 = 62.5

3x62.5 85.35

0

0

0

1x62.5x184.14

Sommes

84240.45

62392.68

28766.99

14668.48

28449.63

 

La somme totale est égale à 218 518.23, et la moyenne des produits à 4 370.36. On en déduit la covariance :

cov(âge, revenu) = 4370.36 – 40.28 x 106.08 = 97.46

D’où enfin le coefficient de corrélation :

r(âge, revenu)= 97.46 / [9.20 x 28.12]

 

r(âge, revenu)= 0.377

 

La répartition des données dans un tableau de corrélation n’a pas modifié sensiblement les moyennes ni les variances. Par contre le coefficient de corrélation est égal à 0.377. Il est ici supérieur au coefficient de corrélation calculé sur les données individuelles (0.298), mais ce n’est pas toujours le cas. Avec toutes les décimales, on obtient r = 0.375.

On pourra vérifier cette stabilité du coefficient de corrélation en changeant de classes, en les caractérisant par leurs moyennes. Les calculs peuvent être effectués par StatPC.