2. Coefficient de corrélation linéaire.

Le coefficient de corrélation linéair e de Bravais-Pearson, appelé souvent simplement coefficient de corrélation, est une mesure de la liaison entre les variables. Avant d’en préciser les propriétés et les limites, nous introduisons la notion de covariance en utilisant les propriétés illustrées dans la figure 1.

2.1 Covariance.

Comme nous l’avons expliqué précédemment, les deux variables sont liées quand une information sur l’une donne une information sur l’autre, plus précisément ici quand la position d’une des variables par rapport à la moyenne donne une indication sur la position de l’autre.

Les quatre quadrants définis par les axes contiennent des unités statistiques telles que :

dans le quadrant I :	x > m_x, y > m_y	dans le quadrant II :	x < m_x, y > m_y
dans le quadrant III :	x < m_x, y < m_y	dans le quadrant IV :	x > m_x, y < m_y

On en déduit le signe des produits (x – m_x) (y – m_y) dans chacun des quadrants :

quadrant I :	(x – m_x) (y – m_y) > 0	quadrant II :	(x – m_x) (y – m_y) < 0
quadrant III :	(x – mx) (y – my) > 0	quadrant IV :	(x – m_x) (y – m_y) < 0

Supposons que la plupart des unités statistiques se trouvent dans les quadrants I et III. Les produits de la forme (x – m_x) (y – m_y) sont généralement positifs. Leur moyenne est positive et sera d’autant plus grande que les unités statistiques représentées dans les quadrants I et III seront nombreuses et éloignées de l’origine des axes.

Supposons que la plupart des unités statistiques se trouvent dans les quadrants II et IV. Les produits (x – m_x) (y – m_y) sont généralement négatifs, et par suite leur moyenne est négative. Cette moyenne sera d’autant plus petite (grande en valeur absolue) que les unités statistiques représentées dans les quadrants II et IV seront nombreuses et éloignées de l’origine des axes.

Lorsque la plupart des unités statistiques se trouvent régulièrement réparties dans les quatre quadrants, on ne constate pas de liaison entre les variables : les produits positifs et les produits négatifs se compensent plus ou moins les uns les autres. Leur moyenne est relativement proche de 0.

Exemple : les 50 clients de l’hypermarché se répartissent de la façon suivante dans les quatre quadrants :

quadrant I	(x > m_x, y > m_y) :	12	quadrant II	(x < m_x, y > m_y) :	6
quadrant III	(x < m_x, y < m_y) :	25	quadrant IV	(x > m_x, y < m_y) :	7

Les quadrants I et III contiennent 37 unités statistiques sur 50. L’âge et le revenu sont en général placés de façon identique par rapport à leurs moyennes : un client plus âgé que la moyenne (ou moins âgé) bénéficie en général d’un revenu supérieur à la moyenne (ou inférieur) et inversement. Les produits de la forme (x – m_x) (y – m_y) sont généralement positifs, et par suite leur moyenne.

Définition : on appelle covariance cov(x,y) de la série (x_i, y_i) la moyenne des produits de la forme (x_i – m_x) (y_i – m_y) :

	1	n
cov(x,y) =	–––	S	( x_i – m_x)( y_i – m_y )
	n	i = 1

Le calcul de la covariance par la formule ci-dessus n’est guère commode : il faut d’abord calculer les moyennes, puis les différences, puis leur produit et enfin la moyenne des produits. On préfère utiliser une autre formule pour le calcul.

Propri été : la covariance est égale à la moyenne des produits moins le produit des moyennes.

	1	n
cov(x,y) =	–––	S	x_i y_i – m_x m_y
	n	i = 1

Remarque : la covariance d’une variable avec elle-même est égale à la variance de cette variable : cov(x,x) = s_x².

2.2 Coefficient de corrélation linéaire.

La covariance est un paramètre statistique difficile à interpréter : comment évaluer la taille de ce paramètre ? A partir de quelle valeur peut-il être considéré comme « grand », ou « petit » ? Comment comparer deux covariances calculées sur des données totalement différentes ? La difficulté de répondre à ces questions est due en particulier au fait que la covariance dépend des unités de mesure choisies pour observer les séries (x_i) et (y_i).

Si l’âge est en années et le revenu en francs, la covariance entre l’âge et le revenu est en « années francs » ; si l’âge est en mois (1 année = 12 mois) et le revenu en dollars (1 F = 1/6 $), la valeur numérique de la « même » covariance sera égale à la précédente multipliée par 12 x 1/6 = 2. C’est pourquoi l’on préfère en général calculer la covariance des séries c entrées réduites (x_i’) et (y_i’), qui sont indépendantes des unités de mesure, et dont les formules ont été données dans le chapitre 2 :

	x_i – m_x		y_i – m_y
x_i’ =	––––––	y_i’ =	––––––––
	s_x		s_y

Définition : on appelle coefficient de co rré l ati on linéair e de la série (x_i, y_i) la covariance des variable centrées ré duites (x_i’, y_i’).

For mule : le coefficient de corrélation linéaire est égal à :

r(x,y) = cov(x,y)/s_x s_y

Le coefficient de corrélation est du même signe que la covariance et indépendant des unités de mesures. Nous verrons qu’il est compris entre –1 et 1. On peut donc comparer deux coefficients de corrélation calculés sur des données statistiques différentes.

Exemple de calcul : nous considérons ci-dessous une série de 10 couples d’observations. Nous en construisons la représentation graphique, puis calculons en détail le coefficient de corrélation.

i	x_i	y_i	i	x_i	y_i
1	-1.1281	-0.8054	6	0.8253	0.1334
2	1.0119	-0.4356	7	0.9883	-0.9250
3	-0.7513	0.4391	8	0.4276	0.0813
4	-0.3582	0.6185	9	-0.4186	-0.9395
5	-2.4488	0.7595	10	0.1263	-1.0540

Figure 4.3 : représentation graphique des dix couples (x_i, y_i)

Pour calculer le coefficient de corrélation linéaire entre les deux variables, on peut construire le tableau de calcul suivant :

i	x_i	y_i	x_i²	y_i²	x_iy_i	(x_i-m_x)²	(y_i-m_y)²	(x_i – m_x)x (y_i – m_y)
1	-1.1281	-0.8054	1.2727	0.6487	0.9086	0.9131	0.3512	0.5663
2	1.0119	-0.4356	1.0238	0.1898	-0.4408	1.4029	0.0497	-0.2639
3	-0.7513	0.4391	0.5644	0.1928	-0.3299	0.3349	0.4249	-0.3773
4	-0.3582	0.6185	0.1283	0.3826	-0.2215	0.0345	0.6910	-0.1543
5	-2.4488	0.7595	5.9966	0.5768	-1.8599	5.1813	0.9453	-2.2131
6	0.8253	0.1334	0.6811	0.0178	0.1101	0.9957	0.1198	0.3454
7	0.9883	-0.9250	0.9767	0.8557	-0.9142	1.3476	0.5073	-0.8268
8	0.4276	0.0813	0.1828	0.0066	0.0347	0.3602	0.0865	0.1765
9	-0.4186	-0.9395	0.1752	0.8826	0.3933	0.0605	0.5281	0.1788
10	0.1263	-1.0540	0.0160	1.1108	-0.1331	0.0893	0.7077	-0.2514

Ce tableau permet de calculer les moyennes, les variances, la covariance et le coefficient de corrélation linéaire. Les trois dernières colonnes, qu’on ne peut remplir qu’après le calcul de la moyenne, ne sont pas indispensables si on utilise les formules de calcul des variances et de la covariance. Elles permettent de détecter les unités statistiques particulières dans la liaison, ici l’unité statistique 5 dont on examinera la position sur la figure 4.

Cette unité statistique particulière donne un produit de la forme (x – m_x) x (y-m_y ) relativement élevé en valeur absolue par rapport aux autres. La covariance et par suite le coefficient de corrélation en dépendent beaucoup. On trouve :

	Sommes	Moyennes
des observations x	-1.7256	-0.1726
des observations y	-2.1277	-0.2128
des carrés x²	11.0178	1.1018
des carrés y²	4.8642	0.4864
des produits xy	-2.4527	-0.2453
des produits (x – m_x)(y – m_y)	-2.8198	-0.2820
	variances	écarts-types
des observations x	1.0720	1.0354
des observations y	0.4411	0.6642

On en déduit le coefficient de corrélation :

r(x,y) =-0.2820 / (1.0354 x 0.6642)

Soit :

r(x,y) = -0.4101

Le coefficient de corrélation calculé sans tenir compte de l’u.s. 5 est égal à -0.0883 : son influence est donc très forte, comme on peut le supposer en examinant la figure 4.

Définitions :

· On appelle point aberrant dans la liaison entre deux variables statistiques un point qui est en contradiction flagrante avec la liaison constatée sur les autres observations.

· On appelle point influent dans la liaison entre deux variables statistiques un point qui accentue considérablement la liaison constatée sur les autres observations.

La recherche des points aberrants et influents est fondée sur la première règle de classification que nous avons donnée dans le chapitre 2.

Exemple : la représentation graphique donnée en figure 4 permet de détecter deux points particuliers :

· L’u.s. i = 1 est en contradiction avec la liaison observée sur les autres points, mais n’est pas suffisamment écartée du point moyen pour que l’on puisse la considérer comme aberrante.

· L’u.s. i = 5 à l’extrémité du nuage de points est une observation influente : la valeur x₅ est très petite par rapport à la moyenne et la valeur y₅ grande (cf. tableau de calcul). Elle accentue considérablement la liaison entre les variables.

Lorsque les données sont présentées sous la forme de données groupées (n_k, x_k, y_k), il suffit d’introduire les effectifs n_k dans les calculs des moyennes, variances et covariances.

Dans le cas d’un ta b l e a u de corrélation, à chaque couple (c_k, d_l) défini par les centres des intervalles k et l est associé l’effectif n_k,l. Le nombre d’observations x_i dans l’intervalle de centre c_k est noté n_k., le nombre d’observations y_i dans l’intervalle de centre d_lest noté n._l. Les m o y e nn es et va r i ances des centres sont pondérées par les effectifs n_k. pour les centres c_k, n._lpour les centres d_l. De même chaque terme dans le calcul de la covariance est pondéré par n_k,l.

En notant p et q les nombres des intervalles définis sur les x_i et y_i, la covariance est donnée par la formule ci-dessous :

	1	p	q
cov (c,d) =	–––	å	å	n_k,l(c_k – m_c) (d_l– m_d)
	n	k = 1	l = 1

On la calcule comme la moyenne pondérée des produits moins le produit des moyennes pondérées :

	1	p	q
cov (c,d) =	–––	å	å	n_k,lc_k d_l – m_d m_c
	n	k = 1	l = 1

Dans la formule précédente, la somme ne concerne que les produits de la forme n_k,lc_k d_l et le facteur 1/n ne divise que cette somme.

Comme précédemment, le coefficient de corrélation est le rapport de la covariance aux produits des écarts-types :

r(c,d) = cov(c,d) / (s_c s_d )

Exemple : Considérons la répartition des 50 clients suivant l’âge et le revenu des clients d’Euromarket donnée précédemment. On calcule tout d’abord les paramètres de chaque série d’observations en tenant compte des effectifs de chaque classe. :

l	d_l	n._l	n._l d_l	n._l d_l²
1	85.35	26	2219.1	189400.18
2	110.04	14	1540.56	169523.22
3	134.74	5	673.7	90774.34
4	159.44	2	318.4	50765.70
5	184.14	3	552.42	101722.61
Somme		50	5304.18	602186.05

revenu annuel

k	c_k	n_k.	n_k. c_k	n_k. c_k²
1	29.5	14	413.0	12183.50
2	40.5	27	1093.5	44286.75
3	51.5	5	257.5	13261.25
4	62.5	4	250.0	15625.00
Somme		50	2014.0	85356.50

âge

Pour simplifier les résultats, nous avons exprimé les revenus en milliers de francs et ne conservons que deux décimales. On déduit de ces deux tableaux de calcul les variances et les écarts-types à l’aide des formules correspondantes :

	âge	revenu
Moyenne	40.28	106.08
Variance	84.65	790.75
Écart-type	9.20	28.12

Il reste à calculer le coefficient de corrélation, donc d’abord la covariance, égale à la moyenne des produits moins le produit des moyennes. Pour chaque classe de centre c_k définie sur l’âge et chaque classe de centre d_l définie sur le revenu, on calcule le produit n_k,l c_k d_l . On remplit ainsi le tableau ci-dessous :

	d₁ = 85.35	d₂ = 110.04	d₃ = 134.74	d₄ = 159.44	d₅ = 184.14
c₁ = 29.5	13x29.5x85.35	1x29.5x110.04	0	0	0
c₂ = 40.5	9x40.5x85.35	12x40.5x110.04	4x40.5x134.74	1x40.5x159.44	1x40.5x184.14
c₃ = 51.5	1x51.5x85.35	1x51.5x110.04	1x51.5x134.74	1x51.5x159.44	1x51.5x184.14
c₄ = 62.5	3x62.5 85.35	0	0	0	1x62.5x184.14
Sommes	84240.45	62392.68	28766.99	14668.48	28449.63

La somme totale est égale à 218 518.23, et la moyenne des produits à 4 370.36. On en déduit la covariance :

cov(âge, revenu) = 4370.36 – 40.28 x 106.08 = 97.46

D’où enfin le coefficient de corrélation :

r(âge, revenu)= 97.46 / [9.20 x 28.12]

r(âge, revenu)= 0.377

La répartition des données dans un tableau de corrélation n’a pas modifié sensiblement les moyennes ni les variances. Par contre le coefficient de corrélation est égal à 0.377. Il est ici supérieur au coefficient de corrélation calculé sur les données individuelles (0.298), mais ce n’est pas toujours le cas. Avec toutes les décimales, on obtient r = 0.375.

On pourra vérifier cette stabilité du coefficient de corrélation en changeant de classes, en les caractérisant par leurs moyennes. Les calculs peuvent être effectués par StatPC.