Chapitre 3

 

Régression corrélation

 

Les données se présentent sous la forme d’une suite de n couples de valeurs numériques(xi, yi), numérotés de i = 1 à i = n. On note mx, sx², my, sy² les moyennes et les variances des séries (xi) et (yi). Il s’agit donc de données quantitatives.

1. Représentations graphiques.

1.1 Conventions élémentaires.

L’origine du repère est fixée au point moyen noté G caractérisant les moyennes mx et m; les axes définissent quatre quadrants de la façon suivante :

Représentation graphique des couples (xi, yi)

En abscisse : xi, en ordonnées : yi

1.2 Tableau de corrélation.

Définition : on appelle tableau de corrélation des couples (xi, yi) i = 1, …, n le tableau d’effectifs obtenu par répartition des unités statistiques dans des intervalles fixés pour chaque série (xi) i = 1, …, n et (yi) i = 1, … n.

Représentation d’un tableau de corrélation : chaque couple (ck, dl) d’effectif nk,l est représenté par un disque dont l’aire est proportionnelle à l’effectif et le rayon défini par :

r = l [nk,l / n]1/2

l  est la plus petite dimension du rectangle contenant le graphique.


1.3 Autres procédures.

·        axes orthonormés (variables centrées réduites ou homogènes) ;

·        échelle (semi) logarithmique (en cas de croissance exponentielle)

2. Coefficient de corrélation linéaire

2.1 Covariance.

Les quatre quadrants définis par les axes contiennent des unités statistiques telles que :

 

quadrant I :

(x – mx) (y – my) > 0

quadrant II :

(x – mx) (y – my) < 0

quadrant III :

(x – mx) (y – my) > 0

quadrant IV :

(x – mx) (y – my) < 0

Définition : on appelle covariance cov(x,y) de la série (xi, yi) la moyenne des produits de la forme (xi – mx) (yi – my) :

 

1

n

 

cov(x,y) =

–––

S

( xi – mx)( yi – my )

 

n

i = 1

 

Proprié : la covariance est égale à la moyenne des produits moins le produit des moyennes.

 

1

n

 

cov(x,y) =

–––

S

xi yi – mx my

 

n

i = 1

 

Cas d’un tableau de corrélation :

 

1

p

q

 

cov (c,d) =

–––

å

å

nk,l (ck – mc) (dl – md)

 

n

k = 1

l = 1

 

 

           

1

p

q

 

cov (c,d) =

–––

å

å

nk,l ck dl – md mc

 

n

k = 1

l = 1

 

2.2 Coefficient de corrélation linéaire.

Définition : on appelle coefficient de corrélation linéaire des séries (xi, yi) la covariance des séries centrées réduites (xi’, yi’).

Propriété immédiate : il est indépendant des unités de mesure des variables (xi) et (yi).

Formule : le coefficient de corrélation linéaire est égal à :

r(x,y) = cov(x,y)/ [sx sy]

 


Définitions :

·        On appelle point aberrant dans la liaison entre deux variables statistiques un point qui est en contradiction flagrante avec la liaison constatée sur les autres observations. Sa suppression accentue cette liaison.

·        On appelle point influent dans la liaison entre deux variables statistiques un point qui accentue la liaison constatée sur les autres observations. Sa suppression diminue cette liaison.

3. Propriétés du coefficient de corrélation.

3.1 Propriétés mathématiques du coefficient de corrélation linéaire.

Propriété fondamentale : le coefficient de corrélation linéaire d’une série de couples d’observations (xi, yi) i =1, …, n est compris entre -1 et 1. S’il est égal à ±1, les couples (xi, yi) i = 1, …, n vérifient exactement une relation linéaire de la forme :

quel que soit i = 1, …, n

a xi + b yi + c = 0

où a et b sont deux nombres réels constants et les points qui les représentent sont strictement alignés.

3.2 Interprétation du coefficient de corrélation. Liaison linéaire.

·        Plus il est proche de 1 ou de ‑1, plus les points sont proches d’une droite.

·        on peut obtenir des coefficients de corrélation très proches de 1 (0.95) sur des données non linéaires (par exemple, des données de la forme y = ex).

·        on peut obtenir des coefficients de corrélation nuls sur des données liées par une relation non linéaire exacte (cf. l’exemple donné plus loin).

·        une relation statistique ne montre jamais de relation causale entre deux variables.

3.3 Variation du coefficient de corrélation autour de 0 (répartitions normales) :

n

valeur limite

n

valeur limite

n

valeur limite

10

0.6319

60

0.2542

150

0.1603

20

0.4438

70

0.2352

160

0.1552

30

0.3610

80

0.2199

170

0.1506

40

0.3120

90

0.2072

180

0.1463

50

0.2787

100

0.1966

200

0.1388

Valeurs limites dans le cas de lois normales

3.4. Matrices de corrélation.

On considère des données constituées des n observations de p séries statistiques X1, X2, …, Xp. On peut donc calculer les coefficients de corrélation entre les séries

·        X1 et X2, X1 et X3, X1 et X4, …, X1 et Xp.

·        X2 et X3, X2 et X4, X2 et X5, …, X2 et Xp.

·        X3 et X4, X3 et X5, …, X3 et Xp.

Exemple :

 

âge

revenu

achats

nb. enfants

âge

1.000

 

 

 

revenu

0.298

1.000

 

 

achat

-0.132

0.137

1.000

 

nb. enfants

-0.192

0.384

0.626

1.000

 

Coefficient de corrélation entre l’âge et le revenu :                                     0.298

Coefficient de corrélation entre l’âge et le montant des achats :                 -0.132

Coefficient de corrélation entre le revenu et le montant des achats :            0.137

etc.

4. Droite de régression.

4.1 Critère des moindres carrés.

Figure 8.3 : Critère des moindres carrés

origine des axes en (mx, my)

Critère des moindres carrés : Pour que chaque valeur yi soit la plus proche possible de l’ordonnée b xi + a du point d’abscisse xi de la droite, on minimise la somme des carrés des différences :

 

n

 

S =

S

[ yi – (b xi + a) ]2

 

i = 1

 

4.2 Estimation des coefficients de régression. Résidus.

Définition : on appelle droite de régression de Y en X calculée sur les couples (xi, yi)
i = 1, …, n la droite d’équation la plus proche des points de coordonnées (xi, yi) au sens des moindres carrés.

Théorème et définition : les coefficients b et a de la droite de régression sont appelés coefficients de régression. Ils sont donnés par les formules ci-dessous :

b = cov(x, y) / sx2

= r sy / sx

a = my – b mx

Conséquence importante : la droite de régression toujours passe par le point moyen :

pour x = mx, on obtient y = my.

Définition : on appelle résidu ei le terme défini par la différence entre la valeur observée yi et l’ordonnée du point de la droite de régression d’abscisse xi, pour i = 1…, n.

ei = yi – (b xi + a) , i = 1 … n

propriétés des résidus :

1

-

n

n

S

i = 1

 

ei = 0

1

-

n

n

S

i = 1

 

ei2 = (1 – r2) sy2

1

-

n

n

S

i = 1

 

xi ei = 0

4.3 Exemple : régression des revenus en fonction de l’âge des clients d’Euromarket.

équation de la droite de régression

y = 946.174 x âge + 69735.75

coefficient de corrélation linéaire

r = 0.298

variance des résidus

s2 = 798 979 500 

écart type des résidus

s = 28 266.23

 

Les valeurs du revenu estimé pour 55 ans et 65 ans sont données par l’équation de la droite :

âge

calcul de l’estimation

estimation

55

y = 946.174 x 55 + 69 735.75 =

121 775.3

65

y = 946.174 x 65 + 69 735.75 =

131 237.1

 

résidus

 

calcul

 

 

 

valeurs

e1

=

946.174 x 51 + 697 35.75

=

195 888 – 117 990

=

77 897.38

e8

=

946.174 x 53 + 69 735.75

=

155 989 – 119 883

=

36 106.03

e10

=

946.174 x 57 + 69 735.75

=

196 484 – 123 667.7

=

72 816.34

Figure 9.3 : représentation graphique des couples (âge, revenu)

Droite de régression et prévision du revenu pour 55 ans.

Les trois points aberrants correspondent aux trois personnes les plus âgées (plus de 60 ans), dont les revenus sont parmi les plus faibles. La prévision est contestable puisque la liaison n’est pas linéaire. Ces trois personnes sont des retraités : on peut donc effectuer la régression en les écartant des données : on ne considère alors que les personnes en activité. La droite de régression est modifiée et la prévision nettement meilleure. Par contre, cette prévision ne peut être effectuée que pour les personnes en activité, de moins de 60 ans sur ces données.