Régression corrélation

dans un tableau croisé

 

Le calcul d’un coefficient de corrélation lorsque les données se présentent sous la forme d’un tableau croisé suit la même démarche théorique que dans le cas de données individuelles. Mais, au plan pratique, elle se présente d’une façon différente.

Le logiciel utilisé pour effectuer les calculs ci-dessous est StatPC, option Statistiques sur un tableau croisé.

Nous choisissons comme variables statistiques l’âge et le revenu des 50 clients d’Euromarket (fichier de paramètres Euromar.par). Les classes d’âge sont caractérisées par leurs centres et nous fixons à 4 le nombre de classes d’âge et 3 le nombre de classes de revenu. Dans les deux cas, les classes sont choisies de même amplitude et calculées directement par le logiciel.

 

Âge (classes en lignes) :

Ck

Effectif

borne inférieure

borne supérieure

1

29.5

14

24

35

2

40.5

27

35

46

3

51.5

5

46

57

4

62.5

4

57

68

 

Revenu (classes en colonnes) :

Dl

Effectif

borne inférieure

borne supérieure

1

93579.84

36

72999

114160.7

2

134741.5

9

114160.7

155322.3

3

175903.2

5

155322.3

196484

 

On obtient le tableau ci-dessous en effectuant le tri croisé :

revenu

 

 

0

1

2

3

 

0

50

36

9

5

 

1

14

14

0

0

âge

2

27

18

7

2

 

3

5

1

2

2

 

4

4

3

0

1

 

Le terme en 0,0 donne l’effectif total (50).

La ligne 0 et la colonne 0 donnent les répartitions marginales des 50 clients :

·      36 dans la classe de revenu 1, 9 dans la classe 2, 5 dans la classe 3 ;

·      14 dans la classe d’âge 1, 27 dans la classe 2, 5 dans la classe 3, 4 dans la classe 4.

Les autres termes du tableau donnent les effectifs de clients appartenant à une classe d’âge et une classe de revenu fixées. Par exemple, il y a 18 clients dans la classe d’âge 2 et dans la classe de revenu 1.

Les tableaux ci-dessous détaillent le calcul de la moyenne et de la variance des deux variables. Il s’agit de données classées et il est donc indispensable de tenir compte des effectifs dans chaque classe. On considère bien entendu les effectifs marginaux pour calculer la moyenne et la variance de l’âge et du revenu.


Calcul de la moyenne et de la variance de l’âge

(4 classes de même amplitude) :

 

Ck

Nk

Nk Ck

Nk Ck2

1

29.5

14

413.0

12183.50

2

40.5

27

1093.5

44286.75

3

51.5

5

257.5

13261.25

4

62.5

4

250.0

15625.00

Sommes :

2014

85356.50

Moyennes (/50) :

40.28

1707.13

 

On déduit de ces résultats la variance calculée sur le tableau :

variance de l’âge          = moyenne des carrés moins carré de la moyenne

                                    = 1707.13 – 40.282

                                    = 84.65

 

Moyenne : 40.28

Variance : 84.65

 

Calcul de la moyenne et de la variance du revenu

(3 classes de même amplitude) :

 

Dl

Nl

Nl Dl

Nl Dl2

1:

93579.84

36

3 368 874.0

3.152587 x 1011

2:

134741.5

9

1 212 674.0

1.633975 x 1011

3:

175903.2

5

879 515.8

1.547096 x 1011

Sommes :

5 461 064.0

6.333657 x 1011

Moyennes /50) :

109 221.3

1.266731 x 1010

 

On déduit de ces résultats la variance calculée sur le tableau :

variance du revenu       = moyenne des carrés moins carré de la moyenne

                                    = 1.266731 x 1010 - 109221.32

                                    = 1.266731 x 1010 – [1.092213 x 105]2

                                    = 0.07380296 x 1010

                                    = 738 029 600

 

Moyenne : 109 221.3

Variance : 738 029 600

 

Calcul de la covariance et du coefficient de corrélation

 

Colonne 1

 

 

Centre colonne 1

 

Nkl

Ck

Dl

Nkl Ck Dl

Ligne 1:

14

29.5

93579.84

38 648 470

Ligne 2:

18

40.5

93579.84

68 219 700

Ligne 3:

1

51.5

93579.84

4819  362

Ligne 4:

3

62.5

93579.84

17 546 220

 


 

Colonne 2

 

 

Centre colonne 2

 

Nkl

Ck

Dl

Nkl Ck Dl

Ligne 1:

0

29.5

134741.5

0

Ligne 2:

7

40.5

134741.5

38 199 220

Ligne 3:

2

51.5

134741.5

13 878 370

Ligne 4:

0

62.5

134741.5

0

 

Colonne 3

 

 

Centre colonne 3

 

Nkl

Ck

Dl

Nkl Ck Dl

Ligne 1:

0

29.5

175903.2

0

Ligne 2:

2

40.5

175903.2

14 248 160

Ligne 3:

2

51.5

175903.2

18 118 030

Ligne 4:

1

62.5

175903.2

10 993 950

 

La covariance  est la différence entre la moyenne des produits et le produit des moyennes :

 

Somme des produits Nkl Ck Dl

             67 401 440

Moyenne des produits (/50)

13 480 290

Produit des moyennes

4 399 433

Covariance

9 080 856

 

Coefficient de corrélation

9080856/ [738 029 600 x 84.65]1/2

 

Coefficient de corrélation = 0.376

 

On calcule maintenant la droite de régression en choisissant comme variable expliquée le revenu et comme variable explicative le revenu. Le modèle linéaire s’exprime exactement de la même façon que dans le cas de données individuelles :

Revenu = b x âge + a + e

Les estimations b et a des coefficients de régression théoriques b et a sont calculées à l’aide des formules classiques :

 

b = cov(x,y) / [sx x sy] = r sy / sx

a = my – b mx

 

On considère pour le calcul les valeurs de la covariance et des variances calculées sur le tableau. On trouve :

 

Revenu »  1110.396 x âge + 64494.527

 

Les résidus sont de moyenne nulle et et leur variance égale à (1 – r2) sy2 :

s2 = 633 655 900

s = 25 172.52

La démarche de calcul dans le cas de données regroupées dans un tableau de corrélation est en fin de compte la même que dans le cas de données individuelles.