Régression
corrélation
dans
un tableau croisé
Le calcul d’un coefficient de corrélation lorsque les données se présentent sous la forme d’un tableau croisé suit la même démarche théorique que dans le cas de données individuelles. Mais, au plan pratique, elle se présente d’une façon différente.
Le logiciel utilisé pour effectuer les calculs ci-dessous est StatPC, option Statistiques sur un tableau croisé.
Nous choisissons comme variables statistiques l’âge et le revenu des 50 clients d’Euromarket (fichier de paramètres Euromar.par). Les classes d’âge sont caractérisées par leurs centres et nous fixons à 4 le nombre de classes d’âge et 3 le nombre de classes de revenu. Dans les deux cas, les classes sont choisies de même amplitude et calculées directement par le logiciel.
Âge (classes en lignes) :
n° |
Ck |
Effectif |
borne inférieure |
borne supérieure |
1 |
29.5 |
14 |
24 |
35 |
2 |
40.5 |
27 |
35 |
46 |
3 |
51.5 |
5 |
46 |
57 |
4 |
62.5 |
4 |
57 |
68 |
Revenu (classes en colonnes) :
n° |
Dl |
Effectif |
borne inférieure |
borne supérieure |
1 |
93579.84 |
36 |
72999 |
114160.7 |
2 |
134741.5 |
9 |
114160.7 |
155322.3 |
3 |
175903.2 |
5 |
155322.3 |
196484 |
On obtient le tableau
ci-dessous en effectuant le tri croisé :
revenu
|
|
0 |
1 |
2 |
3 |
|
0 |
50 |
36 |
9 |
5 |
|
1 |
14 |
14 |
0 |
0 |
âge |
2 |
27 |
18 |
7 |
2 |
|
3 |
5 |
1 |
2 |
2 |
|
4 |
4 |
3 |
0 |
1 |
Le terme en 0,0 donne l’effectif total (50).
La ligne 0 et la colonne 0 donnent les répartitions marginales des 50 clients :
· 36 dans la classe de revenu 1, 9 dans la classe 2, 5 dans la classe 3 ;
· 14 dans la classe d’âge 1, 27 dans la classe 2, 5 dans la classe 3, 4 dans la classe 4.
Les autres termes du tableau donnent les effectifs de clients appartenant à une classe d’âge et une classe de revenu fixées. Par exemple, il y a 18 clients dans la classe d’âge 2 et dans la classe de revenu 1.
Les tableaux ci-dessous détaillent le calcul de la moyenne et de la variance des deux variables. Il s’agit de données classées et il est donc indispensable de tenir compte des effectifs dans chaque classe. On considère bien entendu les effectifs marginaux pour calculer la moyenne et la variance de l’âge et du revenu.
Calcul de la moyenne et de la
variance de l’âge
(4 classes de même amplitude) :
n° |
Ck |
Nk |
Nk Ck |
Nk Ck2 |
1 |
29.5 |
14 |
413.0 |
12183.50 |
2 |
40.5 |
27 |
1093.5 |
44286.75 |
3 |
51.5 |
5 |
257.5 |
13261.25 |
4 |
62.5 |
4 |
250.0 |
15625.00 |
Sommes : |
2014 |
85356.50 |
||
Moyennes (/50) : |
40.28 |
1707.13 |
On déduit de ces résultats la variance calculée sur le tableau :
variance de l’âge = moyenne des carrés moins carré de la moyenne
= 1707.13 – 40.282
= 84.65
Moyenne : 40.28 |
Variance : 84.65 |
Calcul de la
moyenne et de la variance du revenu
(3 classes de même amplitude) :
n° |
Dl |
Nl |
Nl Dl |
Nl Dl2 |
1: |
93579.84 |
36 |
3 368 874.0 |
3.152587 x 1011 |
2: |
134741.5 |
9 |
1 212 674.0 |
1.633975 x 1011 |
3: |
175903.2 |
5 |
879 515.8 |
1.547096 x 1011 |
Sommes : |
5 461 064.0 |
6.333657 x 1011 |
||
Moyennes /50) : |
109 221.3 |
1.266731 x 1010 |
On déduit de ces résultats la variance calculée sur le tableau :
variance du revenu = moyenne des carrés moins carré de la moyenne
= 1.266731 x 1010 - 109221.32
= 1.266731 x 1010 – [1.092213 x 105]2
= 0.07380296 x 1010
= 738 029 600
Moyenne : 109 221.3 |
Variance : 738 029 600 |
Calcul de la
covariance et du coefficient de corrélation
Colonne 1 |
|
|
Centre colonne 1 |
|
n° |
Nkl |
Ck |
Dl |
Nkl Ck Dl |
Ligne 1: |
14 |
29.5 |
93579.84 |
38 648 470 |
Ligne 2: |
18 |
40.5 |
93579.84 |
68 219 700 |
Ligne 3: |
1 |
51.5 |
93579.84 |
4819 362 |
Ligne 4: |
3 |
62.5 |
93579.84 |
17 546 220 |
Colonne 2 |
|
|
Centre colonne 2 |
|
n° |
Nkl |
Ck |
Dl |
Nkl Ck Dl |
Ligne 1: |
0 |
29.5 |
134741.5 |
0 |
Ligne 2: |
7 |
40.5 |
134741.5 |
38 199 220 |
Ligne 3: |
2 |
51.5 |
134741.5 |
13 878 370 |
Ligne 4: |
0 |
62.5 |
134741.5 |
0 |
Colonne 3 |
|
|
Centre colonne 3 |
|
n° |
Nkl |
Ck |
Dl |
Nkl Ck Dl |
Ligne 1: |
0 |
29.5 |
175903.2 |
0 |
Ligne 2: |
2 |
40.5 |
175903.2 |
14 248 160 |
Ligne 3: |
2 |
51.5 |
175903.2 |
18 118 030 |
Ligne 4: |
1 |
62.5 |
175903.2 |
10 993 950 |
La covariance est la différence entre la moyenne des produits et le produit des moyennes :
Somme des produits Nkl Ck Dl |
67
401 440 |
Moyenne des produits (/50) |
13 480 290 |
Produit des moyennes |
4 399 433 |
Covariance |
9 080 856 |
Coefficient de corrélation |
9080856/ [738 029 600 x 84.65]1/2 |
Coefficient
de corrélation = 0.376
On
calcule maintenant la droite de régression en choisissant comme variable
expliquée le revenu et comme variable explicative le revenu. Le modèle linéaire
s’exprime exactement de la même façon que dans le cas de données
individuelles :
Revenu = b x âge + a + e
Les estimations b et a
des coefficients de régression théoriques b et a sont calculées à l’aide des
formules classiques :
b =
cov(x,y) / [sx x sy] = r sy / sx |
a = my – b mx |
On considère pour le calcul les
valeurs de la covariance et des variances calculées sur le tableau. On
trouve :
Revenu
»
1110.396
x âge + 64494.527
Les résidus sont de moyenne nulle et et leur variance égale
à (1 – r2) sy2 :
s2 = 633 655
900
s = 25 172.52
La démarche de calcul dans le cas de données regroupées dans un tableau de corrélation est en fin de compte la même que dans le cas de données individuelles.