On dispose des résultats statistiques initiaux suivants :
Groupe 1. Effectif considéré : 400 non acheteurs
Var |
Minimum |
Maximum |
Moyenne |
Variance |
Ecart-type |
âge |
1 |
6 |
3.695 |
1.32198 |
1.14977 |
revenu |
1 |
5 |
3.05 |
0.91750 |
0.95786 |
a93 |
1018.655 |
3702.867 |
2300 |
250000 |
500 |
a94 |
724.9531 |
3848.369 |
2300 |
250000 |
500 |
zh |
1 |
5 |
2.83 |
1.17610 |
1.08448 |
|
âge |
revenu |
a93 |
a94 |
zh |
âge |
1 |
|
|
|
|
revenu |
0.5382
|
1 |
|
|
|
a93 |
0.6847 |
-0.1126 |
1 |
|
|
a94 |
0.6842 |
-0.1108 |
0.85 |
1 |
|
zh |
0.3313 |
0.5376 |
-0.1382 |
-0.0238 |
1 |
Groupe 2. Effectif considéré : 100 Acheteurs
Var |
Minimum |
Maximum |
Moyenne |
Variance |
Ecart-type |
Âge |
1 |
6 |
4.25 |
2.58750 |
1.60857 |
Revenu |
1 |
5 |
3.49 |
1.10990 |
1.05352 |
a93 |
1097.982 |
3780.17 |
2500 |
250000 |
500 |
a94 |
1390.769 |
3931.338 |
2800 |
250000 |
500 |
Zh |
1 |
5 |
3.27 |
0.93710 |
0.96804 |
Matrice des corrélations
|
âge |
revenu |
a93 |
a94 |
zh |
âge |
1 |
|
|
|
|
revenu |
0.4824 |
1 |
|
|
|
a93 |
0.6644 |
-0.1630 |
1 |
|
|
a94 |
0.6695 |
-0.1622 |
0.8500 |
1 |
|
zh |
0.3933 |
0.5763 |
-0.0726 |
0.0146 |
1 |
Rapports de corrélation des variables initiales
âge : 0.0303 |
revenu : 0.0314 |
a93 : 0.025 |
a94 : 0.1379 |
zh : 0.0267 |
Les variables qui permettent de distinguer les acheteurs et les non-acheteurs sont celles dont les rapports de corrélation sont proches de 1 ; il n’y a guère que le montant des achats en 1994, dont le rapport de corrélation égal à 0.1379 (équivalent en première approximation à un coefficient de corrélation de 0.37) est significatif compte tenu des effectifs.
Le nombre de groupes étant
égal à 2 et de variables à 5, on peut calculer une seule composante
discriminante, qui est une fonction des variables initiales dont le rapport de
corrélation (ou pouvoir discriminant) est le plus grand possible. Son pouvoir
discriminant sera donc toujours supérieur ou égal au plus grand des rapports de
corrélation des variables initiales, soit ici 0.1379.
On donne ci-dessous la variance des centres de gravité (valeur propre), le pouvoir discriminant, le facteur (expression de la composante discriminante en fonction des variables initiales centrées) et les corrélations entre la composante discriminante et les variables initiales :
Valeur propre : 0.5226 |
Pouvoir discriminant : 0.3432 |
|
âge |
revenu |
a93 |
a94 |
zh |
Facteur |
1.368 |
-1.329 |
0.00027 |
-0.00397 |
-0.115 |
Corrélations |
-0.297 |
-0.302 |
-0.27000 |
-0.63400 |
-0.279 |
On peut constater que le pouvoir discriminant de la composante discriminante est beaucoup plus grand (0.342) que le rapport de corrélation du montant des achats en 94. On peut l’évaluer rapidement en le comparant à un coefficient de corrélation de l’ordre de 0.58, ce qui paraît relativement important. La composante discriminante est la variable de la forme :
CD = 1.368 x âge -1.329 x
revenu + 0.00027 x achats 93
-0.00397 x achat 94 -0.115 x zone
d’habitation.
formule dans laquelle les variables initiales sont centrées.
Les coefficients très faibles des achats en 93 et 94 s’expliquent par les
valeurs prises par ces variables par rapport aux autres. Par exemple, la plus
grande valeur de la variable a93 centrée est de l’ordre de 1500, alors que
celle de l’âge est de l’ordre de 2. On retrouve ici le fait que les variables
sont hétérogènes. Il aurait été préférable de les réduire pour mieux apprécier
les coefficients, mais, au plan de l’analyse discriminante, cette
transformation n’aurait aucun effet.
Par contre, l’analyse des
coefficients de corrélation est intéressante : ils sont tous négatifs, et l’on
retrouve bien sûr un coefficient de corrélation élevé en valeur absolue entre
la composante discriminante et le montant des achats en 1994.
On peut remarquer que le coefficient
de corrélation et le coefficient dans la formule ne sont pas toujours du même
sens : l’âge par exemple varie plus ou moins dans le sens inverse que la
composante discriminante, mais il
intervient de façon positive dans son calcul. Cela s’interprète de la façon
suivante : pour un revenu, des achats en 93 et 94 et une zone d’habitation tous
fixés, la composante discriminante et la variable âge varient dans le même sens
(coefficient 1.368 dans la formule). Par contre, lorsque les autres variables ne
sont pas fixées, ils varient dans le sens inverse l’un de l’autre (coefficient
de corrélation -0.297).
Les coordonnées des centres de gravité sur les axes discriminants sont les suivantes :
Groupe Non Acheteurs :
0.3614 |
Groupe Acheteurs : -1.4457 |
On pourra trouver des résultats légèrement différents suivant le nombre de décimales pris en compte dans les calculs.
La moyenne pondérée des deux
coordonnées précédentes est égale à 0 : cette moyenne pondérée est la moyenne calculée
sur les 500 observations. On retrouve le fait que, les variables initiales
étant centrées, la composante discriminante l’est aussi.
La règle de classement
proposée n’est guère satisfaisante puisque la composante discriminante ne varie
pas de la même façon dans chaque groupe : on affecte donc les individus au
groupe dont ils sont le plus proches au sens de la distance normalisée.
Variances de la composante discriminante dans chaque
groupe :
Non acheteurs: 1.1188 |
Acheteurs : 3.1373 |
On trouve les distances aux centres de gravité normalisées suivantes (au carré) :
unité stat. |
1 |
2 |
3 |
4 |
Non Acheteurs |
1.5522 |
.8694745 |
1.2219 |
0.0754 |
Acheteurs |
0.0763 |
0.2147 |
2.8236 |
0.7332 |
Coordonnée |
-0.9564 |
-0.6249 |
1.5307 |
0.0710 |
Affectation |
2 |
2 |
1 |
1 |
La règle de décision précédente appliquée aux 500 unités statistiques connues a conduit au tableau ci-dessous :
|
Non acheteurs |
Acheteurs |
Non acheteurs |
294 |
106 |
Acheteurs |
16 |
84 |
Tableau de classement
appartenance (en ligne) x affectation (en colonne)
Le pourcentage de bien classés est de 75.6%, et du même ordre dans chaque groupe. Les unités statistiques utilisées pour calculer ce pourcentage sont en fait celles qui ont été utilisées pour établir la règle de classement ; il est normal que le pourcentage de bien-classés soit élevé, bien qu’en réalité, il ne soit pas particulièrement intéressant à étudier : compte tenu des effectifs des groupes (100 acheteurs et 400 non acheteurs) , un classement systématique dans le groupe des non acheteurs donnerait 80% de bien classés.
Il est préférable, dans le cadre fixé ici, de calculer le pourcentage de bien-classés parmi les clients retenus : sur 190 clients retenus (84+106), 44% sont effectivement acheteurs. Le pourcentage équivalent dans l’échantillon tiré au hasard est de 20% (100 sur 500) : le gain est appréciable.
Ne disposant pas d’un échantillon test, on peut utiliser la procédure de chaotisation pour contrôler la validité de la règle de décision. On trouve le résultat ci-dessous :
|
Non acheteurs |
Acheteurs |
Non acheteurs |
205 |
195 |
Acheteurs |
46 |
54 |
On examine comme précédemment les individus classés parmi les acheteurs. Parmi ces derniers, seulement 22% ( 54 sur 249) sont réellement acheteurs : la proportion est nettement plus faible, à peine supérieure à celle que l’on trouve dans la totalité de l’échantillon.
En conclusion, l’analyse discriminante permet de sélectionner 190 clients sur 500 (38%) parmi lesquels le pourcentage d’acheteurs peut être estimé à 40%. On effectue ainsi environ 76 ventes. Un mailing auprès des 500 clients donnerait 100 ventes. Il faut compléter l’analyse par le calcul des coûts et les contraintes commerciales et de gestion (stocks, etc.)