10. Optimisation d’un mailing

On dispose des résultats statistiques initiaux suivants :

Groupe 1. Effectif considéré : 400 non acheteurs

Var

Minimum

Maximum

Moyenne

Variance

Ecart-type

âge

1

6

3.695

1.32198

1.14977

revenu

1

5

3.05

0.91750

0.95786

a93

1018.655

3702.867

2300

250000

500

a94

724.9531

3848.369

2300

250000

500

zh

1

5

2.83

1.17610

1.08448

Matrice des corrélations

 

âge

revenu

a93

a94

zh

âge

1

 

 

 

 

revenu

0.5382

 1

 

 

 

a93

0.6847

-0.1126

 1

 

 

a94

0.6842

-0.1108

 0.85

 1

 

zh

0.3313

 0.5376

-0.1382

-0.0238

 1

 

Groupe 2. Effectif considéré : 100 Acheteurs

Var

Minimum

Maximum

Moyenne

Variance

Ecart-type

Âge

1

6

4.25

2.58750

1.60857

Revenu

1

5

3.49

1.10990

1.05352

a93

1097.982

3780.17

2500

250000

500

a94

1390.769

3931.338

2800

250000

500

Zh

1

5

3.27

0.93710

0.96804

Matrice des corrélations

 

âge

revenu

a93

a94

zh

âge

1

 

 

 

 

revenu

0.4824

1

 

 

 

a93

0.6644

-0.1630

1

 

 

a94

0.6695

-0.1622

0.8500

1

 

zh

0.3933

0.5763

-0.0726

0.0146

1

Rapports de corrélation des variables initiales

âge : 0.0303

revenu : 0.0314

a93 : 0.025

a94 : 0.1379

zh : 0.0267

Les variables qui permettent de distinguer les acheteurs et les non-acheteurs sont celles dont les rapports de corrélation sont proches de 1 ; il n’y a guère que le montant des achats en 1994, dont le rapport de corrélation égal à 0.1379 (équivalent en première approximation à un coefficient de corrélation de 0.37) est significatif compte tenu des effectifs.

Le nombre de groupes étant égal à 2 et de variables à 5, on peut calculer une seule composante discriminante, qui est une fonction des variables initiales dont le rapport de corrélation (ou pouvoir discriminant) est le plus grand possible. Son pouvoir discriminant sera donc toujours supérieur ou égal au plus grand des rapports de corrélation des variables initiales, soit ici 0.1379.

 

On donne ci-dessous la variance des centres de gravité (valeur propre), le pouvoir discriminant, le facteur (expression de la composante discriminante en fonction des variables initiales centrées) et les corrélations entre la composante discriminante et les variables initiales :

Valeur propre : 0.5226
Pouvoir discriminant : 0.3432

 

 

âge

revenu

a93

a94

zh

Facteur

 1.368

-1.329

 0.00027

-0.00397

-0.115

Corrélations

-0.297

-0.302

-0.27000

-0.63400

-0.279

 

On peut constater que le pouvoir discriminant de la composante discriminante est beaucoup plus grand (0.342) que le rapport de corrélation du montant des achats en 94. On peut l’évaluer rapidement en le comparant à un coefficient de corrélation de l’ordre de 0.58, ce qui paraît relativement important. La composante discriminante est la variable de la forme :

CD = 1.368 x âge -1.329 x revenu + 0.00027 x achats 93

          -0.00397 x achat 94 -0.115 x zone d’habitation.

formule dans laquelle les variables initiales sont centrées. Les coefficients très faibles des achats en 93 et 94 s’expliquent par les valeurs prises par ces variables par rapport aux autres. Par exemple, la plus grande valeur de la variable a93 centrée est de l’ordre de 1500, alors que celle de l’âge est de l’ordre de 2. On retrouve ici le fait que les variables sont hétérogènes. Il aurait été préférable de les réduire pour mieux apprécier les coefficients, mais, au plan de l’analyse discriminante, cette transformation n’aurait aucun effet.

Par contre, l’analyse des coefficients de corrélation est intéressante : ils sont tous négatifs, et l’on retrouve bien sûr un coefficient de corrélation élevé en valeur absolue entre la composante discriminante et le montant des achats en 1994.

On peut remarquer que le coefficient de corrélation et le coefficient dans la formule ne sont pas toujours du même sens : l’âge par exemple varie plus ou moins dans le sens inverse que la composante  discriminante, mais il intervient de façon positive dans son calcul. Cela s’interprète de la façon suivante : pour un revenu, des achats en 93 et 94 et une zone d’habitation tous fixés, la composante discriminante et la variable âge varient dans le même sens (coefficient 1.368 dans la formule). Par contre, lorsque les autres variables ne sont pas fixées, ils varient dans le sens inverse l’un de l’autre (coefficient de corrélation -0.297).

Les coordonnées des centres de gravité sur les axes discriminants sont les suivantes :

Groupe Non Acheteurs : 0.3614

Groupe Acheteurs : -1.4457

On pourra trouver des résultats légèrement différents suivant le nombre de décimales pris en compte dans les calculs.

La moyenne pondérée des deux coordonnées précédentes est égale à 0 : cette moyenne pondérée est la moyenne calculée sur les 500 observations. On retrouve le fait que, les variables initiales étant centrées, la composante discriminante l’est aussi.

La règle de classement proposée n’est guère satisfaisante puisque la composante discriminante ne varie pas de la même façon dans chaque groupe : on affecte donc les individus au groupe dont ils sont le plus proches au sens de la distance normalisée.

Variances de la composante discriminante dans chaque groupe :

Non acheteurs:   1.1188

Acheteurs :  3.1373

On trouve les distances aux centres de gravité normalisées suivantes (au carré) :

unité stat.

1

2

3

4

Non Acheteurs

1.5522

.8694745

1.2219

0.0754

Acheteurs

0.0763

0.2147

2.8236

0.7332

Coordonnée

-0.9564

-0.6249

1.5307

0.0710

Affectation

2

2

1

1

La règle de décision précédente appliquée aux 500 unités statistiques connues a conduit au tableau ci-dessous :

 

Non acheteurs

Acheteurs

Non acheteurs

294

106

Acheteurs

16

84

Tableau de classement

appartenance (en ligne) x affectation (en colonne)

Le pourcentage de bien classés est de 75.6%, et du même ordre dans chaque groupe. Les unités statistiques utilisées pour calculer ce pourcentage sont en fait celles qui ont été utilisées pour établir la règle de classement ; il est normal que le pourcentage de bien-classés soit élevé, bien qu’en réalité, il ne soit pas particulièrement intéressant à étudier : compte tenu des effectifs des groupes (100 acheteurs et 400 non acheteurs) , un classement systématique dans le groupe des non acheteurs donnerait 80% de bien classés.

 Il est préférable, dans le cadre fixé ici, de calculer le pourcentage de bien-classés parmi les clients retenus : sur 190 clients retenus (84+106), 44% sont effectivement acheteurs. Le pourcentage équivalent dans l’échantillon tiré au hasard est de 20% (100 sur 500) : le gain est appréciable.

Ne disposant pas d’un échantillon test, on peut utiliser la procédure de chaotisation pour contrôler la validité de la règle de décision. On trouve le résultat ci-dessous :

 

Non acheteurs

Acheteurs

Non acheteurs

205

195

Acheteurs

46

54

On examine comme précédemment les individus classés parmi les acheteurs. Parmi ces derniers, seulement 22% ( 54 sur 249) sont réellement acheteurs : la proportion est nettement plus faible, à peine supérieure à celle que l’on trouve dans la totalité de l’échantillon.

   En conclusion, l’analyse discriminante permet de sélectionner 190 clients sur 500 (38%) parmi lesquels le pourcentage d’acheteurs peut être estimé à 40%. On effectue ainsi environ 76 ventes. Un mailing auprès des 500 clients donnerait 100 ventes.  Il faut compléter l’analyse par le calcul des coûts et les contraintes commerciales et de gestion (stocks, etc.)