ANALYSE FACTORIELLE Discriminante
· p variables quantitatives.
·
une variable qualitative définissant k groupes d’u.s..
Exemple : trois groupes de clients d’Euromarket : les clients sans enfants (groupe 1), les familles classiques ayant 1 ou deux enfants (groupe 2) et les familles nombreuses (3 ou 4 enfants). La question à laquelle l’analyse factorielle discriminante permet de répondre concerne la liaison entre les groupes de famille (sans enfant, classiques, nombreuses) , et les variables quantitatives observées (revenu, montant des achat, âge). L’objectif final est d’affecter un client supplémentaire à un groupe de familles suivant ses caractéristiques.
· u.s. actives : utilisées pour les calculs ;
· u.s. tests : utilisées pour tester la règle d’affectation ;
· u.s. supplémentaires : affectation d’une u.s. à un groupe.
· Calcul des moyennes et variances sur la totalité des u.s. actives
· Calcul des moyennes des variables dans chaque groupe.
· Calcul des variances des variables dans chaque groupe et de la variance des moyennes.
Définition :
variance totale : variance calculée sur toutes les observations
variance inter : variance des moyennes (pondérées par les effectifs des groupes)
variance intra : moyennes des variances dans chaque groupe (id.)
Moyenne pondérée des moyennes = moyenne totale |
Variance totale |
= variance des moyennes |
+ moyenne des variances |
|
= variance inter |
+ variance intra |
Les calculs doivent être effectués en pondérant les moyennes et les variances des variables de chaque groupe par les effectifs correspondants.
Rapport de corrélation h2 = variance inter / variance totale |
Compte tenu de l’égalité précédente, ce rapport de corrélation est compris entre 0 et 1.
· h2 proche de 1
· h2 proche de 0
Définitions :
· Première composante discriminante : variable Y telle que le rapport de corrélation de Y par rapport aux groupes soit maximal.
· Deuxième composante discriminante : variable Y telle que le rapport de corrélation de Y par rapport aux groupes soit maximal, en étant non corrélée à la précédente.
· …
· Nombre maximum de composantes discriminantes : nombre de groupes moins un, ou nombre de variables si inférieur.
· pouvoirs discriminants : rapports de corrélation des composantes discriminantes
Les 50 clients d’Euromarket ont été classés en trois groupes : sans enfant (groupe 1), famille classique (groupe 2), famille nombreuse (groupe 3).
Le nombre de groupes est égal à 3, il existe donc deux composantes discriminantes.
|
Pouvoirs discriminants : |
Première composante discriminante |
h2 = 0.5188 |
Seconde composante discriminante |
h2 = 0.2466 |
|
D1 |
D2 |
âge |
-0.386 |
0.639 |
reven |
0.373 |
-0.241 |
achat |
0.893 |
0.438 |
Axes et plans
discriminants.
Les coordonnées sur les axes sont données par le logiciel (extrait):
n° |
affectation |
appartenance |
axe 1 |
axe 2 |
n° |
affectation |
appartenance |
axe 1 |
axe 2 |
1 |
2 |
3 |
0.0632 |
-1.4285 |
6 |
2 |
3 |
0.4914 |
-0.6437 |
2 |
2 |
2 |
-0.3356 |
-1.1132 |
7 |
3 |
3 |
1.1437 |
-0.0601 |
3 |
2 |
2 |
-0.9991 |
-1.1617 |
8 |
3 |
2 |
2.4612 |
1.8376 |
4 |
2 |
2 |
-1.2503 |
-1.2361 |
9 |
3 |
3 |
3.1219 |
1.1740 |
5 |
2 |
2 |
-1.6404 |
-0.9071 |
10 |
3 |
3 |
1.9289 |
0.6645 |
Affectation
|
1 |
2 |
3 |
|
|
1 |
4 |
1 |
1 |
Appartenance |
2 |
1 |
28 |
2 |
|
3 |
0 |
3 |
10 |
Classement des u.s. actives
· on répartit au hasard dans les groupes ;
· on examine les résultats de l’analyse factorielle discriminante.
· si la discrimination est bonne, l’analyse factorielle discriminanteest mauvaise .
· on procède plusieurs fois de cette façon.
n° de la simulation |
pouvoir discriminant de l’axe 1 |
pouvoir discriminant de l’axe 2 |
pourcentage de bien classés |
1 |
0.1498 |
0.0067 |
(26%) |
2 |
0.1131 |
0.0278 |
(32%) |
3 |
0.1145 |
0.0305 |
(56%) |
4 |
0.0399 |
0.0364 |
(46%) |
La chaotisation montre que la discrimination obtenue avec les groupes réels ne dépend pas du hasard.
Affectation d’un individu X dont on ne connaît pas le
groupe :
âge |
38 ans |
revenu |
110 000 F |
achats |
300 F |
On calcule les coordonnées sur les axes discriminants:
axe 1 |
axe 2 |
-0.2155 |
0.0663 |
On en déduit les distances aux centres de gravité (au carré):
Groupe 1 |
0.2462 |
Groupe 2 |
0.0283 |
Groupe 3 |
0.3196 |
On affecte l’individu X au groupe 2.
Les composantes discriminantes sont non corrélées, mais elles ne sont visiblement pas indépendantes : on observe une relation non linéaire entre ces deux composantes discriminantes sur le plan discriminant 1 x 2. Les règles d’affectation sont à employer avec prudence.
On observe une prédominance du groupe 2 dans le tableau de calcul (28/50). Si cette proportion est respectée dans la population, on obtiendra un pourcentage de bien classés de 56% en affectant tout individu au groupe 2, alors que cette règle n’a pas de sens. Un pourcentage de bien classés de 56% n’a donc pas d’intérêt.