ANALYSE FACTORIELLE Discriminante

On consultera aussi le document « Introduction numérique à l’analyse factorielle discriminante ».

1. NATURE DES DONNÉES ÉTUDIÉES

1.1 Données initiales.

· p variables quantitatives.

· une variable qualitative définissant k groupes d’u.s..

Exemple : trois groupes de clients d’Euromarket : les clients sans enfants (groupe 1), les familles classiques ayant 1 ou deux enfants (groupe 2) et les familles nombreuses (3 ou 4 enfants). La question à laquelle l’analyse factorielle discriminante permet de répondre concerne la liaison entre les groupes de famille (sans enfant, classiques, nombreuses) , et les variables quantitatives observées (revenu, montant des achat, âge). L’objectif final est d’affecter un client supplémentaire à un groupe de familles suivant ses caractéristiques.

1.2 Typologie des unités statistiques :

· u.s. actives : utilisées pour les calculs ;

· u.s. tests : utilisées pour tester la règle d’affectation ;

· u.s. supplémentaires : affectation d’une u.s. à un groupe.

2. PRéSENTATION DE LA MéTHODE.

2.1 Décomposition de la variance

· Calcul des moyennes et variances sur la totalité des u.s. actives

· Calcul des moyennes des variables dans chaque groupe.

· Calcul des variances des variables dans chaque groupe et de la variance des moyennes.

Définition :

variance totale : variance calculée sur toutes les observations

variance inter : variance des moyennes (pondérées par les effectifs des groupes)

variance intra : moyennes des variances dans chaque groupe (id.)

Moyenne pondérée des moyennes = moyenne totale

Variance totale	= variance des moyennes	+ moyenne des variances
	= variance inter	+ variance intra

Les calculs doivent être effectués en pondérant les moyennes et les variances des variables de chaque groupe par les effectifs correspondants.

2.2 Définition et interprétation du rapport de corrélation

Rapport de corrélation h² = variance inter / variance totale

Compte tenu de l’égalité précédente, ce rapport de corrélation est compris entre 0 et 1.

· h² proche de 1

· h² proche de 0

2.3 Principe de l’analyse factorielle discriminante.

Définitions :

· Première composante discriminante : variable Y telle que le rapport de corrélation de Y par rapport aux groupes soit maximal.

· Deuxième composante discriminante : variable Y telle que le rapport de corrélation de Y par rapport aux groupes soit maximal, en étant non corrélée à la précédente.

· …

· Nombre maximum de composantes discriminantes : nombre de groupes moins un, ou nombre de variables si inférieur.

· pouvoirs discriminants : rapports de corrélation des composantes discriminantes

3. Exemple.

Les 50 clients d’Euromarket ont été classés en trois groupes : sans enfant (groupe 1), famille classique (groupe 2), famille nombreuse (groupe 3).

3.1 Résultats numériques.

Le nombre de groupes est égal à 3, il existe donc deux composantes discriminantes.

	Pouvoirs discriminants :
Première composante discriminante	h² = 0.5188
Seconde composante discriminante	h² = 0.2466

	D1	D2
âge	-0.386	0.639
reven	0.373	-0.241
achat	0.893	0.438

Axes et plans discriminants.

Les coordonnées sur les axes sont données par le logiciel (extrait):

n°	affectation	appartenance	axe 1	axe 2	n°	affectation	appartenance	axe 1	axe 2
1	2	3	0.0632	-1.4285	6	2	3	0.4914	-0.6437
2	2	2	-0.3356	-1.1132	7	3	3	1.1437	-0.0601
3	2	2	-0.9991	-1.1617	8	3	2	2.4612	1.8376
4	2	2	-1.2503	-1.2361	9	3	3	3.1219	1.1740
5	2	2	-1.6404	-0.9071	10	3	3	1.9289	0.6645

3.2 Règle de classement.

On classe une unité statistique au groupe dont le centre de gravité lui est le plus proche (règle élémentaire). Le pourcentage de bien classés parmi les u.s. actives est égal à 84%. La discrimination semble très bonne.

Affectation

		1	2	3
	1	4	1	1
Appartenance	2	1	28	2
	3	0	3	10

Classement des u.s. actives

3.3 Validation par chaotisation et affectation.

· on répartit au hasard dans les groupes ;

· on examine les résultats de l’analyse factorielle discriminante.

· si la discrimination est bonne, l’analyse factorielle discriminanteest mauvaise .

· on procède plusieurs fois de cette façon.

n° de la simulation	pouvoir discriminant de l’axe 1	pouvoir discriminant de l’axe 2	pourcentage de bien classés
1	0.1498	0.0067	(26%)
2	0.1131	0.0278	(32%)
3	0.1145	0.0305	(56%)
4	0.0399	0.0364	(46%)

La chaotisation montre que la discrimination obtenue avec les groupes réels ne dépend pas du hasard.

Affectation d’un individu X dont on ne connaît pas le groupe :

âge	38 ans
revenu	110 000 F
achats	300 F

On calcule les coordonnées sur les axes discriminants:

axe 1	axe 2
-0.2155	0.0663

On en déduit les distances aux centres de gravité (au carré):

Groupe 1	0.2462
Groupe 2	0.0283
Groupe 3	0.3196

On affecte l’individu X au groupe 2.

3.4 Critique de la discrimination précédente :

Les composantes discriminantes sont non corrélées, mais elles ne sont visiblement pas indépendantes : on observe une relation non linéaire entre ces deux composantes discriminantes sur le plan discriminant 1 x 2. Les règles d’affectation sont à employer avec prudence.

On observe une prédominance du groupe 2 dans le tableau de calcul (28/50). Si cette proportion est respectée dans la population, on obtiendra un pourcentage de bien classés de 56% en affectant tout individu au groupe 2, alors que cette règle n’a pas de sens. Un pourcentage de bien classés de 56% n’a donc pas d’intérêt.