1) On effectue l’analyse en composantes principales normée d’un tableau de données constitué des observations de sept variables quantitatives sur 454 unités statistiques. Seules six variables ont été considérées pour définir la distance entre les unités statistiques. Déduire des cinq premières valeurs propres données ci-dessous la ou les valeurs propres manquantes. Construire le diagramme des valeurs propres et préciser le nombre d’axes a priori significatifs.
l1 = 2.38 |
l2 = 2.12 |
l3 = 0.55 |
l4 = 0.41 |
l5 = 0.33 |
2) Construire, dans chaque cas ci-dessous, le diagramme des valeurs propres et sélectionner les axes à interpréter.
l1 |
l2 |
l3 |
l4 |
l5 |
l6 |
l7 |
l8 |
l9 |
l10 |
l11 |
|
cas n°1 |
2.326 |
2.054 |
0.423 |
0.182 |
0.015 |
||||||
cas n°2 |
3.541 |
2.126 |
1.510 |
0.632 |
0.414 |
0.305 |
0.225 |
0.182 |
0.065 |
||
cas n°3 |
3.125 |
3.101 |
1.984 |
1.823 |
0.541 |
0.220 |
0.110 |
0.050 |
0.025 |
0.015 |
0.006 |
cas n°4 |
2.154 |
1.453 |
1.213 |
0.646 |
0.541 |
0.532 |
0.461 |
1) Montrer que la somme des k premières valeurs propres obtenues dans une ACP normée est supérieure ou égale à k.
2) En déduire que la somme des l dernières valeurs propres est inférieure ou égale à l.
3) Soit S(k) la somme des k premières valeurs propres. On note lk la valeur propre de rang k. Montrer que :
lk > (p –
S(k-1))/ (p – k+1) |
Cet exercice donne la théorie de l’analyse en composantes principales dans le cas particulier de deux variables X1 et X2 centrées réduites. Les résultats établis peuvent être généralisés (cette généralisation est précisée dans la correction).
On considère deux variables statistiques X1, X2 centrées réduites observées sur n individus et dont le coefficient de corrélation est noté r. Soient les variables Z et Z’ de la forme :
Z = a1 X1 + a2 X2
: quel que soit i = 1, …, n, Z(i) = a1 X1(i) +
a2 X2(i)
Z’ = a1’ X1 + a2’ X2
: quel que soit i = 1, …, n, Z’(i) = a1’ X1(i)
+ a2’ X2(i)
1) Calculer la moyenne et la variance de Z en fonction de a1 et a2. Calculer la covariance cov(Z, Z’).
2) Calculer le vecteur u = (a1, a2) tel que la variance de Z soit maximale et vérifiant la condition :
a12 + a22 = 1
3) On note C1 la variable Z précédente et l1 sa variance. Déterminer la variable Z’ = a1’ X1 + a2’ X2 telle que :
a1’2 + a2’2
= 1
cov(C1,
Z’) = 0
On note C2 cette variable. Calculer sa variance l2 et la somme l1 + l2.
4) Calculer les coefficients de corrélation r(X1, C1), r(X1, C2), r(X2, C1), r(X2, C2) et les expressions
S1 = r2(X1, C1) + r2(X2, C1) |
S2 = r2(X1, C2) + r2(X2, C2) |
5) Calculer les expressions :
S1’ = r2(X1, C1) + r2(X1,
C2) |
S2’ = r2(X2, C1) + r2(X2,
C2) |
S3’ = r(X1, C1) x r(X2,
C1) + r(X1, C2) x r(X2, C2) |
6) Vérifiez ces propriétés dans les applications données dans les exercices ci-dessous.
On considère le poids, la taille, l’âge et la note de dix élèves de 4e d’un collège :
n° |
Poids |
Taille |
Age |
Note |
1 |
45 |
1.50 |
13 |
14 |
2 |
50 |
1.60 |
13 |
16 |
3 |
50 |
1.65 |
13 |
15 |
4 |
60 |
1.75 |
15 |
9 |
5 |
60 |
1.70 |
14 |
10 |
6 |
60 |
1.70 |
14 |
7 |
7 |
70 |
1.60 |
14 |
8 |
8 |
65 |
1.60 |
13 |
13 |
9 |
60 |
1.55 |
15 |
17 |
10 |
65 |
1.70 |
14 |
11 |
Tableau de données initiales
1) Compléter les tableaux ci-dessous :
Variable |
moyenne |
écart-type |
variance |
Poids |
58.500 |
55.250000 |
|
Taille |
1.635 |
||
Age |
|||
Note |
12.000 |
3.31662 |
11.000000 |
Moyennes et variances
Taille |
Age |
Note |
||
Poids |
1.0000 |
0.4854 |
-0.5679 |
|
Taille |
0.3665 |
1.0000 |
-0.6287 |
|
Age |
0.4854 |
0.3955 |
1.0000 |
-0.3223 |
Note |
-0.5679 |
-0.6287 |
-0.3223 |
1.0000 |
Corrélations entre les variables initiales
2) Calculer les distances entre les individus 4, 5 et 6 en considérant les valeurs centrées réduites.
3) On donne ci-dessous les valeurs propres et les vecteurs principaux.
l1 =2.391 |
l2 = 0.750 |
l3 = 0.584 |
l4 = 0.274 |
Valeurs propres et vecteurs principaux
Calculer le pourcentage d’inertie expliquée par
chaque axe, les pourcentages cumulés et construire le diagramme des valeurs
propres.
4) On donne ci-dessous les vecteurs
principaux :
u1 = |
( 0.5080, |
0.5038, |
0.4453, |
-0.5383 ) |
u2 = |
( 0.3065, |
-0.4647, |
0.7058, |
0.4381 ) |
u3 = |
(-0.6593, |
0.5253, |
0.4712, |
0.2594 ) |
u4 = |
(-0.4619, |
-0.5042, |
0.2855, |
-0.6715 ) |
Compléter le tableau donnant les composantes principales de chaque individu :
c1 |
c2 |
c3 |
c4 |
|
1 |
-2.638 |
-0.203 |
-0.104 |
1.044 |
2 |
-1.943 |
-0.358 |
0.316 |
-0.350 |
3 |
-1.442 |
-0.803 |
0.591 |
-0.486 |
4 |
0.078 |
1.201 |
0.192 |
|
5 |
0.987 |
-0.420 |
0.296 |
-0.053 |
6 |
1.474 |
0.061 |
0.555 |
|
7 |
1.317 |
-1.454 |
0.409 |
|
8 |
-0.431 |
-0.136 |
-1.249 |
-0.674 |
9 |
-0.571 |
2.386 |
0.413 |
-0.071 |
10 |
1.166 |
-0.082 |
-0.069 |
-0.566 |
Composantes principales
5) Représenter les individus sur le plan principal 1 x 2, et constituer des groupes d’élèves homogènes. Comparer les distances entre les représentations des individus 4, 5 et 6 sur le plan 1 x 2 et les distances réelles. Expliquer les résultats.
6) On étudie les coefficients de corrélation des composantes principales avec les variables initiales :
Axe |
1 |
Axe |
2 |
Axe |
3 |
Axe |
4 |
|
r |
r² |
r |
r² |
r |
r² |
r² |
||
Poids |
0.785 |
0.617 |
0.266 |
0.070 |
-0.504 |
0.254 |
-0.242 |
0.059 |
Taille |
0.779 |
0.607 |
-0.403 |
0.162 |
0.402 |
0.161 |
-0.264 |
0.070 |
Age |
0.689 |
0.474 |
0.611 |
0.374 |
0.360 |
0.130 |
0.150 |
0.022 |
Note |
-0.832 |
0.693 |
0.380 |
0.144 |
0.198 |
0.039 |
-0.352 |
0.124 |
Coefficients de corrélations et carrés entre les variables et les
composantes principales
Représenter graphiquement le cercle de corrélation 1 x 2, et expliquer les propriétés communes des élèves de chaque groupe.
On considère le tableau des notes obtenues par 10 étudiants en gestion, en mathématiques, langue, expression, économie (ces données figurent sur le fichier ex4chap9.dat, fichier de paramètres ex4chap9.par). L’économie étant en option, on la considère comme une variable supplémentaire.
1) On effectue l’analyse en composantes principales de X1, X2, X3 et X4. Déduire des résultats donnés en annexe la moyenne et la variance des trois premières composantes principales. En déduire la moyenne et la variance de la quatrième.
2) Construire le diagramme des valeurs propres. En déduire le nombre de composantes principales significatives. Quel est le pourcentage d’information conservée par les deux premières composantes principales ? Par les trois premières ?
3) Calculer les coefficients de corrélation entre la note d’économie et les deux premières composantes principales.
4) Représenter graphiquement le cercle de corrélation C1 x C2. Donner une interprétation aux deux composantes principales C1 et C2.
5) Représenter le plan principal 1 x 2. Que peut-on dire de la représentation de l’individu 8 sur ce plan ? Que peut-on dire des étudiants 6 et 3 ? De l’étudiant 5 ? Placer approximativement l’étudiant dont toutes les notes seraient égales à 10.
étudiant n° |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
note |
13 |
8 |
12 |
9 |
10 |
15 |
13 |
11 |
9 |
9 |
Notes d’économie
moyenne |
écart-type |
variance |
|
Gestion |
10.6 |
3.04 |
9.24 |
Mathématiques |
10.1 |
3.45 |
11.89 |
Langue |
11.0 |
2.32 |
5.40 |
Expression |
11.3 |
2.90 |
8.41 |
Économie |
10.9 |
2.17 |
4.69 |
Gestion |
Mathématiques |
Langue |
Expression |
Économie |
|
Gestion |
1.0000 |
0.7861 |
0.5663 |
0.3766 |
0.8294 |
Mathématiques |
0.7861 |
1.0000 |
0.2371 |
0.3670 |
0.8048 |
Langue |
0.5663 |
0.2371 |
1.0000 |
0.7123 |
0.2782 |
Expression |
0.3766 |
0.3670 |
0.7123 |
1.0000 |
0.3232 |
Économie |
0.8294 |
0.8048 |
0.2782 |
0.3232 |
1.0000 |
Matrice des corrélations
C |
1 |
C |
2 |
C |
3 |
C |
4 |
|
r |
r2 |
r |
r2 |
r |
r2 |
r |
r2 |
|
Gest |
-0.868 |
0.753 |
0.378 |
0.143 |
-0.280 |
0.078 |
-0.161 |
0.026 |
Math |
-0.752 |
0.565 |
0.596 |
0.355 |
0.246 |
0.061 |
0.138 |
0.019 |
Lang |
-0.793 |
0.629 |
-0.502 |
0.252 |
-0.318 |
0.101 |
0.133 |
0.018 |
Expr |
-0.763 |
0.583 |
-0.494 |
0.244 |
0.406 |
0.165 |
-0.091 |
0.008 |
Coefficients de corrélations entre les variables initiales et les composantes principales
C |
1 |
C |
2 |
C |
3 |
C |
4 |
|
c1 |
cos2 |
c2 |
cos2 |
c3 |
cos2 |
c4 |
cos2 |
|
1 |
-1.261 |
0.624 |
0.044 |
0.001 |
0.937 |
0.345 |
-0.278 |
0.030 |
2 |
-0.164 |
0.010 |
-1.632 |
0.989 |
0.048 |
0.001 |
-0.039 |
0.001 |
3 |
-2.419 |
0.772 |
-1.137 |
0.171 |
-0.652 |
0.056 |
0.095 |
0.001 |
4 |
1.029 |
0.418 |
-1.029 |
0.418 |
-0.585 |
0.135 |
0.267 |
0.028 |
5 |
2.672 |
0.953 |
-0.291 |
0.011 |
-0.245 |
0.008 |
-0.457 |
0.028 |
6 |
-1.915 |
0.779 |
0.939 |
0.187 |
0.329 |
0.023 |
0.227 |
0.011 |
7 |
-0.821 |
0.131 |
1.739 |
0.587 |
-1.182 |
0.271 |
-0.248 |
0.012 |
8 |
-0.082 |
0.011 |
0.007 |
0.000 |
0.777 |
0.949 |
-0.160 |
0.040 |
9 |
2.152 |
0.863 |
0.746 |
0.104 |
0.096 |
0.002 |
0.414 |
0.032 |
10 |
0.808 |
0.507 |
0.612 |
0.291 |
0.476 |
0.176 |
0.178 |
0.025 |
Cordonnées des unités statistiques sur les axes principaux et cosinus carrés
On introduit ici, sur un plan théorique, la régression sur composantes principales, encore appelée régression orthogonale. On applique les résultats sur les données traitées dans l’exercice précédent (on note Y la note d’économie, mY et sY sa moyenne et son écart type, X1, X2, X3 et X4 les notes centrées réduites en gestion, mathématiques, langue et expression).
1) On considère le modèle de régression de Y par la composante principale C1 :
Y
= b0 + b1C1 + E
E étant la série des résidus. Calculer les coefficients de régression b0, b1 et la variance des résidus s2.
2) On sait que la première composante principale C1 est égale à :
C1 |
= |
-0.5456 X1 |
- |
0.4727 X2 |
- |
0.4986 X3 |
- |
0.4798 X4 |
où X1 , X2, X3 et X4 sont les variables centrées réduites déduites des notes de gestion, de mathématiques, de langue et d’expression. En déduire une première expression de Y en fonction des quatre variables X1, X2, X3 et X4 (modèle 1). Compléter les résidus donnés en première ligne du tableau en annexe.
3) On considère maintenant le modèle de régression linéaire ci-dessous :
Y
= b0 + b1C1 + b2 C2 + E
On note r1 et r2 les coefficients de corrélation de Y avec C1 et avec C2. Montrer que :
b0 = mY |
b1 = r1 sY / l11/2 |
b2 = r2 sY / l21/2 |
4) On sait que la deuxième composante principale C2 est calculée de la façon suivante, en fonction des variables centrées réduites :
C2 |
= |
0.3787 X1 |
+ |
0.5975 X2 |
- |
0.5039 X3 |
- |
0.4957 X4 |
En déduire une deuxième expression de Y en fonction des quatre variables X1, X2, X3 et X4 (modèle 2). Compléter les résidus données en deuxième ligne du tableau en annexe.
5) On effectue la régression linéaire multiple de Y par X1, X2, X3 et X4 directement, à l’aide d’un logiciel. Les résultats sont les suivants (modèle 3) :
Y = 0.8874 X1 + 0.2520 X2 - 0.9393 X3 + 0.5527 X4 + 10.9000
Compléter les résidus donnés en ligne 3 du tableau ci-dessous.
6) En comparant les estimations sans biais des variances résiduelles, choisir un des trois modèles.
e1 |
e2 |
e3 |
e4 |
e5 |
e6 |
e7 |
e8 |
e9 |
e10 |
|
1 |
0.884 |
-1.233 |
-0.907 |
1.677 |
1.308 |
0.0205 |
0.176 |
-1.121 |
||
2 |
0.836 |
-0.008 |
0.202 |
1.991 |
-0.566 |
0.0125 |
-0.629 |
-1.781 |
||
3 |
0.298 |
0.200 |
0.695 |
1.238 |
-0.897 |
-0.314 |
0.063 |
-1.515 |
résidus obtenus dans chacun des trois modèles considérés
On considère l’échantillon de 50 clients de l’hypermarché Euromarket dont on connaît l’âge, le revenu, le montant des achats et le nombre d’enfants (fichier de données Euromar.dat et fichier de paramètres Euromar.par). On veut déterminer les caractéristiques principales de la clientèle. On utilisera un logiciel ou les résultats numériques fournis en annexe pour répondre aux questions.
1) On considère les clients de rangs 1 et 2 (cf. ci-dessous). Calculer le carré de la distance d(1,2) utilisée en ACP.
n° |
âge |
revenu |
achats |
nombre d’enfants |
1 |
51 |
195888 |
150.15 |
3 |
2 |
39 |
128456 |
173.12 |
2 |
2) Quel est le nombre d’axes principaux que l’on peut calculer ? Quelle est la somme des variances des composantes principales ? Calculer la variance de la quatrième composante principale.
3) Représenter graphiquement le cercle des corrélations.
4) On considère le plan principal 1 x 2. Que peut-on dire des clients de rangs 31, 43, 25, 28 ? Du client n°10 ? Des clients n°9 et 18 ?
5) Calculer les carrés des distances d’(1,2), d’(2,10), d’(1,10) entre les projections des clients de rang 1, 2 et 3 sur le pan 1 x 2. Que peut-on dire de chacune de ces approximations ?
Variable |
moyenne |
écart-type |
âge |
40.06 |
9.34 |
revenu |
107639.5 |
29615.79 |
achats |
316.945 |
207.13 |
enfants |
1.82 |
1.03 |
âge |
revenu |
achats |
enfants |
|
âge |
1.0000 |
0.2984 |
-0.1320 |
-0.1916 |
revenu |
0.2984 |
1.0000 |
0.1370 |
0.3841 |
achats |
-0.1320 |
0.1370 |
1.0000 |
0.6264 |
enfants |
-0.1916 |
0.3841 |
0.6264 |
1.0000 |
Matrice des corrélations
l1 |
l2 |
l3 |
1.810 |
1.290 |
0.620 |
trois premières valeurs propres
variable |
composante principale C1 |
composante principale C2 |
||
r |
r2 |
r |
r2 |
|
âge |
0.161 |
0.026 |
0.863 |
0.745 |
revenu |
-0.515 |
0.265 |
0.707 |
0.501 |
achats |
-0.823 |
0.677 |
-0.200 |
0.040 |
enfants |
-0.918 |
0.843 |
-0.065 |
0.004 |
corrélations entre les variables initiales et les composantes principales
Plan principal 1 x 2
n° |
axe 1 |
axe 2 |
||
1 |
c1(i) |
cos2 |
c2(i) |
cos2 |
1 |
-1.286 |
0.135 |
2.822 |
0.653 |
2 |
0.023 |
0.001 |
0.464 |
0.211 |
10 |
-3.072 |
0.523 |
2.923 |
0.473 |
Coordonnées et cosinus carrés des clients de rang 1, 2 et 10
sur les deux premiers axes principaux.
Pour mieux connaître ses clients et particulièrement leur solvabilité lorsqu’ils demandent un prêt, une banque a étudié un échantillon de clients en fonction de quatre variables : l’âge, le revenu annuel, le patrimoine, et l’emprunt obtenu. Ces 10 clients ont été classés en trois groupes : mauvais payeurs (groupe 1, n° 3, 4, 5), risque moyen (groupe 2, n° 2, 7, 9, 10), sans problèmes (groupe 3, n° 1, 6, 8).
n° |
Age |
Revenu |
Patrimoine |
Emprunt |
Groupe |
1 |
45 |
250kF |
1300kF |
600kF |
3 |
2 |
47 |
160kF |
1150kF |
450kF |
2 |
3 |
38 |
165kF |
850kF |
370kF |
1 |
4 |
36 |
175kF |
770kF |
250kF |
1 |
5 |
29 |
99kF |
450kF |
400kF |
1 |
6 |
39 |
170kF |
1400kF |
120kF |
3 |
7 |
27 |
120kF |
1400kF |
160kF |
2 |
8 |
51 |
160kF |
1300kF |
320kF |
3 |
9 |
32 |
155kF |
1500kF |
350kF |
2 |
10 |
35 |
170kF |
1400kF |
180kF |
2 |
Tableau
des données
1) Calculer les carrés des distances d2(1,7) et d2 (4,8) utilisées en analyse en composantes principales.
2) On donne les trois premières valeurs propres : l1 = 1.998, l2 = 1.245, l3 = 0.451. Calculer la ou les valeurs propres manquantes. Déterminer le nombre d’axes dont l’interprétation est a priori pertinente et indiquer la part d’information conservée.
3) Construire le cercle de corrélation 1 x 2 à l’aide des résultats donnés en annexe. Que caractérise la première composante principale ? La seconde ?
4) On donne en annexe les coordonnées des unités statistiques sur les deux premiers axes principaux. Quelle est la moyenne de la troisième composante principale c3 ? Sa variance ? Son coefficient de corrélation avec la quatrième ?
5) Construire le plan principal 1 x 2. Que représente l’origine des axes par rapport aux variables initiales ? Que peut-on dire des clients de rang 1, 5 et 7 ? Des clients de rangs 4, 8 et 9 ? Calculer les carrés des distances entre les projections sur le plan 1 x 2 des unités statistiques 1 et 7, puis 4 et 8. Conclure.
6) Les clients du groupe 1 portent les n° 3, 4 et 5. Représenter graphiquement le triangle qu’ils déterminent sur le plan 1 x 2 et construire leur centre de gravité graphiquement. Même question avec les clients du groupe 2 n° 2, 7, 9 10 et du groupe 3 n° 1, 6 et 8. Les positions des centres de gravité ont-elles une interprétation claire ?
7) Calculer les coordonnées des unités statistiques g1, g2 et g3 définies par les moyennes des variables dans chaque groupe. Soit g le centre de gravité des unités statistiques g1, g2 et g3, pondérées par les effectifs des groupes correspondants. Quelles sont les coordonnées de g sur les axes 1 et 2 ?
8) Calculer la variance des coordonnées des centres de gravité sur chaque axe. En déduire le rapport de corrélation des composantes principales. Quelle est la composante principale séparant le mieux les groupes ?
Variable |
moyenne |
écart-type |
variance |
age (années) |
37.9 |
7.422264 |
55.09 |
revenu (kF) |
162.4 |
37.2 |
1383.84 |
patrimoine (kF) |
1152 |
328.5361 |
107936 |
emprunt (kF) |
320 |
139.714 |
19520 |
Moyennes
et variances
âge |
revenu |
patrimoine |
emprunt |
|
âge |
1.0000 |
|||
revenu |
0.5800 |
1.0000 |
||
patrimoine |
0.1932 |
0.3453 |
1.0000 |
|
emprunt |
0.4195 |
0.4304 |
-0.2547 |
1.0000 |
Coefficients
de corrélation
C |
1 |
C |
2 |
C |
3 |
C |
4 |
|
r |
r2 |
r |
r2 |
r |
r2 |
r |
r2 |
|
âge |
-0.843 |
0.710 |
0.006 |
0.000 |
-0.536 |
0.288 |
-0.043 |
0.002 |
revenu |
-0.876 |
0.768 |
0.164 |
0.027 |
0.269 |
0.072 |
0.365 |
0.133 |
patrimoine |
-0.299 |
0.089 |
0.900 |
0.811 |
0.143 |
0.020 |
-0.282 |
0.079 |
emprunt |
-0.656 |
0.430 |
-0.638 |
0.407 |
0.265 |
0.070 |
-0.304 |
0.093 |
Coefficients de corrélation r et carré r2
entre les composantes principales et les variables initiales.
axe |
1 |
axe |
2 |
axe |
1 |
axe |
2 |
||
n° |
c1 |
cos2 |
c2 |
cos2 |
n° |
c1 |
cos2 |
c2 |
cos2 |
1 |
-3.056 |
0.874 |
-0.431 |
0.017 |
6 |
0.290 |
0.031 |
1.459 |
0.793 |
2 |
-1.122 |
0.530 |
-0.539 |
0.123 |
7 |
1.954 |
0.715 |
1.088 |
0.222 |
3 |
-0.023 |
0.001 |
-0.936 |
0.896 |
8 |
-1.108 |
0.369 |
0.364 |
0.040 |
4 |
0.421 |
0.099 |
-0.604 |
0.204 |
9 |
0.274 |
0.041 |
0.698 |
0.265 |
5 |
1.958 |
0.415 |
-2.309 |
0.577 |
10 |
0.412 |
0.096 |
1.210 |
0.828 |
Coordonnées
des unités statistiques sur les axes principaux
Pour poursuivre l’analyse du risque financier dans sa clientèle , la banque a effectué une enquête plus importante sur sa clientèle. On étudie maintenant le tableau donnant la répartition de la clientèle suivant les produits financiers qu’elle détient et le groupe de risque auquel elle appartient, auquel on a ajouté le groupe 4 constitué des nouveaux clients dont le risque n’est pas connu.
risque élevé Groupe 1 |
risque moyen Groupe 2 |
risque faible Groupe 3 |
risque inconnu Groupe 4 |
|
PEA |
27 |
40 |
25 |
17 |
Assurance vie |
15 |
46 |
70 |
22 |
épargne logement |
10 |
35 |
66 |
19 |
Compte titre |
22 |
33 |
25 |
13 |
CODEVI |
29 |
35 |
43 |
18 |
Autres |
11 |
41 |
13 |
9 |
Aucun |
81 |
39 |
41 |
27 |
1) Quelle est la nature du tableau de données précédent ? Calculer et représenter graphiquement les répartitions marginales.
2) Calculer le profil des titulaires d’un PEA. Calculer le profil des clients à risque élevé (on donnera ces profils en pourcentages). Représenter graphiquement ces profils et les comparer ces profils aux profils marginaux correspondants.
3) On effectue l’analyse factorielle des correspondances de ce tableau. Les trois premières valeurs propres sont les suivantes :
l1 = 0.10148 |
l2
= 0.03929 |
l3 = 0.00035 |
Quel est le pourcentage d’information conservée par les deux premiers axes ? Quelle est l’inertie totale ? Effectuer le test d’indépendance du c2 sur ce tableau. Donner un ordre de grandeur en valeur absolue des coordonnées des profils sur le troisième axe.
4) Représenter simultanément les profils lignes et les profils colonnes sur le plan principal 1 x 2. Quels sont les profils représentés par l’origine des axes ? Que peut-on dire des comparaisons demandées en question 2 ?
5) La proximité entre le point représentant le groupe 4 sur le plan 1 x 2 et l’origine des axes est-elle réelle ? Que peut-on en déduire sur les nouveaux clients ?
6) Calculer l’approximation du carré de la distance du chi2 entre les profils Assurance vie et Épargne logement donnée par le plan 1 x 2. Cette approximation est-elle précise ? .
7) Proposer une expression caractérisant la propriété mise en évidence par le premier axe.
poids |
c1 |
cos2 |
contrib. |
c2 |
cos2 |
contrib. |
|
PEA |
0.125 |
-0.121 |
0.343 |
1.8 |
-0.161 |
0.608 |
8.3 |
Assurance vie |
0.175 |
0.346 |
0.956 |
20.7 |
0.074 |
0.044 |
2.5 |
ép. logement |
0.149 |
0.424 |
0.879 |
26.4 |
0.157 |
0.121 |
9.4 |
Compte titre |
0.107 |
-0.066 |
0.250 |
0.5 |
-0.114 |
0.749 |
3.5 |
CODEVI |
0.143 |
-0.002 |
0.001 |
0.0 |
0.064 |
0.998 |
1.5 |
Autres |
0.085 |
0.043 |
0.006 |
0.2 |
-0.538 |
0.991 |
62.5 |
Aucun |
0.216 |
-0.487 |
0.913 |
50.5 |
0.150 |
0.086 |
12.3 |
Coordonnées des profils lignes sur les deux premiers axes principaux
poids |
c1 |
cos2 |
contrib. |
c2 |
cos2 |
contrib. |
|
risque élevé G1 |
0.2236 |
-0.553 |
0.968 |
67.4 |
0.101 |
0.032 |
5.8 |
risque moyen G2 |
0.3085 |
0.075 |
0.064 |
1.7 |
-0.286 |
0.936 |
64.3 |
risque faible G3 |
0.3245 |
0.311 |
0.729 |
30.9 |
0.189 |
0.270 |
29.6 |
risque inconnu G4 |
0.1433 |
-0.002 |
0.001 |
0.0 |
0.031 |
0.306 |
0.3 |
Coordonnées des profils colonnes sur les deux premiers axes principaux
Une société de ventes par correspondance veut proposer à ses clients d’acheter à des conditions spéciales un lecteur de DVD ne figurant pas dans son catalogue. La démarche qu’elle envisage de suivre consiste à envoyer par courrier une proposition à ses clients habituels, mais elle cherche à cibler la clientèle. Pour cela, on décide d’effectuer un premier envoi auprès d’un échantillon de 500 clients tirés au hasard dans son fichier, et d’en examiner les résultats avant de procéder au mailing proprement dit.
Les informations dont on dispose sur chaque client sont les suivantes :
* l’âge du chef de famille, codé de 1 à 6 suivant les classes ci-dessous, noté « âge » :
classe 1 : ]25-35[ |
classe 4 : [45-50[ |
classe 2 : [35-40[ |
classe 5 : [50-60[ |
classe 3 : [40-45[ |
classe 6 : [60-75[ |
* la catégorie de revenu, codée de 1 (faible) à 5 (élevé), et notée « revenu »
* le montant des achats en 1993 exprimés en francs, et noté « a93»
* le montant des achats en 1994, et noté « a94»
* la zone d’habitation (de 1 : peu peuplée à 5 : Paris et banlieue) et notée « zh»
Une fois le délai de l’offre d’achat passé, on sait si le client a acheté ou non.
Les objectifs de cette étude de cas sont multiples :
* déterminer les variables les plus liées à l’acte d’achat ;
* construire une règle de décision pour choisir les personnes auxquelles la proposition va être faite.
Ce type d’étude est effectivement réalisé dans la pratique, mais dans ce texte, les données ne sont pas réelles. Elles figurent dans les fichiers Omail1.par (non acheteurs) et Omail2.par (acheteurs) regroupés dans Optimail.par. L’utilisation d’un logiciel d’analyse factorielle discriminante est indispensable.
1) Quelles sont les variables qui permettent le mieux de distinguer les acheteurs des non acheteurs? Que peut-on dire des variances des variables ? des matrices de corrélation ?
2) Compte tenu du nombre de groupes et de variables, combien peut-on calculer de composantes discriminantes ? Peut-on préciser une valeur à laquelle le pouvoir discriminant de la première composante discriminante est toujours supérieur ou égal (on expliquera rapidement pourquoi).
3) Le pouvoir discriminant est-il significatif ? Que peut-on dire de la composante discriminante et des variables initiales? Calculer les coordonnées des centres de gravité des groupes et la moyenne de ces coordonnées. Expliquer le résultat.
4) On décide d’affecter chaque unité statistique au groupe dont le centre de gravité lui est le plus proche. Cette règle est-elle a priori satisfaisante ? Calculer les distances aux centres de gravité des unités statistiques ci-dessous et en déduire leur affectation que l’on comparera au groupe auquel elles appartiennent effectivement.
Unités statistiques à classer :
n° |
âge |
revenu |
achat 93 |
achat 94 |
zone |
groupe |
1 |
5 |
3 |
2958.653 |
3138.581 |
3 |
1 |
2 |
4 |
2 |
2529.048 |
3073.991 |
1 |
1 |
3 |
3 |
3 |
1935.538 |
1752.815 |
3 |
2 |
4 |
3 |
2 |
2605.518 |
2530.29 |
2 |
2 |
5) Quel est le pourcentage d’observations bien classées parmi les unités statistiques connues ? Quel est le pourcentage d’observations du groupe 1 bien classées ? Du groupe 2 ? Pourquoi ce tableau ne donne-t-il pas nécessairement une bonne évaluation de l’efficacité de la règle ?
6) Proposer une démarche différente pour effectuer l’analyse factorielle discriminante.