Exercices sur le chapitre 9

1. analyse descriptive des valeurs propres.

1) On effectue l’analyse en composantes principales normée d’un tableau de données constitué des observations de sept variables quantitatives sur 454 unités statistiques. Seules six variables ont été considérées pour définir la distance entre les unités statistiques. Déduire des cinq premières valeurs propres données ci-dessous la ou les valeurs propres manquantes. Construire le diagramme des valeurs propres et préciser le nombre d’axes a priori significatifs.

l1 = 2.38

l2 = 2.12

l3 = 0.55

l4 = 0.41

l5 = 0.33

2) Construire, dans chaque cas ci-dessous, le diagramme des valeurs propres et sélectionner les axes à interpréter.

l1

l2

l3

l4

l5

l6

l7

l8

l9

l10

l11

cas n°1

2.326

2.054

0.423

0.182

0.015

cas n°2

3.541

2.126

1.510

0.632

0.414

0.305

0.225

0.182

0.065

cas n°3

3.125

3.101

1.984

1.823

0.541

0.220

0.110

0.050

0.025

0.015

0.006

cas n°4

2.154

1.453

1.213

0.646

0.541

0.532

0.461

2. propriétés numérique des valeurs propres.

1) Montrer que la somme des k premières valeurs propres obtenues dans une ACP normée est supérieure ou égale à k.

2) En déduire que la somme des l dernières valeurs propres est inférieure ou égale à l.

3) Soit S(k) la somme des k premières valeurs propres.  On note lk la valeur propre de rang k. Montrer que :

lk > (p – S(k-1))/ (p – k+1)

3. introduction théorique à l’analyse en composantes principales.

Cet exercice donne la théorie de l’analyse en composantes principales dans le cas particulier de deux variables X1 et X2 centrées réduites. Les résultats établis peuvent être généralisés (cette généralisation est précisée dans la correction).

On considère deux variables statistiques X1, X2 centrées réduites observées sur n individus et dont le coefficient de corrélation est noté r. Soient les variables Z et Z’ de la forme :

Z = a1 X1 + a2 X2 : quel que soit i = 1, …, n, Z(i) = a1 X1(i) + a2 X2(i)

Z’ = a1’ X1 + a2’ X2 : quel que soit i = 1, …, n, Z’(i) = a1’ X1(i) + a2’ X2(i)

1) Calculer la moyenne et la variance de Z en fonction de a1 et a2. Calculer la covariance cov(Z, Z’).

2) Calculer le vecteur u = (a1, a2) tel que la variance de Z soit maximale et vérifiant la condition :

a12 + a22 = 1

3) On note C1 la variable Z précédente et l1 sa variance. Déterminer la variable Z’ = a1’ X1 + a2’ X2 telle que :

a12 + a22 = 1

cov(C1, Z’) = 0

On note C2 cette variable. Calculer sa variance l2 et la somme l1 + l2.

4) Calculer les coefficients de corrélation r(X1, C1), r(X1, C2), r(X2, C1), r(X2, C2) et les expressions

S1 = r2(X1, C1) + r2(X2, C1)

S2 = r2(X1, C2) + r2(X2, C2)

5) Calculer les expressions :

S1’ = r2(X1, C1) + r2(X1, C2)

S2’ = r2(X2, C1) + r2(X2, C2)

S3’ = r(X1, C1) x r(X2, C1) + r(X1, C2) x r(X2, C2)

6) Vérifiez ces propriétés dans les applications données dans les exercices ci-dessous.

4. exemple élémentaire d’a.c.P.

On considère le poids, la taille, l’âge et la note de dix élèves de 4e d’un collège :


Poids

Taille

Age

Note

1

45

1.50

13

14

2

50

1.60

13

16

3

50

1.65

13

15

4

60

1.75

15

9

5

60

1.70

14

10

6

60

1.70

14

7

7

70

1.60

14

8

8

65

1.60

13

13

9

60

1.55

15

17

10

65

1.70

14

11

Tableau de données initiales

1) Compléter les tableaux ci-dessous :

Variable

moyenne

écart-type

variance

Poids

58.500

55.250000

Taille

1.635

Age

Note

12.000

3.31662

11.000000

Moyennes et variances

Poids

Taille

Age

Note

Poids

1.0000

0.4854

-0.5679

Taille

0.3665

1.0000

-0.6287

Age

0.4854

0.3955

1.0000

-0.3223

Note

-0.5679

-0.6287

-0.3223

1.0000

Corrélations entre les variables initiales

2) Calculer les distances entre les individus 4, 5 et 6 en considérant les valeurs centrées réduites.

3) On donne ci-dessous les valeurs propres et les vecteurs principaux.

l1 =2.391

l2 = 0.750

l3 = 0.584

l4 = 0.274

Valeurs propres et vecteurs principaux

Calculer le pourcentage d’inertie expliquée par chaque axe, les pourcentages cumulés et construire le diagramme des valeurs propres.

4) On donne ci-dessous les vecteurs principaux :

u1 =

( 0.5080,

0.5038,

0.4453,

-0.5383 )

u2 =

( 0.3065,

-0.4647,

0.7058,

0.4381 )

u3 =

(-0.6593,

0.5253,

0.4712,

0.2594 )

u4 =

(-0.4619,

-0.5042,

0.2855,

-0.6715 )

Compléter le tableau donnant les composantes principales de chaque individu :

c1

c2

c3

c4

1

-2.638

-0.203

-0.104

1.044

2

-1.943

-0.358

0.316

-0.350

3

-1.442

-0.803

0.591

-0.486

4

0.078

1.201

0.192

5

0.987

-0.420

0.296

-0.053

6

1.474

0.061

0.555

7

1.317

-1.454

0.409

8

-0.431

-0.136

-1.249

-0.674

9

-0.571

2.386

0.413

-0.071

10

1.166

-0.082

-0.069

-0.566

Composantes principales

5) Représenter les individus sur le plan principal 1 x 2, et constituer des groupes d’élèves homogènes. Comparer les distances entre les représentations des individus 4, 5 et 6 sur le plan 1 x 2 et les distances réelles. Expliquer les résultats.

6) On étudie les coefficients de corrélation des composantes principales avec les variables initiales :

Axe

1         

Axe

2

Axe

3

Axe

4

r

r

r

Poids

0.785

0.617

0.266

0.070

-0.504

0.254

-0.242

0.059

Taille

0.779

0.607

-0.403

0.162

0.402

0.161

-0.264

0.070

Age

0.689

0.474

0.611

0.374

0.360

0.130

0.150

0.022

Note

-0.832

0.693

0.380

0.144

0.198

0.039

-0.352

0.124

Coefficients de corrélations et carrés entre les variables et les composantes principales

Représenter graphiquement le cercle de corrélation 1 x 2, et expliquer les propriétés communes des élèves de chaque groupe.

5. ANALYSE EN composantes principales de notes.

On considère le tableau des notes obtenues par 10 étudiants en gestion, en mathématiques, langue, expression, économie (ces données figurent sur le fichier ex4chap9.dat, fichier de paramètres ex4chap9.par). L’économie étant en option, on la considère comme une variable supplémentaire.

1) On effectue l’analyse en composantes principales de X1, X2, X3 et X4. Déduire des résultats donnés en annexe la moyenne et la variance des trois premières composantes principales. En déduire la moyenne et la variance de la quatrième.

2) Construire le diagramme des valeurs propres. En déduire le nombre de composantes principales significatives. Quel est le pourcentage d’information conservée par les deux premières composantes principales ? Par les trois premières ?

3) Calculer les coefficients de corrélation entre la note d’économie et les deux premières composantes principales.

4) Représenter graphiquement le cercle de corrélation C1 x C2. Donner une interprétation aux deux composantes principales C1 et C2.

5) Représenter le plan principal 1 x 2. Que peut-on dire de la représentation de l’individu 8 sur ce plan ? Que peut-on dire des étudiants 6 et 3 ? De l’étudiant 5 ? Placer approximativement l’étudiant dont toutes les notes seraient égales à 10.

Annexe

étudiant n°

1

2

3

4

5

6

7

8

9

10

note

13

8

12

9

10

15

13

11

9

9

Notes d’économie

moyenne

écart-type

variance

Gestion

10.6

3.04

9.24

Mathématiques

10.1

3.45

11.89

Langue

11.0

2.32

5.40

Expression

11.3

2.90

8.41

Économie

10.9

2.17

4.69

 

Gestion

Mathématiques

Langue

Expression

Économie

Gestion

1.0000

0.7861

0.5663

0.3766

0.8294

Mathématiques

0.7861

1.0000

0.2371

0.3670

0.8048

Langue

0.5663

0.2371

1.0000

0.7123

0.2782

Expression

0.3766

0.3670

0.7123

1.0000

0.3232

Économie

0.8294

0.8048

0.2782

0.3232

1.0000

Matrice des corrélations

C

1

C

2

C

3

C

4

r

r2

r

r2

r

r2

r

r2

Gest

-0.868

0.753

0.378

0.143

-0.280

0.078

-0.161

0.026

Math

-0.752

0.565

0.596

0.355

0.246

0.061

0.138

0.019

Lang

-0.793

0.629

-0.502

0.252

-0.318

0.101

0.133

0.018

Expr

-0.763

0.583

-0.494

0.244

0.406

0.165

-0.091

0.008

Coefficients de corrélations entre les variables initiales et les composantes principales

C

1

C

2

C

3

C

4

c1

cos2

c2

cos2

c3

cos2

c4

cos2

1

-1.261

0.624

0.044

0.001

0.937

0.345

-0.278

0.030

2

-0.164

0.010

-1.632

0.989

0.048

0.001

-0.039

0.001

3

-2.419

0.772

-1.137

0.171

-0.652

0.056

0.095

0.001

4

1.029

0.418

-1.029

0.418

-0.585

0.135

0.267

0.028

5

2.672

0.953

-0.291

0.011

-0.245

0.008

-0.457

0.028

6

-1.915

0.779

0.939

0.187

0.329

0.023

0.227

0.011

7

-0.821

0.131

1.739

0.587

-1.182

0.271

-0.248

0.012

8

-0.082

0.011

0.007

0.000

0.777

0.949

-0.160

0.040

9

2.152

0.863

0.746

0.104

0.096

0.002

0.414

0.032

10

0.808

0.507

0.612

0.291

0.476

0.176

0.178

0.025

Cordonnées des unités statistiques sur les axes principaux et cosinus carrés

6. régression sur composantes principales.

On introduit ici, sur un plan théorique, la régression sur composantes principales, encore appelée régression orthogonale. On applique les résultats sur les données traitées dans l’exercice précédent (on note Y la note d’économie, mY et sY sa moyenne et son écart type, X1, X2, X3 et X4 les notes centrées réduites en gestion, mathématiques, langue et expression).

1) On considère le modèle de régression de Y par la composante principale C1 :

Y = b0 + b1C1 + E

E étant la série des résidus. Calculer les coefficients de régression b0, b1 et la variance des résidus s2.

2) On sait que la première composante principale C1 est égale à :

C1

=

-0.5456 X1

-

 0.4727 X2

-

0.4986 X3

-

0.4798 X4

où X1 , X2, X3 et X4 sont les variables centrées réduites déduites des notes de gestion, de mathématiques, de langue et d’expression. En déduire une première expression de Y en fonction des quatre variables X1, X2, X3 et X4 (modèle 1). Compléter les résidus donnés en première ligne du tableau en annexe.

3) On considère maintenant le modèle de régression linéaire ci-dessous :

Y = b0 + b1C1 + b2 C2 + E

On note r1 et r2 les coefficients de corrélation de Y avec C1 et avec C2. Montrer que :

b0 = mY

b1 = r1 sY / l11/2

b2 = r2 sY / l21/2

4) On sait que la deuxième composante principale C2 est calculée de la façon suivante, en fonction des variables centrées réduites :

C2

=

0.3787 X1

+

0.5975 X2

-

0.5039 X3

-

0.4957 X4

En déduire une deuxième expression de Y en fonction des quatre variables X1, X2, X3 et X4 (modèle 2). Compléter les résidus données en deuxième ligne du tableau en annexe.

5) On effectue la régression linéaire multiple de Y par X1, X2, X3 et X4 directement, à l’aide d’un logiciel. Les résultats sont les suivants (modèle 3) :

Y = 0.8874 X1 + 0.2520 X2 - 0.9393 X3 + 0.5527 X4 + 10.9000

Compléter les résidus donnés en ligne 3 du tableau ci-dessous.

6) En comparant les estimations sans biais des variances résiduelles, choisir un des trois modèles.

Annexe

e1

e2

e3

e4

e5

e6

e7

e8

e9

e10

1

0.884

-1.233

-0.907

1.677

1.308

0.0205

0.176

-1.121

2

0.836

-0.008

0.202

1.991

-0.566

0.0125

-0.629

-1.781

3

0.298

 0.200

 0.695

 1.238

 -0.897

 -0.314

 0.063

 -1.515

résidus obtenus dans chacun des trois modèles considérés

7. A.c.p. dES DONNéES EUROMARKET.

On considère l’échantillon de 50 clients de l’hypermarché Euromarket dont on connaît l’âge, le revenu, le montant des achats et le nombre d’enfants (fichier de données Euromar.dat et fichier de paramètres Euromar.par). On veut déterminer les caractéristiques principales de la clientèle. On utilisera un logiciel ou les résultats numériques fournis en annexe pour répondre aux questions.

1) On considère les clients de rangs 1 et 2 (cf. ci-dessous). Calculer le carré de la distance d(1,2) utilisée en ACP.

âge

revenu

achats

nombre

d’enfants

1

51

195888

150.15

3

2

39

128456

173.12

2

2) Quel est le nombre d’axes principaux que l’on peut calculer ? Quelle est la somme des variances des composantes principales ? Calculer la variance de la quatrième composante principale.

3) Représenter graphiquement le cercle des corrélations.

4) On considère le plan principal 1 x 2. Que peut-on dire des clients de rangs 31, 43, 25, 28 ? Du client n°10 ? Des clients n°9 et 18 ?

5) Calculer les carrés des distances d’(1,2), d’(2,10), d’(1,10) entre les projections des clients de rang 1, 2 et 3 sur le pan 1 x 2. Que peut-on dire de chacune de ces approximations ?

Annexe

Variable

moyenne

écart-type

âge

40.06

9.34

revenu

107639.5

29615.79

achats

316.945

207.13

enfants

1.82

1.03

 

âge

revenu

achats

enfants

âge

1.0000

0.2984

-0.1320

-0.1916

revenu

0.2984

1.0000

0.1370

0.3841

achats

-0.1320

0.1370

1.0000

0.6264

enfants

-0.1916

0.3841

0.6264

1.0000

Matrice des corrélations

l1

l2

l3

1.810

1.290

0.620

trois premières valeurs propres

variable

composante principale C1

composante principale C2

r

r2

r

r2

âge

0.161

0.026

0.863

0.745

revenu

-0.515

0.265

0.707

0.501

achats

-0.823

0.677

-0.200

0.040

enfants

-0.918

0.843

-0.065

0.004

corrélations entre les variables initiales et les composantes principales

Plan principal 1 x 2

axe 1

axe 2

1

c1(i)

cos2

c2(i)

cos2

1

-1.286

0.135

2.822

0.653

2

0.023

0.001

0.464

0.211

10

-3.072

0.523

2.923

0.473

Coordonnées et cosinus carrés des clients de rang 1, 2 et 10

sur les deux premiers axes principaux.

8. A.C.P. et centres de gravité.

Pour mieux connaître ses clients et particulièrement leur solvabilité lorsqu’ils demandent un prêt, une banque a étudié un échantillon de clients en fonction de quatre variables : l’âge, le revenu annuel, le patrimoine, et l’emprunt obtenu. Ces 10 clients ont été classés en trois groupes : mauvais payeurs (groupe 1, n° 3, 4, 5), risque moyen (groupe 2, n° 2, 7, 9, 10), sans problèmes (groupe 3, n° 1, 6, 8).

Age

Revenu

Patrimoine

Emprunt

Groupe

1

45

250kF

1300kF

600kF

3

2

47

160kF

1150kF

450kF

2

3

38

165kF

850kF

370kF

1

4

36

175kF

770kF

250kF

1

5

29

99kF

450kF

400kF

1

6

39

170kF

1400kF

120kF

3

7

27

120kF

1400kF

160kF

2

8

51

160kF

1300kF

320kF

3

9

32

155kF

1500kF

350kF

2

10

35

170kF

1400kF

180kF

2

Tableau des données

1) Calculer les carrés des distances d2(1,7) et d2 (4,8) utilisées en analyse en composantes principales.

2) On donne les trois premières valeurs propres : l1 = 1.998, l2 = 1.245, l3 = 0.451. Calculer la ou les valeurs propres manquantes. Déterminer le nombre d’axes dont l’interprétation est a priori pertinente et indiquer la part d’information conservée.

3) Construire le cercle de corrélation 1 x 2 à l’aide des résultats donnés en annexe. Que caractérise la première composante principale ? La seconde ?

4) On donne en annexe les coordonnées des unités statistiques sur les deux premiers axes principaux. Quelle est la moyenne de la troisième composante principale c3 ? Sa variance ? Son coefficient de corrélation avec la quatrième ?

5) Construire le plan principal 1 x 2. Que représente l’origine des axes par rapport aux variables initiales ? Que peut-on dire des clients de rang 1, 5 et 7 ? Des clients de rangs 4, 8 et 9 ? Calculer les carrés des distances entre les projections sur le plan 1 x 2 des unités statistiques 1 et 7, puis 4 et 8. Conclure.

6) Les clients du groupe 1 portent les n° 3, 4 et 5. Représenter graphiquement le triangle qu’ils déterminent sur le plan 1 x 2 et construire leur centre de gravité graphiquement. Même question avec les clients du groupe 2 n° 2, 7, 9 10 et du groupe 3 n° 1, 6 et 8. Les positions des centres de gravité ont-elles une interprétation claire ?

7) Calculer les coordonnées des unités statistiques g1, g2 et g3 définies par les moyennes des variables dans chaque groupe. Soit g le centre de gravité des unités statistiques g1, g2 et g3, pondérées par les effectifs des groupes correspondants. Quelles sont les coordonnées de g sur les axes 1 et 2 ?

8) Calculer la variance des coordonnées des centres de gravité sur chaque axe. En déduire le rapport de corrélation des composantes principales. Quelle est la composante principale séparant le mieux les groupes ?

Annexe

Variable

moyenne

écart-type

variance

age (années)

37.9

7.422264

55.09

revenu (kF)

162.4

37.2

1383.84

patrimoine (kF)

1152

328.5361

107936

emprunt (kF)

320

139.714

19520

Moyennes et variances

âge

revenu

patrimoine

emprunt

âge

1.0000

revenu

0.5800

1.0000

patrimoine

0.1932

0.3453

1.0000

emprunt

0.4195

0.4304

-0.2547

1.0000

Coefficients de corrélation

C

1

C

2

C

3

C

4

r

r2

r

r2

r

r2

r

r2

âge

-0.843

0.710

0.006

0.000

-0.536

0.288

-0.043

0.002

revenu

-0.876

0.768

0.164

0.027

0.269

0.072

0.365

0.133

patrimoine

-0.299

0.089

0.900

0.811

0.143

0.020

-0.282

0.079

emprunt

-0.656

0.430

-0.638

0.407

0.265

0.070

-0.304

0.093

Coefficients de corrélation r et carré r2

entre les composantes principales et les variables initiales.

axe

1

axe

2

axe

1

axe

2

c1

cos2

c2

cos2

c1

cos2

c2

cos2

1

-3.056

0.874

-0.431

0.017

6

0.290

0.031

1.459

0.793

2

-1.122

0.530

-0.539

0.123

7

1.954

0.715

1.088

0.222

3

-0.023

0.001

-0.936

0.896

8

-1.108

0.369

0.364

0.040

4

0.421

0.099

-0.604

0.204

9

0.274

0.041

0.698

0.265

5

1.958

0.415

-2.309

0.577

10

0.412

0.096

1.210

0.828

Coordonnées des unités statistiques sur les axes principaux

9. analyse factorielle des correspondances.

Pour poursuivre l’analyse du risque financier dans sa clientèle , la banque a effectué une enquête plus importante sur sa clientèle. On étudie maintenant le tableau donnant la répartition de la clientèle suivant les produits financiers qu’elle détient et le groupe de risque auquel elle appartient, auquel on a ajouté le groupe 4 constitué des nouveaux clients dont le risque n’est pas connu.

risque élevé

Groupe 1

risque moyen

Groupe 2

risque faible

Groupe 3

risque inconnu

Groupe 4

PEA

27

40

25

17

Assurance vie

15

46

70

22

épargne logement

10

35

66

19

Compte titre

22

33

25

13

CODEVI

29

35

43

18

Autres

11

41

13

9

Aucun

81

39

41

27

1) Quelle est la nature du tableau de données précédent ? Calculer et représenter graphiquement les répartitions marginales.

2) Calculer le profil des titulaires d’un PEA. Calculer le profil des clients à risque élevé (on donnera ces profils en pourcentages). Représenter graphiquement ces profils et les comparer ces profils aux profils marginaux correspondants.

3) On effectue l’analyse factorielle des correspondances de ce tableau. Les trois premières valeurs propres sont les suivantes :

l1 = 0.10148

l2 = 0.03929

l3 = 0.00035

Quel est le pourcentage d’information conservée par les deux premiers axes ? Quelle est l’inertie totale ? Effectuer le test d’indépendance du c2 sur ce tableau. Donner un ordre de grandeur en valeur absolue des coordonnées des profils sur le troisième axe.

4) Représenter simultanément les profils lignes et les profils colonnes sur le plan principal 1 x 2. Quels sont les profils représentés par l’origine des axes ? Que peut-on dire des comparaisons demandées en question 2 ?

5) La proximité entre le point représentant le groupe 4 sur le plan 1 x 2 et l’origine des axes est-elle réelle ? Que peut-on en déduire sur les nouveaux clients ?

6) Calculer l’approximation du carré de la distance du chi2 entre les profils Assurance vie et Épargne logement donnée par le plan 1 x 2. Cette approximation est-elle précise ? .

7) Proposer une expression caractérisant la propriété mise en évidence par le premier axe.

Annexe

poids

c1

cos2

contrib.

c2

cos2

contrib.

PEA

0.125

-0.121

0.343

1.8

-0.161

0.608

8.3

Assurance vie

0.175

0.346

0.956

20.7

0.074

0.044

2.5

ép. logement

0.149

0.424

0.879

26.4

0.157

0.121

9.4

Compte titre

0.107

-0.066

0.250

0.5

-0.114

0.749

3.5

CODEVI

0.143

-0.002

0.001

0.0

0.064

0.998

1.5

Autres

0.085

0.043

0.006

0.2

-0.538

0.991

62.5

Aucun

0.216

-0.487

0.913

50.5

0.150

0.086

12.3

Coordonnées des profils lignes sur les deux premiers axes principaux

poids

c1

cos2

contrib.

c2

cos2

contrib.

risque élevé G1

0.2236

-0.553

0.968

67.4

0.101

0.032

5.8

risque moyen G2

0.3085

0.075

0.064

1.7

-0.286

0.936

64.3

risque faible G3

0.3245

0.311

0.729

30.9

0.189

0.270

29.6

risque inconnu G4

0.1433

-0.002

0.001

0.0

0.031

0.306

0.3

Coordonnées des profils colonnes sur les deux premiers axes principaux

10. Optimisation d’un mailing.

Une société de ventes par correspondance veut proposer à ses clients d’acheter à des conditions spéciales un lecteur de DVD ne figurant pas dans son catalogue. La démarche qu’elle envisage de suivre consiste à envoyer par courrier une proposition à ses clients habituels, mais elle cherche à cibler la clientèle. Pour cela, on décide d’effectuer un premier envoi auprès d’un échantillon de 500 clients tirés au hasard dans son fichier, et d’en examiner les résultats avant de procéder au mailing proprement dit.

Les informations dont on dispose sur chaque client sont les suivantes :

*                                l’âge du chef de famille, codé de 1 à 6 suivant les classes ci-dessous, noté « âge » :


classe 1 : ]25-35[

classe 4 : [45-50[

classe 2 : [35-40[

classe 5 : [50-60[

classe 3 : [40-45[

classe 6 : [60-75[

*                                                                                                                                                   la catégorie de revenu, codée de 1 (faible) à 5 (élevé), et notée « revenu »

*                                                                                                                                                   le montant des achats en 1993 exprimés en francs, et noté « a93»

*                                                                                                                                                   le montant des achats en 1994, et noté « a94»

*                                                                                                                                                   la zone d’habitation (de 1 : peu peuplée à 5 : Paris et banlieue) et notée « zh»

 

Une fois le délai de l’offre d’achat passé, on sait si le client a acheté ou non.

 

Les objectifs de cette étude de cas sont multiples :

*                                                                                                                                    déterminer les variables les plus liées à l’acte d’achat ;

*                                                                                                                                      construire une règle de décision pour choisir les personnes auxquelles la proposition va être faite.

Ce type d’étude est effectivement réalisé dans la pratique, mais dans ce texte, les données ne sont pas réelles. Elles figurent dans les fichiers Omail1.par (non acheteurs) et Omail2.par (acheteurs) regroupés dans Optimail.par. L’utilisation d’un logiciel d’analyse factorielle discriminante est indispensable.

1) Quelles sont les variables qui permettent le mieux de distinguer les acheteurs des non acheteurs? Que peut-on dire des variances des variables ? des matrices de corrélation ?

2) Compte tenu du nombre de groupes et de variables, combien peut-on calculer de composantes discriminantes ? Peut-on préciser une valeur à laquelle le pouvoir discriminant de la  première composante discriminante est toujours supérieur ou égal (on expliquera rapidement pourquoi).

3) Le pouvoir discriminant est-il significatif ? Que peut-on dire de la composante discriminante et des variables initiales? Calculer les coordonnées des centres de gravité des groupes et la moyenne de ces coordonnées. Expliquer le résultat.

4) On décide d’affecter chaque unité statistique au groupe dont le centre de gravité lui est le plus proche. Cette règle est-elle a priori satisfaisante ? Calculer les distances aux centres de gravité des unités statistiques ci-dessous et en déduire leur affectation que l’on comparera au groupe auquel elles appartiennent effectivement.

Unités statistiques à classer :

âge

revenu

achat 93

achat 94

zone

groupe

1

5

3

2958.653

3138.581

3

1

2

4

2

2529.048

3073.991

1

1

3

3

3

1935.538

1752.815

3

2

4

3

2

2605.518

2530.29

2

2

 

5) Quel est le pourcentage d’observations bien classées parmi les unités statistiques connues ? Quel est le pourcentage d’observations du groupe 1 bien classées ? Du groupe 2 ? Pourquoi ce tableau ne donne-t-il pas nécessairement une bonne évaluation de l’efficacité de la règle ?

6) Proposer une démarche différente pour effectuer l’analyse factorielle discriminante.