l’hérédité des caractères physiques

On étudie la taille, le poids et la pointure d’un échantillon de 90 étudiantes âgées d’une vingtaine d’années, de leurs pères et de leurs mères. Chaque unité statistique, que l’on appellera famille, est donc définie par l’association des trois personnes. L’objectif de l’analyse est d’étudier les liaisons entre les variables, de créer des groupes de familles, et de rechercher les points aberrants.

On donne ci-dessous les résultats statistiques élémentaires :

taille

tailE

163.98

5.67

32.20

poids

pdE

54.66

5.68

32.29

pointure

ptuE

37.91

1.43

2.04

taille du père

tailP

169.79

5.41

29.30

poids du père

pdP

71.77

7.58

57.42

pointure du père

ptuP

41.64

1.45

2.09

taille de la mère

tailM

160.47

5.79

33.56

poids de la mère

pdM

57.86

7.18

51.61

pointure de la mère

ptuM

38.22

1.47

2.17

Variables

Abréviations

moyennes

écarts types

variances

 

 

tailE

pdE

ptuE

tailP

pdP

ptuP

tailM

pdM

ptuM

tailE

1.0000

 

 

 

 

 

 

 

 

pdE

0.3991

1.0000

 

 

 

 

 

 

 

ptuE

0.6817

0.5456

1.0000

 

 

 

 

 

 

tailP

0.4383

-0.0020

0.2781

1.0000

 

 

 

 

 

pdP

0.1678

0.1434

0.1748

0.4477

1.0000

 

 

 

 

ptuP

0.2879

0.0835

0.3341

0.4739

0.3702

1.0000

 

 

 

tailM

0.4272

0.2118

0.3545

0.2079

0.0971

0.1261

1.0000

 

 

pdM

0.1163

0.3564

0.2621

-0.1865

-0.0116

-0.0456

0.2859

1.0000

 

ptuM

0.1735

0.1902

0.2498

-0.1051

-0.0946

-0.2319

0.5152

0.3759

1.0000

Coefficients de corrélation

1) On décide pour cela d’effectuer l’analyse en composantes principales de ces données. Justifier ce choix . Calculer et commenter les distances entre les trois familles ci-dessous :

 

tailE

pdE

ptuE

tailP

pdP

ptuP

tailM

pdM

ptuM

 x

173

59

39

170

75

42

168

65

38

y

173

59

39

175

65

44

168

65

38

z

173

59

39

170

75

42

160

58

38

2) Que peut-on dire des variances des variables donnant la taille de chaque personne ? Des variances du poids et de la pointure ? A partir de quelle valeur les coefficients sont-ils significatifs pour un risque de 5% ? Que peut-on en dire ?

3) On donne ci-dessous les valeurs propres obtenues par l’ACP. Jusqu’à quel rang peut-on considérer que les composantes principales sont significatives ? Quel est le pourcentage d’information conservée par ces composantes principales ?


l

%

S%

 

2.991

33

33

**************************************************

2.016

22

56

*********************************

1.026

11

67

*****************

0.861

10

77

**************

0.649

7

84

**********

0.462

5

89

*******

0.410

5

94

******

0.347

4

97

*****

0.238

3

100

***

4) On donne ci-dessous les coefficients de corrélation entre les variables initiales et les composantes principales. Construire le cercle de corrélation 1 x 2. Interpréter les deux premières composantes principales.

 

Axe 1

Axe 2

Axe 3

Axe 4

Axe 5

 

r

r2

r

r2

r

r2

r

r2

r

r2

tailE

-0.805

0.648

0.075

0.006

-0.006

0.000

0.407

0.166

0.070

0.005

pdE

-0.603

0.364

-0.277

0.077

0.580

0.336

-0.014

0.000

0.255

0.065

ptuE

-0.830

0.689

-0.058

0.003

0.242

0.059

0.244

0.060

-0.018

0.000

tailP

-0.504

0.254

0.641

0.411

-0.312

0.097

0.030

0.001

0.083

0.007

pdP

-0.395

0.156

0.508

0.258

-0.005

0.000

-0.626

0.391

0.381

0.145

ptuP

-0.464

0.215

0.607

0.368

0.076

0.006

-0.121

0.015

-0.532

0.283

tailM

-0.632

0.400

-0.300

0.090

-0.538

0.290

-0.048

0.002

-0.106

0.011

pdM

-0.364

0.132

-0.589

0.347

0.214

0.046

-0.466

0.217

-0.339

0.115

ptuM

-0.365

0.133

-0.676

0.456

-0.438

0.192

-0.093

0.009

0.135

0.018

5) Comparer la première valeur propre et la somme des carrés des coefficients de corrélation des variables initiales avec la première composante principale. Calculer la somme des carrés des coefficients de corrélation des variables initiales avec les autres composantes principales. Existe-t-il une variable Y telle que la somme des carrés des coefficients de corrélation entre Y et les variables initiales soit supérieure à 2.991 ?

6) Le plan principal 1 x 2 est donné ci-dessous. Que peut-on dire de la dispersion des familles ? Décrire les familles dont les rangs sont les suivants : 33, 48, 49, 51, 66, 80. Déterminer le quadrant du plan 1 x 2 où se trouvent représentées les familles x et y dont les caractéristiques sont les suivantes :

 

tailE

pdE

ptuE

tailP

pdP

ptuP

tailM

pdM

ptuM

x

173

59

39

170

75

42

168

65

38

y

154

45

35

170

65

40

156

45

37

Placer approximativement le point représentant la famille z :

z

164

55

38

170

72

42

160

58

38

 

plan principal 1 x 2

(l1 = 2.991, l2 = 2.016)

7) On donne dans le tableau en annexe les deux premières composantes principales et les cosinus carrés de chaque unité statistique avec les axes. Déterminer les unités statistiques dont le cosinus carré avec le plan 1 x 2 est inférieur à 0.2. Calculer la moyenne et la variance de leurs coordonnées sur les axes 1 et 2. Indiquer sur le plan 1 x 2 la région où elles se trouvent.

8) Les quatre premières composantes principales de la famille 90 sont les suivantes :

 

Axe 1

Axe 2

Axe 3

Axe 4

c1

cos2

c2

cos2

c3

cos2

c4

cos2

90

2.885

0.281

-0.344

0.004

3.548

0.426

-2.138

0.155

Reconstituer approximativement les caractéristiques de cette famille. Comment apparaît-elle sur le plan 3 x 4 ?


ANNEXE

 

Axe 1

Axe 2

 

Axe 1

Axe 2

 

Axe 1

Axe 2

c1

cos2

c1

c1

cos2

c2

cos2

c1

cos2

c2

cos2

1

1.797

0.209

-2.031

0.267

31

-0.508

0.012

4.049

0.741

61

-1.243

0.265

-1.355

0.315

2

0.685

0.059

-0.646

0.053

32

0.493

0.025

-1.599

0.259

62

-2.385

0.452

0.713

0.040

3

-0.820

0.401

-0.559

0.186

33

-2.399

0.423

2.242

0.369

63

-0.049

0.004

-0.372

0.252

4

0.527

0.110

0.488

0.095

34

-0.984

0.072

-0.920

0.063

64

-0.693

0.036

-3.030

0.691

5

-0.480

0.033

0.551

0.043

35

-0.573

0.202

-0.292

0.052

65

0.413

0.039

0.671

0.102

6

-0.336

0.029

0.951

0.234

36

0.498

0.105

0.725

0.223

66

1.809

0.188

-3.065

0.539

7

-2.202

0.730

-0.436

0.029

37

-3.015

0.733

1.278

0.132

67

0.065

0.002

0.727

0.243

8

3.719

0.828

0.835

0.042

38

-1.747

0.504

-0.019

0.000

68

0.226

0.027

-0.470

0.116

9

2.981

0.583

1.360

0.121

39

-2.395

0.635

0.545

0.033

69

2.207

0.605

1.071

0.142

10

-0.657

0.112

0.968

0.242

40

0.073

0.001

-1.519

0.510

70

-0.749

0.062

1.234

0.169

11

-2.709

0.527

-1.413

0.144

41

1.508

0.349

-1.368

0.287

71

3.478

0.787

-0.854

0.047

12

-0.705

0.025

-3.912

0.783

42

0.558

0.097

1.168

0.424

72

-1.894

0.297

1.313

0.143

13

1.579

0.222

-1.469

0.192

43

0.336

0.007

-1.361

0.116

73

1.353

0.267

-1.576

0.363

14

0.146

0.006

0.541

0.087

44

2.771

0.789

-0.457

0.021

74

-3.752

0.621

1.536

0.104

15

-1.947

0.793

0.498

0.052

45

1.589

0.166

3.198

0.671

75

-0.549

0.197

-0.214

0.030

16

-0.665

0.032

-2.175

0.347

46

0.176

0.002

-2.417

0.370

76

-0.867

0.257

0.820

0.230

17

0.778

0.060

-0.791

0.062

47

0.376

0.059

0.093

0.004

77

2.328

0.721

-0.182

0.004

18

-2.530

0.621

-1.035

0.104

48

-2.361

0.401

-2.694

0.522

78

2.066

0.451

0.501

0.027

19

-1.405

0.391

-0.413

0.034

49

2.284

0.282

3.066

0.507

79

0.879

0.141

1.567

0.448

20

0.852

0.114

0.511

0.041

50

0.231

0.011

1.206

0.307

80

-2.789

0.584

-0.003

0.000

21

-0.971

0.173

-0.700

0.090

51

4.284

0.742

-0.999

0.040

81

2.736

0.712

0.447

0.019

22

2.435

0.624

0.332

0.012

52

-1.006

0.368

0.919

0.307

82

-0.352

0.040

0.546

0.096

23

-0.680

0.067

1.747

0.442

53

-3.257

0.763

-0.776

0.043

83

-0.398

0.037

1.162

0.313

24

-1.117

0.130

-2.557

0.679

54

0.381

0.059

0.947

0.366

84

-0.361

0.016

-1.392

0.238

25

0.868

0.129

1.812

0.563

55

2.547

0.654

1.429

0.206

85

0.847

0.226

0.382

0.046

26

-2.519

0.758

-0.384

0.018

56

-1.059

0.128

2.256

0.581

86

-2.248

0.333

-0.366

0.009

27

-0.775

0.051

1.347

0.153

57

0.781

0.071

-2.258

0.597

87

-2.544

0.595

0.779

0.056

28

1.552

0.415

0.995

0.170

58

-0.678

0.175

-0.591

0.133

88

2.084

0.419

-0.485

0.023

29

0.712

0.175

-0.751

0.194

59

-1.402

0.343

1.000

0.175

89

0.522

0.050

-0.404

0.030

30

1.340

0.360

-0.504

0.051

60

0.025

0.000

0.629

0.065

90

2.885

0.281

-0.344

0.004


correction

1) Les données sont quantitatives : l’analyse en composantes principales est adaptée pour l’analyser dans un objectif de description.

Les distances entre les trois familles ci-dessous sont calculées à l’aide de la formule donnée en cours et dans le résumé :



 

p

 

 

p

 

d2(i,i’)

=

S

[xj’(i) –xj’(i’)]2

=

S

[xj(i) –xj(i’)]2 / sj2

 

 

j = 1

 

 

j = 1

 

 

 

tailE

pdE

ptuE

tailP

pdP

ptuP

tailM

pdM

ptuM

x

173

59

39

170

75

42

168

65

38

y

173

59

39

175

65

44

168

65

38

z

173

59

39

170

75

42

160

58

38

On trouve :

d2(x,y) = 4.50

d2(x,z) = 2.86

d2(y,z) = 7.36

La distance entre les familles x et y s’explique par la différence de taille, de poids et de pointure entre les pères. Entre x et z, c’est la mère qui ne se ressemble guère. Entre y et z, les deux parents sont différents, ce qui explique que la distance est plus grande que les deux précédentes.

2) Les variances des variables donnant la taille de chaque personne sont très proches les unes des autres (de l’ordre de 30). On observe la même propriété sur les variances des pointures (environ 2). En ce qui concerne les poids, les variances sont nettement plus différentes les unes des autres. On peut l’expliquer par le fait que le poids dépend non seulement des facteurs génétiques de chacun, mais aussi de sa façon de vivre contrairement à la taille et à la pointure.

On trouve dans la table donnée dans le chapitre 3 la valeur à partir de laquelle un coefficient de corrélation peut être considéré comme grand lorsque l’effectif observé est égal à 90. Cette valeur est égale à 0.2061. Nous avons indiqué dans la matrice ci-dessous les coefficients montrant une relation significative entre les variables :

 

tailE

pdE

ptuE

tailP

pdP

ptuP

tailM

pdM

ptuM

tailE

1.0000

 

 

 

 

 

 

 

 

pdE

0.3991

1.0000

 

 

 

 

 

 

 

ptuE

0.6817

0.5456

1.0000

 

 

 

 

 

 

tailP

0.4383

-0.0020

0.2781

1.0000

 

 

 

 

 

pdP

0.1678

0.1434

0.1748

0.4477

1.0000

 

 

 

 

ptuP

0.2879

0.0835

0.3341

0.4739

0.3702

1.0000

 

 

 

tailM

0.4272

0.2118

0.3545

0.2079

0.0971

0.1261

1.0000

 

 

pdM

0.1163

0.3564

0.2621

-0.1865

-0.0116

-0.0456

0.2859

1.0000

 

ptuM

0.1735

0.1902

0.2498

-0.1051

-0.0946

-0.2319

0.5152

0.3759

1.0000

On remarque que les coefficients de corrélation entre la taille, le poids et la pointure d’une même personne sont significatifs et positifs. On note aussi des coefficients significatifs et positifs entre les trois tailles : le père et la mère sont souvent tous deux plus grands ou plus petits que la moyenne. De même, l’étudiante et son père ou l’étudiante et sa mère. Le coefficient de corrélation entre la pointure du père et celle de la mère est négatif : on ne voit guère d’explication, et cela résulte peut-être simplement d’un artefact statistique : sur 36 coefficients de corrélation, il est fréquent que l’un au moins soit significatif alors qu’il n’y a pas de liaison réelle entre les variables (la probabilité est approximativement égale à 0.85).

L’analyse en composantes principales donnera des informations plus générales.

3) Les deux premières composantes principales conservent 56% de l’information contenue dans les données, les quatre première 77%. La 5e valeur propre est nettement plus petite que la quatrième : on peut donc négliger les axes de rang supérieur ou égal à 5. On remarque toutefois que les valeurs propres de rang 3 et 4 sont relativement faibles : l’information apportée par les composantes principales correspondantes risque d’être difficile à déterminer et de ne pas être très pertinente par rapport à celle qui est donnée par les deux premières.


l

%

S%

 

2.991

33

33

**************************************************

2.016

22

56

*********************************

1.026

11

67

*****************

0.861

10

77

**************

0.649

7

84

**********

0.462

5

89

*******

0.410

5

94

******

0.347

4

97

*****

0.238

3

100

***

4) On donne ci-dessous le cercle de corrélation 1 x 2.

Cercle de corrélation 1 x 2

(l1 = 2.991 , l2 = 2.016)

On constate que toutes les variables sont corrélées négativement à la première composante principale, ce qui montre un effet « taille » : les familles se distinguent les unes des autres essentiellement par la taille, leur poids et la pointure de l’étudiante et de ses parents. Dans une famille dont la première composante principale est faible (par exemple, inférieure à moins l’écart type : – 1.73) la taille, le poids et l’âge de chacun des trois membres sont en général largement supérieurs à la moyenne. Inversement, dans une famille dont la première composante principale est élevée (par exemple, supérieure à l’écart type : 1.73) la taille, le poids et l’âge de chacun des trois membres sont en général largement inférieurs à la moyenne.

Les variables se répartissent en trois groupes assez évidents, chaque groupe correspondant à une personne. La second composante principale oppose le père (corrélations positives avec la seconde composante principale) et la mère (corrélations négatives avec la seconde composante principale) : on comprend bien que la taille, le poids et la pointure de chacun des deux soient relativement peu corrélés, ou même corrélés négativement comme on peut le vérifier sur la matrice des corrélations. .

5) La somme des carrés des coefficients de corrélation des variables initiales avec la première composante principale est égale à la première valeur propre. Cette propriété est vérifiée par les autres composantes principales. Il s’agit d’une propriété toujours vraie.

Il n’existe pas de variable Y telle que la somme des carrés des coefficients de corrélation entre Y et les variables initiales soit supérieure à 2.991, puisque la première valeur propre est la plus grande possible.

6) On sait qu’il ne peut y avoir de liaison linéaire entre les composantes principales puisque leur coefficient de corrélation est nulle ; il n’y a pas non plus de relation non linéaire. Les familles sont visiblement dispersées de façon très régulière dans le plan ci-dessous, et on peut penser que la répartition des variables est multinormale. Cette dernière propriété, fondamentale dans les méthodes de statistique mathématique, justifie la recherche des coefficients de corrélation significatifs effectuée précédemment.

plan principal 1 x 2

(l1 = 2.991, l2 = 2.016)

Nous donnons ci-dessous l’interprétation de la position de chaque famille, que l’on pourra vérifier en examinant les valeurs observées correspondantes.

Famille 51 : la première composante principale est très élevée, et la seconde proche de 0, ce qui signifie que la taille, le poids et la pointure de l’étudiante, de son père et de sa mère sont particulièrement faibles.

 

tailE

pdE

ptuE

tailP

pdP

ptuP

tailM

pdM

ptuM

51

156

53

35

160

50

40

150

55

36

Famille 49 : la taille, le poids et la pointure de l’étudiante et de sa mère sont faibles.

 

tailE

pdE

ptuE

tailP

pdP

ptuP

tailM

pdM

ptuM

49

164

40

36

172

72

43

156

40

36

Famille 33 : l’étudiante et son père sont de grande taille, d’un poids et d’une pointure supérieure à la moyenne.

 

tailE

pdE

ptuE

tailP

pdP

ptuP

tailM

pdM

ptuM

33

170

60

39

180

90

43

160

60

37

Famille 80 : les trois membres de la famille sont de taille, de poids et de pointure très supérieures à la moyenne.

 

tailE

pdE

ptuE

tailP

pdP

ptuP

tailM

pdM

ptuM

80

174

58

39

178

72

43

164

75

38

Famille 48 : l’étudiante et sa mère sont de grande taille, d’un poids et d’une pointure supérieure à la moyenne.

 

tailE

pdE

ptuE

tailP

pdP

ptuP

tailM

pdM

ptuM

48

171

65

40

165

65

41

168

68

40

Famille 66 : la taille, le poids et la pointure de l’étudiante et de son père sont faibles.

 

tailE

pdE

ptuE

tailP

pdP

ptuP

tailM

pdM

ptuM

66

158

50

37

165

65

38

155

70

41

La procédure pour placer les trois familles x, y et z est l’inverse de la précédente: on cherche les particularités de chaque famille pour déduire ses coordonnées sur les axes. On ne peut trouver évidemment les valeurs exactes par une simple observation, mais il existe une méthode permettant de les calculer.

Famille x :

 

tailE

pdE

ptuE

tailP

pdP

ptuP

tailM

pdM

ptuM

x

173

59

39

170

75

42

168

65

38

moyennes

163.98

54.66

37.91

169.79

71.77

41.64

160.47

57.86

38.22

L’étudiante est visiblement de grande taille, son père plutôt moyen, sa mère grande. Elle est représentée par un point du quadrant III (c’est en réalité la famille 7).


Famille y :

 

tailE

pdE

ptuE

tailP

pdP

ptuP

tailM

pdM

ptuM

y

154

45

35

170

65

40

156

45

37

moyennes

163.98

54.66

37.91

169.79

71.77

41.64

160.47

57.86

38.22

L’étudiante et sa mère sont globalement plus petites que la moyenne, le père est plutôt moyen : quadrant I (famille 8).

Famille z :

 

tailE

pdE

ptuE

tailP

pdP

ptuP

tailM

pdM

ptuM

z

164

55

38

170

72

42

160

58

38

moyennes

163.98

54.66

37.91

169.79

71.77

41.64

160.47

57.86

38.22

Les valeurs sont toutes très proches des moyennes. La famille z est représentée par un point très proche de l’origine des axes. Le calcul donne les résultats suivants :

 

Axe 1

Axe 2

z

-0.082

0.200

 7) On donne dans le tableau ci-dessous les composantes principales des familles dont le cosinus carré avec le plan 1 x 2 est inférieur à 0.2 :

 

Axe 1

Axe 2

c1

cos2

c2

cos2

47

0.376

0.059

0.093

0.004

60

0.025

0.000

0.629

0.065

65

0.413

0.039

0.671

0.102

68

0.226

0.027

-0.470

0.116

82

-0.352

0.040

0.546

0.096

89

0.522

0.050

-0.404

0.030

La moyenne et la variance de leurs coordonnées sur les axes 1 et 2 sont données ci-dessous :

Var

Minimum

Maximum

Moyenne

Variance

Ecart-type

c1

-0.35200

0.52200

0.20167

0.08600

0.29326

c2

-0.47000

0.67100

0.17750

0.22462

0.47394

Les moyennes sont très proches de 0 compte tenu des variances faibles par rapport aux variances calculés sur la totalité des observations (égales aux valeurs propres). Les familles mal représentées sur le plan 1 x 2 se trouvent donc à proximité de l’origine des axes.

8) la famille de rang 90 n’est pas très bien représentée par sa projection sur le plan 1 x 2 (cos2 = 0.285). Sa première composante principale est très élevée, et donc les valeurs prises par les neuf variables devraient être globalement largement inférieures aux moyennes. En observant les coordonnées de cette famille sur le plan 3 x 4, on remarque que ses troisième et quatrième composantes principales sont aussi très élevées en valeur absolue, et que son approximation par le plan 3 x 4 est meilleure que par le plan 1 x 2. Il est donc indispensable d’examiner ces composantes principales pour comprendre la particularité de cette famille.

 

Axe 1

Axe 2

Axe 3

Axe 4

c1

cos2

c2

cos2

c3

cos2

c4

cos2

90

2.885

0.281

-0.344

0.004

3.548

0.426

-2.138

0.155

Nous examinons les variables initiales dans l’ordre .

Très vraisemblablement, l’étudiante est de petite taille (coefficient de corrélation avec c4 égal à 0.407), d’un poids élevé (coefficient de corrélation avec c3 égal à 0.580), son père paraît plutôt petit (coefficient de corrélation avec c3 égal à –0.312), lourd (coefficient de corrélation avec c4 égal à –0.626), sa mère petite (coefficient de corrélation avec c4 égal à -0.538), lourde (coefficient de corrélation avec c4 égal à –0.466) et avec de petits pieds (coefficient de corrélation avec c3 égal à -0.538). Nous pouvons maintenant vérifier en examinant les données :

 

tailE

pdE

ptuE

tailP

pdP

ptuP

tailM

pdM

ptuM

n° 90

148

68

36

160

80

40

146

60

36

moyennes

163.98

54.66

37.91

169.79

71.77

41.64

160.47

57.86

38.22

Cercle de corrélation 3 x 4

(l3 = 1.026, l4 = 0.861)

Finalement, la famille 90 possède les propriétés inverses de celles que l’on a constatées sur les autres : chacun de ses membres est de petite taille et d’un poids élevé. C’est un point statistiquement aberrant. On peut le visualiser sur le plan 3 x 4 :

Plan principal 3 x 4

(l3 = 1.026, l4 = 0.861)