le marché du myocarde

Un laboratoire pharmaceutique étudie des données médicales obtenues par sondage avant de mettre sur le marché un nouveau médicament appelé « Répulmine » destiné à lutter contre une récidive de l’infarctus du myocarde.

Il s’agit de données médicales constituées de 7 variables : fréquence cardiaque (frcar), index cardiaque (incar), index systolique (insys), pression diastolique (prdia), pression artérielle pulmonaire (papul), pression ventriculaire (pvent), et résistance pulmonaire (répul). Le nombre de malades observés est égal à 101. Les cinquante premiers ont survécu à l’infarctus, les cinquante et un derniers sont décédés.

Il n’est pas utile, pour répondre aux questions posées, de connaître précisément la nature de ces variables. Précisons toutefois que les données sont réelles. Les questions posées n’ont comme objectif que de guider l’étudiant dans son interprétation.

1) Effectuer l’analyse en composantes principales.

2) Déduire du cercle de corrélation 1x2 les variables fortement corrélées positivement entre elles. Que peut-on dire de la pression ventriculaire (Pvent) ?

3) Le tableau 1 ci-dessous donne les coefficients de corrélation des variables initiales avec les composantes principales de rangs 1 à 5. Avec quelles composantes principales la pression ventriculaire (Pvent) est-elle fortement corrélée ? Que peut-on dire des autres variables et de ces composantes principales ? Des coefficients de corrélations avec les composantes principales de rang supérieur ou égal à 5 ?

4) Déterminer, en utilisant un critère que l’on précisera, les malades dont les coordonnées sur l’axe 1 sont particulièrement grandes en valeur absolue. De même pour l’axe 2.

5) Que peut-on dire de la représentation des malades suivants :

(i) 7, 11, 45, 94

(ii) 2, 16 et 72

6) On considère les malades A, B et C suivants :

 

Frcar

Incar

Insys

Prdia

Papul

Pvent

Répul

A

92

2

20

19

26

10

1200

B

120

1.5

11.2

26 .3

35

11.5

2351

C

70

121

31.5

13.1

21.2

8.8

851

Comparer les variables observées sur les malades A, B et C aux valeurs moyennes. Placer approximativement ces trois malades sur le plan 1x2.

7) On sait que le médicament « Répulmine » convient particulièrement à des malades dont la résistance pulmonaire est élevée et dont les index cardiaque et systolique sont particulièrement faibles. Indiquer sur le plan principal 1x2 où se situent ces malades

8) Le médicament « Cardiastoline » d’un autre laboratoire pharmaceutique convient aux malades dont la pression diastolique et la fréquence cardiaque sont élevées. Empiète-t-il sur le marché de « Répulmine»?

 


CORRECTION

L’objectif de l’analyse est de déceler des valeurs observées les propriétés générales des variables. L’interprétation complète ne peut être effectuée qu’en collaboration avec un médecin, et nous nous limiterons aux propriétés essentiellement statistiques.

Les moyennes et les variances ci-dessous montrent qu’il s’agit  de données quantitatives hétérogènes : les variances en particulier varient beaucoup (cf. tableau 1 en annexe).

On donne ci-dessous quelques histogrammes :

Figure 1 : histogramme de la fréquence cardiaque

La répartition de la fréquence cardiaque est visiblement proche de la loi normale.

Figure 2 : histogramme de l’index systolique

 

La densité de l’index systolique n’est pas symétrique ; quelques observations prennent des valeurs relativement grandes. Le coefficient d’asymétrie est égal à 0.95, supérieur à la valeur limite 0.389 donnée par la table pour un risque de 5%. Les valeurs ne sont toutefois pas concentrées dans une seule classe, et il n’est pas utile d’effectuer une transformation des données pour obtenir une répartition plus régulière.

Figure 3 : histogramme de la pression diastolique

 

On distingue en figure 3 effet deux groupes de patients : les malades dont la pression diastolique est faible, et ceux dont la pression diastolique est élevée. Il est intéressant de rechercher si ces deux groupes correspondent approximativement aux patients décédés et aux patients survivants. Un médecin le saurait immédiatement, mais on peut le trouver statistiquement par le rapport de corrélation : ce rapport, égal à 0.223, montre un mélange certain entre les deux groupes vis à vis de ce paramètre.

Figure 4 : histogramme de la résistance pulmonaire

 

La densité de la résistance pulmonaire est très particulière ; sur le patient 10 de la classe 9, la valeur est très élevée par rapport aux autres. Nous observons ici un point aberrant, qu’il n’est pas utile pour l’instant d’écarter compte tenu de l’effectif relativement important de l’échantillon. L’écarter ne rend d’ailleurs guère la répartition plus symétrique.

La matrice de corrélation (tableau 2 en annexe) montre qu’il existe de fortes relations, en particulier entre l’index cardiaque et l’index systolique (0.89), et entre ces index et la résistance pulmonaire qui varie en sens contraire. L’analyse en composantes principales va donner une description plus simple des coefficients de corrélation.

2) Les valeurs propres obtenues par l’ACP indiquent le nombre d’axes significatifs, c’est-à-dire le nombre de propriétés distinctes  et indépendantes les unes des autres contenues dans les données. Elles sont quasiment nulles à partir de la cinquième, et il existe donc quatre caractéristiques fondamentales dans ces données, que l’on appelle composantes principales (cf. tableau 3 en annexe).

Pour comprendre quelles sont ces quatre propritétés fondamentales, on étudie les corrélations des variables initales et des composantes principales (cf. tableau 4 en annexe). Le cercle de corrélation représente en quelque sorte la matrice de corrélation : on distingue nettement deux groupes de variables.

La propriété fondamentale réside dans l’opposition entre les index cardiaque (groupe 1) et systolique d’une part et les autres variables d’autre part (groupe 2).Au sein de chaque groupe, les corrélations sont fortes et positives : un matient dont l’un des index est élevé (ou faible) a en général l’autre élevé (ou faible) aussi. De même, lorsque la résistance pulmonaire est élevée, les pressions et la fréquence cardiaque sont élevées, et inversement.

L’opposition entre ces deux groupes montre que deux variables proses dans des groupes différents ont tendance à varier inversement l’une de l’autre. Par exemple, une résistance pulmonaire, une pression diastolique ou artérielle pulmonaire faible, est associée fréquemment à un index cardiaque et un index systolique élevés.

Cette propriété donne une interprétation à l’axe 1. Il faudra déterminer si les deux groupes se séparent de chaque côté de cet axe.

Figure 5 : cercle de corrélation 1 x 2 ( l1 = 3.787, l2 = 1.226)

 

La seconde propriété principale, moins nette dans les données, permet de nuancer ces relations. Il existe une certaine liaison entre les index cardiaque et systolique d’une part et entre la fréquence cardiaque, la pression artérielle pulmonaire et la pression diastolique d’autre part. Plus précisément, parmi les patients dont les index sont faibles, les valeurs de ces autres variables sont relativement plus élevées que celle de la résistance pulmonaire. La pression ventriculaire, mal représentée, est mons concernée par cette propriété.

Le cercle de corrélation 3 x 4  montre une certaine indépendance de la pression ventriculaire vis à vis des autres variables. Les variables représentées par des points proches du centre de ce cercle sont en effet peu corrélées aux composantes principales C3 et C4. Indépendamment donc de la résistance pulmonaire, des pressions artérielle pulmonaire et diastoliques, des index cardiaque et systolique, il existe un espace dans lequel les patients ont une fréquence cardiaque et une pression ventriculaire relativement indépendantes. Un médecin serait très utile ici pour trouver une explication.

 

Figure 6 : cercle de corrélation 3 x 4 ( l3 = 1.093, l4 = 0.658)

Le plan principal 1 x 2  donne une représentation approximative des distances entre les patients, et deux points proches l’un de l’autre caractérisent deux patients dont les pathologies sont voisines.

Figure 7 : plan principal axe horizontal 1 (l1 = 3.787), axe vertical 2 (l2 = 1.226)

(nombre de variables : 7, d’unités statistiques : 101 )

On remarque immédiatement l’individu 10 dont nous avons déjà signalé la particularité. Sa résistance pulmonaire très élevée explique sa position extrême par rapport à l’axe 1. Pour ce patient, toutes les variables du groupe 2 (les cinq dernières dans le tableau ci-dessous) sont vraisemblablement élevées par rapport aux autres, et celles du groupe 1 (les deux premières) faibles. Le patient 73 vérifie les propriétés inverses, tandis que les index cardiaque et systolique sont largement au-dessus des moyennes.

Incar

Insys

Frcar

Prdia

Papul

Répul

Pvent

Groupe

10

0.60

5.20

116.00

33.00

38.00

5067.00

10.00

1

73

3.28

54.00

61.00

12.00

16.00

390.00

7.00

2

moyenne

1.85

20.81

92.16

19.26

26.00

1324.06

9.50

 

écart-type

0.66

8.77

16.35

5.78

7.29

737.67

4.32

 

Pour expliquer l’axe 2, nous allons examiner les individus 4 et 82. Les variables du groupe 1 sont élevées sur le n°82, ainsi que la fréquence cardiaque, alors que le n°4 présente des pressions diastoliques et artérielle pulmonaire élevées, une résistance pulmonaire forte, et une fréquence cardiaque particulièrement forte. On peut penser que l’index cardiaque de ce patient est assez moyenne et non  faible.

Incar

Insys

Frcar

Prdia

Papul

Répul

Pvent

Groupe

4

1.85

15.90

116.00

33.00

42.00

1816.00

13.00

1

82

3.37

26.9

125.00

18.00

28.00

665.00

6.00

2

moyenne

1.85

20.81

92.16

19.26

26.00

1324.06

9.50

 

écart-type

0.66

8.77

16.35

5.78

7.29

737.67

4.32

 

 

On considère maintenant les malades suivants :

(i) 7, 11, 45, 94.

7

0.882

0.111

-0.230

0.008

11

0.717

0.098

-1.055

0.212

45

0.214

0.010

-0.610

0.082

94

-0.246

0.096

0.304

0.146

Ces points proches du centre de gravité ont comme point commun d’être mal représentés sur le plan 1x2. Cea signifie queils peuvent avoir une coordonnée élevée sur un autre axe, et que leur position sur ce plan ne permet pas d’en déduire des informations fiables. C’est le cas des individus dont les projections sont proches de l’origine des axes, dont certains sont toutefois  effectivement proches du point moyen.

(ii) 2, 16 et 72 :

 

2

2.299

0.365

-2.047

0.289

16

-2.046

0.357

-2.170

0.402

72

-1.682

0.446

-1.546

0.377

Ces points caractérisent au contraire correctement les individus et on peut en déduire que les patients 16 et 72 présentent des caractéristiques voisines par rapport aux autres.

Incar

Insys

Frcar

Prdia

Papul

Répul

Pvent

Groupe

16

1.34

26.30

51.00

11.00

17.00

1015.00

6.00

1

72

1.70

19.80

86.00

10.00

14.00

659.00

10.50

2

moyenne

1.85

20.81

92.16

19.26

26.00

1324.06

9.50

 

écart-type

0.66

8.77

16.35

5.78

7.29

737.67

4.32

 

On considère maintenant les malades A, B et C suivants :

 

Incar

Insys

Frcar

Prdia

Papul

Répul

Pvent

A

2.00

20.00

92.00

19.00

26.00

1200.00

10.00

B

1.50

11.20

120.00

26 .30

35.00

2351.00

11.50

C

1.21

31.50

70.00

13.10

21.20

851.00

8.80

moyenne

1.85

20.81

92.16

19.26

26.00

1324.06

9.50

écart-type

0.66

8.77

16.35

5.78

7.29

737.67

4.32

Le malade A est visiblement très proche du point moyen. Les variables du groupe 2 sont particulièrement fortes sur le malade B, celles du groupe 1 faibles. Sa coordonnée sur l’axe 1 est largement positive. On peut penser que sa coordonnée sur l’axe 2 est proche de 0, compte tenu de l’opposition entre la fréquence cardiaque et l’index cardiaque. Le malade C est du coté négatif de l’axe 1 (variables du groupe 1 fortes, du groupe 2 faibles) et du coté négatif de l’axe 2 (index cardiaque et fréquence cardiaque faibles).

Le logiciel donne les résultats ci-dessous :

 

 

Axe

1

Axe

2

 

c1(i)

cos2(q1)

c2(i)

cos2(q2)

A

-0.129

0.155

0.068

0.043

B

2.855

0.854

0.872

0.080

C

-1.495

0.358

-1.450

0.337

On sait que le médicament « Répulmine » convient particulièrement à des malades dont la résistance pulmonaire est élevée et dont les index cardiaque et systolique sont particulièrement faibles. Ils sont donc du coté pôsitif de l’axe 1 et négatif de l’axe 2.

 

Figure 8 : clientèles des médicaments cardiastoline et répulmine

Le médicament « Cardiastoline » d’un autre laboratoire pharmaceutique convient aux malades dont la pression diastolique et la fréquence cardiaque sont élevées. Leurs coordonnées sont plutôt positives sur les deux axes 1 et 2.

Les clients communs sont ceux dont les index cardiaques et systoliques sont faibles.

 

Pour terminer, on étudie la répartition des deux groupes de patients suivant la première composante principale : le rapport de corrélation passe à 0.479, ce qui est nettement plus élevé que celui que l’on calcule sur la résistance pulmonaire. La deuxième composante principale ne donne guère d’information sur ces groupes, puisque le rapport de corrélation n’est que de 0.052.

L’issue de l’infarctus est donc liée à la première composante principale : des index cardiaque et systolique élevés associés à une résistance pulmonaire, une fréquence cardiaque, des pressions iastoliques et arttérielle pulmonaire faibles  sont des acteurs favorables à une évolution positive après infarctus. On peut remarquer que cette discrimination n’est pas visible sur l’histogramme de la première composante principale (figure 9), dont la normalité est par contre assez claire.

Figure 9 : histogramme de la première composante principale

Cette étude apporte donc quelques informations statistiques sur la liaison entre les observations médicales effectuées sur les patients ayant souffert d’un infarctus du myocarde. Les deux produits actuellement sur le marché : répulmine et cardiastoline, sont destinés surtout à des patients dont la résistance pulmonaire est élevée ; ils se distinguent par les pressions diastoliques et artérielle pulmonaire, le second visant commercialement surtout les patients pour lesquels elles sont élevées.  Effectivement, ce sont surtout ces patients dont le risque de décès est élevé.

Il y a toutefois un point à éclaircir : le premier est la constitution de deux groupes différents concernant la résistance pulmonaire, faible dans le premier, élevée dans le second, pour dont nous avons vu qu’elle n’est guère en rapport avec le décès ou la survie des patients. C’est la simultanéité d’une valeur élevée de la résistance pulmonaire, de la fréquence cardiaque, des pressions diastoliques et artérielle pulmonaire qui semble provoquer le décès. Un médecin pourrait confirmer cette interprétation. Sur ce point, le médicament cardiastoline nous paraît plus efficace, dans la mesure où son argumentation publicitaire est justifiée.


ANNEXE : RéSULTATS NUMéRIQUES


Variable

moyenne

écart-type

variance

Frcar

92.15842

16.34694

267.2224

Incar

1.845743

.6557474

.4300047

Insys

20.81584

8.769228

76.89935

Prdia

19.25941

5.78051

33.41429

Papul

26

7.286227

53.08911

Pvent

9.5

4.319539

18.65842

Répul

1324.059

737.6647

544149.1

Tableau 1 : Moyennes et variances

 

Frcar

Incar

Insys

Prdia

Papul

Pvent

Répul

Frcar

1.0000

-0.1120

-0.5025

0.3988

0.3701

-0.0855

0.2470

Incar

-0.1120

1.0000

0.8871

-0.3606

-0.2694

-0.2820

-0.7670

Insys

-0.5025

0.8871

1.0000

-0.4827

-0.4055

-0.2012

-0.7351

Prdia

0.3988

-0.3606

-0.4827

1.0000

0.9278

0.2847

0.7014

Papul

0.3701

-0.2694

-0.4055

0.9278

1.0000

0.2442

0.6504

Pvent

-0.0855

-0.2820

-0.2012

0.2847

0.2442

1.0000

0.2576

Répul

0.2470

-0.7670

-0.7351

0.7014

0.6504

0.2576

1.0000

Tableau 2 : matrice des corrélations

ll

%exp

%cum

 

3.787

54

54

**************************************************

1.226

18

72

****************

1.093

16

87

**************

0.658

9

97

********

0.148

2

99

*

0.068

1

100

/

0.021

0

100

/

Tableau 3 : diagramme des valeurs propres

 

Axe

1

Axe

2

Axe

3

Axe

4

Axe

5

 

r(C1, Xj)

r2

r(C2, Xj)

r2

r(C3, Xj)

r2

r(C4, Xj)

r2

r(C5, Xj)

r2

Frcar

0.477

0.227

0.525

0.276

-0.500

0.250

0.487

0.238

0.089

0.008

Incar

-0.759

0.576

0.592

0.350

0.219

0.048

0.091

0.008

0.092

0.008

Insys

-0.851

0.724

0.277

0.077

0.394

0.155

-0.125

0.016

0.137

0.019

Prdia

0.838

0.703

0.397

0.158

0.284

0.081

-0.123

0.015

-0.086

0.007

Papul

0.782

0.611

0.469

0.219

0.320

0.102

-0.164

0.027

-0.096

0.009

Pven

0.361

0.130

-0.351

0.123

0.676

0.457

0.537

0.288

0.035

0.001

Répu

0.903

0.815

-0.153

0.023

0.008

0.000

-0.257

0.066

0.308

0.095

Tableau 4 : coefficients de corrélation et carrés des variables avec les composantes principales

(Pour chaque axe et chaque variable, corrélation et corrélation carrée)

Axe

1

Axe

2

Axe

1

Axe

2

 

c1(i)

cos2(q1)

c2(i)

cos2(q2)

 

c1(i)

cos2(q1)

c2(i)

cos2(q2)

1

0.206

0.015

-1.336

0.635

51

1.648

0.669

0.829

0.170

2

2.299

0.365

-2.047

0.289

52

-2.236

0.606

-0.411

0.020

3

3.032

0.705

0.589

0.027

53

-1.619

0.811

-0.356

0.039

4

2.966

0.628

1.987

0.282

54

-0.442

0.052

-1.205

0.382

5

1.737

0.757

-0.185

0.009

55

-1.014

0.339

0.763

0.192

6

2.975

0.822

0.792

0.058

56

-1.348

0.577

-1.067

0.362

7

0.882

0.111

-0.230

0.008

57

0.057

0.005

0.540

0.422

8

2.905

0.822

0.038

0.000

58

-2.820

0.582

-0.047

0.000

9

1.726

0.556

0.638

0.076

59

-2.619

0.957

0.035

0.000

10

5.938

0.819

0.042

0.000

60

-0.426

0.169

0.659

0.404

11

0.717

0.098

-1.055

0.212

61

-1.589

0.714

0.545

0.084

12

3.573

0.931

-0.029

0.000

62

-3.579

0.852

0.054

0.000

13

1.243

0.316

-1.027

0.216

63

-0.215

0.017

1.567

0.875

14

1.599

0.589

0.004

0.000

64

-3.915

0.756

-0.399

0.008

15

3.920

0.698

-0.125

0.001

65

-3.380

0.910

0.559

0.025

16

-2.046

0.357

-2.170

0.402

66

0.782

0.128

1.222

0.311

17

0.700

0.098

0.332

0.022

67

0.117

0.014

-0.702

0.518

18

1.385

0.557

-0.527

0.081

68

-2.015

0.852

0.501

0.053

19

-0.163

0.019

-0.005

0.000

69

-0.633

0.050

0.614

0.047

20

0.156

0.006

-0.928

0.207

70

-1.578

0.678

-0.225

0.014

21

1.709

0.608

-0.837

0.146

71

-0.104

0.003

1.329

0.524

22

-0.571

0.052

-2.358

0.887

72

-1.682

0.446

-1.546

0.377

23

0.539

0.107

-1.378

0.697

73

-4.762

0.806

0.538

0.010

24

0.576

0.379

-0.648

0.479

74

-1.210

0.441

0.762

0.175

25

-0.989

0.230

-1.711

0.690

75

-0.903

0.117

-2.146

0.664

26

2.537

0.984

0.207

0.007

76

1.132

0.147

-1.743

0.347

27

2.020

0.576

-0.400

0.023

77

-3.098

0.769

0.033

0.000

28

-0.520

0.071

-1.664

0.732

78

-3.530

0.891

-1.011

0.073

29

1.437

0.863

-0.214

0.019

79

-1.632

0.759

-0.583

0.097

30

2.399

0.707

-0.822

0.083

80

-2.297

0.654

0.979

0.119

31

1.717

0.396

-1.897

0.484

81

-0.359

0.215

-0.499

0.415

32

-0.567

0.130

0.613

0.152

82

-1.266

0.139

2.786

0.675

33

-1.124

0.143

-0.365

0.015

83

-1.000

0.367

-0.725

0.193

34

0.086

0.003

-1.104

0.511

84

-3.973

0.864

1.139

0.071

35

1.173

0.374

1.211

0.399

85

-0.271

0.010

2.663

0.967

36

1.305

0.772

-0.055

0.001

86

0.697

0.100

1.220

0.307

37

1.090

0.493

-0.032

0.000

87

-1.981

0.798

-0.160

0.005

38

2.693

0.527

-1.392

0.141

88

-1.133

0.159

1.855

0.426

39

2.964

0.716

0.941

0.072

89

-1.846

0.745

0.961

0.202

40

1.195

0.458

0.914

0.268

90

0.599

0.042

2.649

0.825

41

1.197

0.299

0.987

0.203

91

0.340

0.021

-2.078

0.794

42

0.396

0.039

-1.643

0.676

92

-1.510

0.583

-0.883

0.199

43

0.837

0.415

0.410

0.100

93

-1.175

0.326

-0.836

0.165

44

1.437

0.302

1.473

0.317

94

-0.246

0.096

0.304

0.146

45

0.214

0.010

-0.610

0.082

95

-1.589

0.920

0.035

0.000

46

3.116

0.959

0.529

0.028

96

0.197

0.007

2.117

0.848

47

0.630

0.237

0.671

0.269

97

0.208

0.012

1.357

0.518

48

2.199

0.522

0.500

0.027

98

-2.231

0.719

1.297

0.243

49

1.334

0.137

-0.378

0.011

99

-1.432

0.385

-0.179

0.006

50

-0.414

0.052

0.705

0.151

100

-0.216

0.066

-0.465

0.308

 

 

 

 

 

101

-3.266

0.882

0.942

0.073

Tableau 5 : coordonnées et cosinus carrés des uniés statistiques sur les axes principaux

(Pour chaque axe et chaque unité statistique: coordonnée et cosinus carré)