le marché du myocarde
Un laboratoire pharmaceutique étudie des données médicales obtenues par sondage avant de mettre sur le marché un nouveau médicament appelé « Répulmine » destiné à lutter contre une récidive de l’infarctus du myocarde.
Il s’agit de données médicales constituées de 7 variables : fréquence cardiaque (frcar), index cardiaque (incar), index systolique (insys), pression diastolique (prdia), pression artérielle pulmonaire (papul), pression ventriculaire (pvent), et résistance pulmonaire (répul). Le nombre de malades observés est égal à 101. Les cinquante premiers ont survécu à l’infarctus, les cinquante et un derniers sont décédés.
Il n’est pas utile, pour répondre aux questions posées, de connaître précisément la nature de ces variables. Précisons toutefois que les données sont réelles. Les questions posées n’ont comme objectif que de guider l’étudiant dans son interprétation.
1) Effectuer l’analyse en composantes principales.
2) Déduire du cercle de corrélation 1x2 les variables fortement corrélées positivement entre elles. Que peut-on dire de la pression ventriculaire (Pvent) ?
3) Le tableau 1 ci-dessous donne les coefficients de corrélation des variables initiales avec les composantes principales de rangs 1 à 5. Avec quelles composantes principales la pression ventriculaire (Pvent) est-elle fortement corrélée ? Que peut-on dire des autres variables et de ces composantes principales ? Des coefficients de corrélations avec les composantes principales de rang supérieur ou égal à 5 ?
4) Déterminer, en utilisant un critère que l’on précisera, les malades dont les coordonnées sur l’axe 1 sont particulièrement grandes en valeur absolue. De même pour l’axe 2.
5) Que peut-on dire de la représentation des malades suivants :
(i) 7, 11, 45, 94
(ii) 2, 16 et 72
6) On considère les malades A, B et C suivants :
|
Frcar |
Incar |
Insys |
Prdia |
Papul |
Pvent |
Répul |
A |
92 |
2 |
20 |
19 |
26 |
10 |
1200 |
B |
120 |
1.5 |
11.2 |
26 .3 |
35 |
11.5 |
2351 |
C |
70 |
121 |
31.5 |
13.1 |
21.2 |
8.8 |
851 |
Comparer les variables observées sur les malades A, B et C aux valeurs moyennes. Placer approximativement ces trois malades sur le plan 1x2.
7) On sait que le médicament « Répulmine » convient particulièrement à des malades dont la résistance pulmonaire est élevée et dont les index cardiaque et systolique sont particulièrement faibles. Indiquer sur le plan principal 1x2 où se situent ces malades
8) Le médicament « Cardiastoline » d’un autre laboratoire pharmaceutique convient aux malades dont la pression diastolique et la fréquence cardiaque sont élevées. Empiète-t-il sur le marché de « Répulmine»?
CORRECTION
L’objectif de l’analyse est de déceler des valeurs observées les propriétés générales des variables. L’interprétation complète ne peut être effectuée qu’en collaboration avec un médecin, et nous nous limiterons aux propriétés essentiellement statistiques.
Les moyennes et les variances ci-dessous montrent qu’il s’agit de données quantitatives hétérogènes : les variances en particulier varient beaucoup (cf. tableau 1 en annexe).
On donne ci-dessous quelques histogrammes :
Figure 1 : histogramme de la fréquence cardiaque
La répartition de la fréquence cardiaque est visiblement proche de la loi normale.
Figure 2 : histogramme de l’index systolique
La densité de l’index systolique n’est pas symétrique ; quelques observations prennent des valeurs relativement grandes. Le coefficient d’asymétrie est égal à 0.95, supérieur à la valeur limite 0.389 donnée par la table pour un risque de 5%. Les valeurs ne sont toutefois pas concentrées dans une seule classe, et il n’est pas utile d’effectuer une transformation des données pour obtenir une répartition plus régulière.
Figure 3 : histogramme de la pression diastolique
On distingue en figure 3 effet deux groupes de patients : les malades dont la pression diastolique est faible, et ceux dont la pression diastolique est élevée. Il est intéressant de rechercher si ces deux groupes correspondent approximativement aux patients décédés et aux patients survivants. Un médecin le saurait immédiatement, mais on peut le trouver statistiquement par le rapport de corrélation : ce rapport, égal à 0.223, montre un mélange certain entre les deux groupes vis à vis de ce paramètre.
Figure 4 : histogramme de la résistance pulmonaire
La densité de la résistance pulmonaire est très particulière ; sur le patient 10 de la classe 9, la valeur est très élevée par rapport aux autres. Nous observons ici un point aberrant, qu’il n’est pas utile pour l’instant d’écarter compte tenu de l’effectif relativement important de l’échantillon. L’écarter ne rend d’ailleurs guère la répartition plus symétrique.
La matrice de corrélation (tableau 2 en annexe) montre qu’il existe de fortes relations, en particulier entre l’index cardiaque et l’index systolique (0.89), et entre ces index et la résistance pulmonaire qui varie en sens contraire. L’analyse en composantes principales va donner une description plus simple des coefficients de corrélation.
2) Les valeurs propres obtenues par l’ACP indiquent le nombre d’axes significatifs, c’est-à-dire le nombre de propriétés distinctes et indépendantes les unes des autres contenues dans les données. Elles sont quasiment nulles à partir de la cinquième, et il existe donc quatre caractéristiques fondamentales dans ces données, que l’on appelle composantes principales (cf. tableau 3 en annexe).
Pour comprendre quelles sont ces quatre propritétés fondamentales, on étudie les corrélations des variables initales et des composantes principales (cf. tableau 4 en annexe). Le cercle de corrélation représente en quelque sorte la matrice de corrélation : on distingue nettement deux groupes de variables.
La propriété fondamentale réside dans l’opposition entre les index cardiaque (groupe 1) et systolique d’une part et les autres variables d’autre part (groupe 2).Au sein de chaque groupe, les corrélations sont fortes et positives : un matient dont l’un des index est élevé (ou faible) a en général l’autre élevé (ou faible) aussi. De même, lorsque la résistance pulmonaire est élevée, les pressions et la fréquence cardiaque sont élevées, et inversement.
L’opposition entre ces deux groupes montre que deux variables proses dans des groupes différents ont tendance à varier inversement l’une de l’autre. Par exemple, une résistance pulmonaire, une pression diastolique ou artérielle pulmonaire faible, est associée fréquemment à un index cardiaque et un index systolique élevés.
Cette propriété donne une interprétation à l’axe 1. Il faudra déterminer si les deux groupes se séparent de chaque côté de cet axe.
Figure 5 : cercle de corrélation 1 x 2 ( l1 = 3.787, l2 = 1.226)
La seconde propriété principale, moins nette dans les données, permet de nuancer ces relations. Il existe une certaine liaison entre les index cardiaque et systolique d’une part et entre la fréquence cardiaque, la pression artérielle pulmonaire et la pression diastolique d’autre part. Plus précisément, parmi les patients dont les index sont faibles, les valeurs de ces autres variables sont relativement plus élevées que celle de la résistance pulmonaire. La pression ventriculaire, mal représentée, est mons concernée par cette propriété.
Le cercle de corrélation 3 x 4 montre une certaine indépendance de la pression ventriculaire vis à vis des autres variables. Les variables représentées par des points proches du centre de ce cercle sont en effet peu corrélées aux composantes principales C3 et C4. Indépendamment donc de la résistance pulmonaire, des pressions artérielle pulmonaire et diastoliques, des index cardiaque et systolique, il existe un espace dans lequel les patients ont une fréquence cardiaque et une pression ventriculaire relativement indépendantes. Un médecin serait très utile ici pour trouver une explication.
Figure 6 : cercle de corrélation 3 x 4 ( l3 = 1.093, l4 = 0.658)
Le plan principal 1 x 2 donne une représentation approximative des distances entre les patients, et deux points proches l’un de l’autre caractérisent deux patients dont les pathologies sont voisines.
Figure 7 : plan principal axe horizontal 1 (l1 = 3.787), axe vertical 2 (l2 = 1.226)
(nombre de variables : 7, d’unités statistiques : 101 )
On remarque immédiatement l’individu 10 dont nous avons déjà signalé la particularité. Sa résistance pulmonaire très élevée explique sa position extrême par rapport à l’axe 1. Pour ce patient, toutes les variables du groupe 2 (les cinq dernières dans le tableau ci-dessous) sont vraisemblablement élevées par rapport aux autres, et celles du groupe 1 (les deux premières) faibles. Le patient 73 vérifie les propriétés inverses, tandis que les index cardiaque et systolique sont largement au-dessus des moyennes.
n° |
Incar |
Insys |
Frcar |
Prdia |
Papul |
Répul |
Pvent |
Groupe |
10 |
0.60 |
5.20 |
116.00 |
33.00 |
38.00 |
5067.00 |
10.00 |
1 |
73 |
3.28 |
54.00 |
61.00 |
12.00 |
16.00 |
390.00 |
7.00 |
2 |
moyenne |
1.85 |
20.81 |
92.16 |
19.26 |
26.00 |
1324.06 |
9.50 |
|
écart-type |
0.66 |
8.77 |
16.35 |
5.78 |
7.29 |
737.67 |
4.32 |
|
Pour expliquer l’axe 2, nous allons examiner les individus 4 et 82. Les variables du groupe 1 sont élevées sur le n°82, ainsi que la fréquence cardiaque, alors que le n°4 présente des pressions diastoliques et artérielle pulmonaire élevées, une résistance pulmonaire forte, et une fréquence cardiaque particulièrement forte. On peut penser que l’index cardiaque de ce patient est assez moyenne et non faible.
n° |
Incar |
Insys |
Frcar |
Prdia |
Papul |
Répul |
Pvent |
Groupe |
4 |
1.85 |
15.90 |
116.00 |
33.00 |
42.00 |
1816.00 |
13.00 |
1 |
82 |
3.37 |
26.9 |
125.00 |
18.00 |
28.00 |
665.00 |
6.00 |
2 |
moyenne |
1.85 |
20.81 |
92.16 |
19.26 |
26.00 |
1324.06 |
9.50 |
|
écart-type |
0.66 |
8.77 |
16.35 |
5.78 |
7.29 |
737.67 |
4.32 |
|
On considère maintenant les malades suivants :
(i) 7, 11, 45, 94.
7 |
0.882 |
0.111 |
-0.230 |
0.008 |
11 |
0.717 |
0.098 |
-1.055 |
0.212 |
45 |
0.214 |
0.010 |
-0.610 |
0.082 |
94 |
-0.246 |
0.096 |
0.304 |
0.146 |
Ces points proches du centre de gravité ont comme point commun d’être mal représentés sur le plan 1x2. Cea signifie queils peuvent avoir une coordonnée élevée sur un autre axe, et que leur position sur ce plan ne permet pas d’en déduire des informations fiables. C’est le cas des individus dont les projections sont proches de l’origine des axes, dont certains sont toutefois effectivement proches du point moyen.
(ii) 2, 16 et 72 :
2 |
2.299 |
0.365 |
-2.047 |
0.289 |
16 |
-2.046 |
0.357 |
-2.170 |
0.402 |
72 |
-1.682 |
0.446 |
-1.546 |
0.377 |
Ces points caractérisent au contraire correctement les individus et on peut en déduire que les patients 16 et 72 présentent des caractéristiques voisines par rapport aux autres.
n° |
Incar |
Insys |
Frcar |
Prdia |
Papul |
Répul |
Pvent |
Groupe |
16 |
1.34 |
26.30 |
51.00 |
11.00 |
17.00 |
1015.00 |
6.00 |
1 |
72 |
1.70 |
19.80 |
86.00 |
10.00 |
14.00 |
659.00 |
10.50 |
2 |
moyenne |
1.85 |
20.81 |
92.16 |
19.26 |
26.00 |
1324.06 |
9.50 |
|
écart-type |
0.66 |
8.77 |
16.35 |
5.78 |
7.29 |
737.67 |
4.32 |
|
On considère maintenant les malades A, B et C suivants :
|
Incar |
Insys |
Frcar |
Prdia |
Papul |
Répul |
Pvent |
A |
2.00 |
20.00 |
92.00 |
19.00 |
26.00 |
1200.00 |
10.00 |
B |
1.50 |
11.20 |
120.00 |
26 .30 |
35.00 |
2351.00 |
11.50 |
C |
1.21 |
31.50 |
70.00 |
13.10 |
21.20 |
851.00 |
8.80 |
moyenne |
1.85 |
20.81 |
92.16 |
19.26 |
26.00 |
1324.06 |
9.50 |
écart-type |
0.66 |
8.77 |
16.35 |
5.78 |
7.29 |
737.67 |
4.32 |
Le malade A est visiblement très proche du point moyen. Les variables du groupe 2 sont particulièrement fortes sur le malade B, celles du groupe 1 faibles. Sa coordonnée sur l’axe 1 est largement positive. On peut penser que sa coordonnée sur l’axe 2 est proche de 0, compte tenu de l’opposition entre la fréquence cardiaque et l’index cardiaque. Le malade C est du coté négatif de l’axe 1 (variables du groupe 1 fortes, du groupe 2 faibles) et du coté négatif de l’axe 2 (index cardiaque et fréquence cardiaque faibles).
Le logiciel donne les résultats ci-dessous :
|
Axe |
1 |
Axe |
2 |
|
c1(i) |
cos2(q1) |
c2(i) |
cos2(q2) |
A |
-0.129 |
0.155 |
0.068 |
0.043 |
B |
2.855 |
0.854 |
0.872 |
0.080 |
C |
-1.495 |
0.358 |
-1.450 |
0.337 |
On sait que le médicament « Répulmine » convient particulièrement à des malades dont la résistance pulmonaire est élevée et dont les index cardiaque et systolique sont particulièrement faibles. Ils sont donc du coté pôsitif de l’axe 1 et négatif de l’axe 2.
Figure 8 : clientèles des médicaments cardiastoline et répulmine
Le médicament « Cardiastoline » d’un autre laboratoire pharmaceutique convient aux malades dont la pression diastolique et la fréquence cardiaque sont élevées. Leurs coordonnées sont plutôt positives sur les deux axes 1 et 2.
Les clients communs sont ceux dont les index cardiaques et systoliques sont faibles.
Pour terminer, on étudie la répartition des deux groupes de patients suivant la première composante principale : le rapport de corrélation passe à 0.479, ce qui est nettement plus élevé que celui que l’on calcule sur la résistance pulmonaire. La deuxième composante principale ne donne guère d’information sur ces groupes, puisque le rapport de corrélation n’est que de 0.052.
L’issue de l’infarctus est donc liée à la première composante principale : des index cardiaque et systolique élevés associés à une résistance pulmonaire, une fréquence cardiaque, des pressions iastoliques et arttérielle pulmonaire faibles sont des acteurs favorables à une évolution positive après infarctus. On peut remarquer que cette discrimination n’est pas visible sur l’histogramme de la première composante principale (figure 9), dont la normalité est par contre assez claire.
Figure 9 : histogramme de la première composante principale
Cette étude apporte donc quelques informations statistiques sur la liaison entre les observations médicales effectuées sur les patients ayant souffert d’un infarctus du myocarde. Les deux produits actuellement sur le marché : répulmine et cardiastoline, sont destinés surtout à des patients dont la résistance pulmonaire est élevée ; ils se distinguent par les pressions diastoliques et artérielle pulmonaire, le second visant commercialement surtout les patients pour lesquels elles sont élevées. Effectivement, ce sont surtout ces patients dont le risque de décès est élevé.
Il y a toutefois un point à éclaircir : le premier est la constitution de deux groupes différents concernant la résistance pulmonaire, faible dans le premier, élevée dans le second, pour dont nous avons vu qu’elle n’est guère en rapport avec le décès ou la survie des patients. C’est la simultanéité d’une valeur élevée de la résistance pulmonaire, de la fréquence cardiaque, des pressions diastoliques et artérielle pulmonaire qui semble provoquer le décès. Un médecin pourrait confirmer cette interprétation. Sur ce point, le médicament cardiastoline nous paraît plus efficace, dans la mesure où son argumentation publicitaire est justifiée.
ANNEXE : RéSULTATS NUMéRIQUES
moyenne |
écart-type |
variance |
|
Frcar |
92.15842 |
16.34694 |
267.2224 |
Incar |
1.845743 |
.6557474 |
.4300047 |
Insys |
20.81584 |
8.769228 |
76.89935 |
Prdia |
19.25941 |
5.78051 |
33.41429 |
Papul |
26 |
7.286227 |
53.08911 |
Pvent |
9.5 |
4.319539 |
18.65842 |
Répul |
1324.059 |
737.6647 |
544149.1 |
Tableau 1 : Moyennes et variances
Tableau 2 : matrice des corrélations
%exp |
%cum |
|
|
3.787 |
54 |
54 |
************************************************** |
1.226 |
18 |
72 |
**************** |
1.093 |
16 |
87 |
************** |
0.658 |
9 |
97 |
******** |
0.148 |
2 |
99 |
* |
0.068 |
1 |
100 |
/ |
0.021 |
0 |
100 |
/ |
Tableau 3 : diagramme des valeurs propres
Tableau 4 : coefficients de corrélation et carrés des variables avec les composantes principales
(Pour chaque axe et chaque variable, corrélation et corrélation carrée)
Axe |
1 |
Axe |
2 |
n° |
Axe |
1 |
Axe |
2 |
|
|
c1(i) |
cos2(q1) |
c2(i) |
cos2(q2) |
|
c1(i) |
cos2(q1) |
c2(i) |
cos2(q2) |
1 |
0.206 |
0.015 |
-1.336 |
0.635 |
51 |
1.648 |
0.669 |
0.829 |
0.170 |
2 |
2.299 |
0.365 |
-2.047 |
0.289 |
52 |
-2.236 |
0.606 |
-0.411 |
0.020 |
3 |
3.032 |
0.705 |
0.589 |
0.027 |
53 |
-1.619 |
0.811 |
-0.356 |
0.039 |
4 |
2.966 |
0.628 |
1.987 |
0.282 |
54 |
-0.442 |
0.052 |
-1.205 |
0.382 |
5 |
1.737 |
0.757 |
-0.185 |
0.009 |
55 |
-1.014 |
0.339 |
0.763 |
0.192 |
6 |
2.975 |
0.822 |
0.792 |
0.058 |
56 |
-1.348 |
0.577 |
-1.067 |
0.362 |
7 |
0.882 |
0.111 |
-0.230 |
0.008 |
57 |
0.057 |
0.005 |
0.540 |
0.422 |
8 |
2.905 |
0.822 |
0.038 |
0.000 |
58 |
-2.820 |
0.582 |
-0.047 |
0.000 |
9 |
1.726 |
0.556 |
0.638 |
0.076 |
59 |
-2.619 |
0.957 |
0.035 |
0.000 |
10 |
5.938 |
0.819 |
0.042 |
0.000 |
60 |
-0.426 |
0.169 |
0.659 |
0.404 |
11 |
0.717 |
0.098 |
-1.055 |
0.212 |
61 |
-1.589 |
0.714 |
0.545 |
0.084 |
12 |
3.573 |
0.931 |
-0.029 |
0.000 |
62 |
-3.579 |
0.852 |
0.054 |
0.000 |
13 |
1.243 |
0.316 |
-1.027 |
0.216 |
63 |
-0.215 |
0.017 |
1.567 |
0.875 |
14 |
1.599 |
0.589 |
0.004 |
0.000 |
64 |
-3.915 |
0.756 |
-0.399 |
0.008 |
15 |
3.920 |
0.698 |
-0.125 |
0.001 |
65 |
-3.380 |
0.910 |
0.559 |
0.025 |
16 |
-2.046 |
0.357 |
-2.170 |
0.402 |
66 |
0.782 |
0.128 |
1.222 |
0.311 |
17 |
0.700 |
0.098 |
0.332 |
0.022 |
67 |
0.117 |
0.014 |
-0.702 |
0.518 |
18 |
1.385 |
0.557 |
-0.527 |
0.081 |
68 |
-2.015 |
0.852 |
0.501 |
0.053 |
19 |
-0.163 |
0.019 |
-0.005 |
0.000 |
69 |
-0.633 |
0.050 |
0.614 |
0.047 |
20 |
0.156 |
0.006 |
-0.928 |
0.207 |
70 |
-1.578 |
0.678 |
-0.225 |
0.014 |
21 |
1.709 |
0.608 |
-0.837 |
0.146 |
71 |
-0.104 |
0.003 |
1.329 |
0.524 |
22 |
-0.571 |
0.052 |
-2.358 |
0.887 |
72 |
-1.682 |
0.446 |
-1.546 |
0.377 |
23 |
0.539 |
0.107 |
-1.378 |
0.697 |
73 |
-4.762 |
0.806 |
0.538 |
0.010 |
24 |
0.576 |
0.379 |
-0.648 |
0.479 |
74 |
-1.210 |
0.441 |
0.762 |
0.175 |
25 |
-0.989 |
0.230 |
-1.711 |
0.690 |
75 |
-0.903 |
0.117 |
-2.146 |
0.664 |
26 |
2.537 |
0.984 |
0.207 |
0.007 |
76 |
1.132 |
0.147 |
-1.743 |
0.347 |
27 |
2.020 |
0.576 |
-0.400 |
0.023 |
77 |
-3.098 |
0.769 |
0.033 |
0.000 |
28 |
-0.520 |
0.071 |
-1.664 |
0.732 |
78 |
-3.530 |
0.891 |
-1.011 |
0.073 |
29 |
1.437 |
0.863 |
-0.214 |
0.019 |
79 |
-1.632 |
0.759 |
-0.583 |
0.097 |
30 |
2.399 |
0.707 |
-0.822 |
0.083 |
80 |
-2.297 |
0.654 |
0.979 |
0.119 |
31 |
1.717 |
0.396 |
-1.897 |
0.484 |
81 |
-0.359 |
0.215 |
-0.499 |
0.415 |
32 |
-0.567 |
0.130 |
0.613 |
0.152 |
82 |
-1.266 |
0.139 |
2.786 |
0.675 |
33 |
-1.124 |
0.143 |
-0.365 |
0.015 |
83 |
-1.000 |
0.367 |
-0.725 |
0.193 |
34 |
0.086 |
0.003 |
-1.104 |
0.511 |
84 |
-3.973 |
0.864 |
1.139 |
0.071 |
35 |
1.173 |
0.374 |
1.211 |
0.399 |
85 |
-0.271 |
0.010 |
2.663 |
0.967 |
36 |
1.305 |
0.772 |
-0.055 |
0.001 |
86 |
0.697 |
0.100 |
1.220 |
0.307 |
37 |
1.090 |
0.493 |
-0.032 |
0.000 |
87 |
-1.981 |
0.798 |
-0.160 |
0.005 |
38 |
2.693 |
0.527 |
-1.392 |
0.141 |
88 |
-1.133 |
0.159 |
1.855 |
0.426 |
39 |
2.964 |
0.716 |
0.941 |
0.072 |
89 |
-1.846 |
0.745 |
0.961 |
0.202 |
40 |
1.195 |
0.458 |
0.914 |
0.268 |
90 |
0.599 |
0.042 |
2.649 |
0.825 |
41 |
1.197 |
0.299 |
0.987 |
0.203 |
91 |
0.340 |
0.021 |
-2.078 |
0.794 |
42 |
0.396 |
0.039 |
-1.643 |
0.676 |
92 |
-1.510 |
0.583 |
-0.883 |
0.199 |
43 |
0.837 |
0.415 |
0.410 |
0.100 |
93 |
-1.175 |
0.326 |
-0.836 |
0.165 |
44 |
1.437 |
0.302 |
1.473 |
0.317 |
94 |
-0.246 |
0.096 |
0.304 |
0.146 |
45 |
0.214 |
0.010 |
-0.610 |
0.082 |
95 |
-1.589 |
0.920 |
0.035 |
0.000 |
46 |
3.116 |
0.959 |
0.529 |
0.028 |
96 |
0.197 |
0.007 |
2.117 |
0.848 |
47 |
0.630 |
0.237 |
0.671 |
0.269 |
97 |
0.208 |
0.012 |
1.357 |
0.518 |
48 |
2.199 |
0.522 |
0.500 |
0.027 |
98 |
-2.231 |
0.719 |
1.297 |
0.243 |
49 |
1.334 |
0.137 |
-0.378 |
0.011 |
99 |
-1.432 |
0.385 |
-0.179 |
0.006 |
50 |
-0.414 |
0.052 |
0.705 |
0.151 |
100 |
-0.216 |
0.066 |
-0.465 |
0.308 |
|
|
|
|
|
101 |
-3.266 |
0.882 |
0.942 |
0.073 |
Tableau 5 : coordonnées et cosinus carrés des uniés statistiques sur les axes principaux
(Pour chaque axe et chaque unité statistique: coordonnée et cosinus carré)