musclOR

(Analyse canonique)

Cette étude de cas reprend les données de Linnerud traitées par le logiciel SAS comme exemple d’analyse canonique (proc CACCORR) et par Tenenhaus (cf. bibl.). Ces données et leurs paramètres se trouvent dans les fichiers linnerud.dat et linnerud.par dans les répertoires data et datapar.

Les données sont constituées de caractères physiques et de performances de 20 sportifs. Il s’agit des trois mesures physiques suivantes : poids, tour de taille et pouls, et d’exercices de traction, de flexion et de saut. On dispose ainsi de 6 variables, constituant deux tableaux de données (cf. annexe ci-dessous). On ne connaît pas les unités de mesure, ce qui n’a guère d’importance puisque les variables sont centrées et réduites par l’analyse canonique.

Effectuée directement sur les données, l’analyse donne des résultats apparemment satisfaisants. Les coefficients de corrélation canonique sont les suivants :

r1 = 0.796

r2 = 0.201

r3 = 0.073

A la suite d’un test que l’on trouvera dans l’ouvrage de Tenenhaus, on ne conserve que le premier caractère canonique. On représente alors les sportifs dans le plan canonique U1 x V1 :

Figure 1 : représentation graphique des sportifs sur le plan canonique U1 x V1

(analyse canonique habituelle, l’étoile représente le 6 et le 20)

La liaison linéaire apparaît clairement sur le schéma. On a :

                            U1 = 0.7754 Poids –1.5793 Tour de taille + 0.0591 Pouls

                            V1 = 0.3495 Traction +1.0540 Flexions - 0.7164 Sauts

Les sportifs 14 et 9 sont caractéristiques de cette liaison et en ce sens ne peuvent être considérés comme aberrants. On peut penser que ce sont des valeurs influentes, c’est-à-dire que leur présence modifie les corrélations et les caractères canoniques.

L’examen élémentaire du tableau de données aurait suffi pour déceler la présence de ces sportifs. En comparant simplement les caractères physiques et les performances des sportifs 14 et 9 aux valeurs moyennes (en tenant compte des écarts-types),  on constate qu’ils sont complètement différents des autres.


Après avoir éliminé ces deux u.s. des calculs, on obtient la figure 2 :

Figure 2 : représentation graphique des sportifs sur le plan canonique U1 x V1

(après exclusion des u.s. 9 et 14, r = 0.796)

On constate la similitude de cette représentation graphique avec la précédente. On retrouve la même configuration à l’intérieur de l’ellipse qu’à l’intérieur de celle qui est dessinée en figure 1. En outre, les coefficients de corrélation canonique sont égaux à 0.796, 0.222 et 0.047 : ils n’ont guère varié.

L’influence de ces sportifs sur la liaison entre les deux ensembles de variables est donc limitée. On peut conclure en affirmant que la relation existe entre les deux ensembles de caractères et que les sportifs 9 et 14 en sont des exemples typiques sans en être à l’origine.

Annexe


 

Poids

Tour

de taille

Pouls

Traction

Flexion

Saut

1

191

36

50

5

162

60

2

189

37

52

2

110

60

3

193

38

58

12

101

101

4

162

35

62

12

105

37

5

189

35

46

13

155

58

6

182

36

56

4

101

42

7

211

38

56

8

101

38

8

167

34

60

6

125

40

9

176

31

74

15

200

40

10

154

33

56/

17

251

250

 

 

Poids

Tour

de taille

Pouls

Traction

Flexion

Saut

11

169

34

50

17

120

38

12

166

33

52

13

210

115

13

154

34

64

14

215

105

14

247

46

50

1

50

50

15

193

36

46

6

70

31

16

202

37

62

12

210

120

17

176

37

54

4

60

25

18

157

32

52

11

230

80

19

156

33

54

15

225

73

20

138

33

68

2

110

43