2. Répartitions d’observations quantitatives.

Nous abordons ici le cas de variables quantitatives appelées continues, caractérisées par le fait qu’elles peuvent prendre n’importe quelle valeur entre deux valeurs données.

2.1 Choix des classes.

La procédure la plus simple consiste à répartir les observations dans des intervalles appelés aussi classes préalablement définis. Il n’existe pas de méthode générale pour définir ces classes ; les choix sont effectués par l’utilisateur qui doit évidemment tenir compte des données, de leur nature et des informations dont il dispose a priori.

En ce qui concerne le nombre de classes, on peut donner comme valeur approximative le nombre d’observations divisé par dix. Toutefois, il est souvent recommandé de considérer un nombre de classes impair, pour disposer d’une classe centrale souvent utile dans les représentations graphiques. Pour 60 observations, on choisira donc 5 ou 7 classes plutôt que 6. Cette règle ne s’applique évidemment qu’aux effectifs relativement faibles, et il est dans la plupart des cas inutile de considérer 100 classes si le nombre d’observations est égal à 1000.

 

Les bornes des classes ne sont pas faciles à choisir. Les choix dépendent toujours de l’utilisateur et des données, ils sont « empiriques », c’est-à-dire choisis de façon raisonnée.

Une première difficulté est de fixer la plus petite et la plus grande des bornes. La question posée est la suivante : entre quelles valeurs varient les données ? On peut choisir la valeur la plus petite et la valeur la plus grande des valeurs observées ; on peut aussi déterminer les valeurs les plus vraisemblables, mais ce n’est pas toujours facile.

En ce qui concerne les classes suivantes, plusieurs critères peuvent être utilisés :

·      on fixe les bornes de façon arbitraire, en tenant compte de la nature des données, de la lisibilité des résultats numériques ;

·      on fixe les bornes de façon que les classes soient de même longueur ; l’avantage est la simplicité du calcul et de la représentation graphique ;

·      on fixe les bornes de façon que les classes soient de même effectif ; la démarche est plus riche d’informations mais elle demande plus de calculs et n’est pas toujours possible.

Dans chaque cas, la borne inférieure d’un intervalle est égale à la borne supérieure du précédent (sauf évidemment dans le cas de la première classe), de façon à recouvrir l’ensemble des valeurs possibles. Une façon d ‘éviter que des valeurs observées soient égales à une borne est de définir des bornes avec un nombre de décimales supérieur à celui des observations. Mais cela n’empêche pas les difficultés qui apparaissent lorsque des observations sont égales entre elles dans une proportion non négligeable par rapport à l’effectif de l’inter­valle où elles sont classées.

On indique en général pour chaque classe son centre, le nombre d’observations qu’elle contient (appelé effectif absolu ou fréquence absolue) et le pourcentage d’observations dans la classe (appelé effectif relatif ou fréquence relative).

Dans le cas d’une répartition en intervalles de même longueur, les calculs ne posent pas de problèmes : on peut choisir un grand nombre de classes, effectuer la répartition des observations et réunir ensuite des classes entre elles. Nous proposons donc la règle suivante, qui peut aboutir à une répartition dans des intervalles de longueurs différentes :

·      on choisit comme nombre de classes le nombre d’observations divisé par cinq ;

·      on considère des classes de même longueur ;

·      on effectue la répartition des observations ;

·      on réunit les classes voisines dont les effectifs sont faibles, inférieurs à 5 par exemple, de façon à obtenir un nombre impair de classes et égal à peu près à l’effectif des observations divisé par dix. Les première et dernière classes peuvent contenir des effectifs plus faibles.

 

Exemple : Nous répartissons les achats des 50 clients en 10 classes de même longueur. Nous choisissons comme bornes extrêmes la plus petite et la plus grande des valeurs observées : 39.9 et 951.16. La longueur des classes est donnée par :

(951.16 - 39.9 )/10 = 91.126

Les bornes des autres classes sont les suivantes :

            39.9 + 91.126 = 131.026

            131.026 + 91.126 = 222.152

            222.152 + 91.126 = 313.278

            313.278+ 91.126 = 404.404

            404.404+ 91.126 = 495.530

            495.530+ 91.126 = 586.656

            586.656+ 91.126 = 677.782

            677.782+ 91.126 =768.908

            768.908+ 91.126 =860.034

            860.034+ 91.126 =951.160

On donne ci-dessous la répartition des 50 observations dans ces 10 classes :

Classe

 

Inf.

Sup.

 

centre

Eff.

%

1

[

39.900,

131.026

[

85.463

8

16

2

[

131.026,

222.152

[

176.589

11

22

3

[

222.152,

313.278

[

267.715

14

28

4

[

313.278,

404.404

[

358.841

4

8

5

[

404.404,

495.530

[

449.967

4

8

6

[

495.530,

586.656

[

541.093

2

4

7

[

586.656,

677.782

[

632.219

3

6

8

[

677.782,

768.908

[

723.345

2

4

9

[

768.908,

860.034

[

814.471

1

2

10

[

860.034,

951.160

]

905.597

1

2

 

Tableau 3.1 : répartition des achats en 10 classes de même longueur

 

Les classes données en tableau 3.1 sont trop nombreuses : les sept dernières regroupent chacune moins de cinq observations. Nous proposons de réunir les classes 4, 5 et 6 d’une part, les classes 7, 8, 9, 10 d’autre part. La répartition définitive est la suivante :

Classe

 

Inf.

Sup.

 

Centre

Eff.

%

1

[

39.900,

131.026

[

85.463

8

16

2

[

131.026,

222.152

[

176.589

11

22

3

[

222.152,

313.278

[

267.715

14

28

4

[

313.278,

586.656

[

449.967

10

20

5

[

586.656

951.160

]

768.908

7

14

 

Tableau 4.1 : répartition des achats en 5 classes après regroupement

 

On notera que les 5 classes précédentes ne sont pas de même longueur. Les bornes ne sont pas explicites et un lecteur ne comprendra pas la façon dont elles ont été choisies. On choisit donc des classes plus lisibles comme celles qui sont données dans le tableau 5.1.

2.2 Algorithmes.

Un algorithme est un procédé de calcul constitué d’une suite d’opérations. Il existe trois algorithmes classiques pour trier les observations :

·        Le premier consiste à rechercher les observations de la classe 1, puis de la classe 2, de la classe 3 etc.… Il est nécessaire de parcourir la liste des observations autant de fois qu’il y a de classes.

·        Le deuxième consiste à déterminer, pour chaque observation, la classe à laquelle elle appartient et à en déduire ensuite le nombre d’observations dans chaque classe. On ne parcourt la liste qu’une seule fois.

·        On peut aussi classer les observations suivant les valeurs croissantes, et intercaler les bornes choisies. Il ne reste plus qu’à compter le nombre d’observations entre deux bornes.

Le second algorithme est plus rapide que le premier dans la plupart des cas et provoque moins d’erreurs. Le troisième demande plus de calculs mais donne une plus grande souplesse dans le choix des classes. Dans certains cas, il est utile de disposer de la liste des observations appartenant à chaque classe.

Exemple : dans les calculs ci-dessous, la borne inférieure de chaque intervalle est incluse, la borne supérieure exclue, sauf dans le dernier intervalle où elle est incluse.

·           Répartition des achats des 50 clients en 5 classes définies empiriquement.

Le choix de bornes entières rend facile à lire la répartition obtenue :

Classes

 

Inf.

Sup.

 

centres

Eff.

%

1

[

0,

200

[

100

16

32

2

[

200,

300

[

250

14

28

3

[

300,

400

[

350

7

14

4

[

400,

600

[

500

7

14

5

[

600,

1000

]

800

6

12

 

Tableau 5.1 : répartition des achats en 5 classes arbitraires.

 

Pour répartir les observations dans ces cinq classes, on peut procéder de l’une des deux façons ci-dessous :

1.         On compte les achats inférieurs à 200 F, puis les achats compris entre 200F et 300F, entre 300F et 400F, etc.…

2.         On affecte chaque achat à la classe à laquelle il appartient : l’observation n°1 x1=150.15 appartient à la classe 1, x2, x3, x4, x5 aussi, x6 appartient à la classe 3, x7 à la classe 4 etc.… Après avoir parcouru ainsi toute la liste des valeurs, on en déduit les effectifs par classe.

·          Répartition des achats dans des classes de même effectif.

 On commence par les ordonner suivant les valeurs croissantes (en ligne) :

achats

achats

achats

achats

achats

5

39.90

28

63.22

4

65.10

3

88.91

29

95.22

30

99.90

31

104.57

40

125.34

22

135.33

1

150.15

23

154.66

20

165.44

2

173.12

21

174.55

18

190.65

33

190.68

47

210.33

19

215.85

34

220.36

41

240.90

43

241.78

35

250.66

36

250.87

17

251.14

13

254.13

24

274.15

16

289.90

42

290.75

25

293.12

50

299.90

38

301.25

14

301.52

44

305.90

26

314.25

49

320.90

48

350.44

6

351.15

15

420.15

32

452.75

7

478.80

46

490.63

45

520.45

10

555.10

37

590.14

39

610.90

11

632.13

12

712.22

8

745.33

9

841.50

27

951.16

 

Tableau 6.1 : achats des 50 clients ordonnés par valeurs croissantes

 

Dans le tableau 6.1, l’observation n°1 : 150.15, est placée en 10ième position, l’observation n°2 en 13ième position etc..

Chaque classe doit contenir le même nombre d’observations : pour 5 classes et 50 observations, l’effectif est donc égal à 10.


 

La première borne est égale à la plus petite valeur observée, 39.9. La suivante peut être tout nombre compris entre la 10ième valeur et de la 11ième valeur. On considère dans la plupart des cas leur moyenne : (150.15 + 154.66 )/2. De la même façon, on considère la moyenne de la 20ième et de la 21ième : ( 240.90 + 241.78 )/2 etc. La dernière borne est la plus grande valeur observée : 951.16. On obtient la répartition suivante :

 

Classes

 

Inf.

Sup.

 

centres

Eff.

%

1

[

39.9000,

152.4050

[

96.1525

10

20

2

[

152.4050,

241.3400

[

196.8725

10

20

3

[

241.3400,

300.5750

[

270.9575

10

20

4

[

300.5750,

484.7150

[

392.6450

10

20

5

[

484.7150,

951.1600

[

717.9375

10

20

 

Tableau 7.1 : répartition des achats en 5 classes de même effectif

 

La répartition des observations est intéressante en fait par les bornes qu’elle donne, qui sont des « quantiles ». Dans le cas ci-dessus, chaque classe regroupe 20% des observations : les bornes sont les quintiles. La notion de quantile est détaillée dans le chapitre 2.