1. Caractéristiques de tendance centrale.

Dans le chapitre précédent nous avons défini la classe modale comme celle dont la densité est la plus grande. Les valeurs caractéristiques que nous introduisons dans ce chapitre sont fondées sur une notion différente, celle de distance : pour trouver l’ordre de grandeur des observations, nous cherchons une valeur la plus proche possible de la série d’observations.

1.1 Notion de distance.

La série de données se présente sous la forme d’une suite de nombres xi numérotés .de i = 1 à i = n. Par exemple, le montant des achats du premier client est x1 = 150.15, celui du 10e est x10 = 555.10. Pour évaluer la proximité entre ces deux achats, il est naturel d’en calculer la différence, et, cette proximité entre x1 et x10 étant la même qu’entre x10 et x1, on peut considérer la valeur absolue ou le carré de cette différence :

x1 – x10 = = – 404.95

ç x1 – x10 ç = 404.95

(x1 – x10)2 = (– 404.95)2

Comment évaluer maintenant la proximité entre une valeur x et les n observations xi ? Deux méthodes (parmi d’autres) sont possibles :

·      on considère la somme ex des valeurs absolues des différences entre x et les xi :

 

 

n

 

ex = ï x – x1 ç + ç x – x2 ç + ç x – x3 ç + ...

=

å

ç x – xi ç

 

 

i = 1

 

·      on considère la somme d définie par son carré :

 

 

n

 

dx2 = [ x – x1 ]2 + [ x – x2 ]2 + [ x – x3 ]2 + ...

=

å

[ x – xi ]2

 

 

i = 1

 

Chacun de ces deux paramètres ex et dx2 caractérise la proximité entre la valeur x et la série des observations xi : plus ex ou dx2 est grand, plus x est différent des xi. Ce sont en quelque sorte des « distances » entre la valeur x et la série (xi) i= 1, …, n.

1.2 Caractéristiques de tendance centrale ; médiane, moyenne.

Pour déterminer l’ordre de grandeur des observations xi, il suffit de calculer la valeur x qui en est la plus proche possible. Chaque distance précédente conduit à un paramètre :

·        la somme des valeurs absolues des différences ex est minimale lorsque x est une valeur appelée médiane qui possède la propriété caractéristique suivante :

la médiane est une valeur telle que la moitié des

observations xi lui soient inférieures ou égales

 

La médiane est appelée aussi parfois moyenne. Elle n’existe pas dans certains cas et n’est pas toujours unique : on se contente alors d’une valeur approximative, comme dans l’exemple numérique ci-dessous. Nous noterons la médiane mé.

·        la somme des carrés des différences dx2 est minimale lorsque x est égale à la moyenne notée m des observations (c’est le critère des moindres carrés) :

 

(x1 + x2 +x3 + x4 + ... )

 

1

n

 

m =

––––––––––––––––––

=

–––

å

xi

 

n

 

n

i = 1

 

 

Exemple numérique : on donne ci-dessous une série de 6 observations :

x1 = 10, x2 = 11, x3 = 12, x4 = 13, x5 = 14, x6 = 15

La moyenne de ces 6 observations est égale à 12.5, et on choisit comme médiane la moyenne de x3 et x4 : 12.5 (3 observations sont inférieures à 12.5 et 3 sont supérieures).

Supposons que x1 prenne la valeur 0. La moyenne devient 10.83, la médiane reste égale à 12.5.

 

Les propriétés de la médiane et de la moyenne sont les suivantes :

·      la médiane a pour avantage d’être peu sensible aux valeurs numériques de la série ; elle ne dépend guère que de l’ordre des observations et est constante même si les premières et dernières observations varient considérablement. Elle n’est pas toujours facile à calculer, et parfois même n’existe pas.

·      La moyenne possède des propriétés mathématiques intéressantes et est facile à manipuler mathématiquement. Elle dépend de toutes les valeurs xi et particulièrement des valeurs xi très grandes en valeur absolue, surtout si les observations sont peu nombreuses.

En conséquence,

·      lorsque les données sont peu nombreuses, que certaines observations sont très élevées en valeur absolue, et qu’il existe un risque d’erreur de mesure non négligeable, on choisira la médiane comme ordre de grandeur des observations. Ainsi, dans le petit exemple numérique précédent, si l’on considère que x1 ne peut pas raisonnablement être égale à 0, et qu’il y a donc erreur, on choisira la médiane.[1]

·      lorsque les observations sont précises, fiables et relativement nombreuses, on choisira la moyenne comme ordre de grandeur des observations.

 

Exemple : La médiane et la moyenne des achats des 50 clients sont :

moyenne : m = 316.945

médiane : mé = 264.14

La médiane est ici la moyenne des 25e et 26e observations après classement dans l’ordre croissant :

x13 = x(25) = 254.13

x24 = x(26) = 274.15

 

Cas de données classées : il arrive que les données étudiées soient groupées par valeur ou aient été réparties dans des intervalles (cf. exercice 1 du chapitre 1) . S’il est en général difficile de calculer la médiane (on peut utiliser une interpolation linéaire, comme dans StatPC), on peut calculer la moyenne en supposant que dans chaque classe, les observations sont toutes égales au centre de cette classe. Pour calculer la moyenne appelée moyenne pondérée, on utilisera alors la formule ci-dessous dans laquelle :

·        n est le nombre total d’observations ;

·        p le nombre de classes ;

·        nk le nombre d’observations appartenant à la classe de centre ck :

 

n1 c1 + n2 c2 + ... + np cp

 

1

p

 

mc=

––––––––––––––––––––––––

=

–––

å

nk ck

 

n

 

n

k = 1

 

 

Remarque : en caractérisant chaque classe par la moyenne des observations qui lui appartiennent, la moyenne pondérée est la moyenne des données individuelles (exercice 7).



[1] La médiane était utilisée dans les compétitions sportives avant l’utilisation du chronométrage électronique. La valeur choisie était la médiane des mesures effectuées par les trois chronométreurs, pour éviter les erreurs dues à un déclenchement tardif ou anticipé du chronomètre.