Un autre paramètre, important en marketing, est le coefficient de variation : il indique en pourcentage l’ordre de grandeur des variations des observations autour de la moyenne. Il n’a de sens que si les données sont positives.
Définition : Le coefficient de variation est le rapport de l’écart-type à la moyenne exprimé en pourcentage :
cv = (s/m ) x 100% |
L’interprétation du coefficient de variation repose sur la propriété suivante : pour une répartition régulière et à peu près symétrique, on peut dire qu’il y a à peu près 70% des observations égales à la moyenne ± cv%.
En fait, on retrouve ici l’intervalle m ± s que nous avons indiqué dans la première règle de classification.
Exemple : la moyenne des achats des clients est égale à 316.945F et l’écart-type à 207.129. Le coefficient de variation est donc : cv= 65.35%
Les achats sont de l’ordre de 317F ± 65% sous réserve que l’histogramme soit relativement symétrique. Par le calcul on trouve effectivement 70% des achats compris entre la moyenne ± l‘écart-type bien que l’histogramme donné en figure 12 du chapitre 1 ne ressemble guère à la densité de la loi normale.
On définit d’autres coefficients pour caractériser la forme de l’histogramme.
Définition : Le coefficient d’asymétrie est la moyenne des cubes des valeurs centrées réduites des observations.
|
1 |
n |
|
cas = |
––– |
S |
[ (xi – m)/s ]3 |
|
n |
i = 1 |
|
étudions les termes [ (xi – m)/s ]3 en nous référant à la règle (on note >> pour très supérieur et << pour très inférieur) :
xi’ = (xi – m)/s > 1 |
xi grand ou très grand |
[ (xi – m)/s ]3 >>1 |
xi’ = (xi – m)/s< – 1 |
xi petit ou très petit |
[ (xi – m)/s ]3 <<– 1 |
– 1< xi’ = (xi – m)/s <1 |
xi relativement proche de m |
[ (xi – m)/s ]3 @ 0 |
Ce sont les termes « grands » ou « petits » qui interviennent le plus dans le calcul du coefficient d’asymétrie, puisqu’ils sont supérieurs à 1 en valeur absolue et que leurs cubes le sont d’autant plus (par exemple 1.53 = 3.375) ; les autres, inférieurs à 1 en valeur absolue, positifs ou négatifs, ont un cube plus petit en valeur absolue (par exemple 0.83 = 0.512) et n’ont guère d’influence sur la somme.
Lorsque les observations grandes ou très grandes sont à peu près aussi nombreuses que les observations petites ou très petites, ou qu’il y en a peu, le coefficient d’asymétrie est proche de 0 ;
· lorsque les observations grandes ou très grandes sont plus nombreuses que les observations petites ou très petites, le coefficient d’asymétrie est supérieur à 0 ;
· lorsque les observations grandes ou très grandes sont moins nombreuses que les observations petites ou très petites, le coefficient d’asymétrie est inférieur à 0 ;
La valeur à partir de laquelle on peut considérer le coefficient d’asymétrie comme très différent de 0 dépend du nombre d’observations. Elle est donnée dans une table statistique figurant dans StatPC (pour n = 50, on pourra considérer que le coefficient d’asymétrie est très différent de 0 s’il est supérieur en valeur absolue à 0.534). Nous donnons un extrait de cette table dans le tableau 2.2.
Définition : le coefficient d’aplatissement est la moyenne des puissances quatrièmes des observations centrées réduites :
|
1 |
n |
|
cap = |
––– |
S |
[ (xi – m)/s ]4 |
|
n |
i = 1 |
|
Ce coefficient caractérise « l’aplatissement » de l’histogramme par rapport à « l’aplatissement » de la densité de loi normale dont le coefficient théorique est égal à 3. On l’interprète de façon analogue au coefficient d’asymétrie, en examinant la fréquence des termes très grands et très petits.
· Si l’histogramme est proche de la densité de la loi normale, le calcul mathématique montre que le coefficient d’aplatissement est proche de 3 ;
· Si les termes différents de la moyenne sont plus nombreux que dans le cas de la loi normale, les termes de la forme [(xi – m )/ s]4 supérieurs à 1 sont plus nombreux et le coefficient d’aplatissement est supérieur à 3, et inversement.
Ce coefficient n’est guère interprétable que si la répartition est à peu près symétrique (as @ 0). Il caractérise ce que l’on appelle les « queues de distribution » (les termes très petits ou très grands), au-dessus de la courbe en cloche (cap > 3) ou en dessous (cap < 3).
Un coefficient d’aplatissement inférieur à 2.15 ou supérieur à 3.99 peut être considéré comme différent de 3 lorsque le nombre d’observations est égal à 50 (cf. tableau 2.2). Il existe une table statistique donnant les autres valeurs limites (elle figure dans StatPC).
En pratique , ces coefficients servent à contrôler la proximité de l’histogramme et de la courbe en cloche :
· cas @ 0 et cap @ 3 : la répartition des données est plus ou moins normale ;
· cas ¹ 0 ou cap ¹ 3 : la répartition des données est différente de la loi normale.
Cette démarche, assez approximative ici, sera formulée en terme de test statistique dans le chapitre 7.
nombre d’observations |
coefficient d’asymétrie |
coefficient |
d’aplatissement |
10 |
0.954 |
1.560 |
3.950 |
20 |
0.772 |
1.820 |
4.170 |
30 |
0.662 |
1.980 |
4.110 |
40 |
0.587 |
2.070 |
4.060 |
50 |
0.534 |
2.150 |
3.990 |
Tableau 2.2 : valeurs limites des coefficients d’aplatissement et d’asymétrie
Exemple : le coefficients d’aplatissement sur les achats des 50 clients est cap = 3.859. On ne peut pas affirmer que l’aplatissement est différent de celui de la courbe en cloche. La taille élevée du coefficient d’asymétrie (cas = 1.16) rend difficile son interprétation et suffit pour montrer que la répartition des achats est très différente de la courbe en cloche.