Remarques sur le coefficient d’aplatissement

 

Le coefficient d’aplatissement (en américain, kurtosis) est un coefficient particulièrement difficile à interpréter. On sait que, dans le cas d’une loi normale, il est égal à 3, et en le comparant à cette valeur, on compare la forme de la densité observfée (l’histogramme) à celle de la loi normale (la courbe en cloche). L’interprétation consiste à expliquer les conséquences sur la forme de la densité observée d’un coefficient suprieur ou inférieur à 3.

On trouve dans Wikipedia les commentaires suivants :

« Un kurtosis élevé indique que la distribution est plutôt pointue. À l'opposé, un kurtosis proche de zéro indique une distribution relativement aplatie pour une même variance. Si β2 < 3, on parlera de distribution platikurtique, si β2 = 3 de distribution mesokurtique et si β2 > 3 de distribution leptokurtique. Cette dernière se caractérise par une distribution "pointue" en sa moyenne et des queues de distribution épaisses (fat tails). »

Cette interprétation ne correspond pas à celle que nous avons proposée dans le chapitre 2. Pour approfondir la question, nous allons étudier quelques cas particuliers.

I. Exercice (avec les réponses)

On a représenté deux densités dans le schéma ci-dessous.

Figure 1 : deux densités.

1) Quelle est, des deux densités données en figure 1, celle qui est la plus « pointue » ?

2) Quelle est celle dont les queues sont les plus épaisses ?

3) Comparer les coefficients d’aplatisement des deux densités de la figure 1.

Les questions n’ont pas de sens. Il s’agit de deux lois normales de moyenne nulle et de variances 1/3 (pour f(x)) et 1 (pour g(x)). Leur coefficient d’aplatissement est le même et égal à 3. On peut changer les échelles de façon que les deux courbes soient semblables. L’une n’est pas plus pointue que l’autre. La notion de « pic » et la « forme » de la densité dépendent des échelles choisies pour le graphique.

En fait, le coefficient d’aplatissement caractérise la forme de la densité observée des données centrées réduites, et on ne peut comparer deux coefficients d’.

II. Variance et coefficient d’aplatissement.

La variance s2 est la moyenne des carrés des écarts des observations à la moyenne égaux à (xi - m)2, expression dans laquelle m représente la moyenne des valeurs observées xi. 

Le coefficient d’aplatissement est la moyenne des puissances quatrièmes des valeurs centrées réduites égales à [(xim) / s ] 4, expression dans laquelle s est l’écart-type (la racine carrée de la variance) des valeurs intiales.

Une plus petite variance indique des valeurs plus proches de leur moyenne : ça, c’est l’interprétation de la variance. En figure 1, la densité de g(x) (de variance 1) devient plus grande celle de f(x) (de variance 1/3) à partir d’une certaine valeur x0. On compare ici les histogrammes des données initiales.

Le coefficient d’aplatissement compare le moment centré d’ordre 4 au carré de la variance. Cela revient à étudier les moments d’ordre 4 des variables centrées réduites : la dispersion par rapport à la moyenne (égale à 0) est la même et égale à 1 pour chacune de ces variables. Les notions de queues et de pic, de « distribution pointue » méritent d’être précisées avant d’être étudiées par la comparaison de deux coefficients d’aplatissement.

Les queues de distribution

On peut préciser facilement la notion de queue de distribution d’une variable aléatoire en considérant la variable centrée réduite : les queues sont les zones sous la densité pour les valeurs centrées réduites supérieures à 1 (queue de droite) ou inférieures à -1 (queue de gauche). Elles sont représentées en figure 1 (zones grisées sous la densité g(x))

On dit que les queues d’une variable aléatoire X1’ centrée réduite de densité f1(x) sont plus épaisses que celles d’une d’une variable aléatoire X2’ centrée réduite de densité f2(x) lorsqu’il existe un nombre x0 (>0) tel que :

" x > x0

f1(x) >f2(x)  

" x < – x0

f1(x) >f2(x)

Ces deux propriétés sont caractérisées généralement par l’inégalité entre les coefficients d’aplatissement ku1 et ku2 des densités f1et f2 :

ku1  > ku2

Le coefficients d’aplatissement est en effet la moyenne des puissances quatrièmes des valeurs centrées réduites x’, et dépend fortement du nombre de celles qui sont supérieures à 1 en valeur absolue (cf. cours, chapitre 2), c’est-dire de l’épaisseur des queues. Cette propriété n’est visible que sur les densités des variables aléatoires centrées réduites, comme le montre a contrario la figure 1.

Le pic

Le caractère « pointu » de la densité est beaucoup plus difficile à modéliser que la notion de queue.On peut bien sûr définir le « pic » dans un premier temps comme la zone sous la densité pour les valeurs x’ de la variable aléatoire X’ centrée réduite comprises entre -1 et 1, mais cela ne donne pas d’indication sur la forme. Il est bien difficile en fin de compte de déduire du coefficient d’aplatissement la présence ou non d’un « pic ». On pourrait imaginer un autre coefficient de forme, par exemple le rapport de l’aire sous la densité et entre les dtroites x’ = – 1 et x’ = 1 à l’aire du rectangle défini par ces deux droites et l’ordonnée sup{f(x’), –1< x’ < 1} :

pic = P( –1 < X’ < 1 )/ [2 x sup{f(x’), –1< x’ < 1}]

Ce critère n’est pas classique. Il est égal à 1 dans le cas de la loi uniforme (absence totale de pic) et à 0.760 dans le cas de la loi normale.

III. Exemples.

On a représenté sur la figure 2 ci-dessous les densités des variables aléatoires  X1, X2 et X3. X1 suit la loi uniforme sur [-1, 1] centrée et de variance 1/3, en vert, X2 la loi normale centrée de variance 1/3 (égale à la variance de la loi uniforme) en gris. La troisième, en rouge, est définie par la fonction suivante :

f(x) = 0 si x> 1ou x<-1

f(x) = x + 1 pour x compris entre -1 et 0

f(x) = – x + 1 pour x compris entre 0 et 1.

Les paramètres statistiques de X3 sont les suivants :

E(X3) = 0

V(X3) = 1/6

E(X34) = m4 = 1/15

ku = 2.4

Pour obtenir une variable X3’ de variance 1/3 et d’espérance nulle, il suffit de poser :

X3’ = X3Ö2.

Les variances de X1, X2 et X3’ sont les mêmes.

Les coefficients d’aplatissement (indépendants des variances) sont les suivants :

ku1 = 1.8

ku2 = 3

ku3 = 2.4

On retrouve que l’importance d’un pic est liée à la variance : le pic de la densité de X3 (en rouge, de variance 1/6) est nettement plus prononcé que celui de X3’ (en bleu, de variance 1/3). X1 (loi uniforme) est particulièrement plate. On peut se demander si X3’ (de variance 1/3, en bleu) est plus « pointue » que X2 (loi normale de variance 1/3). Le critère du rapport des aires proposé précédemment semble bien fonctionner : le rapport est égal à 1 pour la loi uniforme, ce qui montre une absence totale de pic, à 0.760 pour la loi normale et à 0.810 pour X3. C’est assez cohérent avec la figure 2, mais en contradiction avec l’interprétation donnée par Wikipedia.puisque le coefficient d’aplatissement de X3’ est nettement inférieur à 3, alors que les pics sont comparables.

En fin de compte, la notion de pic est bien vague et le coefficient d’aplatissement ne donne guère d’indications que sur les queues de distributions par rapport à celles de la loi normale. Il est prudent de se limiter à cet usage et à ne considérer que le cas de densités symétriques maximales en la moyenne.

 

Figure 2 : densités f1(x) (en vert) ,  f2(x) (en gris), f3(x) (en rouge), f3(x) (en bleu)