Chapitre 2

CARACTÉRISTIQUES statistiques

1. Caractéristiques de tendance centrale.

1.1 Notion de distance.

Pour évaluer la proximité entre une valeur x et n observations xi , i= 1, ..., n, deux méthodes sont possibles :

·      on considère la somme ex des valeurs absolues des différences entre x et les xi :

 

 

n

 

ex = Ûï x - x1 ç + ç x - x2 ç + ç x - x3 ç + ...

=

å

ç x - xi ç

 

 

i = 1

 

·      on considère la somme d définie par son carré :

 

 

n

 

dx2 = [ x - x1 ]2 + [ x - x2 ]2 + [ x - x3 ]2 + ...

=

å

[ x - xi ]2

 

 

i = 1

 

1.2 Caractéristiques de tendance centrale ; médiane, moyenne.

Pour déterminer l’ordre de grandeur des observations xi, il suffit de calculer la valeur x qui en est la plus proche possible. Chaque distance précédente conduit à un paramètre :

Définition de la médiane :

La médiane est égale à toute valeur x telle que la somme des valeurs absolues des différences ex soit minimale :

propriété caractéristique :

médiane : valeur telle que la moitié des observations xi lui soit inférieure et l’autre moitié supérieure.

Définition de la moyenne :

La moyenne est la valeur m de l’inconnue x telle que la somme des carrés des différences dx2 soit minimale (c’est le critère des moindres carrés)

Propriété caractéristique :

x = (x1 + x2 +x3 + x4 + ... ) / n

 

 

 

1

n

 

m

=

______

å

xi

 

 

n

i = 1

 

 


propriétés de la médiane et de la moyenne :

·      médiane : peu sensible aux valeurs numériques de la série. A choisir dans le cas de données peu nombreuses, certaines observations très élevées en valeur absolue, d’un risque d’erreur de mesure non négligeable

·      moyenne : propriétés mathématiques intéressantes, facile à manipuler mathématiquement. A choisir dans le cas d’observations précises, fiables, relativement nombreuses, réparties plus ou moins symétriquement.

2. Caractéristiques de dispersion.

2.1 écart absolu moyen, écart type :

·      écart absolu moyen eam , mé étant la médiane :

 

1

n

 

eam =

____

å

ç xi  - mé ç

 

n

i = 1

 

·      variance , m étant la moyenne :

 

1

n

 

s2 =

____

å

[ xi  - m ]2

 

n

i = 1

 

·      écart type : racine carrée s de la variance s2.

·      Propriété de la variance : la variance est égale à la moyenne des carrés moins le carré de la moyenne :

 

1

n

 

s2 =

____

å

xi2  - m2

 

n

i = 1

 

L’écart absolu moyen et l’écart type sont les distances de la médiane et de la moyenne aux données suivant les deux critères.

2.2 Comparaison d’une valeur à la moyenne (répartion proche de la courbe en cloche).

x – m > 2 s >0

 (x – m) / s > 2

x est particulièrement grande

2 s > x - m > s

2 > (x – m) / s > 1

x est grande

x – m <- 2 s < 0

 (x – m) / s < -2

x est particulièrement petite

- 2 s < x - m < - s

- 2 > (x – m) / s < -1

x est petite

2.3 Valeurs centrées réduites

Définition :

On appelle valeur centrée réduite d’une observation xi la valeur xi’ définie par :

xi’ = (xi - m) / s

où m est la moyenne des valeurs observées et s leur écart type.

Propriété caractéristique : la valeur centrée réduite est indépendante de l’unité de mesure des observations.

3. Autres paramètres.

3.1 Coefficient de variation (données positives)

Coefficient de variation :

cv = (s/m ) x 100%

Supposons que le coefficient de de variation d’une série d’observations positives  soit égal à 20% et que la moyenne soit égale à à 12.5 : les valeurs observées sont de l’ordre de 12.5 plus ou moins 20%.

3.2 Coefficients de forme

 

1

n

 

cas =

____

å

[ (xi - m) / s]3

 

n

i = 1

 

Coefficient d’asymétrie

 

1

n

 

cap =

____

å

[ (xi - m) / s]4

 

n

i = 1

 

Coefficient d’aplatissement

Utilisation des coefficients d’asymétrie et d’aplatissement :

En pratique , ces coefficients servent à contrôler la proximité de la répartition des données à celle de la loi normale qui est une répartition de référence dont la forme est proche d’une « courbe en cloche » :

·        cas @ 0 et cap @ 3 : la répartition des données est plus ou moins normale ;

·        cas ¹ 0 ou cap ¹ 3  : la répartition des données est différente de la loi normale.

4. Fonction de répartition. quantiles.

4.1 Fonction de répartition :

x Î R ® F(x) : proportion d’observations inférieures ou égales à x.

Exemple : fonction de répartition de la série (xi) :

x1 = 10, x2 = 11, x3 = 12 , x4 = 13, x5 = 14, x6 = 15, x7 = 16

 

valeurs xi

x <  x1

x1£ x < x2

x2£ x < x3

x3£ x < x4

x4£ x < x5

x5£ x < x6

x6£ x

 

effectifs

0

1

2

3

4

5

6

F(x)

0

1/6

2/6

3/6

4/6

5/6

6/6

 

Figure 1.2 : Fonction de répartition

4.2 Quantiles, quartiles, déciles ...

Classement des observations suivant les valeurs croissantes :

dans l’ordre des observations 

x1, x2, x3, …, xn-1, xn

dans l’ordre croissant :

x(1) £ x(2) £ x(3) £ x(4) … £ x(n-1) £ x(n)

diane

mé

deux classes d’effectifs n/2

(50%)

n³10

quartiles

q1, q2 = mé, q3

quatre classes d’effectifs n/4

(25%)

n³20

quintiles

r1, r2, r3, r4, r5

cinq classes d’effectifs n/5

(20%)

n³25

déciles

d1, d2, ..., d9

dix classes d’effectifs n/10

(10%)

n³50

centiles

c1, c2, ..., c99

cent classes d’effectifs n/100

(1%)

n³500

etc.

 

 

 

 

 


4.3 Seconde règle de classification :

F(x) < 0.025

x est particulièrement petite

0.025< F(x) < 0.15

x est petite

0.95< F(x) < F(0.975)

x est grande

F(x)>0.975

x est particulièrement grande.

4.4 Concentration

Au nombre k on associe la somme des k plus petites valeurs x(i), i = 1, …, k..

 

 

k

 

kÎN

___________>

S

x(i)

 

 

i = 1

 

Au nombre n on associe donc la somme des n valeurs :

 

 

 

n

 

n

________>

S =

S

x(i)

 

 

 

i = 1

 

A la proportion p = k/n, on associe la proportion de la somme des k plus petites valeurs, et l’on définit ainsi la fonction de concentration :

 

 

 

 

k

 

 

 

 

S

x(i)

 

 

 

i = 1

 

p = k/n

______________>

C(p) =

________

_______

 

 

 

n

 

 

 

 

S

x(i)

 

 

 

i = 1

 

Exemple : Série des sept observations : 7, 8, 10, 11, 13, 14, 15. Somme : 78

Proportion

valeur

part de la somme totale

concentration

1

1/7

7

7

7/78 = 0.08974

2

2/7

8

15

15/78 = 0.19231

3

3/7

10

25

25 / 78 = 0.32051

4

4/7

11

36

36 / 78 = 0.46154

5

5/7

13

49

49 / 78 = 0.62821

6

6/7

14

63

63 / 78 = 0.80769

7

7/7

15

78

78 / 78 = 1.00000

Définition :

On appelle coefficient de concentration g de Gini un coefficient variant entre 0 et 1 mesurant la concentration des observations :

·        Plus le coefficient est proche de 1, plus la somme dépend d’un petit nombre des plus grandes valeurs.

·        Plus le coefficient est proche de 0, moins la somme dépend d’un petit nombre des plus grandes valeurs.

5. Cas des données classées ou groupées.

Les données groupées se présentent sour la forme (nk, xk) : la valeur xk a été observée nk fois. Le nombre de valeurs distinctes est noté p et le nombre total d’observations est donc :

 

p

 

n =

S

nk

 

k = 1

 

Il suffit de tenir compte des effectifs dans les formules. Les quantiles (médiane, quartiles etc.) peuvent être calculés par interpolation linéaire.

·        moyenne :

x = (n1 x1 + n2 x2 + ... + np xp )/n

 

 

 

1

p

 

m

=

_______

å

nk xk

 

 

n

k = 1

 


·        variance :

s2 = [n1 (x1 – m)2 + n2 (x2 – m)2 ... + np (xp – m)2] /n

 

 

1

p

 

1

p

 

s2 =

____

å

nk (xk – m)2 =

____

å

nk xk2 – m2

 

n

k = 1

 

n

k = 1