CARACTÉRISTIQUES
statistiques
Pour évaluer la proximité entre une valeur x et n observations xi , i= 1, ..., n, deux méthodes sont possibles :
· on considère la somme ex des valeurs absolues des différences entre x et les xi :
|
|
n |
|
ex = Ûï x - x1 ç + ç x - x2 ç + ç x - x3 ç + ... |
= |
å |
ç x - xi ç |
|
|
i = 1 |
|
· on considère la somme d définie par son carré :
|
|
n |
|
dx2 = [ x - x1 ]2 + [ x - x2 ]2 + [ x - x3 ]2 + ... |
= |
å |
[ x - xi ]2 |
|
|
i = 1 |
|
Pour déterminer l’ordre de grandeur des observations xi, il suffit de calculer la valeur x qui en est la plus proche possible. Chaque distance précédente conduit à un paramètre :
La médiane est égale à toute valeur x telle que la somme des valeurs absolues des différences ex soit minimale :
propriété caractéristique :
médiane : valeur mé telle que la moitié des observations xi lui soit inférieure et l’autre moitié supérieure. |
La moyenne est la valeur m de l’inconnue x telle que la somme des carrés des différences dx2 soit minimale (c’est le critère des moindres carrés)
Propriété caractéristique :
x = (x1 + x2 +x3 + x4 + ... ) / n
|
|
1 |
n |
|
m |
= |
______ |
å |
xi |
|
|
n |
i = 1 |
|
propriétés
de la médiane et de la moyenne :
· médiane : peu sensible aux valeurs numériques de la série. A choisir dans le cas de données peu nombreuses, certaines observations très élevées en valeur absolue, d’un risque d’erreur de mesure non négligeable
· moyenne : propriétés mathématiques intéressantes, facile à manipuler mathématiquement. A choisir dans le cas d’observations précises, fiables, relativement nombreuses, réparties plus ou moins symétriquement.
· écart absolu moyen eam , mé étant la médiane :
· variance , m étant la moyenne :
|
1 |
n |
|
s2 = |
____ |
å |
[ xi - m ]2 |
|
n |
i = 1 |
|
· écart type : racine carrée s de la variance s2.
· Propriété de la variance : la variance est égale à la moyenne des carrés moins le carré de la moyenne :
|
1 |
n |
|
s2 = |
____ |
å |
xi2 - m2 |
|
n |
i = 1 |
|
L’écart absolu moyen et l’écart type sont les distances de la médiane et de la moyenne aux données suivant les deux critères.
(x – m) / s > 2 |
x est particulièrement grande |
|
2 s > x - m > s |
2 > (x – m) / s > 1 |
x est grande |
x – m <- 2 s < 0 |
(x – m) / s < -2 |
x est particulièrement petite |
- 2 s < x - m < - s |
- 2 > (x – m) / s < -1 |
x est petite |
Définition :
On appelle valeur centrée réduite d’une observation xi la valeur xi’ définie par :
où m est la moyenne des valeurs observées et s leur écart type.
Propriété
caractéristique : la valeur centrée réduite est indépendante de l’unité de mesure des
observations.
Coefficient de variation : cv = (s/m ) x 100% |
Supposons que le coefficient de de variation d’une série d’observations positives soit égal à 20% et que la moyenne soit égale à à 12.5 : les valeurs observées sont de l’ordre de 12.5 plus ou moins 20%.
Coefficient d’asymétrie
|
1 |
n |
|
cap = |
____ |
å |
[ (xi - m) / s]4 |
|
n |
i = 1 |
|
Coefficient d’aplatissement
Utilisation
des coefficients d’asymétrie et d’aplatissement :
En pratique , ces coefficients servent à contrôler la proximité de la répartition des données à celle de la loi normale qui est une répartition de référence dont la forme est proche d’une « courbe en cloche » :
· cas @ 0 et cap @ 3 : la répartition des données est plus ou moins normale ;
· cas ¹ 0 ou cap ¹ 3 : la répartition des données est différente de la loi normale.
x Î R ® F(x) : proportion d’observations inférieures ou égales à x.
Exemple : fonction de répartition de la série (xi) :
x1 = 10, x2 = 11, x3 = 12 , x4 = 13, x5 = 14, x6 = 15, x7 = 16
valeurs xi x < x1 x1£ x < x2 x2£ x < x3 x3£ x < x4 x4£ x < x5 x5£ x < x6 x6£ x |
effectifs 0 1 2 3 4 5 6 |
F(x) 0 1/6 2/6 3/6 4/6 5/6 6/6 |
Figure
1.2 : Fonction de répartition |
Classement des observations suivant les valeurs croissantes :
dans l’ordre des observations |
x1, x2, x3, …, xn-1, xn |
dans l’ordre croissant : |
x(1) £ x(2) £ x(3) £ x(4) … £ x(n-1) £ x(n) |
mé |
deux classes d’effectifs n/2 |
(50%) |
n³10 |
|
quartiles |
q1, q2 = mé, q3 |
quatre classes d’effectifs n/4 |
(25%) |
n³20 |
quintiles |
r1, r2, r3, r4, r5 |
cinq classes d’effectifs n/5 |
(20%) |
n³25 |
déciles |
d1, d2, ..., d9 |
dix classes d’effectifs n/10 |
(10%) |
n³50 |
centiles |
c1, c2, ..., c99 |
cent classes d’effectifs n/100 |
(1%) |
n³500 |
etc. |
|
|
|
|
F(x) < 0.025 |
x est particulièrement petite |
0.025< F(x) < 0.15 |
x est petite |
0.95< F(x) < F(0.975) |
x est grande |
F(x)>0.975 |
x est particulièrement grande. |
Au nombre k on associe la somme des k plus petites valeurs x(i), i = 1, …, k..
|
|
k |
|
kÎN |
___________> |
S |
x(i) |
|
|
i = 1 |
|
Au nombre n on associe donc la somme des n valeurs :
|
|
|
n |
|
n |
________> |
S = |
S |
x(i) |
|
|
|
i = 1 |
|
A la proportion p = k/n, on associe la proportion de la somme des k plus petites valeurs, et l’on définit ainsi la fonction de concentration :
|
|
|
k |
|
|
|
|
S |
x(i) |
|
|
|
i = 1 |
|
p = k/n |
______________> |
C(p) = |
________ |
_______ |
|
|
|
n |
|
|
|
|
S |
x(i) |
|
|
|
i = 1 |
|
Proportion
|
valeur |
part de la somme totale |
concentration |
|
1 |
1/7 |
7 |
7 |
7/78 = 0.08974 |
2 |
2/7 |
8 |
15 |
15/78 = 0.19231 |
3 |
3/7 |
10 |
25 |
25 / 78 = 0.32051 |
4 |
4/7 |
11 |
36 |
36 / 78 = 0.46154 |
5 |
5/7 |
13 |
49 |
49 / 78 = 0.62821 |
6 |
6/7 |
14 |
63 |
63 / 78 = 0.80769 |
7 |
7/7 |
15 |
78 |
78 / 78 = 1.00000 |
Définition :
On appelle coefficient de concentration g de Gini un coefficient variant entre 0 et 1 mesurant la concentration des observations :
· Plus le coefficient est proche de 1, plus la somme dépend d’un petit nombre des plus grandes valeurs.
· Plus le coefficient est proche de 0, moins la somme dépend d’un petit nombre des plus grandes valeurs.
Les données groupées se présentent sour la forme (nk, xk) : la valeur xk a été observée nk fois. Le nombre de valeurs distinctes est noté p et le nombre total d’observations est donc :
|
p |
|
n = |
S |
nk |
|
k = 1 |
|
Il suffit de tenir compte des effectifs dans les formules. Les quantiles (médiane, quartiles etc.) peuvent être calculés par interpolation linéaire.
· moyenne :
x = (n1 x1 + n2
x2 + ... + np
xp )/n
|
|
1 |
p |
|
m |
= |
_______ |
å |
nk
xk |
|
|
n |
k = 1 |
|
·
variance
:
s2 = [n1 (x1 –
m)2 + n2 (x2 – m)2 ... + np (xp – m)2]
/n
|
1 |
p |
|
1 |
p |
|
s2 = |
____ |
å |
nk (xk – m)2 = |
____ |
å |
nk
xk2 – m2 |
|
n |
k = 1 |
|
n |
k = 1 |
|