1. Caractéristiques de tendance centrale.

1.1 Notion de distance.

Pour évaluer la proximité entre une valeur x et n observations x_i , i= 1, ..., n, deux méthodes sont possibles :

· on considère la somme e_x des valeurs absolues des différences entre x et les x_i :

		n
e_x = Ûï x - x₁ ç + ç x - x₂ ç + ç x - x₃ ç + ...	=	å	ç x - x_i ç
		i = 1

· on considère la somme d définie par son carré :

		n
d_x² = [ x - x₁ ]² + [ x - x₂ ]² + [ x - x₃ ]² + ...	=	å	[ x - x_i ]²
		i = 1

1.2 Caractéristiques de tendance centrale ; médiane, moyenne.

Pour déterminer l’ordre de grandeur des observations x_i, il suffit de calculer la valeur x qui en est la plus proche possible. Chaque distance précédente conduit à un paramètre :

Définition de la médiane :

La médiane est égale à toute valeur x telle que la somme des valeurs absolues des différences e_x soit minimale :

propriété caractéristique :

médiane : valeur mé telle que la moitié des observations x_i lui soit inférieure et l’autre moitié supérieure.

Définition de la moyenne :

La moyenne est la valeur m de l’inconnue x telle que la somme des carrés des différences d_x² soit minimale (c’est le critère des moindres carrés)

Propriété caractéristique :

x = (x₁ + x₂ +x₃ + x₄ + ... ) / n

		1	n
m	=	^______	å	x_i
		n	i = 1

propriétés de la médiane et de la moyenne :

· mé diane : peu sensible aux valeurs numériques de la série. A choisir dans le cas de données peu nombreuses, certaines observations très élevées en valeur absolue, d’un risque d’erreur de mesure non négligeable

· mo yenne : propriétés mathématiques intéressantes, facile à manipuler mathématiquement. A choisir dans le cas d’observations précises, fiables, relativement nombreuses, réparties plus ou moins symétriquement.

2. Caractéristiques de dispersion.

2.1 écart absolu moyen, écart type :

· écart absolu moyen e_am , m_é étant la médiane :

	1	n
e_am =	^____	å	ç x_i - m_é ç
	n	i = 1

· variance , m étant la moyenne :

	1	n
s²=	^____	å	[ x_i - m ]²
	n	i = 1

· écart type : racine carrée s de la variance s².

· Propriété de la variance : la variance est égale à la moyenne des carrés moins le carré de la moyenne :

	1	n
s²=	^____	å	x_i² - m²
	n	i = 1

L’écart absolu moyen et l’écart type sont les distances de la médiane et de la moyenne aux données suivant les deux critères.

2.2 Comparaison d’une valeur à la moyenne (répartion proche de la courbe en cloche).

x – m > 2 s >0	(x – m) / s> 2	x est particulièrement grande
2 s > x - m > s	2 > (x – m) / s> 1	x est grande
x – m <- 2 s < 0	(x – m) / s< -2	x est particulièrement petite
- 2 s < x - m < - s	- 2 > (x – m) / s< -1	x est petite

2.3 Valeurs centrées réduites

Définition :

On appelle valeur centrée réduite d’une observation x_i la valeur x_i’ définie par :

x_i’ = (x_i - m) / s

où m est la moyenne des valeurs observées et s leur écart type.

Propriété caractéristique : la valeur centrée réduite est indépendante de l’unité de mesure des observations.

3. Autres paramètres.

3.1 Coefficient de variation (données positives)

Coefficient de variation :

c_v = (s/m ) x 100%

Supposons que le coefficient de de variation d’une série d’observations positives soit égal à 20% et que la moyenne soit égale à à 12.5 : les valeurs observées sont de l’ordre de 12.5 plus ou moins 20%.

3.2 Coefficients de forme

	1	n
c_as=	^____	å	[ (x_i - m) / s]³
	n	i = 1

Coefficient d’asymétrie

	1	n
c_ap=	^____	å	[ (x_i - m) / s]⁴
	n	i = 1

Coefficient d’aplatissement

Utilisation des coefficients d’asymétrie et d’aplatissement :

En pratique , ces coefficients servent à contrôler la proximité de la répartition des données à celle de la loi normale qui est une répartition de référence dont la forme est proche d’une « courbe en cloche » :

· c_as @ 0 et c_ap@ 3 : la répartition des données est plus ou moins normale ;

· c_as ¹ 0 ou c_ap¹ 3 : la répartition des données est différente de la loi normale.

4. Fonction de répartition. quantiles.

4.1 Fonction de répartition :

x Î R ® F(x) : proportion d’observations inférieures ou égales à x.

Exemple : fonction de répartition de la série (x_i) :

x₁ = 10, x₂ = 11, x₃ = 12 , x₄ = 13, x₅ = 14, x₆ = 15, x₇ = 16

valeurs x_i

x < x₁

x₁£ x < x₂

x₂£ x < x₃

x₃£ x < x₄

x₄£ x < x₅

x₅£ x < x₆

x₆£ x

effectifs

F(x)

1/6

2/6

3/6

4/6

5/6

6/6

Figure 1.2 : Fonction de répartition

4.2 Quantiles, quartiles, déciles ...

Classement des observations suivant les valeurs croissantes :

dans l’ordre des observations	x₁, x₂, x₃, …, x_n-1, x_n
dans l’ordre croissant :	x(1) £ x(2) £ x(3) £ x(4) … £ x(n-1) £ x(n)

médiane	m_é	deux classes d’effectifs n/2	(50%)	n³10
quartiles	q₁, q₂ = m_é, q₃	quatre classes d’effectifs n/4	(25%)	n³20
quintiles	r₁, r₂, r₃, r₄, r₅	cinq classes d’effectifs n/5	(20%)	n³25
déciles	d₁, d₂, ..., d₉	dix classes d’effectifs n/10	(10%)	n³50
centiles	c₁, c₂, ..., c₉₉	cent classes d’effectifs n/100	(1%)	n³500
etc.

4.3 Seconde règle de classification :

F(x) < 0.025	x est particulièrement petite
0.025< F(x) < 0.15	x est petite
0.95< F(x) < F(0.975)	x est grande
F(x)>0.975	x est particulièrement grande.

4.4 Concentration

Au nombre k on associe la somme des k plus petites valeurs x(i), i = 1, …, k..

		k
kÎN	^___________>	S	x(i)
		i = 1

Au nombre n on associe donc la somme des n valeurs :

			n
n	^________>	S =	S	x(i)
			i = 1

A la proportion p = k/n, on associe la proportion de la somme des k plus petites valeurs, et l’on définit ainsi la fonction de concentration :

			k
			S	x(i)
			i = 1
p = k/n	^{______________}>	C(p) =	^________	^_______
			n
			S	x(i)
			i = 1

Exemple : Série des sept observations : 7, 8, 10, 11, 13, 14, 15. Somme : 78

n°	Proportion	valeur	part de la somme totale	concentration
1	1/7	7	7	7/78 = 0.08974
2	2/7	8	15	15/78 = 0.19231
3	3/7	10	25	25 / 78 = 0.32051
4	4/7	11	36	36 / 78 = 0.46154
5	5/7	13	49	49 / 78 = 0.62821
6	6/7	14	63	63 / 78 = 0.80769
7	7/7	15	78	78 / 78 = 1.00000

Définition :

On appelle coefficient de concentration g de Gini un coefficient variant entre 0 et 1 mesurant la concentration des observations :

· Plus le coefficient est proche de 1, plus la somme dépend d’un petit nombre des plus grandes valeurs.

· Plus le coefficient est proche de 0, moins la somme dépend d’un petit nombre des plus grandes valeurs.

5. Cas des données classées ou groupées.

Les données groupées se présentent sour la forme (n_k, x_k) : la valeur x_k a été observée n_k fois. Le nombre de valeurs distinctes est noté p et le nombre total d’observations est donc :

	p
n =	S	n_k
	k = 1

Il suffit de tenir compte des effectifs dans les formules. Les quantiles (médiane, quartiles etc.) peuvent être calculés par interpolation linéaire.

· moyenne :

x = (n₁ x₁ + n₂ x₂ + ... + n_p x_p )/n

		1	p
m	=	^_______	å	n_k x_k
		n	k = 1

	1	p		1	p
s² =	^____	å	n_k (x_k – m)² =	^____	å	n_k x_k² – m²
	n	k = 1		n	k = 1