estimation
et intervalles de confiance
hypothèse intuitive élaborée à partir d’expériences diverses : convergence de la proportion dans laquelle un événement est réalisé au cours d’expériences répétées vers sa probabilité telle que nous l’avons définie dans le chapitre précédent.
Exemple
de tableau de données simulées (ou table de nombres au hasard) :
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
1 |
0.833 |
0.275 |
0.972 |
0.004 |
0.978 |
0.532 |
0.376 |
0.516 |
2 |
0.518 |
0.936 |
0.341 |
0.333 |
0.177 |
0.879 |
0.010 |
0.090 |
3 |
0.863 |
0.195 |
0.187 |
0.439 |
0.436 |
0.870 |
0.226 |
0.374 |
Tableau 1.5 :
nombres pseudo-aléatoires
Pour
obtenir des nombres compris entre –1 et 2 on effectue la transformation
suivante, pour toute valeur x du tableau précédent :
y = 3 x - 1
Pour
obtenir des nombres entiers compris entre 1 et 6, on pose :
Y = Int(6 x +1)
Int(y) désignant le plus grand entier inférieur ou égal à y :
Int(5.456) = 5, Int(4) = 4.
Cas d’un dé à 6 faces parfaitement équilibré : P = {1, 2, 3, 4, 5, 6}
· à chaque jet, la probabilité d’obtenir {1} est égale à 1/6, et la face obtenue au ie jet n’a aucune incidence sur les autres faces obtenues : il y a équiprobabilité, et les lancers sont indépendants.
· l’expérience montre que, pour n suffisamment grand, la proportion de faces {1} va tourner autour de 1/6. De même la proportion de faces {2}, de faces {3} etc.
· considérons l’événement A = {1, 2, 3, 4} : P(A) = 4/6 = 2/3. L’événement A se produit dans une proportion égale à la somme des proportions de chaque face et est donc de l’ordre de 4 x 1/6 soit 2/3. Cette proportion est là aussi de l’ordre de la probabilité.
Axiome de la loi des grands nombres : On considère une population contenant N unités statistiques. On y effectue n tirages avec remise et on compte le nombre nA de réalisations d’un événement A donné d’effectif NA. La proportion observée nA/n converge vers la probabilité NA/N de l’événement A lorsque le nombre de tirages augmente indéfiniment.
Nous supposerons que les tirages sont effectués avec remise.
La loi des grands nombres indique qu’il y a convergence des proportions vers les probabilités, mais cette convergence dépend elle-même du hasard. Elle n’est pas systématique.
Propriété fondamentale : la densité observée d’une variable qualitative ou discrète converge en probabilité vers la densité de la v.a. lorsque le nombre d’observations augmente indéfiniment.
Définition : On appelle estimation empirique de la moyenne d’une variable aléatoire la moyenne calculée sur les observations effectuées.
On appelle estimation empirique de la variance d’une variable aléatoire la variance calculée sur les observations effectuées.
Propriété : Les estimations empiriques de la moyenne et de la variance convergent en probabilité vers les paramètres théoriques lorsque le nombre d’observations augmente indéfiniment.
· L’échantillon de v.a. Xi, i = 1, …, n, est une suite de v.a. indépendantes et de même loi que X, la v.a. Xi représentant simplement la v.a. X au iième tirage.
· L’échantillon observé xi, i = 1, …, n, est une suite de valeurs observées de la v.a. X ou de chaque v.a. Xi, i = 1, …, n.
Définition :
On appelle estimateur d’un paramètre d’une loi de probabilité d’une v.a. X une v.a. calculée sur un échantillon Xi, i = 1, …, n de X, dont la valeur observée est une approximation de ce paramètre, et qui vérifie certaines propriétés d’optimalité.
Définitions :
· L’estimateur empirique de la moyenne théorique d’une v.a. est la v.a. M :
|
1 |
n |
|
M = |
––– |
S |
Xi |
|
n |
i = 1 |
|
· L’estimateur empirique de la variance théorique est la v.a. S2 :
Un estimateur d’un paramètre w est :
·
sans biais si son espérance est égale à w ;
·
asymptotiquement sans biais si son espérance converge
vers w lorsque le nombre d’observations tend vers
l’infini ;
· convergent si sa valeur observée converge en probabilité vers w lorsque le nombre d’observations tend vers l’infini ;
· efficace s’il n’existe pas d’estimateur sans biais de w de variance strictement inférieure.
Les estimateurs empiriques précédents possèdent des propriétés particulières :
· L’estimateur empirique de la moyenne est sans biais.
· L’estimateur empirique de la variance est asymptotiquement sans biais.
· Ils sont convergents.
· Lorsque les v.a. Xi suivent la loi normale, l’estimateur empirique de la moyenne est efficace.
Théorème de la limite centrée : on considère une suite de n v.a. Xi indépendantes et de même loi de probabilité, d’espérance m et de variance s2. La loi de probabilité de l’estimateur M est, pour une valeur suffisante de n, la loi normale d’espérance m et de variance s2/n.
Exemple :
On lance 100 fois le dé.
La moyenne empirique M définie par la moyenne des 100 chiffres obtenus suit
approximativement la loi normale d’espérance m = 3.5 et de variance s2/n = 0.0292 :
·
La probabilité de
l’intervalle [m - 1.96 s /Ön, m + 1.96 s /Ön] = [3.336, 3.664] est
égale à 0.95. Il est donc très probable que la valeur moyenne obtenue en
lançant le dé 100 fois soit comprise entre ces deux valeurs.
·
La probabilité de
l’intervalle ]-¥ , m - 1.6449 s /Ön]
= ]-¥ , 3.219 ] est égale à
0.05. On est presque sûr d’obtenir une valeur moyenne supérieure à 3.219.
Théorème : si les v.a. Xi , i= 1, …, n sont indépendantes et suivent la loi normale d’espérance m et de variance s2, la v.a. n S2/s2 suit la loi du c2 de degré de liberté n - 1.
Exemple :
supposons n = 50 et s2
= 25. La v.a. X2 = 50 S2/25 = 2 S2 suit la loi
du c2 de degré de
liberté 49. La table statistique pour n
= 49 degrés de liberté donne les valeurs suivantes :
P(2S2<31.555) = 0.025 |
P(2S2>70.722) =
0.975 |
On en déduit la probabilité ci-dessous :
P(31.555<2S2<70.722)
= 0.95
La variance de l’échantillon sera très probablement
comprise entre 15.778 et 35.361 :
P(15.778 < S2 <
35.361) = 0.95 |
Définition : L’intervalle de confiance d’un paramètre d’une loi de probabilité est un intervalle observé sur un échantillon de cette loi contenant vraisemblablement la vraie valeur du paramètre.
Pour construire cet intervalle de confiance, on définit deux variables aléatoires B1 et B2 telles que la probabilité que l’intervalle [B1, B2] contienne la vraie valeur du paramètre soit élevée et égale à 1 – a (par exemple, 1 - a = 0.95).
L’intervalle de confiance est donc la réalisation de cet intervalle aléatoire.
Définition : Le niveau de confiance est la probabilité que l’intervalle aléatoire contienne la vraie valeur du paramètre.
Définition : lorsque la variance théorique s2 est inconnue et estimée par s2, l’intervalle de confiance de la moyenne au niveau de confiance (100-a)% est l’intervalle :
[m - ta s/(n - 1)1/2 , m + ta s/(n - 1) 1/2 ] |
Pour déterminer ta, on utilise :
· si n £ 120, la table de la loi de probabilité de Student de degré de liberté n = n-1 ;
· pour n > 120 la table de la loi normale centrée réduite.
Nous donnons ci-dessous quelques valeurs de ta :
n = 10 |
n = 9 |
a= 5% |
ta = 2.26 |
n = 20 |
n = 19 |
a= 10% |
ta = 1.73 |
n = 20 |
n = 19 |
a= 5% |
ta = 2.09 |
n = 50 |
n = 49 |
a= 5% |
ta = 2.01 |
Exemple : nous avons calculé dans le chapitre 1 la moyenne
et la variance des 50 achats de l’échantillon tiré au hasard : m =
316.945F, s = 207.1291, s2 = 42902.472. On a, pour a =
5%, ta
= 2.02.L’intervalle de confiance de la moyenne est égal à :
[316.945 - 2.02 x 207.1291/Ö49 ,
316.945 + 2.02 x 207.1291/Ö49 ]
[
257.173, 376.717 ]
Dans
le calcul de l’intervalle de confiance de la moyenne, le manque de symétrie de
la répartition, constaté précédemment par l’étude de l’histogramme et la valeur
du coefficient d’asymétrie (1.16) est compensé par le nombre d’observations
(50).
Définition :
l’intervalle de confiance de la variance
au niveau de confiance
(100 - a)%
est l’intervalle :
[n s2/c1-a2 , n s2/ca2 ] |
Pour obtenir un intervalle de probabilité 1 -a, il faut déterminer deux bornes :
· ca2 telle que P(n S2/s2 < ca2) = a/2
· c1-a2 telle que P(n S2/s2 > c1-a2) = a/2
Pour déterminer les bornes ca2 c1-a2, on utilise la table statistique de la loi de du c2 de degré de liberté n = n-1. On sait en effet que la statistique n S2/s2 suit cette loi de probabilité.
Le calcul de l’intervalle de confiance de la variance est plus compliqué pour n>100 et nous n’en parlerons pas (la procédure est expliquée dans la plupart des tables du c2).
Exemple : calculons l’intervalle de
confiance de la variance des achats des clients d’Euromarket. L’estimation est
s2 = 42902.472. Le degré de liberté est égal à 49 pour 50
observations. On a, en choisissant un niveau de confiance égal à 95% :
ca2 = 31.555 |
c1-a2 = 70.222 |
D’où l’intervalle de confiance de la variance des achats :
[50x 42 902.472/70.222 , 50 x 42
902.472/31.555 ]
IC = [30 547.74, 67
980.47]
On sait que le montant des achats
n’est pas réparti suivant la loi normale dans la population. On accordera donc un
intérêt limité à l’intervalle de confiance ci-dessus que nous n’avons calculé
qu’à titre d’exemple numérique. .