5. Tests sur la moyenne et la variance.

Nous supposerons comme dans le chapitre précédent que les observations sont réparties régulièrement et symétriquement par rapport à leur moyenne, plus précisément qu’elles obéissent à la loi normale.

5.1 Tests sur la moyenne.

Le premier test que nous étudions consiste à décider entre les hypothèses suivantes :

H0 : m = m0

H1 : m ¹ m0

La question posée est la suivante : les observations remettent-elles  en cause l’égalité de la moyenne théorique m à la valeur spécifiée m0 ?

Nous avons déjà répondu à cette question dans le chapitre précédent : l’estimation par intervalle de confiance donne l’ensemble des valeurs possibles de la moyenne théorique m compte tenu des observations effectuées et du niveau de confiance choisi.

Règle de décision : pour un risque de première espèce a,

·        On accepte l’hypothèse nulle si la valeur m0 appartient à l’intervalle de confiance de niveau de confiance 1 - a ;

·        On rejette l’hypothèse nulle sinon.

 

Exemple : l’objectif fixé par les responsables nationaux de l’enseigne Euromarket est un montant moyen des achats égal à 420F. Le directeur commercial s’inquiète du montant moyen observé (316.95F) dans son hypermarché et veut donc vérifier si cette valeur montre effectivement une différence. Pour un niveau de confiance de 95%, l’intervalle de confiance est le suivant :

[ 257.173, 376.717 ]

On rejette donc l’hypothèse nulle avec un risque de première espèce de 5% et le montant moyen des achats des clients d’EUROMARKET peut être considéré comme nettement inférieur à la valeur fixée à 420F. L’objectif n’est pas atteint.

Une autre façon (équivalente) d’effectuer le test est de déterminer la région critique. On sait que, si l’hypothèse nulle est vraie, la v.a. T ci-dessous suit la loi de Student de degré de liberté n-1 (cf. chapitre 5):

 

 

M – m0

T

=

__________

 

 

S/Ö(n-1)

 

Lorsque la v.a. T prend une très grande valeur, la moyenne m est vraisemblablement différente de m0 : on rejette l’hypothèse d’indépendance. La région critique est donc de la forme :

]-¥, m0 - ta s/(n - 1)1/2[ È ] m0 + ta s/(n - 1) 1/2 , +¥ [

les bornes de la région critique ta étant définies par la relation :

P(½T½> ta ] = a

Le calcul précédent demande que l’on connaisse la valeur vraie de la moyenne, ce qui n’est pas toujours le cas. Par exemple, la moyenne des achats d’un autre hypermarché (410F) peut être connue elle aussi par sondage auprès d’une partie de la clientèle : le test précédent n’est pas applicable pour comparer ces deux moyennes.

On considère maintenant deux v.a. X1 et X2, observées sur deux échantillons de taille n1 et n2. Les hypothèses sont alors les suivantes, en notant  m1 et m2 les moyennes théoriques des achats :

H0 : m1 = m2

H1 : m1 ¹ m2

Le test consiste à déterminer si les observations remettent en cause l’égalité des moyennes m1 et m2 .

Le calcul est plus compliqué. On note M1 et S12 les estimateurs empiriques de la moyenne et la variance dans le premier échantillon de taille n1, M2 et S22 dans le second échantillon de taille n2. Le problème est de comparer M1 et M2. On calcule pour cela la valeur u de la statistique U :

 

 

M1 - M2

U

=

––––––––––––––––––––

 

 

[S12/(n1-1) + S22/(n2-1)]1/2

 

Une grande valeur absolue de la v.a. U signifie évidemment que M1 et M2 ont pris des valeurs très différentes : on rejettera l’hypothèse H0 d’égalité si la valeur absolue ½u½est trop grande pour que l’égalité des moyennes soit vraisemblable. 

Lorsque les moyennes théoriques sont égales et que la taille des échantillons est suffisante, on peut considérer que U suit approximativement la loi normale centrée réduite. On en déduit la valeur ua en fonction du risque de première espèce choisi , de façon que :

P(½U½> ua ) =a

 

Définition : la région critique de la statistique U du test de comparaison de moyennes est de la forme :

RC = ] - ¥, -ua] U [ua, + ¥ [

ua étant calculé de façon que :

P(½U½> ua ) =a

la v.a. U suivant la loi normale centrée réduite.

 

Exemple : la moyenne des achats de l’autre hypermarché (410F) a été calculée sur 100 clients. La variance des achats calculée sur ces 100 clients est égale à 35401.01. 

On en déduit :

 

 

316.95 – 410

 

 

T

=

__________________________________________

=

– 2.65

 

 

[ 42902.47 / 49 + 35401.01 / 99 ]1/2

 

 

Pour un risque de première espèce a = 0.05, on a ua = 1.96. La valeur observée t appartient à la région critique (  ç t ç > 1.96)  et on rejette donc l’hypothèse nulle : la différence entre les deux moyennes n’est vraisemblablement pas due uniquement au hasard.

Répétons que l’utilisation de ce test est justifiée lorsque les variables suivent la loi normale et que leurs variances théoriques peuvent être considérées comme égales (cf. ci-dessous). Cette dernière condition doit être vérifiée surtout lorsque les échantillons sont de faibles effectifs.  


5.2 Tests sur la variance.

Le test d’égalité de la variance d’une population à une valeur spécifiée est lui aussi équivalent à l’estimation par intervalle de confiance.

Il consiste à décider entre les hypothèses suivantes :

H0 : s2 = s02

H1 : s2 ¹ s02

La question posée est la suivante : les observations remettent-elles  en cause l’égalité de la variance théorique s2 à la valeur spécifiée s02 ?

 

Règle de décision : pour un risque de première espèce a,

·        On accepte l’hypothèse nulle si la valeur s02 appartient à l’intervalle de confiance de niveau de confiance 1 - a ;

·        On rejette l’hypothèse nulle sinon.

 

établissons la région critique du test. On rejette l’hypothèse nulle lorsque la valeur observée de la variance empirique S2 est très différente de la valeur s02, donc lorsque la v.a. X2 = n S2/s02 prend une valeur anormalement petite (inférieure à ca2) ou anormalement grande (supérieure à c1-a2).  Les bornes de la région critique ca2 et c1-a2 sont définies par la relation :

P(X2 < ca2 ) = a/2

P(X2 > c1-a2 ) = a/2

la statistique X2 suivant la loi du c2 de degré de liberté n-1.

La région critique est donc de la forme :

RC = [0, ca2] È [c1-a2, + ¥ [

 

Exemple : nous supposons que la loi de probabilité de la v.a. âge est la loi normale (en éliminant les trois clients retraités) et testons l’hypothèse H0 : s2 =s02 = 50.

La valeur observée sur les 47 clients est s2 = 47.86. On en déduit :

X2 = 47 x 47.86 / 50 = 44.99

Nous choisissons comme risque de première espèce a = 0.05. La table donne directement pour le degré de liberté n = 46 :

ca2 = 29.160

tel que P(X2<ca2 ) =0.025

c1-a2 = 66.617

tel que P(X2>c1-a2 ) =0.025

La région critique est : RC = [0, 29.160 ] È [66.617, + ¥ [. La valeur observée n’appartient pas à la région critique et on accepte l’hypothèse nulle.

En déterminant l’ensemble des valeurs s2 telles que l’on accepte l’hypothèse nulle, on retrouvera l’intervalle de confiance déterminé dans le chapitre 5. On pourra examiner aussi la figure 11 du chapitre 5.

 

De la même façon que nous avons comparé deux moyennes entre elles, nous allons comparer deux variances.

On considère maintenant deux v.a. X1 et X2, observées sur deux échantillons de taille n1 et n2. On suppose que ces deux v.a. suivent la loi normale et sont indépendantes. Il s’agit de comparer leurs variances s12 et s22.

S12 et S22 étant les estimateurs empiriques des variances s12 et s22, on sait que les v.a. n1 S12 / s12 et n2 S22/s22 suivent une loi du c2 de degré de liberté n1-1 et n2-1. Les mathéma­tiques nous donnent la loi du rapport :

 

Théorème : la loi de la v.a. F ci-dessous est la loi de Fisher de degrés de liberté n1-1 et n2-1.

 

 

n1 S12 / s12

 

n2 - 1

F

=

_____________

x

_______

 

 

n2 S22 / s22

 

n1 - 1

 

Considérons maintenant les hypothèses suivantes :

H0 : s12= s22 = s2

H1 : s12 ¹ s22

Si l’hypothèse nulle est vraie, on a :

 

 

n1 S12

 

n2 – 1

 

n1 S12

 

n2 S22

F

=

_________

x

________

=

_________

/

________

 

 

n2 S22

 

n1 - 1

 

n1 - 1

 

n2 – 1

et F devrait être proche de 1 puisque le numérateur et le dénominateur du rapport ci-dessus sont des estimateurs sans biais de la même variance s2. Si la v. a. F prend une très grande valeur ou est très proche de 0, on rejette l’hypothèse nulle. La région critique est de la forme :

RC = ]0, fa[ È ] f1-a, + ¥ [

 

les bornes fa et f1-a étant choisies dans la table de Ficher Snedecor de façon que :

P(F< fa) = a/2

P(F> f1-a) = a/2

 

Exemple : Pour contrôler l’égalité des moyennes des achats des deux hypermarchés, nous avons supposé que les variances théoriques étaient égales. Nous le vérifions ci-dessous, en supposant que les lois sont normales . Les variances observées des achats sont égale à :

                 s12 = 42902.47 (n1 = 50)                  s22 = 35401.01 (n2 = 100)

On en déduit :

 

 

50 x 42902.47 / 49

 

 

f

=

_______________________

=

1.2243

 

 

100  x35401.01 / 99

 

 

Nous choisissons comme risque de première espèce a = 0.02. Les degrés de liberté sont n1 = 49 et n2 = 99.La table donne directement f1-a = 1.73.

Pour calculer fa, il faut considérer la v.a. 1/F , qui suit la loi de Fisher de degrés de liberté n1 = 99 et n2 = 49. On a :

P(1/F>1/fa) = 0.01

Û

1/fa = 1.82

Û

fa = 0.549

La région critique est donc : RC = ]0, 0.549 [ ] 1.73, + ¥ [.

La valeur observée n’appartient pas à cette région critique et on accepte l’hypothèse d’égalité des variances.

5.3 Introduction à la fonction puissance.

Définition : on appelle puissance d’un test la probabilité p de rejeter l’hypothèse nulle quand elle est fausse.

 

La puissance est liée au risque de seconde espèce de façon évidente :

p = 1 – b

puisque le risque de seconde espèce est la probabilité d’accepter l’hypothèse H0 quand elle est fausse.

Dans les tests présentés précédemment, l’hypothèse alternative n’est pas précisée, et, par suite, on ne peut déterminer analytiquement la loi de probabilité de la v.a. considérée en supposant l’hypothèse alternative vraie. On ne peut donc pas évaluer analytiquement la puissance. Le test sur la variance donne une occasion de présenter simplement la notion de fonction puissance.

Pour définir la puissance du test, nous allons modifier les hypothèses et fixer une valeur s12 à la variance dans le cas de l’hypothèse alternative. Les hypothèses sont alors les suivantes :

H0 : s2 = s02

H1 : s2 = s12

Nous allons pouvoir maintenant calculer la puissance du test, ou, ce qui est équivalent, le risque de seconde espèce.

On accepte l’hypothèse nulle lorsque la v.a. n S2/s02 n’appartient pas à la région critique. Le risque b est donc la probabilité de l’événement ci-dessous :

 

 

 

 

 

n S2

 

 

b

=

P

( ca2

<

––––

<

c1-a2 )

 

 

 

 

 

s02

 

 

lorsque la variance de la v.a. X est égale à s12 .

Lorsque l’hypothèse alternative est vraie, on ne connaît pas la loi de la  v.a. n S2 / s02 : c’est la v.a. n S2 / s12 qui suit la loi du c2 de degré de liberté égal à n –1. Nous avons :


n S2

 

n S2

 

s12

–––––––

=

–––––––

x

–––––––

s02

 

s12

 

s02

 

On en déduit le risque de seconde espèce :

 

 

 

 

 

n S2

 

 

b

=

P

( ca2

<

––––

<

c1-a2 )

 

 

 

 

 

s02

 

 

 

 

 

 

 

n S2 s12

 

 

 

=

P

( ca2

<

––––––

<

c1-a2 )

 

 

 

 

 

s02 s12

 

 

 

 

 

ca2 s02

 

n S2

 

c1-a2 s02

 

=

P

( ––––––

<

––––

<

––––––– )

 

 

 

s12

 

s12

 

s12

 

On peut calculer cette probabilité lorsque l’hypothèse alternative est vraie puisque la loi de la v.a. n S2 / s12 est connue : c’est la loi du c2 de degré de liberté n – 1. On en déduit évidemment la puissance p = 1 – b.

 

La puissance dépend de deux paramètres : la variance s12 choisie pour caractériser l’hypothèse alternative, et le risque de première espèce qui intervient dans la région critique. On suppose en général le second fixé, et on définit la fonction puissance comme la fonction qui associe à s12 la puissance du test.

Il y a un point particulier : pour s12 = s02, la fonction puissance est la probabilité de rejeter l’égalité s2 = s02 alors qu’elle est vraie puisque s12 = s02. On retrouve donc le risque de première espèce a.

 

Exemple : nous donnons ci-dessous la fonction puissance du test sur la variance de l’âge. La valeur testée est fixée à s°2 = 50, le risque de première espèce à 0.05, et le nombre d’observations est égal à 47 (cf. exemple précédent). Les valeurs sont données dans le tableau ci-dessous.

La lecture de ce tableau donne le renseignement suivant : la probabilité de rejeter l’hypothèse s02 = 50 lorsque la vraie valeur est 33.333 est égale à 0.432 pour un risque de première espèce égal à 0.05.

Figure 5.6 : Fonction puissance (s02 = 50, n = 46, a = 0.05)

 

Rang

variance vraie

puissance

Rang

variance vraie

puissance

1

20.0000

0.993

11

64.4444

0.263

2

24.4444

0.915

12

68.8889

0.379

3

28.8889

0.699

13

73.3333

0.497

4

33.3333

0.432

14

77.7778

0.606

5

37.7778

0.227

15

82.2222

0.701

6

42.2222

0.109

16

86.6667

0.778

7

46.6667

0.057

17

91.1111

0.839

8

51.1111

0.053

18

95.5556

0.885

9

55.5556

0.090

19

100.0000

0.919

10

60.0000

0.162