1. Généralités sur les tests statistiques.

1.1 Notion de test statistique.

Pour introduire intuitivement la démarche générale, nous allons considérer le cas d’un tribunal examinant la culpabilité d’un prévenu : ce tribunal doit établir cette culpabilité et, si elle est avérée, infliger une peine au coupable[1].

On sait que le prévenu bénéficie d’un a priori favorable : il est présumé innocent, et la preuve de sa culpabilité est en principe à la charge de l’accusation.

La démarche, dans un test statistique, est strictement analogue : on suppose que la variable aléatoire étudiée possède une propriété particulière, appelée hypothèse nulle (c’est la présomption d’innocence), et pour remettre en cause cette propriété, il faut apporter la preuve qu’elle est fausse (c’est la preuve de la culpabilité).

C’est l’enquête policière qui montre la culpabilité de l’accusé : par exemple, la présence d’une grosse somme d’argent inexpliquée sur un compte en banque peut être consi­dérée comme la preuve d’une escroquerie. De même c’est l’enquête statistique qui montre que la v.a. ne possède pas la propriété supposée vraie et que l’hypothèse nulle est fausse. Cette enquête est fondée sur l’analyse des observations de la v.a. : suivant les résultats de cette analyse, l’hypothèse nulle est considérée comme vraisemblable (l’innocence dans le cas de l'enquête policière) ou presque impossible et « rejetée » : on accepte alors une autre hypothèse, appelée hypothèse alternative (la culpabilité).

 

Définition : on appelle test statistique une démarche de la statistique inférentielle consistant :

·        à contrôler la validité d’une hypothèse considérée comme vraie a priori, appelée hypothèse nulle et notée H0 ;

·        à admettre une hypothèse différente lorsque le contrôle se révèle négatif, appelée hypothèse alternative et notée H1.

 

Il existe donc deux façons de se tromper. La première consiste à accepter l’hypothèse nulle alors qu’elle est fausse : cela revient à acquitter un coupable faute de preuve. La seconde est le rejet de l’hypothèse nulle alors qu’elle est vraie : on condamne quelqu’un d’innocent.

 

Définition : on appelle :

·        erreur de première espèce, l’erreur consistant à rejeter l’hypothèse nulle alors qu’elle est vraie ;

·        erreur de seconde espèce, l’erreur consistant à accepter l’hypothèse nulle alors qu’elle est fausse.

 

Comment procède un tribunal ? La signification de l’expression « erreur judiciaire », dont l’inculpé est toujours la victime, montre bien qu’en pratique, on cherche à limiter le risque de condamner un innocent (du moins, on peut le souhaiter). De même, en statistique, on limite le risque de rejeter l’hypothèse nulle alors qu’elle est vraie.

Il est bien clair qu’en limitant ce risque, on augmente l’autre : plus on acquitte facilement les accusés, moins on condamne d’innocents, mais plus on acquitte de coupables. La relation n’est pas fonctionnelle ; nous y revenons en fin de chapitre.

 

Définition : on appelle :

·        risque de première espèce la probabilité de rejeter l’hypothèse nulle alors qu’elle est vraie (erreur de première espèce). On le note a.

·        risque de seconde espèce la probabilité d’accepter l’hypothèse nulle alors qu’elle est fausse (erreur de seconde espèce). On le note b.

 

 

 

Hypothèse

vraie

 

 

H0

H1

Hypothèse

H0

pas d’erreur

Erreur de 2ième espèce

Risque b

acceptée

H1

Erreur de 1ère espèce

Risque a

pas d’erreur

 

Tableau 1.6 : erreurs et risques suivant la décision.

 

1.2 Règle de décision.

Après avoir défini les hypothèses, ou simplement l’hypothèse nulle, la démarche consiste à étudier les résultats d’une enquête aléatoire : si ces résultats paraissent en contra­diction avec l’hypothèse nulle, cette dernière sera considérée comme fausse. Sinon, on continuera à la supposer vraie : c’est un « raisonnement par l’absurde ».

Les résultats de l’enquête sont en général résumés par un nombre calculé sur les observations et appelé statistique.

 

Définition : dans un test statistique, la variable aléatoire que l’on utilise pour contrôler l’hypothèse nulle est appelée elle-même statistique.

 

L’hypothèse nulle sera remise en cause si cette statistique possède une propriété qu’elle ne devrait pas avoir : on retrouve l’analogie avec le solde d’un compte bancaire : s’il est anormalement élevé, c’est une forte présomption de culpabilité.

 

Un exemple intuitif :

Hypothèse nulle H0 : Dominique est une femme

Hypothèse alternative H1 : Dominique est un homme

Statistique : pointure

1) Observation : Dominique chausse du 43.

Décision : Peu de femmes chaussant du 43, on peut considérer que l’observation est en contradiction avec H0. Donc Dominique n’est pas une femme (rejet de H0) , c’est un homme (acceptation de H1).

2) Observation : Dominique chausse du 40.

Décision : La pointure 40 est fréquente chez les femmes. On peut considérer que l’observation n’est pas contradictoire avec H0. Donc Dominique peut être une femme (acceptation de H0 et rejet de H1).

3) Discussion : la décision statistique prise à l’issue du test est discutable. Plusieurs hypothèses ont été émises implicitement :

·           il n’y a que des hommes et des femmes passant sur la plage, pas d’enfant.

·           il y a autant d’hommes que de femmes.

Un raisonnement hâtif peut donc conduire à une décision erronée (cf. exercice 5 du chapitre 4). Cette discussion caractérise la problématique de la statistique bayesienne.

 

Définition : on appelle région critique d’un test statistique l’ensemble des valeurs observées de la statistique provoquant le rejet de l’hypothèse nulle.

 

Dans la pratique,  c’est le risque de première espèce qui précise les bornes de la région critique.

Exemple : supposons que Dominique chausse du 41 ou plus. La proportion de femmes chaussant du 41 ou plus étant inférieure à 5%, on rejette l’hypothèse nulle. Mais on ne peut pas être totalement sûr que Dominique n’est pas une femme, puisque c’est le cas de 2% environ des femmes. Dans 2% des cas, on va donc commettre l’erreur consistant à rejeter l’hypothèse nulle alors qu’elle est vraie. C’est cette faible proportion qui est le risque de première espèce, et que l’on cherche à limiter.

 

Comment donc choisir ce risque a ? Le risque est en quelque sorte la faiblesse de la preuve : plus le risque est grand, plus la preuve est faible et inversement. On choisira un risque d’autant plus faible, c’est-à-dire une preuve d’autant plus forte, que l’hypothèse alternative est moins vraisemblable. La démarche scientifique générale est d’ailleurs claire : une expérience physique ou chimique est d’autant plus répétée, vérifiée et contrôlée, c’est-à-dire qu’on  choisit un risque d’autant plus faible - une preuve d’autant plus forte, que cette expérience remet en cause une théorie jusque-là considérée comme satisfaisante. Le choix de ce risque est équivalent à celui du niveau de confiance dans l’estimation par intervalle de confiance (chapitre 5).

Il y a des valeurs classiques :

Risque de première espèce

hypothèse alternative

0.001 (0.1%)

quasiment impossible

0.01 (1%)

très peu vraisemblable

0.05 (5%)

peu vraisemblable

0.1 (10%)

possible

Tableau 2.6 : choix du risque de première espèce.

1.3 Tests élémentaires.

Les tests sur le coefficient d’asymétrie et d’aplatissement sont très simples et fournissent de bons exemples d’application immédiate.

On définit les hypothèses suivantes :

·           hypothèse nulle H0 : la loi de la v.a. est la loi normale.

·           hypothèse alternative H1 : la loi de X n’est pas la loi normale.

Si l’hypothèse nulle est vraie, les valeurs théoriques des coefficients d’asymétrie et d’aplatissement sont gas = 0 et gap = 3.

On étudie un échantillon (Xi) i=1, …, n, de la v.a. X. Les coefficients d’asymétrie cas et d’aplatissement cap de l’échantillon observé devraient être proches de 0 et de 3 si la loi est normale : ce sont les statistiques du test.

Un coefficient d’asymétrie cas très différent de 0 est donc en contradiction avec la loi normale. Pour décider s’il est très différent de 0, on choisit un risque de première espèce a, et on en déduit la région critique à l’aide d’une table statistique.

Cette table donne, pour n = 50 observations et a = 0.05 : 0.534. Cela signifie que la probabilité de l’événement {cas < -0.534}È{cas > 0.534} est égale à 0.05 si la loi est normale. La région critique est :

RC = ] - ¥, -0.534 [ È ] 0.534,+ ¥ [

De la même façon, un coefficient d’aplatissement très différent de 3 est en contradiction avec l’hypothèse de la loi normale. Ce coefficient n’étant pas réparti symétriquement, la table donne deux valeurs. Pour n = 50 et a = 0.05, la région critique est :

RC = ] 0, 2.15 [ È ] 3.99, + ¥ [

La décision est donc la suivante : on considère que la loi de la v.a. X n’est pas la loi normale si l’un des coefficients observés appartient à la région critique correspondante[2].

 

Exemple : les coefficients d’asymétrie et d’aplatissement des variables des données Euromarket sont les suivants :

 

coefficient d’asymétrie

coefficient d’aplatissement

âge

1.108

4.496

revenu

1.590

5.064

achats

1.160

3.859

enfants

-0.070

2.418

 

Dans ces données constituées des 50 clients d’Euromarket, seule la variable nombre d’enfants peut être considérée comme normale avec un risque de première espèce de 5%. C’est une variable discrète. Cette propriété signifie ici que la v.a. X dont la densité par intervalle définie par :

di = fi dans l’intervalle ] i – 0.5, i + 0.5 [     iÎ N

fi étant la proportion observée de familles de i enfants, est approximativement une v.a. suivant la loi normale de même moyenne et de même variance que la variable nombre d’enfants.

Figure 1.6 : diagramme du nombre d’enfants et densité de la loi normale

 



[1] Ce parallélisme entre la décision d’un tribunal et les tests statistiques n’est pas fortuit. C’est en étudiant ce genre de problème que Condorcet, pendant la Révolution Française, a déterminé le nombre de membres d’un jury et la règle de décision (unanimité, majorité  simple, majorité des deux tiers …) afin de minimiser les erreurs judiciaires. Il ne croyait vraisemblablement pas à la façon dont ses résultats étaient appliqués pendant la Terreur puisque après avoir été arrêté, il se suicida avant d’être jugé.

[2] Si l’on tient compte de deux coefficients à la fois, le risque de première espèce est modifié. Il faudrait en toute rigueur choisir a priori un des coefficients suivant la nature de la loi de probabilité supposée vraie sous l’hypothèse alternative (cf. exercice 2).