SIMULATION D’ECHANTILLONS

T. Foucart

Département Techniques de Commercialisation

Institut Universitaire de Technologie

Poitiers- Chatellerault

 

Département de Mathématiques

UFR Sciences

Université de Poitiers

 

 

 

 


La simulation d’échantillons a pour objectif de créer des données vérifiant a priori une hypothèse sur la nature de leur  loi de probabilité et  sur la valeur des paramètres,  que l’on pourra mettre en évidence à l’aide des méthodes statistiques appropriées.

La liste des traitements disponibles, obtenue par le programme \STATPC\MENUSIM.EXE sous DOS, est la suivante:

Traitements disponibles

 

Simulation de lois de probabilité................1

Simulation d'un échantillon multidimensionnel....2

Simulation d'un modèle multilinéaire.............3

Tirage aléatoire dans un tableau.................4

Simulation de chroniques et de processus.........5

 

 

1. Simulation de lois de probabilité

 

La liste des lois de probabilité élémentaires que l’on peut simuler est donnée dans le menu LOIPROB.EXE ci-dessous:

 

SIMULATION DE LOIS DE PROBABILITE

-------------------------------------------------------------------------------

 Rangs, types et effectifs des séries déjà simulées:

 Aucune loi simulée.

-------------------------------------------------------------------------------

 Loi normale                         1 ¦ Loi binomiale                       2

 Loi de Poisson                      3 ¦ Loi Gamma entière                   4

 Loi Beta1 entière                   5 ¦ Loi Beta2                           6

 Loi de Cauchy                       7 ¦ Loi Uniforme discrète               8

 Loi uniforme continue               9 ¦ Loi géométrique                    10

-------------------------------------------------------------------------------

 Moyennes et variances               11¦ Histogramme                        12

-------------------------------------------------------------------------------

 Sauvegarde                           S¦ Edition                             E

 Fin du traitement                    F¦ Votre choix                      ?

 

La procédure est toujours la même: on choisit une loi de probabilité et l’on obtient l’écran ci-dessous:

 

Rangs, types et effectifs des séries déjà simulées:

 1 Loi  binomiale eff. 100             /

-------------------------------------------------------------------------------

LOI NORMALE

 

Retour au menu                                                       0

 

Simulation d'un échantillon particulier                              1

Simulation d'échantillons de même loi et de même effectif            2

Simulation d'échantillons de même loi et d'effectif différent        3

                                                                     ?

Les premières lignes de l’écran rappellent les simulations précédentes: un échantillon d’une loi binomiale d’effectif 100 figure ici en colonne (ou rang) 1 du tableau.

On peut ensuite choisir la simulation d’un échantillon particulier. On précise :

 

Rang de la série à simuler? 2

Nombre de réalisations? 150

Moyenne, écart-type de la série de rang 2  (0,1 par ex.)? 10,2

 

Le nombre de réalisations (ou effectifs) n’est pas nécessairement le même que les précédents. Si le rang précisé est celui d’une colonne contenant déjà un échantillon, ce dernier est remplacé par le nouveau; ici, par exemple, en indiquant un rang égal à 1, on remplacerait l’échantillon de la loi binomiale par celui de la loi normale. Pour définir les paramètres  moyenne et écart-type, il est indispensable de respecter la syntaxe indiquée: ici, on frappe les caractères “ 10 , 2 ” suivis de la touche Retour chariot

En choisissant la simulation d’échantillons de même loi et de même effectif, il faut indiquer le nombre d’échantillons désirés; les échantillons sont sauvegardés chacun dans une colonne du tableau, la première étant de rang 1. Les échantillons déjà générés risquent ainsi d’être détruits.

Le choix d’échantillons de même loi et d’effectifs différents nécessite en outre la saisie de ces effectifs. Les échantillons sont toujours stockés à partir du rang 1 dans le tableau.

On peut créer ainsi un tableau contenant 500 lignes et 30 colonnes. Le temps de calcul est variable suivant la loi simulée et le matériel utilisé. Sur un DX2 50, la simulation de 30 échantillons de 500 termes (soit les dimensions maximales) d’un loi normale dure environ 10 secondes (l’algorithme utilisé est basé sur le théorème de la limite centrée).

Les quatre dernières options concernent  la description des échantillons simulés: on peut en éditer les moyennes et les variances observées et théoriques (si elles existent):

 

MOYENNES ET VARIANCES THEORIQUES ET OBSERVEES

 

 Rang type effectifs        moyennes                     variances

                     observées     théoriques      observées     théoriques

  1   1     100       -.1668095      0               1.164936      1

  2   1     150       -5.294844E-02  0               .9022423      1

  3   2     200        1.47          1.5             .9490998      1.05

  4   7     50        -.5611675      9.999999E+37    129.3762      9.999999E+37

 

On peut aussi les répartir dans des classes et en construire l’histogramme (en mode graphique) ou les représenter sous forme de diagramme en bâtons lorsqu’elles sont discrètes:

 

HISTOGRAMME

------------

 

 Loi  normale en colonne 1  d'effectif  100

 Moyenne et écart-type théoriques: 0  1

 

 Définition des classes:      Retour au menu  0

                              Automatique     1

                              Utilisateur     2

                          Effectifs égaux     3

                               Déjà faite     4

                                                ? 1

 Nombre de classes (<=20)? 5

 

 La sauvegarde consiste à créer un fichier contenant les données (jusqu’au plus petit nombre d’observations simulées)  et un fichier de paramètres associé.

L’option A permet de sélectionner un autre programme de simulation dans le menu ci-dessous:

 

SIMULATION DE LOIS DE PROBABILITE

--------------------------------------------------------------------------------

 Lois de probabilité classiques       1¦ Lois multidimensionnelles            2

 Chroniques et processus              3¦ Modèle multilinéaire                 4

 Tirage aléatoire dans un tableau     5¦ Simulation de chroniques             6

--------------------------------------------------------------------------------

 Commande du DOS                      D¦ Fin de l’exécution                   F

 Couleur de l’écran, carte graphique  C¦ Votre choix                       ?

 

En appuyant sur les touches Echappement (Esc) et Retour Chariot (Return), on retourne au menu initial sans perte de données.

Nous retrouverons ce menu dans tous les programmes de simulation.

 

2. Simulation d'un ECHANTILLON MULTIDIMENSIONNEL

 

L’exécution du programme MULTECH.EXE a pour effet l’affichage du menu suivant:

 

Simulation d'un échantillon multidimensionnel

---------------------------------------------

 

 Choix des paramètres                 1¦ Simulation du modèle                 2

 Edition des paramètres               3¦ Edition du tableau                   4

-------------------------------------------------------------------------------

 Sauvegarde du tableau simulé         S¦ Autre programme de simulation        A

 Commande/ du DOS                      D¦ Fin du traitement                    F

 Votre choix                                                                 ?

 

·       L’option 1 consiste à choisir le nombre de variables; le programme en déduit le nombre maximum de lignes d’un tableau qu’il peut créer.

 

 Simulation d'un échantillon multidimensionnel

 

 Nombre de variables (de 2 à 20, F: Fin)                             ? 5

 

   Le programme permet de simuler un tableau de 5  colonnes

 et de 1023  lignes.

 

   Le nombre de lignes est précisé ultérieurement.

 

Si le nombre de lignes du tableau que l’on peut simuler est suffisant (1023 pour 5 colonnes), on définit les identificateurs, les moyennes et les variances des variables à générer (les paramètres implicites X1, X2, pour les identificateurs, 0 et 1 pour les moyennes et variances sont obtenues par un simple Retour Chariot).

 

Saisie des moyennes et variances des 5 variables

 

         Identificateur      Moyenne             Variance            Confirmer

                                                                       par C

 var. 1  X1 ? AGE            0? 35               1? 2                ? c

 var. 2  X2 ? REVENU         0? 8700             1? 10000            ? c

 var. 3  X3 ?

  ...

 

On donne ensuite les coefficients de corrélation suivant les lignes de la demi-matrice: r2,1, r3,1 , r3,2 , r4,1 , r4,2  r4,3 etc..., en respectant les valeurs minimale et maximale indiquées de façon que la matrice soit symétrique semi-définie positive. Tous les calculs sont effectués en double précision.

 

Coefficient de corrélation entre les variables X5 et X3

     X1   /X2   /X3   /X5    /

X1    1.000

X2    0.500 1.000

X3    0.600 0.700 1.000

X5    0.300 0.800       1.000

 

 Le coefficient doit être > .1420745306171745  et < .9112588027161588 ? 0.5

 

·       L’option 2 consiste à simuler le modèle:

 

Simulation d'un tableau de données conformes aux paramètres

 

 Simulation d'une loi multinormale:                    Retour chariot

 Lecture d'un fichier: nom du fichier? CAUCHY.DAT

 

On peut créer un échantillon multinormal, ou relire un fichier contenant un échantillon quelconque déjà créé, par exemple un échantillon d’une loi de Cauchy. Ce fichier doit évidemment contenir le nombre de variables défini précédemment, et le nombre de lignes doit être inférieur ou égal au nombre de lignes maximal affiché auparavant.

Le programme traite alors les données de façon à fournir un échantillon dont les moyennes, les variances et les corrélations sont exactement celles qui ont été données.  Pour un petit nombre de variables, les calculs, dont chaque étape est affichée à l’écran (cf. paragraphe suivant), sont très rapides.

 

Les autres options ne présentent pas de difficulté.

 

3. Simulation d'un modèle multilinéaire

 

Le menu initial de la simulation d’un modèle multilinéaire (programme MODLIN) est le même que le précédent. En fait, les programmes diffèrent par les paramètres à choisir et les résultats fournis:

·       Par l’option 1, on définit le nombre de variables explicatives; ensuite, on choisit le nombre de variables expliquées, ceci permettant de disposer de plusieurs échantillons pour les mêmes valeurs des variables explicatives. Le nombre total de variables ne doit pas dépasser 60 (les calculs sont effectués en double précision) et le nombre maximal de lignes est calculé et affiché par le programme.

 

Simulation d'un modèle linéaire

 

Nombre de variables explicatives du modèle (de 2 à 20, F: Fin)       ? 5

Nombre de variables expliquées (de 1 à 55 )                          ? 10

Nombre de lignes du tableau (de 10 à 454)                            ? 50

Coefficient de détermination (>0 et <=1)                             ? .8

 

Les variables explicatives sont a priori centrées et réduites: les coefficients de régression sont choisis en tenant compte de cette particularité:

 

Nombre de variables explicatives: 5

 

      Saisie des coefficients de régression sur les variables réduites:

 Indiquer un nom de fichier ou tapez sur Enter pour la saisie au clavier.

 ?

 Coefficient de la variable de rang 1

 ? .5

 Coefficient de la variable de rang 2

 ? -.5

 Coefficient de la variable de rang 3

 ? .8

 Coefficient de la variable de rang 4

 ? -.7

 Coefficient de la variable de rang 5

 ? .9

 

On saisit ensuite la matrice des corrélations entre les variables explicatives de la même façon que dans le programme précédent.

 

 Coefficient de corrélation entre les variables 5  et 4

      1    2    3    4    5

 1 1.000

 2 0.500 1.000

 3 0.300 0.400 1.000

 4-0.500 0.300 0.200 1.000

 5 0.300 0.500 0.400       1.000

 

 Le coefficient doit être >-.3229694029108743  et < .6142597254915194 ? .2

 

·       L’option 2 consiste à simuler l’échantillon, en générant une loi multinormale ou en relisant un fichier contenant des données déjà créées. La durée des calculs dépend du nombre de variables explicatives.

Nous donnons ci-dessous la liste des calculs effectués:

 

Calculs en cours:

 

    Calcul des covariances observées

 

    Diagonalisation de la matrice de covariance observée

 

    Calcul des composantes principales

 

    Calcul de la transformation linéaire à effectuer

 

    Calcul de l'échantillon de matrice de corrélation fixée

 

    Calcul des covariances entre variables explicatives et variables expliquées

 

    Calcul de la matrice inverse de la matrice des corrélations donnée

 

    Calcul des coefficients de régression pour chaque variable expliquée

 

On rappelle que les paramètres statistiques des variables explicatives: moyennes, variances et coefficients de corrélation, sont exactement égaux aux valeurs théoriques précisées.


·       On peut alors éditer les paramètres par l’option 3::

 

Paramètres de la simulation

    Corrélations théoriques entre les variables                      1

    Corrélations entre les var. explicatives et les var. expliquées  2

    Coefficients de régression                                       3

 

    Retour au menu initial                                           RC

                                                                     ?

La première option de ce menu donne les corrélations théoriques entre les variables; en ligne et en colonne 0, on peut lire les corrélations théoriques entre la variable expliquée et les variables explicatives, et le terme 0,0 est le coefficient de détermination.

 

Corrélations théoriques (ligne et col. 0: variable expliquée, en 0,0: R2)

     0     1     2     3     4     5

 0 0.800 0.617 0.172 0.539-0.422 0.545

 1 0.617 1.000 0.500 0.300-0.500 0.300

 2 0.172 0.500 1.000 0.400 0.300 0.500

 3 0.539 0.300 0.400 1.000 0.200 0.400

 4-0.422-0.500 0.300 0.200 1.000 0.200

 5 0.545 0.300 0.500 0.400 0.200 1.000

 

La deuxième option donne les corrélations obtenues par la simulation entre les 5 variables explicatives du modèle (numérotées de 1 à 5) et les variables expliquées demandées (numérotées de 6 à 15):

 

Corrélations entre var. explicatives (colonnes) et var. expliquées (lignes)

     1     2     3     4     5

 6 0.579 0.111 0.491-0.434 0.570

 7 0.644 0.249 0.642-0.309 0.582

 8 0.644 0.255 0.518-0.418 0.608

 9 0.526 0.090 0.552-0.433 0.512

10 0.665 0.158 0.558-0.429 0.501

11 0.571 0.167 0.538-0.402 0.580

12 0.557 0.084 0.564-0.486 0.460

13 0.628 0.125 0.503-0.456 0.439

14 0.679 0.254 0.572-0.425 0.526

15 0.655 0.222 0.606-0.390 0.531

 

La troisième option donne les coefficients des régressions des variables expliquées (ici, 10) par les variables explicatives (ici 5). On notera que les variables explicatives prennent les mêmes valeurs dans les 10 échantillons.

 

Coefficients de régression en ligne (théoriques en ligne 0)

     1     2     3     4     5

 0 0.500-0.500 0.800-0.700 0.900

 1 0.503-0.670 0.735-0.717 1.091

 2 0.814-0.641 0.920-0.323 0.844

 3 0.361-0.247 0.725-0.887 1.047

 4 0.175-0.516 1.024-0.993 0.981

 5 0.874-0.735 0.824-0.442 0.772

 6 0.295-0.443 0.845-0.850 1.049

 7 0.141-0.411 1.024-1.035 0.783

 8 0.686-0.592 0.760-0.567 0.671

 9 0.500-0.281 0.777-0.674 0.697

10 0.627-0.482 0.865-0.534 0.731

 

Les autres options ne présentent aucune difficulté.

 

4. TIRAGE ALEATOIRE DANS UN TABLEAU

 

Le programme de tirage aléatoire dans un tableau (TIRSIM.EXE) a pour objectif de construire un échantillon aléatoire d’une population recensée sous la forme d’un tableau de données quantitatives. Il peut être utilisé dans le cadre du bootstrap par exemple.

Le menu initial est le suivant:

 

Tirage aléatoire dans un tableau de données

 

 Fichier: \data\process                ¦  Colonne(s): 11   Lignes: 33

-------------------------------------------------------------------------------

 Liste des variables en mémoire:

 X1     1¦ X2     2¦ X3     3¦ X4     4¦ X5     5¦ X6     6¦ X7     7¦ X8    

 X9     9¦ X10   10¦ X11   11¦

-------------------------------------------------------------------------------

 Echantillon en mémoire:

 Nombre de lignes: 11 de colonnes: 11  (tirage sans remise)

-------------------------------------------------------------------------------

 Autre tableau de données             1 ¦ Edition du tableau                  2

 Tirage sans remise                   3 ¦ Tirage avec remise                  4

 Paramètres stat. de l'échantillon    5 ¦ Paramètres stat. de la population   6

 Superposition des histogrammes       7 ¦ Sauvegarde de l'échantillon         8

-------------------------------------------------------------------------------

 Commande du DOS                      D ¦ Autre programme de simulation       A

 Fin de l'exécution                   F ¦                                    ?

 

·       L’option 1 est l’option habituelle: elle permet de préciser le tableau de données au sein duquel le tirage doit être effectué, soit en indiquant directement le  fichier de paramètres, soit en précisant ces derniers au clavier. Ce fichier est a priori celui dont les paramètres sont donnés dans le fichier DATASIM.PAR.

·       L’option 3 correspond au tirage sans remise: une ligne du tableau ne peut figurer plusieurs fois  dans l’échantillon. L’effectif de l’échantillon doit être inférieur au nombre de lignes du tableau entier.

 

Taille de l'échantillon à tirer (<= 33 )? 11

----------------------------------------------------------------------------

 Lignes tirées:

 2  4  20  14  23  17  12  24  19  5  9

 

·       Dans l’option 4, une ligne peut figurer plusieurs fois dans l’échantillon, et la taille de l’échantillon est limitée à 500:

 

Taille de l'échantillon à tirer (de 1 à 500)? 50

-------------------------------------------------------------------------------

 Lignes tirées:

 19  32  14  3  8  28  17  1  4  8  12  22  32  29  12  4  11  22  12  7  31

 15  12  9  25  3  15  13  24  20  32  22  15  28  4  32  17  3  17  25  17  6

 6  9  29  25  24  29  17  26

 

·       L’option 5 donne les paramètres statistiques principaux de l’échantillon, et l’option 6 ceux de la population.

·       Par l’option 7, on peut superposer les histogrammes définis par les même classes, le premier étant calculé sur la population et le second sur l’échantillon.

·       L’option 8 est une option de sauvegarde: on peut sauvegarder l’échantillon sur un fichier, créer un fichier de paramètres, et, dans le cas où l’échantillon a été créé par un tirage sans remise, sauvegarder de la même façon les lignes du tableau qui n’y figurent pas.

 

Les autres options ne présentent aucune difficulté.