SIMULATION D’ECHANTILLONS
T.
Foucart
Département
Techniques de Commercialisation
Institut
Universitaire de Technologie
Poitiers-
Chatellerault
Département
de Mathématiques
UFR
Sciences
Université
de Poitiers
La simulation d’échantillons a pour objectif de créer des
données vérifiant a priori une hypothèse sur la nature de leur loi de probabilité et sur la valeur des paramètres, que l’on pourra mettre en évidence à l’aide
des méthodes statistiques appropriées.
La liste des traitements disponibles, obtenue par le
programme \STATPC\MENUSIM.EXE sous DOS, est la suivante:
Traitements disponibles
Simulation de lois de probabilité................1
Simulation d'un échantillon multidimensionnel....2
Simulation d'un modèle multilinéaire.............3
Tirage aléatoire dans un tableau.................4
Simulation de chroniques et de processus.........5
1. Simulation de lois de probabilité
La liste des lois de probabilité élémentaires que l’on peut
simuler est donnée dans le menu LOIPROB.EXE ci-dessous:
SIMULATION
DE LOIS DE PROBABILITE
-------------------------------------------------------------------------------
Rangs, types et effectifs des séries déjà
simulées:
Aucune loi simulée.
-------------------------------------------------------------------------------
Loi normale 1 ¦ Loi binomiale 2
Loi de Poisson 3 ¦ Loi Gamma entière 4
Loi Beta1 entière 5 ¦ Loi Beta2 6
Loi de Cauchy 7 ¦ Loi Uniforme discrète 8
Loi uniforme continue 9 ¦ Loi géométrique 10
-------------------------------------------------------------------------------
Moyennes et variances 11¦ Histogramme 12
-------------------------------------------------------------------------------
Sauvegarde S¦ Edition E
Fin du traitement F¦ Votre choix ?
La procédure est toujours la même: on choisit une loi de
probabilité et l’on obtient l’écran ci-dessous:
Rangs, types et effectifs des séries déjà simulées:
1 Loi binomiale eff. 100 /
-------------------------------------------------------------------------------
LOI NORMALE
Retour au menu 0
Simulation d'un échantillon particulier 1
Simulation d'échantillons de même loi et de même
effectif 2
Simulation d'échantillons de même loi et d'effectif
différent 3
?
Les premières lignes de l’écran rappellent les simulations
précédentes: un échantillon d’une loi binomiale d’effectif 100 figure ici en
colonne (ou rang) 1 du tableau.
On peut ensuite choisir la simulation d’un échantillon
particulier. On précise :
Rang de la série à simuler? 2
Nombre de réalisations? 150
Moyenne, écart-type de la série de rang 2 (0,1 par ex.)? 10,2
Le nombre de réalisations (ou effectifs) n’est pas
nécessairement le même que les précédents. Si le rang précisé est celui d’une
colonne contenant déjà un échantillon, ce dernier est remplacé par le nouveau;
ici, par exemple, en indiquant un rang égal à 1, on remplacerait l’échantillon
de la loi binomiale par celui de la loi normale. Pour définir les
paramètres moyenne et écart-type, il
est indispensable de respecter la syntaxe indiquée: ici, on frappe les
caractères “ 10 , 2 ” suivis de la touche Retour chariot
En choisissant la simulation d’échantillons de même loi et
de même effectif, il faut indiquer le nombre d’échantillons désirés; les
échantillons sont sauvegardés chacun dans une colonne du tableau, la première
étant de rang 1. Les échantillons déjà générés risquent ainsi d’être détruits.
Le choix d’échantillons de même loi et d’effectifs
différents nécessite en outre la saisie de ces effectifs. Les échantillons sont
toujours stockés à partir du rang 1 dans le tableau.
On peut créer ainsi un tableau contenant 500 lignes et 30
colonnes. Le temps de calcul est variable suivant la loi simulée et le matériel
utilisé. Sur un DX2 50, la simulation de 30 échantillons de 500 termes (soit
les dimensions maximales) d’un loi normale dure environ 10 secondes
(l’algorithme utilisé est basé sur le théorème de la limite centrée).
Les quatre dernières options concernent la description des échantillons simulés: on
peut en éditer les moyennes et les variances observées et théoriques (si elles
existent):
MOYENNES ET VARIANCES THEORIQUES ET OBSERVEES
Rang type
effectifs moyennes variances
observées théoriques observées théoriques
1 1
100 -.1668095 0 1.164936 1
2 1
150 -5.294844E-02 0 .9022423
1
3 2
200 1.47 1.5 .9490998
1.05
4 7
50 -.5611675 9.999999E+37 129.3762
9.999999E+37
On peut aussi les répartir dans des classes et en
construire l’histogramme (en mode graphique) ou les représenter sous forme de
diagramme en bâtons lorsqu’elles sont discrètes:
HISTOGRAMME
------------
Loi normale en colonne 1 d'effectif
100
Moyenne et
écart-type théoriques: 0 1
Définition des
classes: Retour au menu 0
Automatique 1
Utilisateur 2
Effectifs égaux 3
Déjà faite 4
? 1
Nombre de
classes (<=20)? 5
La sauvegarde
consiste à créer un fichier contenant les données (jusqu’au plus petit nombre
d’observations simulées) et un fichier
de paramètres associé.
L’option A permet de sélectionner un autre programme de
simulation dans le menu ci-dessous:
SIMULATION DE LOIS DE PROBABILITE
--------------------------------------------------------------------------------
Lois de probabilité classiques 1¦ Lois multidimensionnelles 2
Chroniques et processus 3¦ Modèle multilinéaire 4
Tirage aléatoire dans un tableau 5¦ Simulation de chroniques 6
--------------------------------------------------------------------------------
Commande du DOS D¦ Fin de l’exécution F
Couleur de l’écran, carte graphique C¦ Votre choix ?
En appuyant sur les touches Echappement (Esc) et Retour
Chariot (Return), on retourne au menu initial sans perte de données.
Nous retrouverons ce menu dans tous les programmes de
simulation.
2. Simulation d'un ECHANTILLON MULTIDIMENSIONNEL
L’exécution du programme MULTECH.EXE a pour effet
l’affichage du menu suivant:
Simulation d'un échantillon multidimensionnel
---------------------------------------------
Choix des paramètres 1¦ Simulation du modèle 2
Edition des paramètres 3¦ Edition du tableau 4
-------------------------------------------------------------------------------
Sauvegarde du tableau simulé S¦ Autre programme de simulation A
Commande/ du DOS D¦ Fin du traitement F
Votre choix ?
·
L’option 1 consiste à choisir le nombre de
variables; le programme en déduit le nombre maximum de lignes d’un tableau
qu’il peut créer.
Simulation
d'un échantillon multidimensionnel
Nombre de
variables (de 2 à 20, F: Fin) ? 5
Le programme
permet de simuler un tableau de 5
colonnes
et de
1023 lignes.
Le nombre de
lignes est précisé ultérieurement.
Si le nombre de lignes du tableau que l’on peut simuler est
suffisant (1023 pour 5 colonnes), on définit les identificateurs, les moyennes
et les variances des variables à générer (les paramètres implicites X1, X2,
pour les identificateurs, 0 et 1 pour les moyennes et variances sont obtenues
par un simple Retour Chariot).
Saisie des moyennes et variances des 5 variables
Identificateur Moyenne Variance Confirmer
par C
var. 1 X1 ? AGE 0? 35
1? 2 ? c
var. 2 X2 ? REVENU 0? 8700
1? 10000 ? c
var. 3 X3 ?
...
On donne ensuite les coefficients de corrélation suivant
les lignes de la demi-matrice: r2,1, r3,1 , r3,2 ,
r4,1 , r4,2 r4,3
etc..., en respectant les valeurs minimale et maximale indiquées de façon que
la matrice soit symétrique semi-définie positive. Tous les calculs sont
effectués en double précision.
Coefficient de corrélation entre les variables X5 et
X3
X1 /X2
/X3 /X5 /
X1 1.000
X2 0.500
1.000
X3 0.600
0.700 1.000
X5 0.300
0.800 1.000
Le coefficient
doit être > .1420745306171745 et
< .9112588027161588 ? 0.5
·
L’option 2 consiste à simuler le modèle:
Simulation d'un tableau de données conformes aux
paramètres
Simulation d'une
loi multinormale:
Retour chariot
Lecture d'un
fichier: nom du fichier? CAUCHY.DAT
On peut créer un échantillon multinormal, ou relire un
fichier contenant un échantillon quelconque déjà créé, par exemple un
échantillon d’une loi de Cauchy. Ce fichier doit évidemment contenir le nombre
de variables défini précédemment, et le nombre de lignes doit être inférieur ou
égal au nombre de lignes maximal affiché auparavant.
Le programme traite alors les données de façon à fournir un
échantillon dont les moyennes, les variances et les corrélations sont
exactement celles qui ont été données.
Pour un petit nombre de variables, les calculs, dont chaque étape est
affichée à l’écran (cf. paragraphe suivant), sont très rapides.
Les autres options ne présentent pas de difficulté.
3. Simulation d'un modèle multilinéaire
Le menu initial de la simulation d’un modèle multilinéaire
(programme MODLIN) est le même que le précédent. En fait, les programmes
diffèrent par les paramètres à choisir et les résultats fournis:
·
Par l’option 1, on définit le nombre de
variables explicatives; ensuite, on choisit le nombre de variables expliquées,
ceci permettant de disposer de plusieurs échantillons pour les mêmes valeurs
des variables explicatives. Le nombre total de variables ne doit pas dépasser
60 (les calculs sont effectués en double précision) et le nombre maximal de
lignes est calculé et affiché par le programme.
Simulation d'un modèle linéaire
Nombre de variables explicatives du modèle (de 2 à 20,
F: Fin) ? 5
Nombre de variables expliquées (de 1 à 55 ) ? 10
Nombre de lignes du tableau (de 10 à 454) ? 50
Coefficient de détermination (>0 et <=1) ? .8
Les variables explicatives sont a priori centrées et
réduites: les coefficients de régression sont choisis en tenant compte de cette
particularité:
Nombre de variables explicatives: 5
Saisie
des coefficients de régression sur les variables réduites:
Indiquer un
nom de fichier ou tapez sur Enter pour la saisie au clavier.
?
Coefficient de
la variable de rang 1
? .5
Coefficient de
la variable de rang 2
? -.5
Coefficient de
la variable de rang 3
? .8
Coefficient de
la variable de rang 4
? -.7
Coefficient de
la variable de rang 5
? .9
On saisit ensuite la matrice des corrélations entre les
variables explicatives de la même façon que dans le programme précédent.
Coefficient de
corrélation entre les variables 5 et 4
1 2
3 4 5
1 1.000
2 0.500 1.000
3 0.300 0.400
1.000
4-0.500 0.300
0.200 1.000
5 0.300 0.500
0.400 1.000
Le coefficient
doit être >-.3229694029108743 et
< .6142597254915194 ? .2
·
L’option 2 consiste à simuler
l’échantillon, en générant une loi multinormale ou en relisant un fichier
contenant des données déjà créées. La durée des calculs dépend du nombre de
variables explicatives.
Nous donnons ci-dessous la liste des calculs effectués:
Calculs en cours:
Calcul des covariances observées
Diagonalisation de la matrice de
covariance observée
Calcul des composantes principales
Calcul de la transformation linéaire à
effectuer
Calcul de l'échantillon de matrice de
corrélation fixée
Calcul des covariances entre variables
explicatives et variables expliquées
Calcul de la matrice inverse de la matrice
des corrélations donnée
Calcul des coefficients de régression pour
chaque variable expliquée
On rappelle que les paramètres statistiques des variables
explicatives: moyennes, variances et coefficients de corrélation, sont
exactement égaux aux valeurs théoriques précisées.
·
On peut alors éditer les paramètres par
l’option 3::
Paramètres de la simulation
Corrélations théoriques entre les variables 1
Corrélations entre les var. explicatives et les var. expliquées 2
Coefficients de régression 3
Retour au
menu initial RC
?
La première option de ce menu donne les corrélations
théoriques entre les variables; en ligne et en colonne 0, on peut lire les
corrélations théoriques entre la variable expliquée et les variables
explicatives, et le terme 0,0 est le coefficient de détermination.
Corrélations théoriques (ligne et col. 0: variable
expliquée, en 0,0: R2)
0 1
2 3 4 5
0 0.800 0.617
0.172 0.539-0.422 0.545
1 0.617 1.000
0.500 0.300-0.500 0.300
2 0.172 0.500
1.000 0.400 0.300 0.500
3 0.539 0.300
0.400 1.000 0.200 0.400
4-0.422-0.500
0.300 0.200 1.000 0.200
5 0.545 0.300
0.500 0.400 0.200 1.000
La deuxième option donne les corrélations obtenues par la
simulation entre les 5 variables explicatives du modèle (numérotées de 1 à 5)
et les variables expliquées demandées (numérotées de 6 à 15):
Corrélations entre var. explicatives (colonnes) et
var. expliquées (lignes)
1 2
3 4 5
6 0.579 0.111
0.491-0.434 0.570
7 0.644 0.249
0.642-0.309 0.582
8 0.644 0.255
0.518-0.418 0.608
9 0.526 0.090
0.552-0.433 0.512
10 0.665 0.158 0.558-0.429 0.501
11 0.571 0.167 0.538-0.402 0.580
12 0.557 0.084 0.564-0.486 0.460
13 0.628 0.125 0.503-0.456 0.439
14 0.679 0.254 0.572-0.425 0.526
15 0.655 0.222 0.606-0.390 0.531
La troisième option donne les coefficients des régressions
des variables expliquées (ici, 10) par les variables explicatives (ici 5). On
notera que les variables explicatives prennent les mêmes valeurs dans les 10
échantillons.
Coefficients de régression en ligne (théoriques en ligne
0)
1 2
3 4 5
0 0.500-0.500
0.800-0.700 0.900
1 0.503-0.670
0.735-0.717 1.091
2 0.814-0.641
0.920-0.323 0.844
3 0.361-0.247
0.725-0.887 1.047
4 0.175-0.516
1.024-0.993 0.981
5 0.874-0.735
0.824-0.442 0.772
6 0.295-0.443
0.845-0.850 1.049
7 0.141-0.411
1.024-1.035 0.783
8 0.686-0.592
0.760-0.567 0.671
9 0.500-0.281
0.777-0.674 0.697
10 0.627-0.482 0.865-0.534 0.731
Les autres options ne présentent aucune difficulté.
4. TIRAGE ALEATOIRE DANS UN TABLEAU
Le programme de tirage aléatoire dans un tableau
(TIRSIM.EXE) a pour objectif de construire un échantillon aléatoire d’une
population recensée sous la forme d’un tableau de données quantitatives. Il
peut être utilisé dans le cadre du bootstrap par exemple.
Le menu initial est le suivant:
Tirage aléatoire dans un tableau de données
Fichier:
\data\process ¦ Colonne(s): 11 Lignes: 33
-------------------------------------------------------------------------------
Liste des
variables en mémoire:
X1 1¦ X2
2¦ X3 3¦ X4 4¦ X5
5¦ X6 6¦ X7 7¦ X8
8¦
X9 9¦ X10
10¦ X11 11¦
-------------------------------------------------------------------------------
Echantillon en
mémoire:
Nombre de
lignes: 11 de colonnes: 11 (tirage sans
remise)
-------------------------------------------------------------------------------
Autre tableau
de données 1 ¦ Edition du
tableau 2
Tirage sans
remise 3 ¦ Tirage avec
remise 4
Paramètres
stat. de l'échantillon 5 ¦ Paramètres
stat. de la population 6
Superposition
des histogrammes 7 ¦ Sauvegarde de
l'échantillon 8
-------------------------------------------------------------------------------
Commande du
DOS D ¦ Autre programme de simulation A
Fin de
l'exécution F ¦ ?
·
L’option 1 est l’option habituelle: elle
permet de préciser le tableau de données au sein duquel le tirage doit être effectué,
soit en indiquant directement le
fichier de paramètres, soit en précisant ces derniers au clavier. Ce
fichier est a priori celui dont les paramètres sont donnés dans le fichier
DATASIM.PAR.
·
L’option 3 correspond au tirage sans
remise: une ligne du tableau ne peut figurer plusieurs fois dans l’échantillon. L’effectif de
l’échantillon doit être inférieur au nombre de lignes du tableau entier.
Taille
de l'échantillon à tirer (<= 33 )? 11
----------------------------------------------------------------------------
Lignes tirées:
2
4 20 14 23 17
12 24 19 5 9
·
Dans l’option 4, une ligne peut figurer
plusieurs fois dans l’échantillon, et la taille de l’échantillon est limitée à
500:
Taille de l'échantillon à tirer (de 1 à 500)? 50
-------------------------------------------------------------------------------
Lignes tirées:
19 32
14 3 8 28 17
1 4 8 12 22
32 29 12 4 11
22 12 7 31
15 12
9 25 3 15 13
24 20 32 22 15
28 4 32 17 3
17 25 17 6
6 9
29 25 24 29 17
26
·
L’option 5 donne les paramètres
statistiques principaux de l’échantillon, et l’option 6 ceux de la population.
·
Par l’option 7, on peut superposer les
histogrammes définis par les même classes, le premier étant calculé sur la
population et le second sur l’échantillon.
·
L’option 8 est une option de sauvegarde:
on peut sauvegarder l’échantillon sur un fichier, créer un fichier de
paramètres, et, dans le cas où l’échantillon a été créé par un tirage sans
remise, sauvegarder de la même façon les lignes du tableau qui n’y figurent
pas.
Les autres options ne présentent aucune difficulté.