Exercices sur le chapitre 6
L’enquête faite par Les Trois Redoutes a donné
des informations sur 500 clients de l’entreprise (fichier achacorr.par). On
rappelle ci-dessous les résultats numériques :
Achats de |
1993 |
Achats de |
1994 |
Différences |
1994 – 1993 |
Classes |
Effectifs |
Classes |
Effectifs |
Classes |
Effectifs |
[1000 , 1600 [ |
41 |
[ 700 , 1600 [ |
29 |
[-1100 , -600 [ |
8 |
[1600 , 1900 [ |
51 |
[1600 , 1900 [ |
64 |
[-600 , -400 [ |
21 |
[1900 , 2200 [ |
98 |
[1900 , 2200 [ |
88 |
[-400 , -100 [ |
125 |
[2200 , 2500 [ |
118 |
[2200 , 2500 [ |
109 |
[-100 , 100 [ |
127 |
[2500 , 2800 [ |
99 |
[2500 , 2800 [ |
95 |
[100 , 400 [ |
147 |
[2800 , 3100 [ |
63 |
[2800 , 3100 [ |
62 |
[400 , 600 [ |
53 |
[3100 , 3800 [ |
30 |
[3100 , 4000 [ |
53 |
[600 , 1100 [ |
19 |
|
moyenne |
variance |
achats 1993 |
2340 |
256400 |
achats 1994 |
2400 |
290000 |
différence des achats |
60 |
89400 |
1) Effectuer des tests pour contrôler la normalité des répartitions des achats.
2) Contrôler l’hypothèse que la différence des achats suit une loi normale de moyenne nulle.
On donne ci-dessous la répartition de trois échantillons de taille N d’une loi de probabilité discrète quantitative.
k |
N = 50 |
N = 100 |
N = 500 |
0 |
0.120 |
0.210 |
0.158 |
1 |
0.420 |
0.360 |
0.382 |
2 |
0.380 |
0.230 |
0.314 |
3 |
0.060 |
0.180 |
0.120 |
4 |
0.020 |
0.020 |
0.022 |
5 |
|
|
0.004 |
1) Effectuer un test d’ajustement du c2 de la loi de Poisson de paramètre l (on prendra successivement comme valeur l la moyenne théorique et la moyenne observée).
2) Effectuer un test d’ajustement de la loi binomiale dont on choisira les paramètres.
On
considère l’âge des 50 clients d’EUROMARKET (fichier EUROMAR.PAR) :
n° |
âge |
n° |
âge |
n° |
âge |
n° |
âge |
n° |
âge |
1 |
51 |
11 |
28 |
21 |
40 |
31 |
68 |
41 |
39 |
2 |
39 |
12 |
45 |
22 |
38 |
32 |
26 |
42 |
38 |
3 |
39 |
13 |
37 |
23 |
41 |
33 |
48 |
43 |
67 |
4 |
35 |
14 |
48 |
24 |
40 |
34 |
40 |
44 |
43 |
5 |
38 |
15 |
31 |
25 |
62 |
35 |
36 |
45 |
39 |
6 |
29 |
16 |
37 |
26 |
45 |
36 |
40 |
46 |
30 |
7 |
31 |
17 |
39 |
27 |
43 |
37 |
24 |
47 |
42 |
8 |
53 |
18 |
29 |
28 |
48 |
38 |
41 |
48 |
34 |
9 |
29 |
19 |
42 |
29 |
34 |
39 |
42 |
49 |
33 |
10 |
57 |
20 |
41 |
30 |
33 |
40 |
37 |
50 |
34 |
1) Calculer la moyenne, la variance et l’écart type. Répartir les observations suivant leur taille par rapport à la moyenne (on utilisera la règle donnée dans le cours).
2) Construire l’histogramme suivant la
répartition donnée ci-dessous :
[20, 30 [ |
[30, 35 [ |
[ 35, 40 [ |
[ 40, 45 [ |
[ 45, 60 ] |
Les coefficients d’asymétrie et d’aplatissement sont cas = 0.289 , cap = 3.125. Est-ce conforme aux résultats de la première question et à la forme de l’histogramme ?
3) La loi de probabilité de l’âge peut-elle être la loi normale (on effectuera un test d’ajustement du c2 ) ?
4) Donner les
intervalles de confiance de la moyenne et de la variance (on choisira
a
= 0.05). Expliquer la confiance que l’on peut avoir en eux.
On considère un échantillon de 1000 électeurs que l’on interroge sur leur catégorie socioprofessionnelle et leur opinion politique (les données sont totalement imaginaires).
Les opinions politiques sont classées de la
façon suivante :
1 : Extrême Droite (ED) 1 |
2 : Droite (D): 2 |
3 : Centre (C) : 3 |
4 : Gauche (G) : 4 |
5 : Extrême gauche (EG) : 5 |
6 : Verts (V) : 6 |
|
|
ED |
D |
C |
G |
EG |
V |
|
|
1 |
2 |
3 |
4 |
5 |
6 |
Agriculteur |
1 |
4 |
20 |
3 |
21 |
5 |
4 |
Ouvrier |
2 |
27 |
46 |
23 |
53 |
18 |
41 |
Employé |
3 |
46 |
92 |
38 |
108 |
41 |
54 |
Cadres moyens |
4 |
10 |
57 |
18 |
60 |
17 |
30 |
Cadres supérieurs |
5 |
6 |
27 |
5 |
27 |
12 |
8 |
Commerçants, artisans |
6 |
2 |
12 |
6 |
9 |
3 |
4 |
Inactifs, retraités … |
7 |
4 |
9 |
3 |
13 |
6 |
8 |
Dans les calculs demandés ci-dessous, on donnera les résultats en pourcentages.
1) Calculer les répartitions des électeurs suivant (i) la catégorie socioprofessionnelle (ii) l’opinion politique.
2) Calculer la répartition (i) des électeurs de gauche suivant la catégorie socioprofessionnelle (ii) des ouvriers suivant leur opinion politique.
3) Construire des représentations graphiques mettant en évidence les caractéristiques des deux répartitions précédentes.
4) On note pi. la proportion marginale d’électeurs de la catégorie socioprofessionnelle i et pji la proportion, au sein de cette catégorie professionnelle, d’électeurs d’opinion politique j. Calculer la somme
7
S pi. pji
i = 1
pour j = 2. Étendre la propriété constatée au cas général et l’exprimer clairement.
5) Compléter le tableau des effectifs théoriques donné ci-dessous :
|
1 |
2 |
3 |
4 |
5 |
6 |
1 |
5.64 |
14.99 |
5.47 |
16.59 |
|
8.49 |
2 |
20.59 |
54.70 |
19.97 |
60.53 |
21.22 |
30.99 |
3 |
37.52 |
99.68 |
36.38 |
110.29 |
38.66 |
56.47 |
4 |
19.01 |
|
18.43 |
55.87 |
19.58 |
28.61 |
5 |
|
22.35 |
8.16 |
24.74 |
8.67 |
12.67 |
6 |
3.56 |
9.47 |
3.46 |
|
3.67 |
5.36 |
7 |
4.26 |
11.31 |
4.13 |
12.51 |
4.39 |
6.41 |
6) Compléter le tableau ci-dessous donnant pour chaque ligne et chaque colonne le terme xi,j2 = (ni,j – n pi. p.j)2/(n pi.p.j) avec les notations habituelles :
|
1 |
2 |
3 |
4 |
5 |
6 |
1 |
0.4784 |
1.6737 |
1.1167 |
|
0.1140 |
2.3769 |
2 |
|
1.3849 |
0.4604 |
0.9363 |
0.4875 |
3.2318 |
3 |
1.9161 |
0.5913 |
0.0718 |
0.0475 |
0.1419 |
0.1081 |
4 |
|
0.8377 |
0.0101 |
0.3050 |
0.3409 |
0.0677 |
5 |
0.6931 |
0.9652 |
1.2237 |
0.2074 |
|
1.7183 |
6 |
0.6863 |
|
1.8727 |
0.2080 |
0.1230 |
0.3468 |
7 |
0.0155 |
0.4714 |
0.3082 |
0.0190 |
0.5939 |
0.3961 |
7) Donner la formule de la statistique X2 utilisée pour effectuer le test d’indépendance du c2. Quel est le degré de liberté ? Quelle est l’hypothèse nulle ?
Calculer la valeur x² de X². Rejette-t-on l’hypothèse nulle pour un risque de première espèce égal à 0.05 ? (on pourra utiliser une table statistique ou un logiciel). Peut-on affirmer que les deux critères sont indépendants ?
8) Quelles sont les catégories socioprofessionnelles et les opinions politiques qui interviennent le plus dans la liaison mise en évidence dans le tableau de données ?
On a défini dans l’exercice VIII du chapitre 4 une variable aléatoire X dont la densité est donnée par la fonction :
pour tout x Î [-1, 1] |
f(x) = 3 x2 / 2 |
On a calculé les probabilités ci-dessous (exercice 9 du chapitre 4):
P(XÎ[-1, -3/4] ) = 0.2890625 |
P(XÎ[-3/4, -1/2] ) = 0.1484375 |
P(XÎ[-1/2, -1/4] ) = 0.0546875 |
P(XÎ[-1/4, 0] ) = 0.0078125 |
1) On donne ci-dessous la répartition d’un échantillon E de taille 200 suivant les classes précédentes. Construire l’histogramme, et superposer la courbe représentative de la densité f(x) précédente. Y-a-il adéquation entre la courbe et l’histogramme ?
2) Effectuer un test du c2 pour vérifier la réponse à la question précédente, en choisissant un risque de première espèce égal à 0.05.
3) Les échantillon E1, E2, E3, …, , E100 ont été créés de façon à respecter la loi de la v.a. X. Dans quelle proportion approximative ces échantillons sont-ils en contradiction avec cette loi, si on applique le test précédent à chacun d’entre eux ? Peut-on donner un intervalle dans lequel se trouve probablement le nombre de ces échantillons ?
4) On considère l’estimateur empirique M de la moyenne m de la v.a. X. Quelles sont la moyenne et la variance théoriques de M ? Le tableau en annexe ci-dessous donne un échantillon de la v.a. M. Construire graphiquement l’histogramme. La densité estimée est-elle proche de la densité de la loi normale ?
Annexe
Classe |
effectif |
Classe |
effectif |
[-1.00, -0.75 [ |
66 |
[ 0.00, 0.25 [ |
2 |
[-0.75, -0.50 [ |
28 |
[ 0.25 , 0.50 [ |
10 |
[-0.50, -0.25 [ |
8 |
[ 0.50 , 0.75 [ |
36 |
[-0.25, 0.00 [ |
2 |
[0.75 ,1.00[ |
54 |
Échantillon de taille 200 de la v.a. X
Intervalle |
effectif |
[-0.1171 , -0.0610 [ |
13 |
[-0.0610 , -0.0049 [ |
32 |
[-0.0049 , 0.0512 [ |
33 |
[0.0512 , 0.1073 [ |
17 |
[0.1073 , 0.1633 [ |
5 |
Répartition des moyennes de 100 échantillons
en 5 classes de même longueur
Rappelons que pour chaque modèle des 67 voiture notées par les journalistes, on dispose initialement de 15 notes dont les onze premières ont pour moyenne la qualité générale, et les quatre dernière le coût global. On rappelle la moyenne et l’écart-type de ces deux variables :
|
Moyenne |
écart-type |
Qualité générale |
15.140 |
1.117 |
coût global |
12.851 |
2.358 |
On donne ci-dessous les répartitions des
notes de qualité générale et de coût global :
Répartition des notes de qualité: |
Répartition des notes de coût : |
||||||
Classe |
eff. |
% |
densité |
Classe |
eff. |
% |
densité |
[12, 14 [ |
11 |
16.42 |
0.082 |
[5, 8 [ |
5 |
7.46 |
0.025 |
[14, 15 [ |
17 |
25.37 |
0.254 |
[8, 10 [ |
1 |
1.49 |
0.008 |
[15, 16 [ |
22 |
32.84 |
0.328 |
[10, 12 [ |
9 |
13.43 |
0.067 |
[16, 17 [ |
14 |
20.90 |
0.209 |
[12, 14 [ |
33 |
49.25 |
0.246 |
[17, 19 [ |
3 |
4.48 |
0.022 |
[14, 17 [ |
19 |
28.36 |
0.095 |
1) Calculer sur les données classées
les moyennes et variances
des notes, en caractérisant chaque classe par son centre. Comparer ces
estimations aux valeurs calculées sur les données individuelles :
|
Moyenne |
Variance |
écart-type |
Qualité générale |
15.13976 |
1.24715 |
1.11676 |
coût global |
12.85075 |
5.56168 |
2.35832 |
2) En déduire les intervalles de confiance des moyennes pour un niveau de confiance de 95% . Ces intervalles de confiance ont-ils un sens ?
3) La loi normale est-elle une loi vraisemblable pour chacune de ces variables ?