Exercices sur le chapitre 6

1. normalité des achats

L’enquête faite par Les Trois Redoutes a donné des informations sur 500 clients de l’entreprise (fichier achacorr.par). On rappelle ci-dessous les résultats numériques :

Achats de	1993	Achats de	1994	Différences	1994 – 1993
Classes	Effectifs	Classes	Effectifs	Classes	Effectifs
[1000 , 1600 [	41	[ 700 , 1600 [	29	[-1100 , -600 [	8
[1600 , 1900 [	51	[1600 , 1900 [	64	[-600 , -400 [	21
[1900 , 2200 [	98	[1900 , 2200 [	88	[-400 , -100 [	125
[2200 , 2500 [	118	[2200 , 2500 [	109	[-100 , 100 [	127
[2500 , 2800 [	99	[2500 , 2800 [	95	[100 , 400 [	147
[2800 , 3100 [	63	[2800 , 3100 [	62	[400 , 600 [	53
[3100 , 3800 [	30	[3100 , 4000 [	53	[600 , 1100 [	19

	moyenne	variance
achats 1993	2340	256400
achats 1994	2400	290000
différence des achats	60	89400

1) Effectuer des tests pour contrôler la normalité des répartitions des achats.

2) Contrôler l’hypothèse que la différence des achats suit une loi normale de moyenne nulle.

2.Tests d’ajustement sur les lois discrètes.

On donne ci-dessous la répartition de trois échantillons de taille N d’une loi de probabilité discrète quantitative.

k	N = 50	N = 100	N = 500
0	0.120	0.210	0.158
1	0.420	0.360	0.382
2	0.380	0.230	0.314
3	0.060	0.180	0.120
4	0.020	0.020	0.022
5			0.004

1) Effectuer un test d’ajustement du c² de la loi de Poisson de paramètre l (on prendra successivement comme valeur l la moyenne théorique et la moyenne observée).

2) Effectuer un test d’ajustement de la loi binomiale dont on choisira les paramètres.

3. Intervalles de confiance et tests d’ajustement.

On considère l’âge des 50 clients d’EUROMARKET (fichier EUROMAR.PAR) :

n°	âge	n°	âge	n°	âge	n°	âge	n°	âge
1	51	11	28	21	40	31	68	41	39
2	39	12	45	22	38	32	26	42	38
3	39	13	37	23	41	33	48	43	67
4	35	14	48	24	40	34	40	44	43
5	38	15	31	25	62	35	36	45	39
6	29	16	37	26	45	36	40	46	30
7	31	17	39	27	43	37	24	47	42
8	53	18	29	28	48	38	41	48	34
9	29	19	42	29	34	39	42	49	33
10	57	20	41	30	33	40	37	50	34

1) Calculer la moyenne, la variance et l’écart type. Répartir les observations suivant leur taille par rapport à la moyenne (on utilisera la rè g l e donnée dans le cours).

2) Construire l’histogramme suivant la répartition donnée ci-dessous:

[20, 30 [

[30, 35 [

[ 35, 40 [

[ 40, 45 [

[ 45, 60 ]

Les coefficients d’asymétrie et d’aplatissement sont c_as = 0.289 , c_ap = 3.125. Est-ce conforme aux résultats de la première question et à la forme de l’histogramme ?

3) La loi de probabilité de l’âge peut-elle être la loi normale (on effectuera un test d’ajustement du c² ) ?

4) Donner les intervalles de confiance de la mo yenne et de la vari ance (on choisira
a = 0.05). Expliquer la confiance que l’on peut avoir en eux.

4. Test d’indépendance du c2.

On considère un échantillon de 1000 électeurs que l’on interroge sur leur catégorie socioprofessionnelle et leur opinion politique (les données sont totalement imaginaires).

Les opinions politiques sont classées de la façon suivante :

1 : Extrême Droite (ED) 1	2 : Droite (D): 2
3 : Centre (C) : 3	4 : Gauche (G) : 4
5 : Extrême gauche (EG) : 5	6 : Verts (V) : 6

		ED	D	C	G	EG	V
		1	2	3	4	5	6
Agriculteur	1	4	20	3	21	5	4
Ouvrier	2	27	46	23	53	18	41
Employé	3	46	92	38	108	41	54
Cadres moyens	4	10	57	18	60	17	30
Cadres supérieurs	5	6	27	5	27	12	8
Commerçants, artisans	6	2	12	6	9	3	4
Inactifs, retraités …	7	4	9	3	13	6	8

Dans les calculs demandés ci-dessous, on donnera les résultats en pourcentages.

1) Calculer les répartitions des électeurs suivant (i) la catégorie socioprofessionnelle (ii) l’opinion politique.

2) Calculer la répartition (i) des électeurs de gauche suivant la catégorie socioprofessionnelle (ii) des ouvriers suivant leur opinion politique.

3) Construire des représentations graphiques mettant en évidence les caractéristiques des deux répartitions précédentes.

4) On note p_i. la proportion m arginale d’électeurs de la catégorie socioprofessionnelle i et p_jⁱ la proportion, au sein de cette catégorie professionnelle, d’électeurs d’opinion politique j. Calculer la somme

S p_i. p_jⁱ

i = 1

pour j = 2. Étendre la propriété constatée au cas général et l’exprimer clairement.

5) Compléter le tableau des effectifs théoriques donné ci-dessous :

	1	2	3	4	5	6
1	5.64	14.99	5.47	16.59		8.49
2	20.59	54.70	19.97	60.53	21.22	30.99
3	37.52	99.68	36.38	110.29	38.66	56.47
4	19.01		18.43	55.87	19.58	28.61
5		22.35	8.16	24.74	8.67	12.67
6	3.56	9.47	3.46		3.67	5.36
7	4.26	11.31	4.13	12.51	4.39	6.41

6) Compléter le tableau ci-dessous donnant pour chaque ligne et chaque colonne le terme x_i,j² = (n_i,j – n p_i. p_.j)²/(n p_i.p_.j) avec les notations habituelles :

	1	2	3	4	5	6
1	0.4784	1.6737	1.1167		0.1140	2.3769
2		1.3849	0.4604	0.9363	0.4875	3.2318
3	1.9161	0.5913	0.0718	0.0475	0.1419	0.1081
4		0.8377	0.0101	0.3050	0.3409	0.0677
5	0.6931	0.9652	1.2237	0.2074		1.7183
6	0.6863		1.8727	0.2080	0.1230	0.3468
7	0.0155	0.4714	0.3082	0.0190	0.5939	0.3961

7) Donner la formule de la statistique X² utilisée pour effectuer le test d’indépendance du c². Quel est le degré de liberté ? Quelle est l’hypothèse nulle ?

Calculer la valeur x² de X². Rejette-t-on l’hypothèse nulle pour un risque de première espèce égal à 0.05 ? (on pourra utiliser une table statistique ou un logiciel). Peut-on affirmer que les deux critères sont indépendants ?

8) Quelles sont les catégories socioprofessionnelles et les opinions politiques qui interviennent le plus dans la liaison mise en évidence dans le tableau de données ?

5. Théorème de la limite centrale et test du c².

On a défini dans l’exercice VIII du chapitre 4 une variable aléatoire X dont la densité est donnée par la fonction :

pour tout x Î [-1, 1]	f(x) = 3 x² / 2
pour tout x Ï [-1,1]	f(x) = 0

On a calculé les probabilités ci-dessous (exercice 9 du chapitre 4):

P(XÎ[-1, -3/4] ) = 0.2890625	P(XÎ[-3/4, -1/2] ) = 0.1484375
P(XÎ[-1/2, -1/4] ) = 0.0546875	P(XÎ[-1/4, 0] ) = 0.0078125

1) On donne ci-dessous la répartition d’un échantillon E de taille 200 suivant les classes précédentes. Construire l’histogramme, et superposer la courbe représentative de la densité f(x) précédente. Y-a-il adéquation entre la courbe et l’histogramme ?

2) Effectuer un test du c² pour vérifier la réponse à la question précédente, en choisissant un risque de première espèce égal à 0.05.

3) Les échantillon E_1,E_2,E_{3, …, ,}E₁₀₀ ont été créés de façon à respecter la loi de la v.a. X. Dans quelle proportion approximative ces échantillons sont-ils en contradiction avec cette loi, si on applique le test précédent à chacun d’entre eux ? Peut-on donner un intervalle dans lequel se trouve probablement le nombre de ces échantillons ?

4) On considère l’estimateur empirique M de la moyenne m de la v.a. X. Quelles sont la moyenne et la variance théoriques de M ? Le tableau en annexe ci-dessous donne un échantillon de la v.a. M. Construire graphiquement l’histogramme. La densité estimée est-elle proche de la densité de la loi normale ?

Annexe

Classe	effectif	Classe	effectif
[-1.00, -0.75 [	66	[ 0.00, 0.25 [	2
[-0.75, -0.50 [	28	[ 0.25 , 0.50 [	10
[-0.50, -0.25 [	8	[ 0.50 , 0.75 [	36
[-0.25, 0.00 [	2	[0.75 ,1.00[	54

Échantillon de taille 200 de la v.a. X

Intervalle	effectif
[-0.1171 , -0.0610 [	13
[-0.0610 , -0.0049 [	32
[-0.0049 , 0.0512 [	33
[0.0512 , 0.1073 [	17
[0.1073 , 0.1633 [	5

Répartition des moyennes de 100 échantillons

en 5 classes de même longueur

6. qualité et coût d’une automobile.

Rappelons que pour chaque modèle des 67 voiture notées par les journalistes, on dispose initialement de 15 notes dont les onze premières ont pour moyenne la qualité générale, et les quatre dernière le coût global. On rappelle la moyenne et l’écart-type de ces deux variables :

	Moyenne	écart-type
Qualité générale	15.140	1.117
coût global	12.851	2.358

On donne ci-dessous les répartitions des notes de qualité générale et de coût global :

Répartition des notes de qualité:				Répartition des notes de coût:
Classe	eff.	%	densité	Classe	eff.	%	densité
[12, 14 [	11	16.42	0.082	[5, 8 [	5	7.46	0.025
[14, 15 [	17	25.37	0.254	[8, 10 [	1	1.49	0.008
[15, 16 [	22	32.84	0.328	[10, 12 [	9	13.43	0.067
[16, 17 [	14	20.90	0.209	[12, 14 [	33	49.25	0.246
[17, 19 [	3	4.48	0.022	[14, 17 [	19	28.36	0.095

1) Calculer sur les donné es classées les moyennes et variances des notes, en caractérisant chaque classe par son centre. Comparer ces estimations aux valeurs calculées sur les données individuelles :

	Moyenne	Variance	écart-type
Qualité générale	15.13976	1.24715	1.11676
coût global	12.85075	5.56168	2.35832

2) En déduire les intervalles de confiance des moyen nes pour un niveau de confiance de 95% . Ces intervalles de confiance ont-ils un sens ?