Exercices sur le chapitre 6

1. normalité des achats

L’enquête faite par Les Trois Redoutes a donné des informations sur 500 clients de l’entreprise (fichier achacorr.par). On rappelle ci-dessous les résultats numériques :

Achats de

1993

Achats de

1994

Différences

1994 – 1993

Classes

Effectifs

Classes

Effectifs

Classes

Effectifs

[1000 , 1600 [

41

[ 700 , 1600 [

29

[-1100 , -600 [

8

[1600 , 1900 [

51

[1600 , 1900 [

64

[-600 , -400 [

21

[1900 , 2200 [

98

[1900 , 2200 [

88

[-400 , -100 [

125

[2200 , 2500 [

118

[2200 , 2500 [

109

[-100 , 100 [

127

[2500 , 2800 [

99

[2500 , 2800 [

95

[100 , 400 [

147

[2800 , 3100 [

63

[2800 , 3100 [

62

[400 , 600 [

53

[3100 , 3800 [

30

[3100 , 4000 [

53

[600 , 1100 [

19

 

 

moyenne

variance

achats 1993

2340

256400

achats 1994

2400

290000

différence des achats

60

89400

1) Effectuer des tests pour contrôler la normalité des répartitions des achats.

2) Contrôler l’hypothèse que la différence des achats suit une loi normale de moyenne nulle.

2.Tests d’ajustement sur les lois discrètes.

On donne ci-dessous la répartition de trois échantillons de taille N d’une loi de probabilité discrète quantitative.

k

N = 50

N = 100

N = 500

0

0.120

0.210

0.158

1

0.420

0.360

0.382

2

0.380

0.230

0.314

3

0.060

0.180

0.120

4

0.020

0.020

0.022

5

 

 

0.004

1) Effectuer un test d’ajustement du c2 de la loi de Poisson de paramètre l (on prendra successivement comme valeur l la moyenne théorique et la moyenne observée).

2) Effectuer un test d’ajustement de la loi binomiale dont on choisira les paramètres.

3. Intervalles de confiance et tests d’ajustement.

On considère l’âge des 50 clients d’EUROMARKET (fichier EUROMAR.PAR) :

âge

âge

âge

âge

âge

1

51

11

28

21

40

31

68

41

39

2

39

12

45

22

38

32

26

42

38

3

39

13

37

23

41

33

48

43

67

4

35

14

48

24

40

34

40

44

43

5

38

15

31

25

62

35

36

45

39

6

29

16

37

26

45

36

40

46

30

7

31

17

39

27

43

37

24

47

42

8

53

18

29

28

48

38

41

48

34

9

29

19

42

29

34

39

42

49

33

10

57

20

41

30

33

40

37

50

34

 

1) Calculer la moyenne, la variance et l’écart type. Répartir les observations suivant leur taille par rapport à la moyenne (on utilisera la gle donnée dans le cours).

2) Construire l’histogramme suivant la répartition donnée ci-dessous :

[20, 30 [

[30, 35 [

[ 35, 40 [

[ 40, 45 [

[ 45, 60 ]

Les coefficients d’asymétrie et d’aplatissement sont cas = 0.289 , cap = 3.125. Est-ce conforme aux résultats de la première question et à la forme de l’histogramme ?

3) La loi de probabilité de l’âge peut-elle être la loi normale (on effectuera un test d’ajustement du c2 ) ?

4) Donner les intervalles de confiance de la moyenne et de la variance (on choisira
a = 0.05). Expliquer la confiance que l’on peut avoir en eux.

4. Test d’indépendance du c2.

On considère un échantillon de 1000 électeurs que l’on interroge sur leur catégorie socioprofessionnelle et leur opinion politique (les données sont totalement imaginaires).

Les opinions politiques sont classées de la façon suivante :

1 : Extrême Droite (ED) 1

2 :  Droite (D): 2

3 :  Centre (C) : 3

 4 : Gauche (G) : 4

5 :  Extrême gauche (EG) : 5

 6 : Verts (V) : 6

 

 

 

ED

D

C

G

EG

V

 

 

1

2

3

4

5

6

Agriculteur

1

4

20

3

21

5

4

Ouvrier

2

27

46

23

53

18

41

Employé

3

46

92

38

108

41

54

Cadres moyens

4

10

57

18

60

17

30

Cadres supérieurs

5

6

27

5

27

12

8

Commerçants, artisans

6

2

12

6

9

3

4

Inactifs, retraités …

7

4

9

3

13

6

8

Dans les calculs demandés ci-dessous, on donnera les résultats en pourcentages.

1) Calculer les répartitions des électeurs suivant (i) la catégorie socioprofession­nelle (ii) l’opinion politique.

2) Calculer la répartition (i) des électeurs de gauche suivant la catégorie socioprofes­sionnelle (ii) des ouvriers suivant leur opinion politique.

3) Construire des représentations graphiques mettant en évidence les caractéristiques des deux répartitions précédentes.

4) On note pi. la proportion marginale d’électeurs de la catégorie socioprofessionnelle  i et pji la proportion, au sein de cette catégorie professionnelle, d’électeurs d’opinion politique j. Calculer la somme

7

S pi. pji

i = 1

pour j = 2. Étendre la propriété constatée au cas général et l’exprimer clairement.

5) Compléter le tableau des effectifs théoriques donné ci-dessous :

 

1

2

3

4

5

6

1

5.64

14.99

5.47

16.59

 

8.49

2

20.59

54.70

19.97

60.53

21.22

30.99

3

37.52

99.68

36.38

110.29

38.66

56.47

4

19.01

 

18.43

55.87

19.58

28.61

5

 

22.35

8.16

24.74

8.67

12.67

6

3.56

9.47

3.46

 

3.67

5.36

7

4.26

11.31

4.13

12.51

4.39

6.41

6) Compléter le tableau ci-dessous donnant pour chaque ligne et chaque colonne le terme xi,j2 = (ni,j – n pi. p.j)2/(n pi.p.j) avec les notations habituelles :

 

1

2

3

4

5

6

1

0.4784

1.6737

1.1167

 

0.1140

2.3769

2

 

1.3849

0.4604

0.9363

0.4875

3.2318

3

1.9161

0.5913

0.0718

0.0475

0.1419

0.1081

4

 

0.8377

0.0101

0.3050

0.3409

0.0677

5

0.6931

0.9652

1.2237

0.2074

 

1.7183

6

0.6863

 

1.8727

0.2080

0.1230

0.3468

7

0.0155

0.4714

0.3082

0.0190

0.5939

0.3961

7) Donner la formule de la statistique X2 utilisée pour effectuer le test d’indépendance du c2. Quel est le degré de liberté ? Quelle est l’hypothèse  nulle ?

Calculer la valeur x² de X². Rejette-t-on l’hypothèse nulle pour un risque de première espèce égal à 0.05 ? (on pourra utiliser une table statistique ou un logiciel). Peut-on affirmer que les deux critères sont indépendants ?

8) Quelles sont les catégories socioprofessionnelles et les opinions politiques qui interviennent le plus dans la liaison mise en évidence dans le tableau de données ?

5. Théorème de la limite centrale et test du c2.

On a défini dans l’exercice VIII du chapitre 4 une variable aléatoire X dont la densité est donnée par la fonction :

pour tout x Î [-1, 1]

f(x) = 3 x2 / 2

pour tout x Ï [-1,1]

f(x) = 0

On a calculé les probabilités ci-dessous (exercice 9 du chapitre 4):

P(XÎ[-1, -3/4] ) = 0.2890625

P(XÎ[-3/4, -1/2] ) = 0.1484375

P(XÎ[-1/2, -1/4] ) = 0.0546875

P(XÎ[-1/4, 0] ) = 0.0078125

1) On donne ci-dessous la répartition d’un échantillon E de taille 200 suivant les classes précédentes. Construire l’histogramme, et superposer la courbe représentative de la densité f(x) précédente. Y-a-il adéquation entre la courbe et l’histogramme ?

2) Effectuer un test du c2 pour vérifier la réponse à la question précédente, en choisissant un risque de première espèce égal à 0.05.

3) Les échantillon E1, E2, E3, …, , E100  ont été créés de façon à respecter la loi de la v.a. X. Dans quelle proportion approximative ces échantillons sont-ils en contradiction avec cette loi, si on applique le test précédent à chacun d’entre eux ? Peut-on donner un intervalle dans lequel se trouve probablement le nombre de ces échantillons ?

4) On considère l’estimateur empirique M de la moyenne m de la v.a. X. Quelles sont la moyenne et la variance théoriques de M ? Le tableau en annexe ci-dessous donne un échantillon de la v.a. M. Construire graphiquement l’histogramme. La densité estimée est-elle proche de la densité de la loi normale ?

Annexe

Classe

effectif

Classe

effectif

[-1.00, -0.75 [

66

[ 0.00, 0.25 [

2

[-0.75, -0.50 [

28

[ 0.25 , 0.50 [

10

[-0.50, -0.25 [

8

[ 0.50 , 0.75 [

36

[-0.25, 0.00 [

2

[0.75 ,1.00[

54

Échantillon de taille 200 de la v.a. X

Intervalle

effectif

[-0.1171 , -0.0610 [

13

[-0.0610 , -0.0049 [

32

[-0.0049 , 0.0512 [

33

[0.0512 , 0.1073 [

17

[0.1073 , 0.1633 [

5

Répartition des moyennes de 100 échantillons

en 5 classes de même longueur

6. qualité et coût d’une automobile.

Rappelons que pour chaque modèle des 67 voiture notées par les journalistes, on dispose initialement de 15 notes dont les onze premières ont pour moyenne la qualité générale, et les quatre dernière le coût global. On rappelle la moyenne et l’écart-type de ces deux variables :

 

Moyenne

écart-type

Qualité générale

15.140

1.117

coût global

12.851

2.358

On donne ci-dessous les répartitions des notes de qualité générale et de coût global :

Répartition des notes de qualité:

Répartition des notes de coût :

Classe

eff.

%

densité

Classe

eff.

%

densité

[12, 14 [

11

16.42

0.082

[5, 8 [

5

7.46

0.025

[14, 15 [

17

25.37

0.254

[8, 10 [

1

1.49

0.008

[15, 16 [

22

32.84

0.328

[10, 12 [

9

13.43

0.067

[16, 17 [

14

20.90

0.209

[12, 14 [

33

49.25

0.246

[17, 19 [

3

4.48

0.022

[14, 17 [

19

28.36

0.095

1) Calculer sur les données classées les moyennes et variances des notes, en caractérisant chaque classe par son centre. Comparer ces estimations aux valeurs calculées sur les données individuelles  :

 

Moyenne

Variance

écart-type

Qualité générale

15.13976

1.24715

1.11676

coût global

12.85075

5.56168

2.35832

2) En déduire les intervalles de confiance des moyennes pour un niveau de confiance de 95% . Ces intervalles de confiance ont-ils un sens ?

3) La loi normale est-elle une loi vraisemblable pour chacune de ces variables ?