Exercices sur le chapitre 7

1. courbes de régression. domaine de prévision (avec logiciel).

On a observé la taille, le poids et la pointure de 63 étudiants.( fichier hereditg.par). On cherche à évaluer la taille en fonction de chacune des deux autres variables.

1) Existe-t-il une relation non statistique entre les variables ? Représenter graphiquement les couples (poids, taille) et (pointure, taille) et les courbes de régression. Conclure sur la validité de la régression linéaire dans chaque cas.

2) Effectuer la régression linéaire de la taille par le poids. Contrôler le modèle et en déduire la taille moyenne des étudiants dont le poids est de 65kg.

3) Effectuer la régression linéaire de la taille par la pointure. Contrôler le modèle et en déduire la taille moyenne des étudiants dont la pointure est 45.

4) Effectuer la régression du poids par la pointure. En déduire le poids moyen des étudiants de pointure 45. Déduire de ce poids moyen la taille moyenne des étudiants de pointure 45. Comparer le résultat à l’estimation obtenue dans la deuxième question.

5) Effectuer la régression de la taille par le poids et la pointure. En déduire la taille d’un étudiant pesant 60kg et  chaussant du 45. Cette estimation a-t-elle un sens ?

N.B. On donnera les intervalles de confiance à 95%.

2. Régression linéaire multiple.

On considère le poids, la taille, l’âge et la note annuelle moyenne de 10 élèves de 4e d’un collège :

 

poids

taille

âge

note

 

poids

taille

âge

note

1

45

1.50

13

14

6

60

1.70

14

07

2

50

1.60

13

16

7

70

1.60

14

08

3

50

1.65

13

15

8

65

1.60

13

13

4

60

1.75

15

09

9

60

1.55

15

17

5

60

1.70

14

10

10

65

1.70

14

11

Les données figurent sur le fichier exacp.dat (fichier exacp.par). On donne en annexe les résultats numériques nécessaires pour répondre aux questions posées.

1) On veut reconstruire la note obtenue par chaque élève en fonction de sa taille. Effectuer cette régression et calculer le coefficient de corrélation. Quelle est la taille moyenne des élèves mesurant 1.68 m suivant ce modèle ?

2) Compléter le tableau des résidus donné ci-dessous. Calculer leur moyenne et leur variance. Calculer la corrélation entre les résidus et la taille.

3) On effectue maintenant la régression en considérant le poids et la taille comme variables explicatives. Les résultats numériques sont les suivants :

Poids

Taille

Constante

Coefficient de détermination

b1 = -0.1739

b2 = -21.6793

b0 = 57.6209

R2 = 0.5269

Compléter les résidus. Calculer leur variance et l’estimation sans biais de la variance résiduelle. Quelle est la taille moyenne des élèves mesurant 1.68 m et pesant 53 kg suivant ce modèle ?

4) On effectue la régression linéaire multiple en considérant les trois variables explicatives. Les coefficients de régression sont les suivants :

Poids

Taille

Age

Constante

Coefficient de détermination

b1 = -0.1885

b2 = -22.6126

b3 = 0.3688

b0 = 54.9116.

R2 = 0.5318

Les coefficients de régression précédents paraissent-ils cohérents avec les coefficients de corrélation ? Calculer l’estimation sans biais de la variance résiduelle. Que peut-on dire de la note de l’élève ci-dessous et de son estimation ?

poids

taille

âge

63

1.68

15.5

Quel modèle choisir ? 

Annexe

Var

Minimum

Maximum

Moyenne

Variance

Ecart-type

Poids

45

70

58.5

55.25

7.43303

Taille

1.5

1.75

1.635

0.00553

0.07433

Age

13

15

13.8

0.56

0.74833

Note

7

17

12

11

3.31662

 

 

poids

taille

âge

note

poids

1.000

0.367

0.485

-0.568

taille

0.367

1.000

0.396

-0.629

âge

0.485

0.396

1.000

-0.322

note

-0.568

-0.629

-0.322

1.000

Matrice des corrélations

 

x1 = taille

x1 = taille, x2 = poids

x1 = taille, x2 = poids, x3 = note

1

-1.7873

-3.2748

-3.3029

2

3.0181

1.7628

1.9010

3

 

 

2.0317

4

0.2262

-0.2460

-0.5593

5

-0.1765

-0.3299

-0.3211

6

-3.1765

-3.3299

-3.3211

7

 

 

-2.6970

8

0.0181

1.3718

1.7291

9

2.6154

3.4182

2.9182

10

0.8235

1.5397

1.6216

Résidus obtenus dans les régressions de la note

3. point aberrant et résidus.

On donne ci-dessous les notes obtenues en gestion, mathématiques, langue, expression et économie par 10 étudiants (fichier exreg.par). L’objectif de l’analyse est :

- d’étudier les relations entre les disciplines

- d’évaluer la note d’économie qu’auraient obtenue deux étudiants absents à cette épreuve, mais dont on connaît les notes obtenues dans les autres disciplines.

1) Construire et commenter les graphiques des couples de la forme (variable explicative, variable expliquée) et des couples (gestion, techniques d’expression). Quelle serait la variation du coefficient de corrélation entre les notes de gestion et de techniques d’expression si on éliminait des données l’étudiant de rang 7 ?

2) On décide d’effectuer la régression linéaire simple de la note d’économie par celle en gestion. Y-a-t-il une raison particulière ? Calculer l’équation de la droite de régression et la variance des résidus.

3) Compléter le tableau des résidus. Quels sont les étudiants qui ont obtenu une note particulière en économie (on précisera cette particularité) ? Sur quelle hypothèse repose la règle de classification employée ?

4) On cherche à introduire dans le modèle une seconde variable explicative. Quelle variable proposez-vous ? On décide finalement effectuer la régression linéaire multiple en choisissant comme variables explicatives les notes de gestion et de langue. Comparer les coefficients de régression du modèle et les coefficients de corrélation avec la note d’économie.

5) Calculer la variance des résidus obtenus par le modèle précédent à deux variables explicatives. En déduire les étudiants dont la note d’économie est différente de celle qu’on aurait pu imaginer.

6) On effectue la régression de la note d’économie avec les quatre variables explicatives : le modèle est dit « complet ». Comparer ce dernier avec le modèle partiel choisi en question 4.

8) Les étudiants absents à l’épreuve d’économie ont obtenu les notes suivants dans les autres matières :

Gestion

math.

Langue

Expression

x1

12

9

13

11

x2

12

13

11

15

Déterminer les valeurs approchées de la note d’économie qu’ils auraient dû obtenir suivant chacun des trois modèles (linéaire simple, partiel, complet). Quelle valeur faut-il choisir ? Que représente-t-elle ?

ANNEXE


Gest.

math.

Langue

Expr.

éco.


Gest.

math.

Langue

Expr.

éco.

1

12

13

11

15

13

6

14

16

12

13

15

2

9

7

13

14

8

7

16

13

11

8

13

3

14

11

16

15

12

8

10

11

10

13

11

4

8

6

12

10

9

9

7

9

8

7

9

5

7

4

8

8

10

10

9

11

9

10

9

Tableau de données

Variables

Moyennes

écarts types

Variances

Gestion

10.6

3.04

9.24

Math.

10.1

3.45

11.89

Langue

11.0

2.32

5.4

Expression

11.3

2.90

8.41

Économie

10.9

2.17

4.69

Paramètres statistiques des variables

 

Gestion

Math.

Langue

Expression

Économie

Gestion

1.000

 

 

 

 

Math.

0.786

1.000

 

 

 

Langue

0.566

0.237

1.000

 

 

Expression

0.377

0.367

0.712

1.000

 

Économie

0.829

0.805

0.278

0.323

1.000

Matrice de corrélation

e1 = 1.2727

e2 =

e3 = -0.9091

e4 = -0.3636

e5 = 1.2273

e6 = 

e7 = -1.0909

e8 = 0.4545

e9 = 0.2273

e10 = -0.9545

résidus dans la régression linéaire simple par les notes de gestion

Gestion

Langue

Constante

R2

0.7046

-0.2627

6.3205

0.7419

modèle partiel : coefficients de régression des notes de gestion et de langue

e1 = 1.1135

e2 = -1.2472

e3 = 0.0177

e4 = 0.1947

e5 = 0.8486

e6 = 1.9670

e7 = -1.7050

e8 = 0.2601

e9 = -0.1514

e10 = -1.2980

résidus dans le modèle partiel

Gestion

Math.

Langue

Expression

Constante

R2

0.6322

0.0731

-0.4042

0.1906

5.7526

0.7915

modèle complet : coefficients de régression des notes de gestion, mathématiques, langue et techniques d’expression

4. gestion d’un portefeuille par la régression linéaire multiple (avec logiciel).

Un fonds de placements internationaux gère son portefeuille d’actions et d’obligations en fonction des critères économiques, démographiques et sociaux des 50 pays dans lesquels une partie des souscriptions qui lui sont confiées sont investies ou en voie de l’être. Pour cela, il dispose des statistiques suivantes sur les 50 pays :

-           SR    :   taux moyen d'épargne par personnes entre 1960 et1970

-           POP15    :   pourcentage de la population de moins de 15 ans

-           POP75    :   pourcentage de la population de plus de 75 ans

-           DPI    :   revenu moyen par personne de 1960 à 1970

-           DDPI    :   taux moyen de croissance du revenu moyen par personne.

Les données sont extraites de l’ouvrage de Belsley et coll. Regression diagnostics(Belsley D.A., Kuh E., Welsh R.E., 1980: Regression diagnostics: identifying influential data and sources of collinearity. Wiley, New York) et se trouvent dans le fichier Belsley.dat fichier de paramètres Belsley.par).

1) Comment, en supposant connu l’avenir de la structure démographique de la population et du développement économique des pays, peut-on déterminer les pays dont le taux d’épargne va augmenter ?

2) étudier les représentations graphiques de la forme (variable explicative, variable expliquée) (on donne en annexe la représentation des couples POP15 x SR et DDPI x SR).

3) Effectuer la régression linéaire multiple du taux moyen d’épargne SR par l’accroissement du revenu moyen par personne (DDPI) et les pourcentages de population de moins de 15 ans et de plus de 75 ans (POP15 et POP75). Expliquer les résultats

4) Calculer le taux moyen d’épargne des pays de rang 7 et 46 estimé par le modèle et en déduire les résidus. Que peut-on en dire ?

5) étudier les résidus. Que peut-on en déduire ?

6) Que peut-on dire des coefficients de corrélation entre le taux moyen d’épargne et les pourcentages de population de moins de 15 ans et de plus de 75 ans ? Comment interpréter les signes des coefficients de régression correspondants ?

7) Recommencer la régression en remplaçant les variables explicatives POP15 et POP75 par une seule variable.

8) Les économistes prévoient à l’horizon 2010 pour les pays n° 23, 37 et 38 les valeurs suivantes :

 

POP15

POP75

DPI

DDPI

2

23.32

4.41

1507.99

3.93

23

17.01

13.01

1457.28

9.10

37

21.92

9.45

650.96

6.67

38

28.24

1.98

735.79

2.35

 

Parmi ces pays, quels sont ceux dont le taux d’épargne augmentera le plus si ces prévisions se réalisent ? Que penser de ces prévisions ?

 

Tableau de données

(Belsey)

 

 

SR

POP15

POP75

DPI

DDPI

1

Australie

11.43

29.35

2.87

2329.68

2.87

2

Autriche

12.07

23.32

4.41

1507.99

3.93

3

Belgique

13.17

23.80

4.43

2108.47

3.82

4

Bolivie

5.75

41.89

1.67

189.13

0.22

5

Brésil

12.88

42.19

0.83

728.47

4.56

6

Canada

8.79

31.72

2.85

2982.88

2.43

7

Chili

0.60

39.74

1.34

662.86

2.67

8

Taïwan

11.90

44.75

0.67

289.52

6.51

9

Colombie

4.98

46.64

1.06

276.65

3.08

10

Costa Rica

10.78

47.64

1.14

471.24

2.80

11

Danemark

16.85

24.42

3.93

2496.53

3.99

12

Equateur

3.59

46.31

1.19

287.77

2.19

13

Finlande

11.24

27.84

2.37

1681.25

4.32

14

France

12.64

25.06

4.70

2213.82

4.52

15

RFA

12.55

23.31

3.35

2457.12

3.44

16

Grèce

10.67

25.62

3.10

870.85

6.28

17

Guatemala

3.01

46.05

0.87

289.71

1.48

18

Honduras

7.70

47.32

0.58

232.44

3.19

19

Islande

1.27

34.03

3.08

1900.10

1.12

20

Inde

9.00

41.31

0.96

88.94

1.54

21

Irlande

11.34

31.16

4.19

1139.95

2.99

22

Italie

14.28

24.52

3.48

1390.00

3.54

23

Japon

21.10

27.01

1.91

1257.28

8.21

24

Corée

3.98

41.74

0.91

207.68

5.81

25

Luxembourg

10.35

21.80

3.73

2449.39

1.57

26

Malte

15.48

32.54

2.47

601.05

8.12

27

Norvège

10.25

25.95

3.67

2231.03

3.62

28

Pays Bas

14.65

24.71

3.25

1740.70

7.66

29

Nouvelle Zélande

10.67

32.61

3.17

1487.52

1.76

30

Nicaragua

7.30

45.04

1.21

325.54

2.48

31

Panama

4.44

43.56

1.20

568.56

3.61

32

Paraguay

2.02

41.18

1.05

220.56

1.03

33

Pérou

12.70

44.19

1.28

400.06

0.67

34

Philippines

12.78

46.26

1.12

152.01

2.00

35

Portugal

12.49

28.96

2.85

579.51

7.48

36

Afrique du sud

11.14

31.94

2.28

651.11

2.19

37

Rhodésie du sud

13.30

31.92

1.52

250.96

2.00

38

Espagne

11.77

27.74

2.87

768.79

4.35

39

Suède

6.86

21.44

4.54

3299.49

3.01

40

Suisse

14.13

23.49

3.73

2630.96

2.70

41

Turquie

5.13

43.42

1.08

389.66

2.96

42

Tunisie

2.81

46.12

1.21

249.87

1.13

43

Royaume Uni

7.81

23.27

4.46

1813.93

2.01

44

Etats Unis

7.56

29.81

3.43

4001.89

2.45

45

Vénézuela

9.22

46.40

0.90

813.39

0.53

46

Zambie

18.56

45.25

0.56

138.33

5.14

47

Jamaïque

7.72

41.12

1.73

380.47

10.23

48

Uruguay

9.24

28.13

2.72

766.54

1.88

49

Libye

8.89

43.69

2.07

123.58

16.71

50

Malaisie

4.71

47.20

0.66

242.69

5.08

 

5. coefficient de corrélation partielle.

On considère les données traitées dans l’exercice 1.

1) Quelle est la variable explicative parmi les trois possibles qui donnera a priori les meilleurs résultats dans la régression linéaire simple ? Effectuer cette régression.

2) Choisir une seconde variable explicative complétant au mieux la précédente.

3) On effectue la régression du poids par la taille et de l’âge par la taille, et on calcule les résidus dans chaque cas (cf. tableaux ci-dessous). Calculer les coefficients de corrélation entre ces séries de résidus et la série des résidus calculés dans la régression de la note par la taille En déduire une justification théorique du choix de la variable effectué dans la question précédente.

4) On effectue maintenant la régression en considérant le poids et la taille comme variables explicatives. Les résultats numériques sont les suivants :

Poids

Taille

Constante

Coefficient de détermination

b1 = -0.1739

b2 = -21.6793

b0 = 57.6209

R2 = 0.5269

Comment évaluer l’information sur la note apportée par l’âge en complément des informations apportées par la taille et le poids (on utilisera les résultats ci-dessous) ?

 

y = poids/x = taille

y = âge/x = taille

y = note

/ x1 = taille, x2 = poids

y = âge

/ x1 = taille, x2 = poids

1

-8.5520

-0.2624

-3.2748

0.0762

2

-7.2172

-0.6606

1.7628

-0.3749

3

-9.0498

-0.8598

1.8467

-0.5014

4

-2.7149

0.7421

-0.2460

0.8496

5

-0.8824

-0.0588

-0.3299

-0.0239

6

-0.8824

-0.0588

-3.3299

-0.0239

7

12.7828

0.3394

-2.7585

-0.1667

8

7.7828

-0.6606

1.3718

-0.9688

9

4.6154

1.5385

3.4182

1.3557

10

4.1176

-0.0588

1.5397

-0.2219

Résidus obtenus dans les régressions de la taille