Exercices sur le
chapitre 7
On a observé la taille, le poids et la pointure de 63 étudiants.( fichier hereditg.par). On cherche à évaluer la taille en fonction de chacune des deux autres variables.
1) Existe-t-il une relation non statistique entre les variables ? Représenter graphiquement les couples (poids, taille) et (pointure, taille) et les courbes de régression. Conclure sur la validité de la régression linéaire dans chaque cas.
2) Effectuer la régression linéaire de la taille par le poids. Contrôler le modèle et en déduire la taille moyenne des étudiants dont le poids est de 65kg.
3) Effectuer la régression linéaire de la taille par la pointure. Contrôler le modèle et en déduire la taille moyenne des étudiants dont la pointure est 45.
4) Effectuer la régression du poids par la pointure. En déduire le poids moyen des étudiants de pointure 45. Déduire de ce poids moyen la taille moyenne des étudiants de pointure 45. Comparer le résultat à l’estimation obtenue dans la deuxième question.
5) Effectuer la régression de la taille par le poids et la pointure. En déduire la taille d’un étudiant pesant 60kg et chaussant du 45. Cette estimation a-t-elle un sens ?
N.B. On donnera les intervalles de confiance à 95%.
On considère le poids, la taille, l’âge et la note annuelle moyenne de 10 élèves de 4e d’un collège :
|
poids |
taille |
âge |
note |
|
poids |
taille |
âge |
note |
1 |
45 |
1.50 |
13 |
14 |
6 |
60 |
1.70 |
14 |
07 |
2 |
50 |
1.60 |
13 |
16 |
7 |
70 |
1.60 |
14 |
08 |
3 |
50 |
1.65 |
13 |
15 |
8 |
65 |
1.60 |
13 |
13 |
4 |
60 |
1.75 |
15 |
09 |
9 |
60 |
1.55 |
15 |
17 |
5 |
60 |
1.70 |
14 |
10 |
10 |
65 |
1.70 |
14 |
11 |
Les données figurent sur le fichier exacp.dat (fichier exacp.par). On donne en annexe les résultats numériques nécessaires pour répondre aux questions posées.
1) On veut reconstruire la note obtenue par chaque élève en fonction de sa taille. Effectuer cette régression et calculer le coefficient de corrélation. Quelle est la taille moyenne des élèves mesurant 1.68 m suivant ce modèle ?
2) Compléter le tableau des résidus donné ci-dessous. Calculer leur moyenne et leur variance. Calculer la corrélation entre les résidus et la taille.
3) On effectue maintenant la régression en considérant le poids et la taille comme variables explicatives. Les résultats numériques sont les suivants :
Poids |
Taille |
Constante |
Coefficient de détermination |
b1 = -0.1739 |
b2 = -21.6793 |
b0 = 57.6209 |
R2 = 0.5269 |
Compléter les résidus. Calculer leur variance et l’estimation sans biais de la variance résiduelle. Quelle est la taille moyenne des élèves mesurant 1.68 m et pesant 53 kg suivant ce modèle ?
4) On effectue la régression linéaire multiple en considérant les trois variables explicatives. Les coefficients de régression sont les suivants :
Poids |
Taille |
Age |
Constante |
Coefficient de détermination |
b1 = -0.1885 |
b2 = -22.6126 |
b3 = 0.3688 |
b0 = 54.9116. |
R2 = 0.5318 |
Les coefficients de régression précédents paraissent-ils cohérents avec les coefficients de corrélation ? Calculer l’estimation sans biais de la variance résiduelle. Que peut-on dire de la note de l’élève ci-dessous et de son estimation ?
poids |
taille |
âge |
63 |
1.68 |
15.5 |
Quel modèle choisir ?
Var |
Minimum |
Maximum |
Moyenne |
Variance |
Ecart-type |
Poids |
45 |
70 |
58.5 |
55.25 |
7.43303 |
Taille |
1.5 |
1.75 |
1.635 |
0.00553 |
0.07433 |
Age |
13 |
15 |
13.8 |
0.56 |
0.74833 |
Note |
7 |
17 |
12 |
11 |
3.31662 |
|
poids |
taille |
âge |
note |
poids |
1.000 |
0.367 |
0.485 |
-0.568 |
taille |
0.367 |
1.000 |
0.396 |
-0.629 |
âge |
0.485 |
0.396 |
1.000 |
-0.322 |
note |
-0.568 |
-0.629 |
-0.322 |
1.000 |
|
x1 = taille |
x1 = taille, x2 = poids |
x1 = taille, x2 = poids, x3 = note |
1 |
-1.7873 |
-3.2748 |
-3.3029 |
2 |
3.0181 |
1.7628 |
1.9010 |
3 |
|
|
2.0317 |
4 |
0.2262 |
-0.2460 |
-0.5593 |
5 |
-0.1765 |
-0.3299 |
-0.3211 |
6 |
-3.1765 |
-3.3299 |
-3.3211 |
7 |
|
|
-2.6970 |
8 |
0.0181 |
1.3718 |
1.7291 |
9 |
2.6154 |
3.4182 |
2.9182 |
10 |
0.8235 |
1.5397 |
1.6216 |
On donne ci-dessous les notes obtenues en gestion, mathématiques, langue, expression et économie par 10 étudiants (fichier exreg.par). L’objectif de l’analyse est :
- d’étudier les relations entre les disciplines
- d’évaluer la note d’économie qu’auraient obtenue deux étudiants absents à cette épreuve, mais dont on connaît les notes obtenues dans les autres disciplines.
1) Construire et commenter les graphiques des couples de la forme (variable explicative, variable expliquée) et des couples (gestion, techniques d’expression). Quelle serait la variation du coefficient de corrélation entre les notes de gestion et de techniques d’expression si on éliminait des données l’étudiant de rang 7 ?
2) On décide d’effectuer la régression linéaire simple de la note d’économie par celle en gestion. Y-a-t-il une raison particulière ? Calculer l’équation de la droite de régression et la variance des résidus.
3) Compléter le tableau des résidus. Quels sont les étudiants qui ont obtenu une note particulière en économie (on précisera cette particularité) ? Sur quelle hypothèse repose la règle de classification employée ?
4) On cherche à introduire dans le modèle une seconde variable explicative. Quelle variable proposez-vous ? On décide finalement effectuer la régression linéaire multiple en choisissant comme variables explicatives les notes de gestion et de langue. Comparer les coefficients de régression du modèle et les coefficients de corrélation avec la note d’économie.
5) Calculer la variance des résidus obtenus par le modèle précédent à deux variables explicatives. En déduire les étudiants dont la note d’économie est différente de celle qu’on aurait pu imaginer.
6) On effectue la régression de la note d’économie avec les quatre variables explicatives : le modèle est dit « complet ». Comparer ce dernier avec le modèle partiel choisi en question 4.
8) Les étudiants absents à l’épreuve d’économie ont obtenu les notes suivants dans les autres matières :
n° |
Gestion |
math. |
Langue |
Expression |
x1 |
12 |
9 |
13 |
11 |
x2 |
12 |
13 |
11 |
15 |
Déterminer les valeurs approchées de la note d’économie qu’ils auraient dû obtenir suivant chacun des trois modèles (linéaire simple, partiel, complet). Quelle valeur faut-il choisir ? Que représente-t-elle ?
ANNEXE
n° |
Gest. |
math. |
Langue |
Expr. |
éco. |
n° |
Gest. |
math. |
Langue |
Expr. |
éco. |
1 |
12 |
13 |
11 |
15 |
13 |
6 |
14 |
16 |
12 |
13 |
15 |
2 |
9 |
7 |
13 |
14 |
8 |
7 |
16 |
13 |
11 |
8 |
13 |
3 |
14 |
11 |
16 |
15 |
12 |
8 |
10 |
11 |
10 |
13 |
11 |
4 |
8 |
6 |
12 |
10 |
9 |
9 |
7 |
9 |
8 |
7 |
9 |
5 |
7 |
4 |
8 |
8 |
10 |
10 |
9 |
11 |
9 |
10 |
9 |
Tableau de données
Variables |
Moyennes |
écarts types |
Variances |
Gestion |
10.6 |
3.04 |
9.24 |
Math. |
10.1 |
3.45 |
11.89 |
Langue |
11.0 |
2.32 |
5.4 |
Expression |
11.3 |
2.90 |
8.41 |
Économie |
10.9 |
2.17 |
4.69 |
Paramètres statistiques des variables
|
Gestion |
Math. |
Langue |
Expression |
Économie |
Gestion |
1.000 |
|
|
|
|
Math. |
0.786 |
1.000 |
|
|
|
Langue |
0.566 |
0.237 |
1.000 |
|
|
Expression |
0.377 |
0.367 |
0.712 |
1.000 |
|
Économie |
0.829 |
0.805 |
0.278 |
0.323 |
1.000 |
Matrice de corrélation
e1 = 1.2727 |
e2 = |
e3 = -0.9091 |
e4 = -0.3636 |
e5 = 1.2273 |
e6 =
|
e7 = -1.0909 |
e8 = 0.4545 |
e9 = 0.2273 |
e10 = -0.9545 |
résidus dans la régression linéaire simple par
les notes de gestion
Gestion |
Langue |
Constante |
R2 |
0.7046 |
-0.2627 |
6.3205 |
0.7419 |
modèle partiel : coefficients de régression
des notes de gestion et de langue
e1 =
1.1135 |
e2 =
-1.2472 |
e3 =
0.0177 |
e4 =
0.1947 |
e5 =
0.8486 |
e6 =
1.9670 |
e7 =
-1.7050 |
e8 =
0.2601 |
e9 =
-0.1514 |
e10 = -1.2980 |
résidus dans le modèle partiel
Gestion |
Math. |
Langue |
Expression |
Constante |
R2 |
0.6322 |
0.0731 |
-0.4042 |
0.1906 |
5.7526 |
0.7915 |
modèle
complet : coefficients de régression des notes de gestion, mathématiques,
langue et techniques d’expression
Un fonds de placements internationaux gère son portefeuille d’actions et d’obligations en fonction des critères économiques, démographiques et sociaux des 50 pays dans lesquels une partie des souscriptions qui lui sont confiées sont investies ou en voie de l’être. Pour cela, il dispose des statistiques suivantes sur les 50 pays :
- SR : taux moyen d'épargne par personnes entre 1960 et1970
- POP15 : pourcentage de la population de moins de 15 ans
- POP75 : pourcentage de la population de plus de 75 ans
- DPI : revenu moyen par personne de 1960 à 1970
- DDPI : taux moyen de croissance du revenu moyen par personne.
Les données sont extraites de l’ouvrage de Belsley et coll. Regression diagnostics(Belsley D.A., Kuh E., Welsh R.E., 1980: Regression diagnostics: identifying influential data and sources of collinearity. Wiley, New York) et se trouvent dans le fichier Belsley.dat fichier de paramètres Belsley.par).
1) Comment, en supposant connu l’avenir de la structure démographique de la population et du développement économique des pays, peut-on déterminer les pays dont le taux d’épargne va augmenter ?
2) étudier les représentations graphiques de la forme (variable explicative, variable expliquée) (on donne en annexe la représentation des couples POP15 x SR et DDPI x SR).
3) Effectuer la régression linéaire multiple du taux moyen d’épargne SR par l’accroissement du revenu moyen par personne (DDPI) et les pourcentages de population de moins de 15 ans et de plus de 75 ans (POP15 et POP75). Expliquer les résultats
4) Calculer le taux moyen d’épargne des pays de rang 7 et 46 estimé par le modèle et en déduire les résidus. Que peut-on en dire ?
5) étudier les résidus. Que peut-on en déduire ?
6) Que peut-on dire des coefficients de corrélation entre le taux moyen d’épargne et les pourcentages de population de moins de 15 ans et de plus de 75 ans ? Comment interpréter les signes des coefficients de régression correspondants ?
7) Recommencer la régression en remplaçant les variables explicatives POP15 et POP75 par une seule variable.
8) Les économistes prévoient à l’horizon 2010 pour les pays n° 23, 37 et 38 les valeurs suivantes :
|
POP15 |
POP75 |
DPI |
DDPI |
2 |
23.32 |
4.41 |
1507.99 |
3.93 |
23 |
17.01 |
13.01 |
1457.28 |
9.10 |
37 |
21.92 |
9.45 |
650.96 |
6.67 |
38 |
28.24 |
1.98 |
735.79 |
2.35 |
Parmi ces pays, quels sont ceux dont le taux d’épargne augmentera le plus si ces prévisions se réalisent ? Que penser de ces prévisions ?
Tableau de données
(Belsey)
n° |
|
SR |
POP15 |
POP75 |
DPI |
DDPI |
1 |
Australie |
11.43 |
29.35 |
2.87 |
2329.68 |
2.87 |
2 |
Autriche |
12.07 |
23.32 |
4.41 |
1507.99 |
3.93 |
3 |
Belgique |
13.17 |
23.80 |
4.43 |
2108.47 |
3.82 |
4 |
Bolivie |
5.75 |
41.89 |
1.67 |
189.13 |
0.22 |
5 |
Brésil |
12.88 |
42.19 |
0.83 |
728.47 |
4.56 |
6 |
Canada |
8.79 |
31.72 |
2.85 |
2982.88 |
2.43 |
7 |
Chili |
0.60 |
39.74 |
1.34 |
662.86 |
2.67 |
8 |
Taïwan |
11.90 |
44.75 |
0.67 |
289.52 |
6.51 |
9 |
Colombie |
4.98 |
46.64 |
1.06 |
276.65 |
3.08 |
10 |
Costa Rica |
10.78 |
47.64 |
1.14 |
471.24 |
2.80 |
11 |
Danemark |
16.85 |
24.42 |
3.93 |
2496.53 |
3.99 |
12 |
Equateur |
3.59 |
46.31 |
1.19 |
287.77 |
2.19 |
13 |
Finlande |
11.24 |
27.84 |
2.37 |
1681.25 |
4.32 |
14 |
France |
12.64 |
25.06 |
4.70 |
2213.82 |
4.52 |
15 |
RFA |
12.55 |
23.31 |
3.35 |
2457.12 |
3.44 |
16 |
Grèce |
10.67 |
25.62 |
3.10 |
870.85 |
6.28 |
17 |
Guatemala |
3.01 |
46.05 |
0.87 |
289.71 |
1.48 |
18 |
Honduras |
7.70 |
47.32 |
0.58 |
232.44 |
3.19 |
19 |
Islande |
1.27 |
34.03 |
3.08 |
1900.10 |
1.12 |
20 |
Inde |
9.00 |
41.31 |
0.96 |
88.94 |
1.54 |
21 |
Irlande |
11.34 |
31.16 |
4.19 |
1139.95 |
2.99 |
22 |
Italie |
14.28 |
24.52 |
3.48 |
1390.00 |
3.54 |
23 |
Japon |
21.10 |
27.01 |
1.91 |
1257.28 |
8.21 |
24 |
Corée |
3.98 |
41.74 |
0.91 |
207.68 |
5.81 |
25 |
Luxembourg |
10.35 |
21.80 |
3.73 |
2449.39 |
1.57 |
26 |
Malte |
15.48 |
32.54 |
2.47 |
601.05 |
8.12 |
27 |
Norvège |
10.25 |
25.95 |
3.67 |
2231.03 |
3.62 |
28 |
Pays Bas |
14.65 |
24.71 |
3.25 |
1740.70 |
7.66 |
29 |
Nouvelle Zélande |
10.67 |
32.61 |
3.17 |
1487.52 |
1.76 |
30 |
Nicaragua |
7.30 |
45.04 |
1.21 |
325.54 |
2.48 |
31 |
Panama |
4.44 |
43.56 |
1.20 |
568.56 |
3.61 |
32 |
Paraguay |
2.02 |
41.18 |
1.05 |
220.56 |
1.03 |
33 |
Pérou |
12.70 |
44.19 |
1.28 |
400.06 |
0.67 |
34 |
Philippines |
12.78 |
46.26 |
1.12 |
152.01 |
2.00 |
35 |
Portugal |
12.49 |
28.96 |
2.85 |
579.51 |
7.48 |
36 |
Afrique du sud |
11.14 |
31.94 |
2.28 |
651.11 |
2.19 |
37 |
Rhodésie du sud |
13.30 |
31.92 |
1.52 |
250.96 |
2.00 |
38 |
Espagne |
11.77 |
27.74 |
2.87 |
768.79 |
4.35 |
39 |
Suède |
6.86 |
21.44 |
4.54 |
3299.49 |
3.01 |
40 |
Suisse |
14.13 |
23.49 |
3.73 |
2630.96 |
2.70 |
41 |
Turquie |
5.13 |
43.42 |
1.08 |
389.66 |
2.96 |
42 |
Tunisie |
2.81 |
46.12 |
1.21 |
249.87 |
1.13 |
43 |
Royaume Uni |
7.81 |
23.27 |
4.46 |
1813.93 |
2.01 |
44 |
Etats Unis |
7.56 |
29.81 |
3.43 |
4001.89 |
2.45 |
45 |
Vénézuela |
9.22 |
46.40 |
0.90 |
813.39 |
0.53 |
46 |
Zambie |
18.56 |
45.25 |
0.56 |
138.33 |
5.14 |
47 |
Jamaïque |
7.72 |
41.12 |
1.73 |
380.47 |
10.23 |
48 |
Uruguay |
9.24 |
28.13 |
2.72 |
766.54 |
1.88 |
49 |
Libye |
8.89 |
43.69 |
2.07 |
123.58 |
16.71 |
50 |
Malaisie |
4.71 |
47.20 |
0.66 |
242.69 |
5.08 |
On considère les données traitées dans l’exercice 1.
1) Quelle est la variable explicative parmi les trois possibles qui donnera a priori les meilleurs résultats dans la régression linéaire simple ? Effectuer cette régression.
2) Choisir une seconde variable explicative complétant au mieux la précédente.
3) On effectue la régression du poids par la taille et de l’âge par la taille, et on calcule les résidus dans chaque cas (cf. tableaux ci-dessous). Calculer les coefficients de corrélation entre ces séries de résidus et la série des résidus calculés dans la régression de la note par la taille En déduire une justification théorique du choix de la variable effectué dans la question précédente.
4) On effectue maintenant la régression en considérant le poids et la taille comme variables explicatives. Les résultats numériques sont les suivants :
Poids |
Taille |
Constante |
Coefficient de détermination |
b1 = -0.1739 |
b2 = -21.6793 |
b0 = 57.6209 |
R2 = 0.5269 |
Comment évaluer l’information sur la note apportée par l’âge en complément des informations apportées par la taille et le poids (on utilisera les résultats ci-dessous) ?
|
y = poids/x = taille |
y = âge/x = taille |
y = note / x1 = taille, x2 = poids |
y = âge / x1 = taille, x2 = poids |
1 |
-8.5520 |
-0.2624 |
-3.2748 |
0.0762 |
2 |
-7.2172 |
-0.6606 |
1.7628 |
-0.3749 |
3 |
-9.0498 |
-0.8598 |
1.8467 |
-0.5014 |
4 |
-2.7149 |
0.7421 |
-0.2460 |
0.8496 |
5 |
-0.8824 |
-0.0588 |
-0.3299 |
-0.0239 |
6 |
-0.8824 |
-0.0588 |
-3.3299 |
-0.0239 |
7 |
12.7828 |
0.3394 |
-2.7585 |
-0.1667 |
8 |
7.7828 |
-0.6606 |
1.3718 |
-0.9688 |
9 |
4.6154 |
1.5385 |
3.4182 |
1.3557 |
10 |
4.1176 |
-0.0588 |
1.5397 |
-0.2219 |