Exercices sur le chapitre 7

1. courbes de régression. domaine de prévision (avec logiciel).

On a observé la taille, le poids et la pointure de 63 étudiants.( fichier hereditg.par). On cherche à évaluer la taille en fonction de chacune des deux autres variables.

1) Existe-t-il une relation non statistique entre les variables ? Représenter graphiquement les couples (poids, taille) et (pointure, taille) et les courbes de régression. Conclure sur la validité de la régression linéaire dans chaque cas.

2) Effectuer la régression linéaire de la taille par le poids. Contrôler le modèle et en déduire la taille moyenne des étudiants dont le poids est de 65kg.

3) Effectuer la régression linéaire de la taille par la pointure. Contrôler le modèle et en déduire la taille moyenne des étudiants dont la pointure est 45.

4) Effectuer la régression du poids par la pointure. En déduire le poids moyen des étudiants de pointure 45. Déduire de ce poids moyen la taille moyenne des étudiants de pointure 45. Comparer le résultat à l’estimation obtenue dans la deuxième question.

5) Effectuer la régression de la taille par le poids et la pointure. En déduire la taille d’un étudiant pesant 60kg et chaussant du 45. Cette estimation a-t-elle un sens ?

N.B. On donnera les intervalles de confiance à 95%.

2. Régression linéaire multiple.

On considère le poids, la taille, l’âge et la note annuelle moyenne de 10 élèves de 4^e d’un collège :

	poids	taille	âge	note		poids	taille	âge	note
1	45	1.50	13	14	6	60	1.70	14	07
2	50	1.60	13	16	7	70	1.60	14	08
3	50	1.65	13	15	8	65	1.60	13	13
4	60	1.75	15	09	9	60	1.55	15	17
5	60	1.70	14	10	10	65	1.70	14	11

Les données figurent sur le fichier exacp.dat (fichier exacp.par). On donne en annexe les résultats numériques nécessaires pour répondre aux questions posées.

1) On veut reconstruire la note obtenue par chaque élève en fonction de sa taille. Effectuer cette régression et calculer le coefficient de corrélation. Quelle est la taille moyenne des élèves mesurant 1.68 m suivant ce modèle ?

2) Compléter le tableau des résidus donné ci-dessous. Calculer leur moyenne et leur variance. Calculer la corrélation entre les résidus et la taille.

3) On effectue maintenant la régression en considérant le poids et la taille comme variables explicatives. Les résultats numériques sont les suivants :

Poids	Taille	Constante	Coefficient de détermination
b₁ = -0.1739	b₂ = -21.6793	b₀ = 57.6209	R² = 0.5269

Compléter les résidus. Calculer leur variance et l’estimation sans biais de la variance résiduelle. Quelle est la taille moyenne des élèves mesurant 1.68 m et pesant 53 kg suivant ce modèle ?

4) On effectue la régression linéaire multiple en considérant les trois variables explicatives. Les coefficients de régression sont les suivants :

Poids	Taille	Age	Constante	Coefficient de détermination
b₁ = -0.1885	b₂ = -22.6126	b₃ = 0.3688	b₀ = 54.9116.	R² = 0.5318

Les coefficients de régression précédents paraissent-ils cohérents avec les coefficients de corrélation ? Calculer l’estimation sans biais de la variance résiduelle. Que peut-on dire de la note de l’élève ci-dessous et de son estimation ?

poids	taille	âge
63	1.68	15.5

Quel modèle choisir ?

Annexe

Var	Minimum	Maximum	Moyenne	Variance	Ecart-type
Poids	45	70	58.5	55.25	7.43303
Taille	1.5	1.75	1.635	0.00553	0.07433
Age	13	15	13.8	0.56	0.74833
Note	7	17	12	11	3.31662

	poids	taille	âge	note
poids	1.000	0.367	0.485	-0.568
taille	0.367	1.000	0.396	-0.629
âge	0.485	0.396	1.000	-0.322
note	-0.568	-0.629	-0.322	1.000

Matrice des corrélations

	x₁ = taille	x₁ = taille, x₂ = poids	x₁ = taille, x₂ = poids, x₃ = note
1	-1.7873	-3.2748	-3.3029
2	3.0181	1.7628	1.9010
3			2.0317
4	0.2262	-0.2460	-0.5593
5	-0.1765	-0.3299	-0.3211
6	-3.1765	-3.3299	-3.3211
7			-2.6970
8	0.0181	1.3718	1.7291
9	2.6154	3.4182	2.9182
10	0.8235	1.5397	1.6216

Résidus obtenus dans les régressions de la note

3. point aberrant et résidus.

On donne ci-dessous les notes obtenues en gestion, mathématiques, langue, expression et économie par 10 étudiants (fichier exreg.par). L’objectif de l’analyse est :

- d’étudier les relations entre les disciplines

- d’évaluer la note d’économie qu’auraient obtenue deux étudiants absents à cette épreuve, mais dont on connaît les notes obtenues dans les autres disciplines.

1) Construire et commenter les graphiques des couples de la forme (variable explicative, variable expliquée) et des couples (gestion, techniques d’expression). Quelle serait la variation du coefficient de corrélation entre les notes de gestion et de techniques d’expression si on éliminait des données l’étudiant de rang 7 ?

2) On décide d’effectuer la régression linéaire simple de la note d’économie par celle en gestion. Y-a-t-il une raison particulière ? Calculer l’équation de la droite de régression et la variance des résidus.

3) Compléter le tableau des résidus. Quels sont les étudiants qui ont obtenu une note particulière en économie (on précisera cette particularité) ? Sur quelle hypothèse repose la règle de classification employée ?

4) On cherche à introduire dans le modèle une seconde variable explicative. Quelle variable proposez-vous ? On décide finalement effectuer la régression linéaire multiple en choisissant comme variables explicatives les notes de gestion et de langue. Comparer les coefficients de régression du modèle et les coefficients de corrélation avec la note d’économie.

5) Calculer la variance des résidus obtenus par le modèle précédent à deux variables explicatives. En déduire les étudiants dont la note d’économie est différente de celle qu’on aurait pu imaginer.

6) On effectue la régression de la note d’économie avec les quatre variables explicatives : le modèle est dit « complet ». Comparer ce dernier avec le modèle partiel choisi en question 4.

8) Les étudiants absents à l’épreuve d’économie ont obtenu les notes suivants dans les autres matières :

n°	Gestion	math.	Langue	Expression
x₁	12	9	13	11
x₂	12	13	11	15

Déterminer les valeurs approchées de la note d’économie qu’ils auraient dû obtenir suivant chacun des trois modèles (linéaire simple, partiel, complet). Quelle valeur faut-il choisir ? Que représente-t-elle ?

ANNEXE

n°	Gest.	math.	Langue	Expr.	éco.	n°	Gest.	math.	Langue	Expr.	éco.
1	12	13	11	15	13	6	14	16	12	13	15
2	9	7	13	14	8	7	16	13	11	8	13
3	14	11	16	15	12	8	10	11	10	13	11
4	8	6	12	10	9	9	7	9	8	7	9
5	7	4	8	8	10	10	9	11	9	10	9

Tableau de données

Variables	Moyennes	écarts types	Variances
Gestion	10.6	3.04	9.24
Math.	10.1	3.45	11.89
Langue	11.0	2.32	5.4
Expression	11.3	2.90	8.41
Économie	10.9	2.17	4.69

Paramètres statistiques des variables

	Gestion	Math.	Langue	Expression	Économie
Gestion	1.000
Math.	0.786	1.000
Langue	0.566	0.237	1.000
Expression	0.377	0.367	0.712	1.000
Économie	0.829	0.805	0.278	0.323	1.000

Matrice de corrélation

e₁ = 1.2727	e₂ =	e₃ = -0.9091	e₄ = -0.3636	e₅ = 1.2273
e₆ =	e₇ = -1.0909	e₈ = 0.4545	e₉ = 0.2273	e₁₀ = -0.9545

résidus dans la régression linéaire simple par les notes de gestion

Gestion	Langue	Constante	R²
0.7046	-0.2627	6.3205	0.7419

modèle partiel : coefficients de régression des notes de gestion et de langue

e₁ = 1.1135	e₂ = -1.2472	e₃ = 0.0177	e₄ = 0.1947	e₅ = 0.8486
e₆ = 1.9670	e₇ = -1.7050	e₈ = 0.2601	e₉ = -0.1514	e₁₀ = -1.2980

résidus dans le modèle partiel

Gestion	Math.	Langue	Expression	Constante	R²
0.6322	0.0731	-0.4042	0.1906	5.7526	0.7915

modèle complet : coefficients de régression des notes de gestion, mathématiques, langue et techniques d’expression

4. gestion d’un portefeuille par la régression linéaire multiple (avec logiciel).

Un fonds de placements internationaux gère son portefeuille d’actions et d’obligations en fonction des critères économiques, démographiques et sociaux des 50 pays dans lesquels une partie des souscriptions qui lui sont confiées sont investies ou en voie de l’être. Pour cela, il dispose des statistiques suivantes sur les 50 pays :

- SR : taux moyen d'épargne par personnes entre 1960 et1970

- POP15 : pourcentage de la population de moins de 15 ans

- POP75 : pourcentage de la population de plus de 75 ans

- DPI : revenu moyen par personne de 1960 à 1970

- DDPI : taux moyen de croissance du revenu moyen par personne.

Les données sont extraites de l’ouvrage de Belsley et coll. Regression diagnostics(Belsley D.A., Kuh E., Welsh R.E., 1980: Regression diagnostics: identifying influential data and sources of collinearity. Wiley, New York) et se trouvent dans le fichier Belsley.dat fichier de paramètres Belsley.par).

1) Comment, en supposant connu l’avenir de la structure démographique de la population et du développement économique des pays, peut-on déterminer les pays dont le taux d’épargne va augmenter ?

2) étudier les représentations graphiques de la forme (variable explicative, variable expliquée) (on donne en annexe la représentation des couples POP15 x SR et DDPI x SR).

3) Effectuer la régression linéaire multiple du taux moyen d’épargne SR par l’accroissement du revenu moyen par personne (DDPI) et les pourcentages de population de moins de 15 ans et de plus de 75 ans (POP15 et POP75). Expliquer les résultats

4) Calculer le taux moyen d’épargne des pays de rang 7 et 46 estimé par le modèle et en déduire les résidus. Que peut-on en dire ?

5) étudier les résidus. Que peut-on en déduire ?

6) Que peut-on dire des coefficients de corrélation entre le taux moyen d’épargne et les pourcentages de population de moins de 15 ans et de plus de 75 ans ? Comment interpréter les signes des coefficients de régression correspondants ?

7) Recommencer la régression en remplaçant les variables explicatives POP15 et POP75 par une seule variable.

8) Les économistes prévoient à l’horizon 2010 pour les pays n° 23, 37 et 38 les valeurs suivantes :

	POP15	POP75	DPI	DDPI
2	23.32	4.41	1507.99	3.93
23	17.01	13.01	1457.28	9.10
37	21.92	9.45	650.96	6.67
38	28.24	1.98	735.79	2.35

Parmi ces pays, quels sont ceux dont le taux d’épargne augmentera le plus si ces prévisions se réalisent ? Que penser de ces prévisions ?

Tableau de données

(Belsey)

n°		SR	POP15	POP75	DPI	DDPI
1	Australie	11.43	29.35	2.87	2329.68	2.87
2	Autriche	12.07	23.32	4.41	1507.99	3.93
3	Belgique	13.17	23.80	4.43	2108.47	3.82
4	Bolivie	5.75	41.89	1.67	189.13	0.22
5	Brésil	12.88	42.19	0.83	728.47	4.56
6	Canada	8.79	31.72	2.85	2982.88	2.43
7	Chili	0.60	39.74	1.34	662.86	2.67
8	Taïwan	11.90	44.75	0.67	289.52	6.51
9	Colombie	4.98	46.64	1.06	276.65	3.08
10	Costa Rica	10.78	47.64	1.14	471.24	2.80
11	Danemark	16.85	24.42	3.93	2496.53	3.99
12	Equateur	3.59	46.31	1.19	287.77	2.19
13	Finlande	11.24	27.84	2.37	1681.25	4.32
14	France	12.64	25.06	4.70	2213.82	4.52
15	RFA	12.55	23.31	3.35	2457.12	3.44
16	Grèce	10.67	25.62	3.10	870.85	6.28
17	Guatemala	3.01	46.05	0.87	289.71	1.48
18	Honduras	7.70	47.32	0.58	232.44	3.19
19	Islande	1.27	34.03	3.08	1900.10	1.12
20	Inde	9.00	41.31	0.96	88.94	1.54
21	Irlande	11.34	31.16	4.19	1139.95	2.99
22	Italie	14.28	24.52	3.48	1390.00	3.54
23	Japon	21.10	27.01	1.91	1257.28	8.21
24	Corée	3.98	41.74	0.91	207.68	5.81
25	Luxembourg	10.35	21.80	3.73	2449.39	1.57
26	Malte	15.48	32.54	2.47	601.05	8.12
27	Norvège	10.25	25.95	3.67	2231.03	3.62
28	Pays Bas	14.65	24.71	3.25	1740.70	7.66
29	Nouvelle Zélande	10.67	32.61	3.17	1487.52	1.76
30	Nicaragua	7.30	45.04	1.21	325.54	2.48
31	Panama	4.44	43.56	1.20	568.56	3.61
32	Paraguay	2.02	41.18	1.05	220.56	1.03
33	Pérou	12.70	44.19	1.28	400.06	0.67
34	Philippines	12.78	46.26	1.12	152.01	2.00
35	Portugal	12.49	28.96	2.85	579.51	7.48
36	Afrique du sud	11.14	31.94	2.28	651.11	2.19
37	Rhodésie du sud	13.30	31.92	1.52	250.96	2.00
38	Espagne	11.77	27.74	2.87	768.79	4.35
39	Suède	6.86	21.44	4.54	3299.49	3.01
40	Suisse	14.13	23.49	3.73	2630.96	2.70
41	Turquie	5.13	43.42	1.08	389.66	2.96
42	Tunisie	2.81	46.12	1.21	249.87	1.13
43	Royaume Uni	7.81	23.27	4.46	1813.93	2.01
44	Etats Unis	7.56	29.81	3.43	4001.89	2.45
45	Vénézuela	9.22	46.40	0.90	813.39	0.53
46	Zambie	18.56	45.25	0.56	138.33	5.14
47	Jamaïque	7.72	41.12	1.73	380.47	10.23
48	Uruguay	9.24	28.13	2.72	766.54	1.88
49	Libye	8.89	43.69	2.07	123.58	16.71
50	Malaisie	4.71	47.20	0.66	242.69	5.08

5. coefficient de corrélation partielle.

On considère les données traitées dans l’exercice 1.

1) Quelle est la variable explicative parmi les trois possibles qui donnera a priori les meilleurs résultats dans la régression linéaire simple ? Effectuer cette régression.

2) Choisir une seconde variable explicative complétant au mieux la précédente.

3) On effectue la régression du poids par la taille et de l’âge par la taille, et on calcule les résidus dans chaque cas (cf. tableaux ci-dessous). Calculer les coefficients de corrélation entre ces séries de résidus et la série des résidus calculés dans la régression de la note par la taille En déduire une justification théorique du choix de la variable effectué dans la question précédente.

4) On effectue maintenant la régression en considérant le poids et la taille comme variables explicatives. Les résultats numériques sont les suivants :

Poids	Taille	Constante	Coefficient de détermination
b₁ = -0.1739	b₂ = -21.6793	b₀ = 57.6209	R² = 0.5269

Comment évaluer l’information sur la note apportée par l’âge en complément des informations apportées par la taille et le poids (on utilisera les résultats ci-dessous) ?

	y = poids/x = taille	y = âge/x = taille	y = note / x₁ = taille, x₂ = poids	y = âge / x₁ = taille, x₂ = poids
1	-8.5520	-0.2624	-3.2748	0.0762
2	-7.2172	-0.6606	1.7628	-0.3749
3	-9.0498	-0.8598	1.8467	-0.5014
4	-2.7149	0.7421	-0.2460	0.8496
5	-0.8824	-0.0588	-0.3299	-0.0239
6	-0.8824	-0.0588	-3.3299	-0.0239
7	12.7828	0.3394	-2.7585	-0.1667
8	7.7828	-0.6606	1.3718	-0.9688
9	4.6154	1.5385	3.4182	1.3557
10	4.1176	-0.0588	1.5397	-0.2219