6. Introduction a la régression linéaire multiple

6.1 Modèle linéaire multiple.

La régression linéaire simple que nous avons présentée dans les paragraphes précédents peut être généralisée en considérant plusieurs variables explicatives X₁, X₂, …, X_p de la variable expliquée Y. Le modèle est alors le suivant :

Y = b₀ + b₁ X₁ + b₂ X₂ + … + b_p X_p + e

La terminologie et les notations sont identiques à celles que nous avons employées en régression linéaire simple. Les coefficients b₁, b₂, …, b_p sont les coefficients de régression théoriques, la v.a. e est la variable résiduelle. La seule différence dans la notation est celle du coefficient constant noté ici b₀.

Remarque : on peut considérer comme variables explicatives les puissances successives d’une variable X. Le modèle obtenu est appelé modèle polynomial. Il est de la forme :

Y = b₀ + b₁ X + b₂ X²+ … + b_p X^p+ e

Il est fréquent, pour simplifier les notations, d’introduire une variable explicative supplémentaire X₀, qui est constante et égale à 1. On peut alors écrire :

		p
Y	=	S	b_j X_j	+	e
		j = 0

Soit, pour chaque unité statistique :

		p
y(i)	=	S	b_jx_j(i)	+	e(i)
		j = 0

Le critère utilisé pour calculer les estimations b_j est le même que précédemment : on cherche les valeurs b₀, b₁, ..., b_j, ..., b_p telles que l’ajustement soit le meilleur possible au sens des moindres carrés. On minimise donc la somme S :

		n		p
S	=	S	[ y(i) –	S	b_j x_j(i)	]²
		i = 1		j = 0

La régression linéaire simple apparaît comme un cas particulier de la régression linéaire multiple, avec p = 1. On peut considérer aussi que la régression simple par X_j est une régression multiple avec une contrainte sur les coefficients, dont tous sont nuls sauf les coefficients b₀ et b_j.

La valeur minimale obtenue sans contrainte est toujours inférieure à celle que l’on obtient sous contrainte. La somme des carrés des résidus est donc toujours inférieure ou égale à celle que l’on obtient en effectuant une régression par une seule variable, ou même plusieurs, extraites de la liste des variables X_j. Mais cela ne signifie pas que le modèle soit meilleur au plan statistique.

Les calculs sont toujours effectués par ordinateur[1]. Nous ne donnerons que les définitions et formules[2] utiles pour le choix et l’interprétation du modèle.

· le coefficient de corrélation linéaire est appelé coefficient de corrélation multiple et est noté R. C’est le coefficient de corrélation entre la variable expliquée Y et son estimation par le modèle. Il est toujours positif et son carré R² est appelé coefficient de détermination.

· la variance des résidus est notée S². Comme nous l’avons expliqué, lorsque toutes les variables sont prises en compte, elle est minimale, c’est-à-dire inférieure à la variance des résidus calculée à partir de variables explicatives sélectionnées parmi les précédente. On a comme précédemment :

S² = (1 – R²) s_y²

· l’estimation sans biais de la variance résiduelle S’² est égale à :

		n
S’²	=	–––––––––	S²
		(n – p – 1)

On constate donc que le nombre p de variables explicatives intervient de deux façons différentes dans l’estimation sans biais de la variance résiduelle. Augmenter la valeur de p fait diminuer la valeur de S², mais accroît celle du facteur n/(n – p – 1). Qu’en est-il du produit ? On ne peut donner de réponse générale, et dans certains cas, augmenter le nombre de variables explicatives se révèle néfaste au plan de la qualité de l’ajustement dans la population entière.

Exemple : nous avons effectué la régression linéaire multiple du revenu des clients d’Euromarket en considérant comme variables explicatives l’âge, le montant des achats et le nombre d’enfants. Les résultats sont les suivants :

Régression	Coefficient R	variance des résidus	variance résiduelle sans biais
multiple	0.4926	44. 37 x 10⁷	48.50 x 10⁷
simple	0.4527	47.86 x 10⁷	49.99 x 10⁷

Revenu » 2727.39 âge + 5.0547 achats + 5478.49 enfants – 8331.07

La régression linéaire multiple est meilleure que la régression linéaire simple puisque la variance résiduelle sans biais est inférieure.

6.2 Applications aux modèles économétriques

Dans les modèles économétriques, les variables considérées ne sont pas nécessairement des variables statistiques, c’est-à-dire des mesures sur un échantillon d’une même grandeur. Le temps intervient souvent, de différentes façons lorsque la variable expliquée est échelonnée dans le temps.

6.2.1 Variables explicatives de la forme X_j = t^j.

On peut considérer comme variables explicatives les variables de la forme t, t², t³, …, t^p, où t représente l’instant de l’observation de la variable expliquée y_t.

. Le modèle est alors le suivant :

	p
Y_t = b₀ +	S	b_jt^j	+ e
	j = 1

Un certain nombre de précautions sont ici indispensables :

· des problèmes de calcul numériques se présentent systématiquement si la variable t prend de grandes valeurs. On a tout intérêt à commencer systématiquement à la valeur t = 1, et non t = 1997 par exemple. Cette précaution est d’autant plus importante que la puissance de t considérée est élevée. Pour t = 10, on a ainsi t4 = 10 000. Il existe une procédure de calcul spécifique, fondée sur les polynômes orthogonaux. Mais dans tous les cas, les résultats numériques sont sujets à caution lorsque les calculs ne sont pas effectués en double précision.

· on cherche toujours la plus petite valeur possible de l’exposant p. On montre en effet que, par n+1 points, il existe toujours un polynôme de degré n passant exactement par ces n points (par deux points , il passe une droite). L’ajustement de n+1 points par un polynôme de degré n ne présente donc aucun intérêt, pas plus que de dire que deux points sont alignés.

Exemple : on considère la consommation de viande Y_t aux États-Unis de 1919 à 1941. nous disposons donc de 23 points et le temps t varie donc de t = 1 à t = 23. On peut ajuster cette série par un polynôme de degré 3 :

Y_t = b₀ + b₁ t + b₂ t² + b₃ t³ + e_t

Les résultats numériques sont les suivants (Bensaber et Bleuse-Trillon, 1989) !:

Y_t = 160.8636 + 5.6679 t - 0.7235 t² + 0.0221 t³ + e_t

avec :

· coefficient de corrélation multiple R = 0.819

· estimation sans biais de la variance résiduelle s’² = 23.75

On trouvera une représentation graphique de la série observée et de la série ajustée danas l’ouvrage de Bensaber et Bleuse-Trillon (p. 150).

6.2.2 Variables explicatives de la forme X_j = Y_t-j.

Le temps intervient par le décalage considéré par rapport à l’observation de Y_t. On cherche à expliquer Y_t par les valeurs observées précédentes, jusqu’à un certain rang, et le modèle est le suivant :

	p
Y_t = b₀ +	S	b_jY_t-j	+ e_t
	j = 1

On parle ici d’autorégression. Les problèmes fondamentaux de ce modèle concernent le choix des variables explicatives, et en particulier la valeur maximale du décalage p considéré. On peut considérer simultanément des variables explicatives de la forme t^j et Y_t-j.

Exemple : les mêmes données ont été analysées en introduisant comme variables explicatives Y_t-1 et Y_t-2.

Y_t = b₀ + b₁Y_t-1 + b₂Y_t-2 + e_t

La première observation considérée est donc Y_t-2, donc la première valeur connue est Y₁ : pour calculer les paramètres de ce modèle, il faut donc considérer t = 3, …23.

Les résultats sont les suivants :

Y_t = 59.7425 + 0.7817Y_t-1 -0.1397Y_t-2 + e_t

avec :

· coefficient de corrélation multiple R = 0.6601

· estimation sans biais de la variance résiduelle s’² = 42.01

6.2.3 analyse des résidus.

L’introduction du temps dans les variables observées a une conséquence importante sur les résidus. La qualité du modèle dépend des résidus, et en particulier le modèle linéaire suppose que les résidus ne sont pas corrélés deux à deux. Il faut donc vérifier cette propriété graphiquement et par des tests statistiques.

Le graphique est en général simple : on reporte simplement le temps en abscisse et les résidus en ordonnées, de la même façon que l’on représente toute série chronologique.

Les tests que l’on effectue sont classiquement un test sur le coefficient d’autocorrélation d’ordre 1, entre les séries e_t et e_t-1. Un test plus ou moins équivalent est celui de Durbin et Watson, dont une table est donnée dans un complément, et on dispose aussi d’un test « portmanteau », dont on trouvera le détail dans des ouvrages plus difficiles d’accès comme celui de Box et Jenkins.

6.3 Les conditions d’une bonne régression linéaire multiple.

Lorsque l’on dispose de plusieurs variables explicatives, il n’est pas toujours nécessaire de toutes les introduire dans le modèle linéaire. Il vaut mieux chercher parmi elles celles qui se complètent le mieux et éviter les redondances d’information qui peuvent créer ce que l’on appelle des colinéarités.

Pour mesurer cette notion d’information complémentaire, on dispose d’un coefficient appelé coefficient de corrélation partielle, dont l’interprétation est analogue à celle d’un coefficient de corrélation linéaire : le coefficient de corrélation partielle de Y et X₂ sachant X₁ mesure l’information apportée par X₂ à Y après la régression de Y par X₁.

La corrélation partielle peut être utilisée de différentes façons pour déterminer un ensemble de variables explicatives.

6.3.1 le meilleur ensemble possible

Certains logiciels donnent directement le meilleur ensemble de variables explicatives possible, ou un des meilleurs. L’inconvénient de ce genre de méthodes est qu’elles ne donnent pas à l’utilisateur la possibilité d’intervenir dans le choix des variables. Imaginons par exemple que les coefficients de corrélation de deux variables X₁ et X₂ avec la variable expliquée Y soient égaux à 0.61001 et 0.61000. Un algorithme fondé sur les valeurs numériques sélectionnera systématiquement la première, ce qui, au plan statistique, n’est guère justifié, la différence entre les coefficients de corrélation n’étant pas significative : il est souvent préférable dans ce cas-là de raisonner en fonction des connaissances sur les données que l’on a par ailleurs.

En outre, le modèle obtenu n’est le meilleur que sur les données observées : rien ne prouve que sur un autre échantillon, on aurait obtenu les mêmes variables explicatives. La stabilité du modèle n’est pas assurée.

6.3.2 algorithme ascendant.

· on choisit comme première variable explicative celle qui minimise la somme des carrés des résidus, ou leur variance. Compte tenu de la formule de cette variance, c’est la variable dont le carré du coefficient de corrélation linéaire avec la variable expliquée est le plus proche de 1. Si deux variables ont un coefficient de corrélation avec la variable explicative très proche l’un de l’autre, on pourra examiner les représentations graphiques des couples ou tenir compte de la nature des données.

· on définit ensuite comme deuxième variable explicative celle qui apporte l’information complémentaire la plus importante. Cette information est évaluée par le coefficient de corrélation partielle, et le raisonnement tenu sur les valeurs numériques est le même que précédemment.

· on continue cette démarche jusqu’à ce que l’information complémentaire apportée soit non significative, par un test du F sur le coefficient de corrélation partielle.

6.3.3 algorithme descendant.

La procédure est l’inverse de la précédente.

· on effectue la régression par la totalité des variables explicatives disponibles. On obtient ainsi le coefficient de corrélation multiple le plus élevé possible, mais le nombre de variables explicatives est élevé et l’estimation sans biais de la variance résiduelle n’est nécessairement minimale.

· on considère les variables explicatives dont le coefficient de corrélation partielle avec la variable expliquée conditionnellement aux autres n’est pas significatif. Parmi elles, on élimine celle dont le coefficient de corrélation partielle est le plus petit en valeur absolue.

· on effectue la régression avec les variables explicatives sauf celle qui été éliminée, et on recommence la procédure d’exclusion.

· on continue cette démarche jusqu’à ce que le coefficient de corrélation partielle de toutes les variables explicatives restantes avec la variable expliquée soit significatif.

6.3.4 algorithme stepwise.

La procédure consiste à introduire et à exclur des variables explicatives.

· l’introduction d’une variable explicative est effectuée suivant l’algorithme ascendant.

· après chaque introduction, on effectue l’algorithme descendant pour exclure une variable dont le coefficient de corrélation partielle serait devenu non significatif.

Cet algorithme, comme les deux précédents, ne donne pas nécessairement le meilleur système possible de variables explicatives. Sa convergence (la fin des calculs) n’a d’ailleurs jamais été montrée dans le cas général. Il est toutefois l’un des plus utilisés.

Exemple : les coefficients de corrélation entre les quatre variables considérés sont donnés dans la matrice ci-dessous :

	âge	achat	enfants	revenu
âge	1.000
achat	-0.055	1.000
enfants	0.181	0.645	1.000
revenu	0.673	0.115	0.317	1.000

Le risque de première espèce est fixé à 10%. On introduit tout d’abord la variable âge, dont le carré du coefficient de corrélation (0.673²) est le plus grand, et significatif.

On mesure ensuite l’information complémentaire apportée par les autres variables, en calculant par ordinateur les coefficients de corrélation partielle :

	achat	enfants
Revenu	0.205	0.267

On constate que c’est la variable enfants qui complète le mieux l’âge. On effectue un test sur ce coefficient de corrélation partielle : sa probabilité critique est égale à 0.069, ce qui signifie qu’avec un risque de première espèce a = 0.1, il caractérise une information significative du nombre d’enfants sur le revenu en complément de l’âge. On introduit donc le nombre d’enfants parmi les variables explicatives.

On continue l’analyse en calculant le coefficient de corrélation partielle entre le revenu et le montant des achats connaissant l’âge et le nombre d’enfants. On obtient 0.038. La probabilité critique est égale à 0.8014 : le montant des achats n’est pas utile dans le modèle de régression.

Comparons maintenant le modèle partiel (variables explicatives : âge, nombre d’enfants) au modèle complet (variables explicatives : âge, nombre d’enfants, achats) :

	Coefficient R²	écart-type résiduel sans biais
Modèle partiel	0.4919	47.47 x 10⁷
Modèle complet	0.4926	48.50 x 10⁷

Le modèle partiel est meilleur que le modèle complet : la diminution du coefficient de détermination est compensée par le plus petit nombre de variables explicatives qui intervient dans le calcul de l’écart type résiduel sans biais. La répartition des résidus est plus proche de la loi normale que les précédents (nous laissons au lecteur le soin de le vérifier). Le modèle final est donc :

Revenu » 2719.9838 âge + 6234.7837 enfants – 7106.6835

[1] Dans certains cas, les calculs peuvent être très imprécis. Des procédures particulières existent dans le cas du modèle polynomial.

[2] Nous avons respecté la notation classique. Les termes R, R² S², S’² ne caractérisent pas ici des v.a. .