La régression linéaire simple que nous avons présentée dans les paragraphes précédents peut être généralisée en considérant plusieurs variables explicatives X1, X2, …, Xp de la variable expliquée Y. Le modèle est alors le suivant :
Y = b0 + b1 X1
+ b2
X2 + … + bp Xp + e |
La terminologie et les notations sont identiques à celles que nous avons employées en régression linéaire simple. Les coefficients b1, b2, …, bp sont les coefficients de régression théoriques, la v.a. e est la variable résiduelle. La seule différence dans la notation est celle du coefficient constant noté ici b0.
Remarque : on peut considérer comme variables explicatives les puissances successives d’une variable X. Le modèle obtenu est appelé modèle polynomial. Il est de la forme :
Y = b0 + b1 X + b2 X2 + … + bp Xp + e
Il est fréquent, pour simplifier les notations, d’introduire une variable explicative supplémentaire X0, qui est constante et égale à 1. On peut alors écrire :
|
|
p |
|
|
|
Y |
= |
S |
bj Xj |
+ |
e |
|
|
j = 0 |
|
|
|
Soit, pour chaque unité statistique :
|
|
p |
|
|
|
y(i) |
= |
S |
bj xj(i) |
+ |
e(i) |
|
|
j = 0 |
|
|
|
Le critère utilisé pour calculer les estimations bj est le même que précédemment : on cherche les valeurs b0, b1, ..., bj, ..., bp telles que l’ajustement soit le meilleur possible au sens des moindres carrés. On minimise donc la somme S :
|
|
n |
|
p |
|
|
S |
= |
S |
[ y(i) – |
S |
bj
xj(i) |
]2 |
|
|
i = 1 |
|
j = 0 |
|
|
La régression linéaire simple apparaît comme un cas particulier de la régression linéaire multiple, avec p = 1. On peut considérer aussi que la régression simple par Xj est une régression multiple avec une contrainte sur les coefficients, dont tous sont nuls sauf les coefficients b0 et bj.
La valeur minimale obtenue sans contrainte est toujours inférieure à celle que l’on obtient sous contrainte. La somme des carrés des résidus est donc toujours inférieure ou égale à celle que l’on obtient en effectuant une régression par une seule variable, ou même plusieurs, extraites de la liste des variables Xj. Mais cela ne signifie pas que le modèle soit meilleur au plan statistique.
Les calculs sont toujours effectués par ordinateur[1]. Nous ne donnerons que les définitions et formules[2] utiles pour le choix et l’interprétation du modèle.
· le coefficient de corrélation linéaire est appelé coefficient de corrélation multiple et est noté R. C’est le coefficient de corrélation entre la variable expliquée Y et son estimation par le modèle. Il est toujours positif et son carré R2 est appelé coefficient de détermination.
· la variance des résidus est notée S2. Comme nous l’avons expliqué, lorsque toutes les variables sont prises en compte, elle est minimale, c’est-à-dire inférieure à la variance des résidus calculée à partir de variables explicatives sélectionnées parmi les précédente. On a comme précédemment :
S2 = (1 – R2) sy2
· l’estimation sans biais de la variance résiduelle S’2 est égale à :
|
|
n |
|
S’2 |
= |
––––––––– |
S2 |
|
|
(n – p – 1) |
|
On constate donc que le nombre p de variables explicatives intervient de deux façons différentes dans l’estimation sans biais de la variance résiduelle. Augmenter la valeur de p fait diminuer la valeur de S2, mais accroît celle du facteur n/(n – p – 1). Qu’en est-il du produit ? On ne peut donner de réponse générale, et dans certains cas, augmenter le nombre de variables explicatives se révèle néfaste au plan de la qualité de l’ajustement dans la population entière.
Exemple : nous avons
effectué la régression linéaire multiple du revenu des clients d’Euromarket en
considérant comme variables explicatives l’âge, le montant des achats et le
nombre d’enfants. Les résultats sont les suivants :
Régression |
Coefficient R |
variance des résidus |
variance résiduelle sans biais |
multiple |
0.4926 |
44. 37 x 107 |
48.50 x 107 |
simple |
0.4527 |
47.86 x 107 |
49.99 x 107 |
Revenu » 2727.39 âge + 5.0547 achats + 5478.49 enfants – 8331.07
La régression linéaire multiple est meilleure que la régression linéaire simple puisque la variance résiduelle sans biais est inférieure.
Dans les modèles économétriques, les variables considérées ne sont pas nécessairement des variables statistiques, c’est-à-dire des mesures sur un échantillon d’une même grandeur. Le temps intervient souvent, de différentes façons lorsque la variable expliquée est échelonnée dans le temps.
On peut considérer comme variables explicatives les variables de la forme t, t2, t3, …, tp, où t représente l’instant de l’observation de la variable expliquée yt.
. Le modèle est alors le suivant :
|
p |
|
|
Yt = b0 + |
S |
bj tj |
+ e |
|
j = 1 |
|
|
Un certain nombre de précautions sont ici indispensables :
· des problèmes de calcul numériques se présentent systématiquement si la variable t prend de grandes valeurs. On a tout intérêt à commencer systématiquement à la valeur t = 1, et non t = 1997 par exemple. Cette précaution est d’autant plus importante que la puissance de t considérée est élevée. Pour t = 10, on a ainsi t4 = 10 000. Il existe une procédure de calcul spécifique, fondée sur les polynômes orthogonaux. Mais dans tous les cas, les résultats numériques sont sujets à caution lorsque les calculs ne sont pas effectués en double précision.
·
on cherche
toujours la plus petite valeur possible de l’exposant p. On montre en effet
que, par n+1 points, il existe toujours un polynôme de degré n passant
exactement par ces n points (par deux points , il passe une droite).
L’ajustement de n+1 points par un polynôme de degré n ne présente donc aucun
intérêt, pas plus que de dire que deux points sont alignés.
Exemple :
on considère la consommation de viande Yt aux États-Unis de 1919 à
1941. nous disposons donc de 23 points et le temps t varie donc de t = 1 à t =
23. On peut ajuster cette série par un polynôme de degré 3 :
Yt = b0
+ b1 t + b2 t2 + b3 t3 + et
Les résultats numériques sont
les suivants (Bensaber et Bleuse-Trillon, 1989) !:
Yt
= 160.8636 + 5.6679 t - 0.7235 t2
+ 0.0221 t3 + et
avec :
·
coefficient de corrélation multiple R = 0.819
·
estimation sans biais de la variance résiduelle s’2
= 23.75
On trouvera
une représentation graphique de la série observée et de la série ajustée danas
l’ouvrage de Bensaber et Bleuse-Trillon (p. 150).
Le temps intervient par le décalage considéré par rapport à l’observation de Yt. On cherche à expliquer Yt par les valeurs observées précédentes, jusqu’à un certain rang, et le modèle est le suivant :
|
p |
|
|
Yt = b0 + |
S |
bj Yt-j |
+ et |
|
j = 1 |
|
|
On parle ici d’autorégression. Les problèmes fondamentaux de ce modèle concernent le choix des variables explicatives, et en particulier la valeur maximale du décalage p considéré. On peut considérer simultanément des variables explicatives de la forme tj et Yt-j.
Exemple :
les mêmes données ont été analysées en introduisant comme variables
explicatives Yt-1 et Yt-2.
Yt
= b0 + b1 Yt-1 + b2 Yt-2 + et
La première observation
considérée est donc Yt-2, donc la première valeur connue est Y1 :
pour calculer les paramètres de ce modèle, il faut donc considérer t = 3,
…23.
Les résultats sont les
suivants :
Yt
= 59.7425 + 0.7817 Yt-1 -0.1397 Yt-2
+ et
avec :
·
coefficient de corrélation multiple R = 0.6601
·
estimation sans biais de la variance résiduelle s’2
= 42.01
L’introduction du temps dans les variables observées a une conséquence importante sur les résidus. La qualité du modèle dépend des résidus, et en particulier le modèle linéaire suppose que les résidus ne sont pas corrélés deux à deux. Il faut donc vérifier cette propriété graphiquement et par des tests statistiques.
Le graphique est en général simple : on reporte simplement le temps en abscisse et les résidus en ordonnées, de la même façon que l’on représente toute série chronologique.
Les tests que l’on effectue sont classiquement un test sur le coefficient d’autocorrélation d’ordre 1, entre les séries et et et-1. Un test plus ou moins équivalent est celui de Durbin et Watson, dont une table est donnée dans un complément, et on dispose aussi d’un test « portmanteau », dont on trouvera le détail dans des ouvrages plus difficiles d’accès comme celui de Box et Jenkins.
Lorsque l’on dispose de plusieurs variables explicatives, il n’est pas toujours nécessaire de toutes les introduire dans le modèle linéaire. Il vaut mieux chercher parmi elles celles qui se complètent le mieux et éviter les redondances d’information qui peuvent créer ce que l’on appelle des colinéarités.
Pour mesurer cette notion d’information complémentaire, on dispose d’un coefficient appelé coefficient de corrélation partielle, dont l’interprétation est analogue à celle d’un coefficient de corrélation linéaire : le coefficient de corrélation partielle de Y et X2 sachant X1 mesure l’information apportée par X2 à Y après la régression de Y par X1.
La corrélation partielle peut être utilisée de différentes façons pour déterminer un ensemble de variables explicatives.
Certains logiciels donnent directement le meilleur ensemble de variables explicatives possible, ou un des meilleurs. L’inconvénient de ce genre de méthodes est qu’elles ne donnent pas à l’utilisateur la possibilité d’intervenir dans le choix des variables. Imaginons par exemple que les coefficients de corrélation de deux variables X1 et X2 avec la variable expliquée Y soient égaux à 0.61001 et 0.61000. Un algorithme fondé sur les valeurs numériques sélectionnera systématiquement la première, ce qui, au plan statistique, n’est guère justifié, la différence entre les coefficients de corrélation n’étant pas significative : il est souvent préférable dans ce cas-là de raisonner en fonction des connaissances sur les données que l’on a par ailleurs.
En outre, le modèle obtenu n’est le meilleur que sur les données observées : rien ne prouve que sur un autre échantillon, on aurait obtenu les mêmes variables explicatives. La stabilité du modèle n’est pas assurée.
· on choisit comme première variable explicative celle qui minimise la somme des carrés des résidus, ou leur variance. Compte tenu de la formule de cette variance, c’est la variable dont le carré du coefficient de corrélation linéaire avec la variable expliquée est le plus proche de 1. Si deux variables ont un coefficient de corrélation avec la variable explicative très proche l’un de l’autre, on pourra examiner les représentations graphiques des couples ou tenir compte de la nature des données.
· on définit ensuite comme deuxième variable explicative celle qui apporte l’information complémentaire la plus importante. Cette information est évaluée par le coefficient de corrélation partielle, et le raisonnement tenu sur les valeurs numériques est le même que précédemment.
· on continue cette démarche jusqu’à ce que l’information complémentaire apportée soit non significative, par un test du F sur le coefficient de corrélation partielle.
La procédure est l’inverse de la précédente.
· on effectue la régression par la totalité des variables explicatives disponibles. On obtient ainsi le coefficient de corrélation multiple le plus élevé possible, mais le nombre de variables explicatives est élevé et l’estimation sans biais de la variance résiduelle n’est nécessairement minimale.
· on considère les variables explicatives dont le coefficient de corrélation partielle avec la variable expliquée conditionnellement aux autres n’est pas significatif. Parmi elles, on élimine celle dont le coefficient de corrélation partielle est le plus petit en valeur absolue.
· on effectue la régression avec les variables explicatives sauf celle qui été éliminée, et on recommence la procédure d’exclusion.
· on continue cette démarche jusqu’à ce que le coefficient de corrélation partielle de toutes les variables explicatives restantes avec la variable expliquée soit significatif.
La procédure consiste à introduire et à exclur des variables explicatives.
· l’introduction d’une variable explicative est effectuée suivant l’algorithme ascendant.
· après chaque introduction, on effectue l’algorithme descendant pour exclure une variable dont le coefficient de corrélation partielle serait devenu non significatif.
Cet algorithme, comme les deux
précédents, ne donne pas nécessairement
le meilleur système possible de variables explicatives. Sa convergence
(la fin des calculs) n’a d’ailleurs jamais été montrée dans le cas général. Il
est toutefois l’un des plus utilisés.
Exemple : les coefficients de corrélation entre les quatre variables considérés sont donnés dans la matrice ci-dessous :
|
âge |
achat |
enfants |
revenu |
âge |
1.000 |
|
|
|
achat |
-0.055 |
1.000 |
|
|
enfants |
0.181 |
0.645 |
1.000 |
|
revenu |
0.673 |
0.115 |
0.317 |
1.000 |
Le risque de première espèce est fixé à 10%. On introduit tout d’abord la variable âge, dont le carré du coefficient de corrélation (0.6732) est le plus grand, et significatif.
On mesure ensuite l’information complémentaire apportée par les autres variables, en calculant par ordinateur les coefficients de corrélation partielle :
|
achat |
enfants |
Revenu |
0.205 |
0.267 |
On constate que c’est la variable enfants qui complète le mieux l’âge. On effectue un test sur ce coefficient de corrélation partielle : sa probabilité critique est égale à 0.069, ce qui signifie qu’avec un risque de première espèce a = 0.1, il caractérise une information significative du nombre d’enfants sur le revenu en complément de l’âge. On introduit donc le nombre d’enfants parmi les variables explicatives.
On continue l’analyse en calculant le coefficient de corrélation partielle entre le revenu et le montant des achats connaissant l’âge et le nombre d’enfants. On obtient 0.038. La probabilité critique est égale à 0.8014 : le montant des achats n’est pas utile dans le modèle de régression.
Comparons maintenant le modèle partiel (variables explicatives : âge, nombre d’enfants) au modèle complet (variables explicatives : âge, nombre d’enfants, achats) :
|
Coefficient R2 |
écart-type résiduel sans biais |
Modèle partiel |
0.4919 |
47.47 x 107 |
Modèle complet |
0.4926 |
48.50 x 107 |
Le modèle partiel est meilleur que le modèle
complet : la diminution du coefficient de détermination est compensée par
le plus petit nombre de variables explicatives qui intervient dans le calcul de
l’écart type résiduel sans biais. La répartition des résidus est plus proche de
la loi normale que les précédents (nous laissons au lecteur le soin de le
vérifier). Le modèle final est donc :
Revenu » 2719.9838 âge + 6234.7837 enfants – 7106.6835