1. Modèle de régression simple.

1.1 Variable explicative et variable expliquée.

On étudie en régression deux variables quantitatives, dont l’une, appelée variable expliquée, est considérée comme dépendante de l’autre, appelée variable explicative ou indépendante. On note habituellement la variable expliquée Y, et la variable explicative X.

Lorsque cette dépendance est exacte, la liaison entre les deux variables est « fonction­nelle » : à chaque valeur de X correspond une et une seule valeur possible de Y : cette situation ne présente guère d’intérêt pratique, la relation exacte étant toujours connue.

Lorsque la dépendance n’est pas exacte, la relation que l’on suppose a priori entre les deux variables est approximative : c’est dans ce contexte que la régression apporte des résultats intéressants.

La variable explicative X peut être fixée a priori : on suppose par exemple que le taux d’inflation pour l’an 2003 sera de 1.5% dans les pays de l’Union Européenne, et on en cherche les conséquences sur différents paramètres économiques (taux de chômage, activité, exportations, …) ou sur l’activité économique d’une entreprise : il s’agit en quelque sorte d’un scénario qui n’a aucune raison d’être réalisé puisque les agents économiques vont intervenir en tenant compte des résultats obtenus par la régression.

Elle peut être aussi contrôlée : on mesure la consommation d’une voiture à des vitesses choisies pour établir la relation entre la consommation (variable expliquée) et la vitesse (variable explicative).

La variable explicative peut enfin être observée par tirage au hasard dans une population, comme dans le cas des 50 clients d’EUROMARKET : à une valeur de la variable X (par exemple l’âge, 40 ans), il peut être associé plusieurs valeurs de la variable expliquée Y (par exemple, le revenu, qui n’est pas toujours le même chez les personnes de 40 ans).

1.2 Modèle de régression.

Le modèle de régression est simplement une équation censée représenter cette relation entre les deux variables. Il s’écrit :

Y = f(X) + e

La variable Y est donc supposée approximativement égale à une fonction f de X, le terme e caractérisant la marge d’erreur ou d’imprécision du modèle.

 

Définitions :

·        La variable Y est appelée variable expliquée.

·        La variable X est appelée variable explicative.

·        La variable e est une variable aléatoire appelée variable résiduelle.

·        La variance notée se2 de la variable e est appelée variance résiduelle.

 

On suppose en outre que le modèle vérifie deux propriétés :

·        la variable résiduelle ne dépend pas de X ;

·        la moyenne de la variable résiduelle est nulle.

On effectue souvent l’hypothèse supplémentaire que la v.a. e suit la loi normale. Cette hypothèse, qui demande à être vérifiée, permet en effet d’effectuer des tests statistiques et des estimations par intervalle de confiance.

 

Notre objectif est de préciser la nature de la régression (la fonction f), de mesurer le degré d’imprécision (la variance résiduelle), de détecter les observations qui ne suivent pas le modèle et d’effectuer des prévisions de Y pour différentes valeurs de X (éventuellement par un intervalle de confiance).

Pour effectuer la régression, on dispose de données qui se présentent sous la forme soit d’une suite de n couples [x(i), y(i)], numérotés de i = 1 à i = n (données individuelles), soit d’un tableau de corrélation, ou soit encore de données groupées ou classées. Nous expliquons la méthode dans le cas de données individuelles ; les formules finales sont les mêmes dans tous les cas, à condition de pondérer les observations par les effectifs dans le calcul des paramètres statistiques.

Le modèle de régression est vérifié par chacune de ces observations :

Pour tout i de 1 à n

y(i) = f[x(i)] + e(i)

Dans l'expression précédente, e(i) est la variable résiduelle e associée aux observations x(i) et y(i).

Nous noterons mx, sx², my, sy² les moyennes et les variances observées des x(i) et des y(i). Les propriétés supposées de la variable résiduelle ont comme conséquence que la variance résiduelle se2 est indépendante des x(i). Cette propriété est souvent appelée « homoscédasticité » surtout dans le cas de données économiques.

 

Exemple : L’hypermarché EUROMARKET envisage de commercialiser un crédit par l’intermédiaire de sa carte de paiement et cherche un moyen de contrôler les revenus que ses clients déclarent en sollicitant ce crédit. Les données de l’échantillon étant considérées comme fiables, la méthode choisie consiste à établir une relation entre le revenu et l’âge des clients, sur lequel il est plus difficile de tricher : le revenu est ici considéré comme une fonction approximative de l’âge.

Le problème posé est de vérifier l’existence de la liaison, d’en préciser la nature, le degré d’imprécision et d’établir une équation permettant d’estimer le revenu d’un client en fonction de son âge. En appliquant la formule à un client quelconque, on pourra calculer une valeur approximative de son revenu en fonction de son âge et valider ou non sa déclaration.