Le premier point de la régression est de déterminer la nature de la liaison entre les deux variables. On privilégie toujours en statistique la liaison la plus simple[1], c’est-à-dire la liaison linéaire entre les variables, de la forme :
f(x) = b x + a
Nous utilisons ici les notations habituelles en statistique : b et a représentent des paramètres théoriques de la régression, et leurs valeurs sont inconnues.
Le choix d’une liaison de nature différente doit être argumenté, par une analyse de chacune des variables ou par une représentation graphique montrant clairement que la liaison ne peut être linéaire. Dans certains cas en effet, on sait a priori que la liaison n’est pas linéaire. Par exemple, un capital de 100€ placé à un intérêt de 10% par an capitalisé n’augmente pas de façon linéaire, mais exponentielle : la première année, il augmente de 10€, la deuxième de 11€ (10% de 110), la troisième de 12.1€ (10% de 121€), ....
Il est clair que dans le cas où le taux d’intérêt n’est pas constant, le même phénomène dû aux intérêts composés se produit et que la liaison entre le temps et le montant du capital actualisé n’est pas en général linéaire.
Lorsque l’on ne dispose pas d’information particulière sur les données, la démarche initiale pour étudier la liaison entre deux variables quantitatives est de représenter graphiquement les couples de valeurs observées. On peut alors envisager deux cas.
Si le nombre d’observations est
faible, on se limite à l’analyse de la représentation graphique des couples
dont nous avons expliqué la construction dans le chapitre 3. Sauf
contre-indication, on considère la relation éventuellement mise en évidence
comme linéaire, en prenant soin de rechercher les
points aberrants.
Exemple : nous effectuons la régression du revenu des 50 clients par leur âge. Pour un nombre d’observations égal à 50, on peut se limiter à la représentation graphique des couples : nous avons déjà constaté la particularité des clients de rang 25, 31 et 43 sur la figure 2 du chapitre 3. En dehors de ces trois clients, on peut considérer que la liaison est linéaire puisqu’aucune autre relation n’apparaît clairement.
Si le nombre d’observations le permet, on étudie la courbe de régression. Cette courbe représente la fonction de régression f de la même façon que l’histogramme représente la densité théorique d’une v.a.. On procède de la façon suivante pour la construire :
1) On répartit les observations de la variable explicative dans k intervalles, en repérant le rang des unités statistiques de chaque intervalle. Chaque intervalle est caractérisé par son centre cxl ou sa moyenne mxl considérée comme valeur approximative des observations de l’intervalle.
2) On calcule la moyenne des observations de la variable expliquée pour les unités statistiques de chaque intervalle précédent. On obtient k moyennes myl, l = 1, …, k .
3) On représente graphiquement les k couples [mxl, myl] ou [cxl, myl], éventuellement par un disque d’aire proportionnelle à l’effectif nl: on obtient ainsi la « courbe de régression ».
4) On analyse ensuite le graphique comme précédemment : on suppose que la courbe de régression est linéaire sauf contre-indication. La fonction f(x) est de la forme b x + a.
Exemple : Pour construire la courbe de régression du revenu par l’âge, nous avons défini 4 intervalles d’âge de même amplitude :
k |
effectif nk |
centre cxk |
âge moyen mxk |
rangs observations x(i) |
revenu moyen myk |
|
88 400.86 |
||||||
111 350.99 |
||||||
141 014.6 |
||||||
108 204 |
Figure 1.7 : représentation graphique de la courbe de régression du revenu par l’âge.
(origine des axes : valeurs moyennes)
On a pour l’intervalle 4 :
my4 = [y10 + y25 + y43 + y31 ] / 4 = 108 204.
L’interprétation de la courbe de régression aboutit évidemment à la même conclusion que précédemment : l’intervalle 4 rend impossible une liaison linéaire.
Il existe un paramètre statistique classique pour mesurer la proximité de la courbe de régression aux valeurs observées : c’est le rapport de corrélation de Y par X, qu’il ne faut pas confondre avec le coefficient de corrélation linéaire. Il est fondé sur la décomposition de la variance de la variable expliquée lorsque les n observations sont réparties en k groupes.
Définitions : lorsque les n observations y(i) i = 1, …, n sont réparties en k groupes d’effectifs nl :
· on appelle variance totale sT2 la variance des observations (y(i)) i = 1, ..., n :
|
|
1 |
n |
|
sT2 |
= |
–– |
S |
[ y(i) - my
]2 |
|
|
n |
i = 1 |
|
· on appelle variance expliquée (ou inter) sm2 la variance des moyennes myl des groupes pondérées par les effectifs nl des groupes :
|
|
1 |
k |
|
sm2 |
= |
–– |
S |
nl
(myl - my)2 |
|
|
n |
l = 1 |
|
· on appelle variance résiduelle (ou intra) sr2 la moyenne des variances syl 2 calculées dans chacun des groupes pondérées par les effectifs nl des groupes.
|
|
1 |
k |
|
sr2 |
= |
–– |
S |
nl syl 2 |
|
|
n |
l = 1 |
|
propriété fondamentale : la variance totale sT2 est égale à la somme de la variance expliquée sm2 et de la variance résiduelle sr2 :
sT2 = sm2 + sr2 |
La propriété fondamentale que nous admettons ici est démontrée dans l’exercice 7 du chapitre 2. La notion de variance résiduelle est analogue à celle qui a été introduite dans le modèle de régression, la fonction f étant définie par la courbe de régression.
Définition : on appelle rapport de corrélation de Y par rapport à X le rapport h2 de la variance expliquée à la variance totale :
|
|
sm2 |
h2 |
= |
–––– |
|
|
sT2 |
Propriétés du rapport de corrélation :
· le rapport de corrélation est compris entre 0 et 1 ;
· une valeur proche de 1 montre que la valeur y de la variable expliquée Y ne varie pas beaucoup à l’intérieur de chaque classe (sr2 » 0, sm2; » 1), et est assez bien déterminée par la classe à laquelle la valeur x appartient ;
· une valeur proche de 0 montre que les moyennes myla sont très proches les unes des autres (sm2 » 0) et que la valeur x de la variable explicative X ne donne guère d’indication sur la valeur y de la variable expliquée Y.
Le rapport de corrélation mesure la liaison entre les variables indépendamment de la nature de cette liaison, contrairement au coefficient de corrélation qui la suppose linéaire.
Pour en apprécier approximativement la taille, on peut en calculer la racine carrée et la comparer à celle d’un coefficient de corrélation. Mais, si l’on suppose que la variable Y suit la loi normale de moyenne m et de variance s2 dans chaque classe, il existe un test.
Théorème : Si le rapport de corrélation théorique est nul, la statistique F :
|
|
(n – k) |
h2 |
F |
= |
¾-¾ |
-¾¾- |
|
|
(k – 1) |
(1 - h2) |
suit la loi de Fisher de degré de liberté k - 1, n - k.
Test de nullité du rapport de corrélation :
· Hypothèse nulle :h2 = 0 (ou Y de même moyenne théorique dans chaque classe).
· Hypothèse alternative :h2 ¹ 0 (ou au moins une moyenne différente des autres).
· Statistique du test :variable F définie précédemment.
· Région critique :] fa, + ¥ [, fa étant obtenu par lecture de la table de la loi de Fisher pour un risque de première espèce a.
Exemple : Le rapport de corrélation du revenu par l’âge est égal à 0.2537. Le calcul donne f = 5.21, pour une région critique ]2.81, + ¥ [avec un risque de 5%. On rejette l’hypothèse de nullité. Mais il faudrait vérifier les hypothèses sur la variable expliquée Y.
On peut aussi considérer que sa racine carrée, de l’ordre de 0.5, est relativement proche de 1 par analogie avec un coefficient de corrélation linéaire de 0.5 pour n = 50.
Gr. |
Effectif |
Moyenne mxl |
Moyenne myl |
Variance syl 2 |
1 |
14 |
30.357 |
88400.857 |
51 643 044.8367 |
2 |
27 |
39.852 |
111350.852 |
589 543 173.5336 |
3 |
5 |
49.600 |
141014.600 |
1 120 468 325.8400 |
4 |
4 |
63.500 |
108204.000 |
2 621 834 260.5000 |
On en déduit :
Variance totale de la variable expliquée sT2 |
877 095 300.2096 |
Variance expliquée de la variable
expliquée sm2 |
222 488 353.3638 |
Variance résiduelle de la variable
expliquée sr2 |
654 606 946.8458 |
Rapport de corrélation de Y par X h2 |
0.2537 |
[1] C’est une démarche générale des sciences appliquées appelée « principe de parcimonie » ou « rasoir d’Ockham ».