2. Nature de la liaison. graphiques.

2.1 Nature de la liaison

Le premier point de la régression est de déterminer la nature de la liaison entre les deux variables. On privilégie toujours en statistique la liaison la plus simple[1], c’est-à-dire la liaison linéaire entre les variables, de la forme :

f(x) = b x + a

Nous utilisons ici les notations habituelles en statistique : b et a représentent des paramètres théoriques de la régression, et leurs valeurs sont inconnues.

 

Le choix d’une liaison de nature différente doit être argumenté, par une analyse de chacune des variables ou par une représentation graphique montrant clairement que la liaison ne peut être linéaire. Dans certains cas en effet, on sait a priori que la liaison n’est pas linéaire. Par exemple, un capital de 100€ placé à un intérêt de 10% par an capitalisé n’augmente pas de façon linéaire, mais exponentielle : la première année, il augmente de 10€, la deuxième de 11€ (10% de 110), la troisième de 12.1€ (10% de 121€), ....

Il est clair que dans le cas où le taux d’intérêt n’est pas constant, le même phénomène dû aux intérêts composés se produit et que la liaison entre le temps et le montant du capital actualisé n’est pas en général linéaire.

2.2 Représentation graphique et courbe de régression.

Lorsque l’on ne dispose pas d’information particulière sur les données, la démarche initiale pour étudier la liaison entre deux variables quantitatives est de représenter graphiquement les couples de valeurs observées. On peut alors envisager deux cas.

Si le nombre d’observations est faible, on se limite à l’analyse de la représentation graphique des couples dont nous avons expliqué la construction dans le chapitre 3. Sauf contre-indication, on considère la relation éventuellement mise en évidence comme linéaire, en prenant soin de rechercher les points aberrants.

 

Exemple : nous effectuons la régression du revenu des 50 clients par leur âge. Pour un nombre d’observations égal à 50, on peut se limiter à la représentation graphique des couples : nous avons déjà constaté la particularité des clients de rang 25, 31 et 43 sur la figure 2 du chapitre 3. En dehors de ces trois clients, on peut considérer que la liaison est linéaire puisqu’aucune autre relation n’apparaît clairement.

 

Si le nombre d’observations le permet, on étudie la courbe de régression. Cette courbe représente la fonction de régression f de la même façon que l’histogramme représente la densité théorique d’une v.a.. On procède de la façon suivante pour la construire :

1)      On répartit les observations de la variable explicative dans k intervalles, en repérant le rang des unités statistiques de chaque intervalle. Chaque intervalle est caractérisé par son centre cxl ou sa moyenne mxl considérée comme valeur approximative des observations de l’intervalle.

2)      On calcule la moyenne des observations de la variable expliquée pour les unités statistiques de chaque intervalle précédent. On obtient k moyennes myl, l = 1, …, k .

3)        On représente graphiquement les k couples [mxl, myl] ou [cxl, myl], éventuellement par un disque d’aire proportionnelle à l’effectif nl: on obtient ainsi la « courbe de régression ».

4)      On analyse ensuite le graphique comme précédemment : on suppose que la courbe de régression est linéaire sauf contre-indication. La fonction f(x) est de la forme b x + a.

 

Définition : on appelle courbe de régression de Y par X la représentation graphique des couples (mxl, myl) où mxl et myl sont les moyennes des variables X et Y dans les groupes l définis par des intervalles sur la variable X, ou encore les centres de ces intervalles.

 

Exemple : Pour construire la courbe de régression du revenu par l’âge, nous avons défini 4 intervalles d’âge de même amplitude :

 

k

intervalle

effectif

nk

centre

cxk

âge moyen

mxk

rangs observations x(i)

revenu moyen

myk

1

[24, 35 [

14

29.5

30.4

37, 32, 11, 9, 6, 18, 46, 7, 15, 30, 49, 29, 50, 48

88 400.86

2

[35, 46 [

27

40.5

39.9

4, 35, 13, 16, 40, 42, 22, 5, 2, 45, 41, 3, 17, 24, 34, 21, 36, 38, 20, 23, 39, 19, 47, 44, 27, 26, 12

111 350.99

3

[46, 57 [

5

51.5

49.6

33, 28, 14, 1, 8

141 014.6

4

[57, 68 ]

4

62.5

63.5

10, 25, 43, 31

108 204

 

Figure 1.7 : représentation graphique de la courbe de régression du revenu par l’âge.

(origine des axes : valeurs moyennes)

 

On a pour l’intervalle 4 :

my4 = [y10 + y25 + y43 + y31 ] / 4 = 108 204.

L’interprétation de la courbe de régression aboutit évidemment à la même conclusion que précédemment : l’intervalle 4 rend impossible une liaison linéaire.

 

Il existe un paramètre statistique classique pour mesurer la proximité de la courbe de régression aux valeurs observées : c’est le rapport de corrélation de Y par X, qu’il ne faut pas confondre avec le coefficient de corrélation linéaire. Il est fondé sur la décomposition de la variance de la variable expliquée lorsque les n observations sont réparties en k groupes.

 

Définitions : lorsque les n observations y(i) i = 1, …, n sont réparties en k groupes d’effectifs nl :

·        on appelle variance totale sT2 la variance des observations (y(i)) i = 1, ..., n :

 

 

1

n

 

sT2

=

––

S

[ y(i) - my ]2

 

 

n

i = 1

 

·        on appelle variance expliquée (ou inter) sm2 la variance des moyennes myl des groupes pondérées par les effectifs nl des groupes :

 

 

1

k

 

sm2

=

––

S

nl (myl - my)2

 

 

n

l = 1

 

·        on appelle variance résiduelle (ou intra) sr2 la moyenne des variances syl 2 calculées dans chacun des groupes pondérées par les effectifs nl des groupes.

 

 

1

k

 

sr2

=

––

S

nl syl 2

 

 

n

l = 1

 

 

propriété fondamentale : la variance totale sT2 est égale à la somme de la variance expliquée sm2 et de la variance résiduelle sr2 :

sT2 = sm2 + sr2

 

La propriété fondamentale que nous admettons ici est démontrée dans l’exercice 7 du chapitre 2. La notion de variance résiduelle est analogue à celle qui a été introduite dans le modèle de régression, la fonction f étant définie par la courbe de régression.

Définition : on appelle rapport de corrélation de Y par rapport à X le rapport h2 de la variance expliquée à la variance totale :

 

 

sm2

h2

=

––––

 

 

sT2

 

Propriétés du rapport de corrélation :

·        le rapport de corrélation est compris entre 0 et 1 ;

·        une valeur proche de 1 montre que la valeur y de la variable expliquée Y ne varie pas beaucoup à l’intérieur de chaque classe  (sr2 » 0, sm2; » 1), et est assez bien déterminée par la classe à laquelle la valeur x appartient ;

·        une valeur proche de 0 montre que les moyennes myla sont très proches les unes des autres (sm2 » 0) et que la valeur x de la variable explicative X ne donne guère d’indication sur la valeur y de la variable expliquée Y.

Le rapport de corrélation mesure la liaison entre les variables indépendamment de la nature de cette liaison, contrairement au coefficient de corrélation qui la suppose linéaire.

Pour en apprécier approximativement la taille, on peut en calculer la racine carrée et la comparer à celle d’un coefficient de corrélation. Mais, si l’on suppose que la variable Y suit la loi normale de moyenne m et de variance s2 dans chaque classe, il existe un test.

 

Théorème : Si le rapport de corrélation théorique est nul, la statistique F :

 

 

(n – k)

h2

F

=

¾-¾

-¾¾-

 

 

(k – 1)

(1 - h2)

suit la loi de Fisher de degré de liberté k - 1, n - k.

 

Test de nullité du rapport de corrélation :

·      Hypothèse nulle :h2 = 0 (ou Y de même moyenne théorique dans chaque classe).

·      Hypothèse alternative :h2 ¹ 0 (ou au moins une moyenne différente des autres).

·      Statistique du test :variable F définie précédemment.

·      Région critique :] fa, + ¥ [, fa étant obtenu par lecture de la table de la loi de Fisher pour un risque de première espèce a.

 

Exemple : Le rapport de corrélation du revenu par l’âge est égal à 0.2537. Le calcul donne f = 5.21, pour une région critique ]2.81, + ¥ [avec un risque de 5%. On rejette l’hypothèse de nullité. Mais il faudrait vérifier les hypothèses sur la variable expliquée Y.

On peut aussi considérer que sa racine carrée, de l’ordre de 0.5, est relativement proche de 1 par analogie avec un coefficient de corrélation linéaire de 0.5 pour n = 50.

 

Gr.

Effectif

Moyenne mxl

Moyenne myl

Variance syl 2

1

14

30.357

88400.857

51 643 044.8367

2

27

39.852

111350.852

589 543 173.5336

3

5

49.600

141014.600

1 120 468 325.8400

4

4

63.500

108204.000

2 621 834 260.5000

 

On en déduit :

Variance totale de la variable expliquée sT2

877 095 300.2096

Variance expliquée de la variable expliquée sm2

222 488 353.3638

Variance résiduelle de la variable expliquée sr2

654 606 946.8458

Rapport de corrélation de Y par X h2

0.2537

 



[1] C’est une démarche générale des sciences appliquées appelée « principe de parcimonie » ou « rasoir d’Ockham ».