2. Nature de la liaison. graphiques.

2.1 Nature de la liaison

Le premier point de la régression est de déterminer la nature de la liaison entre les deux variables. On privilégie toujours en statistique la liaison la plus simple[1], c’est-à-dire la liaison linéaire entre les variables, de la forme :

f(x) = b x + a

Nous utilisons ici les notations habituelles en statistique : b et a représentent des paramètres théoriques de la régression, et leurs valeurs sont inconnues.

Le choix d’une liaison de nature différente doit être argumenté, par une analyse de chacune des variables ou par une représentation graphique montrant clairement que la liaison ne peut être linéaire. Dans certains cas en effet, on sait a priori que la liaison n’est pas linéaire. Par exemple, un capital de 100€ placé à un intérêt de 10% par an capitalisé n’augmente pas de façon linéaire, mais e x p o n e n tielle : la première année, il augmente de 10€, la deuxième de 11€ (10% de 110), la troisième de 12.1€ (10% de 121€), ....

Il est clair que dans le cas où le taux d’intérêt n’est pas constant, le même phénomène dû aux intérêts composés se produit et que la liaison entre le temps et le montant du capital actualisé n’est pas en général linéaire.

2.2 Représentation graphique et courbe de régression.

Lorsque l’on ne dispose pas d’information particulière sur les données, la démarche initiale pour étudier la liaison entre deux variables quantitatives est de représenter graphiquement les couples de valeurs observées. On peut alors envisager deux cas.

Si le nombre d’observations est faible, on se limite à l’analyse de la représentation graphique des couples dont nous avons expliqué la construction dans le chapitre 3. Sauf contre-indication, on considère la relation éventuellement mise en évidence comme linéaire, en prenant soin de rechercher les points aberrants.

Exemple : nous effectuons la régression du revenu des 50 clients par leur âge. Pour un nombre d’observations égal à 50, on peut se limiter à la représentation graphique des couples : nous avons déjà constaté la particularité des clients de rang 25, 31 et 43 sur la figure 2 du chapitre 3. En dehors de ces trois clients, on peut considérer que la liaison est linéaire puisqu’aucune autre relation n’apparaît clairement.

Si le nombre d’observations le permet, on étudie la courbe de régression. Cette courbe représente la fonction de régression f de la même façon que l’histogramme représente la densité théorique d’une v.a.. On procède de la façon suivante pour la construire :

1) On répartit les observations de la variable explicative dans k intervalles, en repérant le rang des unités statistiques de chaque intervalle. Chaque intervalle est caractérisé par son centre c_x^l ou sa moyenne m_x^l considérée comme valeur approximative des observations de l’intervalle.

2) On calcule la moyenne des observations de la variable expliquée pour les unités statistiques de chaque intervalle précédent. On obtient k moyennes m_y^l, l = 1, …, k .

3) On représente graphiquement les k couples [m_x^l, m_y^l] ou [c_x^l, m_y^l], éventuellement par un disque d’aire proportionnelle à l’effectif n_l: on obtient ainsi la « courbe de régression ».

4) On analyse ensuite le graphique comme précédemment : on suppose que la courbe de régression est linéaire sauf contre-indication. La fonction f(x) est de la forme b x + a.

Définition : on appelle courbe de régression de Y par X la représentation graphique des couples (m_x^l, m_y^l) où m_x^l et m_y^l sont les moyennes des variables X et Y dans les groupes l définis par des intervalles sur la variable X, ou encore les centres de ces intervalles.

Exemple : Pour construire la courbe de régression du revenu par l’âge, nous avons défini 4 intervalles d’âge de même amplitude :

k	intervalle	effectif n_k	centre c_x^k	âge moyen m_x^k	rangs observations x(i)	revenu moyen m_y^k
1	[24, 35 [	14	29.5	30.4	37, 32, 11, 9, 6, 18, 46, 7, 15, 30, 49, 29, 50, 48	88 400.86
2	[35, 46 [	27	40.5	39.9	4, 35, 13, 16, 40, 42, 22, 5, 2, 45, 41, 3, 17, 24, 34, 21, 36, 38, 20, 23, 39, 19, 47, 44, 27, 26, 12	111 350.99
3	[46, 57 [	5	51.5	49.6	33, 28, 14, 1, 8	141 014.6
4	[57, 68 ]	4	62.5	63.5	10, 25, 43, 31	108 204

Figure 1.7 : représentation graphique de la courbe de régression du revenu par l’âge.

(origine des axes : valeurs moyennes)

On a pour l’intervalle 4 :

m_y⁴ = [y₁₀ + y₂₅ + y₄₃ + y₃₁ ] / 4 = 108 204.

L’interprétation de la courbe de régression aboutit évidemment à la même conclusion que précédemment : l’intervalle 4 rend impossible une liaison linéaire.

Il existe un paramètre statistique classique pour mesurer la proximité de la courbe de régression aux valeurs observées : c’est le rapport de corrélation de Y par X, qu’il ne faut pas confondre avec le coefficient de corrélation linéaire. Il est fondé sur la décomposition de la variance de la variable expliquée lorsque les n observations sont réparties en k groupes.

Définitions : lorsque les n observations y(i) i = 1, …, n sont réparties en k groupes d’effectifs n_l:

· on appelle variance totale s_T² la variance des observations (y(i)) i = 1, ..., n :

		1	n
s_T²	=	––	S	[ y(i) - m_y]²
		n	i = 1

· on appelle variance expliquée (ou inter) s_m² la variance des moyennes m_y^l des groupes pondérées par les effectifs n_l des groupes :

		1	k
s_m²	=	––	S	n_l (m_y^l - m_y)²
		n	l = 1

· on appelle variance résiduelle (ou intra) s_r² la moyenne des variances s_y^l ² calculées dans chacun des groupes pondérées par les effectifs n_l des groupes.

		1	k
s_r²	=	––	S	n_l s_y^l²
		n	l = 1

propriété fondamentale : la variance totale s_T² est égale à la somme de la variance expliquée s_m² et de la variance résiduelle s_r² :

s_T² = s_m² + s_r²

La propriété fondamentale que nous admettons ici est démontrée dans l’exercice 7 du chapitre 2. La notion de variance résiduelle est analogue à celle qui a été introduite dans le modèle de rég ression, la fonction f étant définie par la courbe de régression.

Définition : on appelle rapport de corrélation de Y par rapport à X le rapport h²de la variance expliquée à la variance totale :

		s_m²
h²	=	––––
		s_T²

Propriétés du rapport de corrélation :

· le rapport de corrélation est compris entre 0 et 1 ;

· une valeur proche de 1 montre que la valeur y de la variable expliquée Y ne varie pas beaucoup à l’intérieur de chaque classe (s_r² » 0, s_m²; » 1), et est assez bien déterminée par la classe à laquelle la valeur x appartient ;

· une valeur proche de 0 montre que les moyennes m_y^la sont très proches les unes des autres (s_m² » 0) et que la valeur x de la variable explicative X ne donne guère d’indication sur la valeur y de la variable expliquée Y.

Le rapport de corrélation mesure la liaison entre les variables indépendamment de la nature de cette liaison, contrairement au coefficient de corrélation qui la suppose linéaire.

Pour en apprécier approximativement la taille, on peut en calculer la racine carrée et la comparer à celle d’un coefficient de corrélation. Mais, si l’on suppose que la variable Y suit la loi normale de moyenne m et de variance s² dans chaque classe, il existe un test.

Théorème : Si le rapport de corrélation théorique est nul, la statistique F :

		(n – k)	h²
F	=	¾-¾	-¾¾-
		(k – 1)	(1 - h²)

suit la loi de Fisher de degré de liberté k - 1, n - k.

Test de nullité du rapport de corrélation :

· Hypothèse nulle :h² = 0 (ou Y de même moyenne théorique dans chaque classe).

· Hypothèse alternative :h² ¹ 0 (ou au moins une moyenne différente des autres).

· Statistique du test :variable F définie précédemment.

· Région critique :] f_a, + ¥ [, f_a étant obtenu par lecture de la table de la loi de Fisher pour un risque de première espèce a.

Exemple : Le rapport de corrélation du revenu par l’âge est égal à 0.2537. Le calcul donne f= 5.21, pour une région critique ]2.81, + ¥ [avec un risque de 5%. On rejette l’hypothèse de nullité. Mais il faudrait vérifier les hypothèses sur la variable expliquée Y.

On peut aussi considérer que sa racine carrée, de l’ordre de 0.5, est relativement proche de 1 par analogie avec un coefficient de corrélation linéaire de 0.5 pour n = 50.

Gr.	Effectif	Moyenne m_x^l	Moyenne m_y^l	Variance s_y^{l 2}
1	14	30.357	88400.857	51 643 044.8367
2	27	39.852	111350.852	589 543 173.5336
3	5	49.600	141014.600	1 120 468 325.8400
4	4	63.500	108204.000	2 621 834 260.5000

On en déduit :

Variance totale de la variable expliquée s_T²	877 095 300.2096
Variance expliquée de la variable expliquée s_m²	222 488 353.3638
Variance résiduelle de la variable expliquée s_r²	654 606 946.8458
Rapport de corrélation de Y par X h²	0.2537

[1] C’est une démarche générale des sciences appliquées appelée « principe de parcimonie » ou « rasoir d’Ockham ».