courbes de régression

 

Bien qu’elle ne soit guère utilisée dans la pratique, la courbe de régression est l’application d’une notion importante au plan conceptuel de la régression. Il s’agit d’analyser la relation entre la variable expliquée y et la variable explicative x et de mettre en évidence la nature de cette relation. Pour cela :

·        on définit des classes dans l’ensemble des valeurs de la variable explicative : C1, C2, C3, …

·        on répartit les observations xi des couples (xi, yi) dans les classes précédentes : on note I1, I2, I3, … l’ensemble des individus i tels tels que xi appartienne à la classe C1 pour i appartenant à I1, à la classe C2 pour i appartenant à I2, à la classe C3 pour i appartenant à I3, …

·        on calcule les moyennes myi des observations yi pour i appartenant à I1, à I2, à I3, …

·        on définit la courbe de régression par la courbe représentative de la fonction CR(x) :

pour x appartenant à C1 CR(x) = my1

pour x appartenant à C2 CR(x) = my2

pour x appartenant à C3 CR(x) = my3

Cette courbe de régression permet de rappeler des notions statistiques importantes : formule de décomposition de la variance, rapport de corrélation, vues dans l’exercice 7 du chapitre 2.

L’application pédagogique proposée à ce sujet consiste à construire les courbes de régression de n’importe quelle variable en fonction de n’importe quelle autre dans des données Hérédité, suffisamment nombreuses pour que cette procédure ait un intérêt.

Ces données sont la taille, le poids et la pointure de 90 étudiantes, de leurs pères et de leurs mères. On dispose donc d’un tableau de 90 lignes et de 9 colonnes. On pourra commencer par examiner la courbe de régression de la taille des étudiantes (variable expliquée) en fonction de celle de leurs pères (variable explicative), en définissant simplement 5 classes de même amplitude sur l’ensemble des valeurs de la variable explicative par le choix « Calcul » :

 

 

L’application donne la liste des observations de chaque classe, avec la taille de l’étudiante (variable expliquée) et la taille de son père (variable explicative), les résultats numériques fondamentaux, et construit la représentation graphique de la courbe de régression.

On peut commenter les résultats numériques avant d’examiner la représentation graphique. Le choix de 5 classes s’avère assez satisfaisant, puisqu’elles sont d’effectifs relativement proches les uns des autres et que les variances de chaque classe sont aussi du même ordre. Le rapport de corrélation est visiblement proche du carré du coefficient de corrélation, ce qui indique une liaison linéaire entre les deux variables. 

 

 

Cette liaison linéaire est confirmée par la représentation graphique :

 

 

Dans les données Euromarket, ces propriétés ne sont guère vérifiées : nous l’avons montré dans le cours, en considérant le revenu et l’âge comme variable expliquée et variable explicative respectivement.