Droites de régression

 

Une droite de régression est souvent (et à  tort) appelée droite des moindres carrés. On la calcule lorsque l’hypothèse de linéarité de la liaison entre les deux variables statistiques étudiées est acceptable et que l’on a défini la variable expliquée et la variable explicative.

Les applications « Droites de régression … » constituent la suite logique des applications « Courbes de régression … ».

En ce qui concerne les données Hérédité, la régression linéaire est justifiée par l’analyse de la courbe de régression : on pourra donc poursuivre l’analyse sans problème particulier. On peut toutefois vérifier, avant d’effectuer les calculs, qu’il n’existe pas de point aberrant, en examinant la représentation graphique des couples (taille des étudiantes, taille de leurs pères). La régression linéaire de la taille de l’étudiante par celle de son père donne les résultats suivants :

La relation linéaire s’exprime de la façon suivante :

Taille d’une étudiante » 0.4594 Taille de son père + 85.97677

La représentation graphique de cette droite et de l’ensemble des points montre qu’il n’est pas facile de tracer cette droite de façon empirique. En pratique, on aurait plutôt tendance à tracer une droite plus proche de la première bissectrice : l’intuition correspond en fait à la droite que l’on appelle axe principal, et qui n’est pas la droite de régression, mais la droite la plus proche des points au sens de la distance d’un point à une droite.

Il est intéressant d’effectuer les mêmes calculs en considérant comme variable explicative de la taille des étudiantes celle de leurs mères : le modèle linéaire est tout autant justifié, et cette démarche peut être une introduction à la régression linéaire multiple : pourquoi en effet ne pas tenir compte des deux variables ? Et comment ?

 

L’autre exemple reprend la régression du revenu en fonction de l’âge que nous avons effectuée en cours : on peut ici établir tous les résultats, en considérant toutes les unités statistiques et en excluant ensuite les clients de rang 25, 31 et 43 qui contredisent l’hypothèse de la linéarité de la liaison.. L’application permet de représenter simultanément les deux droites de régression : la première en noir (toutes les observations) et la seconde en rouge (après exclusion).

Ce graphique fait clairement apparaître la nécessité d’une relation linéaire approximativze entre les deux variables pour que la droite de régression ait un intérêt, en particulier si elle est utilisée pour effectuer des prévisions.