Analyse des résidus

une propriété mathématique des résidus.

Nous démontrons ici une propriété mathématique des résidus obtenus dans la régression linéaire d’une variable expliquée Y par une variable explicative X, propriété qui se généralise d’ailleurs au cas de la régression linéaire multiple (plusieurs variables explicatives X₁, X₂, …, X_p de la variable Y). Cette propriété permet d’interpréter le résidu e_i comme une mesure de l’influence de l’observation x_i sur le coefficient de corrélation des deux variables.

La démonstration repose sur des dérivations de fonctions élémentaires connues en principe de tout étudiant de terminale de toute section. L’interprétation des formules repose sur la propriété de la dérivée d’une fonction :

f(x+h) - f(x) = h f’(x) + e

où e tend vers 0 lorsque h tend vers 0. La dérivée f’(x) caractérise donc la variation de f(x) lorsque x varie d’une faible valeur h.

1) On considère la moyenne m_x de la série (x_i) i = 1, …, n. Cette moyenne est fonction d’une observation x_i considérée donc comme une variable. Calculer la dérivée de m_x par rapport à x_i.

2) Soit s_x² la variance de la série (x_i). On utilisera la formule de calcul de la variance pour calculer la dérivée de s_x². En déduire la dérivée de s_x par rapport à x_i (en fonction de s_x) et commenter ce résultat.

2) Soit s_xy la covariance des deux séries. Calculer la dérivée de s_xy par rapport à x_i. Commenter le résultat.

3) En déduire la dérivée du coefficient de corrélation r(x,y) entre les deux séries. Commenter le résultat.