5. Prévisions.

La question que l’on se pose maintenant est de savoir si le modèle ajusté a un sens sur l’ensemble des clients, et dans quelle mesure il permet d’effectuer des prévisions correctes.

5.1 Estimation et intervalle de confiance de la variance résiduelle.

La variance résiduelle se2 est par définition la variance de la variable résiduelle e. On en obtient une valeur approchée à l’aide de la variance s2 des résidus.

En fait, on utilise plutôt le terme s’2 = n s2 / (n-2). Ce terme possède la propriété d’être sans biais : à chaque échantillon d’observations [x(i), y(i)] i=1, ..., n correspond une valeur s’2, et la propriété « sans biais » signifie que lorsque l’on tire une infinité d’échantillons de taille n, la moyenne des s’2 est égale à la variance résiduelle se2 (cf. chapitre 5).

 


Définition : l’estimation « sans biais » de la variance résiduelle est égale à

 

 

n

 

s’2

=

–––––

s2

 

 

n – 2

 

s2 étant la variance des résidus et n le nombre d'observations.

 

Une autre propriété des résidus est que la variable X2 = n S2 / se2 suit la loi de probabilité du c2 de degré de liberté égal à n-2, lorsque la variable résiduelle suit la loi normale. On peut donc en déduire l’intervalle de confiance de la variance résiduelle pour un niveau de confiance fixé comme nous l’avons expliqué dans le chapitre 5, la seule différence étant le degré de liberté et la forme de l’intervalle de confiance.

 

Exemple : le carré du coefficient de corrélation linéaire dans la régression du revenu par l’âge est égal à r2 = 0.4527. On en déduit la variance des résidus et l’estimation sans biais de la variance résiduelle :

s2 = 480 034 257.8

et

s’2 = 501 369 113.7

Cherchons l’intervalle de confiance de la forme ]0, c20.05 [, qui donnera la valeur maximale possible de la variance résiduelle pour un niveau de confiance choisi.  

P(n S2 / s2 > c20.05 ) =0.95

d’où

P(s2 < n S2 / c20.05 ) =0.95

On trouve dans la table du c2 pour un degré de liberté égal à 45 et un niveau de confiance de 95% c20.05= 30.612. D’où :

Intervalle de confiance de la variance :      [0, 737 018 493.3]

Intervalle de confiance de l’écart type :      [0, 27 148.08]

On notera que cet intervalle ne contient pas l’écart type de la variable expliquée (sy = 29 571.4). On a en fait testé et rejeté l’hypothèse nulle r = 0. 

5.2 Test sur les coefficients de régression.

En règle générale on se borne à l’étude du coefficient de régression b dans l’équation

y = b x + a

On peut se poser deux questions :

·               La liaison existe-t-elle réellement ?

·               Est-il possible d’estimer b à l’aide d’un intervalle de confiance ?

Pour répondre à la première question, il faut procéder à un test statistique sur b : si la valeur b = 0 est vraisemblable compte tenu des données, on ne peut affirmer que la liaison existe. Ce test est en fait plus ou moins équivalent au test sur le coefficient de corrélation r des couples [x(i),y(i)] i = 1, …, n que nous avons présenté dans le chapitre précédent[1].

 

Exemple : La répartition des résidus étant à peu près normale, nous pouvons effectuer un test sur le coefficient de corrélation. La procédure est celle que nous avons suivie dans le chapitre 6, en testant la liaison entre l’âge et le logarithme des revenus (ici, nous considérons les revenus et non leur logarithme). Les tables donnent comme seuils ra2 et fa pour 45 degrés de liberté :

ra2 = 0.08237

ra = 0.287

fa = 4.05

Ce coefficient est égal à r = 0.6728. On en déduit f = 37.22. On rejette donc l’hypothèse r = 0 : la liaison existe indépendamment du hasard.

 

Définition : on appelle intervalle de confiance du coefficient de régression b au niveau de confiance (100-a)%, l’intervalle :

 

 

s’

 

s’

 

[

b – ta

–––

, b + ta

–––

]

 

 

(n sx)

 

(n sx)

 

dans lequel ta est choisi dans la table de Student en fonction du niveau de confiance 1 – a et du degré de liberté n = n – 2, s’2 est l’estimateur sans biais de la variance résiduelle et sx l’écart type observé de la variable explicative.

Cet intervalle donne l’ensemble des valeurs acceptables de b. S’il contient la valeur 0, cela signifie que les données ne permettent pas d’affirmer que le coefficient de régression b est différent de 0 ni que la liaison existe.

 

Exemple : Le coefficient de régression b est égal à 2875.963 ; nous ne développerons pas les calculs qui aboutissent à l’intervalle de confiance pour un niveau de confiance de 95% :

Intervalle de confiance de b : [ 1952.02, 3799.89 ]

Cet intervalle de confiance ne contient pas la valeur 0 : le coefficient de régression b ne peut être nul compte tenu des observations effectuées.

En général, on prendra garde à ne pas interpréter trop vite l’estimation b du coefficient de régression b. Sa valeur numérique n’est pas suffisante pour pouvoir affirmer que b est non nul : pour pouvoir effectuer cette comparaison, il est indispensable de calculer l’intervalle de confiance de b comme ci-dessus , ou d’effectuer le test de Student pour tenir compte de son écart-type (ce test est effectué dans la plupart des logiciels).

5.3 Prévision ponctuelle et par intervalle de confiance.

Un des objectifs de la régression est de permettre d’effectuer des estimations de la variable expliquée en fonction de la variable explicative. On utilise souvent le terme prévision au lieu d’estimation même si les données ne sont pas temporelles.

Le calcul est simple, mais il faut savoir précisément ce que l’on estime. En effet, le modèle linéaire est le suivant :

y = b x + a + e

On remplace bien sûr b et a par leurs estimations b et a pour effectuer le calcul ; mais la présence de la variable résiduelle, dont la moyenne est nulle, montre que l’estimation que l’on effectue est celle de la moyenne des y pour la valeur x choisie.

 

Exemple : la régression du revenu par l’âge a donné l’équation ci-dessous (47 observations) :

Estimation du revenu = 2875.963 x âge - 1028.645

Lorsque l’âge est égal à 40 ans, l’estimation du revenu est de 114 009.86 F. La signification précise est la suivante : la moyenne des revenus des clients de 40 ans est estimée à 114 009.86 F[2].

 

Pour obtenir un intervalle de confiance de cette moyenne, il ne suffit pas de tenir compte de l’écart type de la variance résiduelle : les estimations b et a dépendent elles-même du hasard, et il est indispensable d’en tenir compte dans les calculs.

La variance de la prévision de la moyenne pour x fixé est égale à :

 

 

 

 

1

 

(x – mx)2

 

vy

=

s'2

[

–––

+

–––––––

]

 

 

 

 

n

 

n sx2

 

intervalle de confiance de la moyenne pour x fixé :

[ b x + a - ta [vy ]1/2, b x + a + ta [vy ]1/2 ]

 

où ta est choisi dans la table de la loi de Student en fonction du niveau de confiance 1 - a et du degré de liberté n = n – 2 et vy est donné par la formule précédente.

 

Exemple : l’intervalle de confiance de la moyenne des revenus des clients de 40 ans pour un niveau de confiance de 95% est égal à :

[ 107 267.97, 120 751.74 ]

 

L’estimation de la moyenne des y pour x fixé n’est pas toujours suffisante : on peut se demander entre quelles limites varient les valeurs de la variable y elle-même.

 

intervalle de confiance d’une valeur individuelle:

[ b x + a - ta [vy’]1/2, b x + a + ta [vy’]1/2 ]

 

où ta est choisi dans la table de la loi de Student en fonction du niveau de confiance 1 - a et du degré de liberté n = n – 2 et vy’ est égal à :

 

 

 

 

1

 

(x – mx)2

 

 

 

vy

=

s'2

[

–––

+

–––––––

]

+

s’2

 

 

 

 

n

 

n sx2

 

 

 

 

Exemple : l’intervalle de confiance des revenus des clients de 40 ans pour un niveau de confiance de 95% est égal à :

[ 68 440.74, 159 578.97]

 

Remarque : les variances précédentes montrent que les prévisions sont d’autant plus précises que la valeur fixée x est proche de la moyenne mx. Inversement, plus cette valeur s’écarte de mx, plus les prévisions sont imprécises.

On notera aussi que la prévision n’a de sens que si la liaison est linéaire, ce qui limite le champ de la prévision. Effectuer une prévision en dehors du champ à l’intérieur duquel le modèle est valide peut aboutir à des erreurs importantes.

 

Exemple : on ne peut pas prévoir le revenu des personnes de plus de 60 ans à l’aide de la formule précédente puisqu’elles ont été éliminées des données de façon que la liaison soit linéaire. Mais le calcul numérique est tout à fait possible. On obtient, pour la moyenne d’âge des 3 clients éliminés (63 ans et demi), un revenu moyen estimé égal à 181594.98 et un intervalle de confiance [ 156 878.55, 206 311.40 ]. La moyenne des revenus de ces 3 clients, my3 = 78 777.34, est visiblement loin d’appartenir à cet intervalle de confiance : cette erreur est due à l’application du modèle en dehors de son champ de validité.

 



[1] On raisonne ici « conditionnellement » aux observations, supposées donc fixées. La binormalité des [x(i),y(i)] n’est pas une condition d’application : il suffit de la normalité de la variable résiduelle. Le degré de liberté est diminué de 1 par rapport au test sur le coefficient de corrélation présenté dans le chapitre 6.

[2] De légères différences dans les résultats numériques qui suivent peuvent apparaître suivant la précision des calculs et des programmes informatiques.