consommation de viande aux états-unis de 1919 à 1943

On trouve dans l’ouvrage de Anderson la consommation de viance aux états-unis de 1919 à 1941. Il s’agit ici d’une série chronologique puisque les observations sont régulièrement échelonnées dans le temps.

Cette série a été analysée par Bensaber et Bleuse-Trillon (1989). Nous reprenons ici leur démarche en la détaillant. Certains résultats numériques sont légèrement différents de ceux que l’on trouvera dans leur démarche (il s’agit vraisemblement d’un problèe de précision des calculs).

Nous précisons à chaque étape le logiciel utilisé. Les graphiques ont été améliorés à l’aide du logiciel Paintbrush

La période d’observation commence juste après la première guerre mondiale (1919), est traversée de la crise économique de 1929, et se termine pendant la seconde guerre mondiale. La première étape consiste évidemment à donner une représentation graphique de cette série (programme d’analyse d’une série chronologique, fichier de paramètres viandeEU.par):

La série n’évolue pas de façon très régulière. La tendance n’est visiblement pas linéaire. Nous allons chercher un ajustement à l’aide d’un polynôme fonction du temps.

Les variables explicatives sont donc de la forme tk, k = 1, … p. Il faut savoir que quels que soient n points donnés, on peut toujours trouver un polynome de degré n-1 qui passe par ces points. L’ajustement d’un polynôme de degré 22 donnerait une courbe passant exactement par les 22 points, ce qui n’a évidemment aucun sens. La valeur maximum p = 6 est largement suffisante.

Nous utilisons pour les calculs le logiciel de régression multiple (fichier de paramètres viandeEU.par)

La procédure consiste à examiner maintenant les corrélations entre les variables explicatives et la variable expliquée :

variables explicatives

t

t2

t3

t4

t5

t6

Conso

-0.327

-0.228

-0.117

-0.020

0.061

0.126

Pour 23 observations, aucun coefficient de corrélation n’est significatif pour un risque de première espèce a = 0.1 (on consultera la table de r). L’algorithme ascendant, qui consiste à introduire les variables explicatives une par une tant que le coefficient de corrélation ou de corrélation partielle avec la variable expliquée conditionnellement aux autres déjà introduites est significatif, ne donne donc aucun résultat.

Nous allons donc choisir l’algorithme descendant (programme de régression pas à pas): on considère toutes les variables explicatives, et on élimine celle dont le coefficient de corrélation partielle avec la variable expliquée conditionnellement aux autres n’est pas significatif (risque de première espèce 0.2). Nous arrivons au modèle suivant :

Cons = 0.2432 t2 – 0.0378 t3 + 0.0012 t4 + 169.5393

Le coefficient de détermination est égal à R2 = 0.6794, significatif quel que soit le risque de première espèce. L’estimation sans biais de la variance résiduelle est égale à 23.134.

Le premier paradoxe est donc qu’il existe un système de variables explicatives apportant une information significative sur la série alors que les variables considérées une par une ne sont pas corrélées significativement.

L’inconvénient est d’obtenir un polynôme de degré 4, degré que l’on peut tenter de diminuer sans diminuer la qualité de l’ajustement. Considérons comme variables explicatives t, t2, t3 et t4 (sélection des variables explicatives t, t2, t3 et t4 par l’option 7 du logiciel régression linéaire multiple). Le modèle est le suivant :

Cons = 2.4721 t – 0.1535 t2 – 0.0143 t3 + 0.0008 t4 + 165.4272

On effectue une suite de tests sur les coefficients de régression en commençant par celui de t4 : on peut considérer qu’il n’est pas significativement non nul pour un risque de première espèce de à.0.2 (option 6 : test sur les coefficients de régression) :

b4 = 0.0008

F( 1 , 18 ) = 0.931

Probabilité critique : 0.3497

On élimine donc t4 de l’ensemble des prédicteurs et on recommence les calculs. Le coefficient de régression de t3 est alors égal à 0.0221 (après une nouvelle sélection de t, t2, t3).

b3 = 0.0221

F( 1 , 19 ) = 24.48

Probabilité critique : 0.0000

Le prédicteur t3 est significatif : il doit être conservé dans le modèle. L’algorithme se poursuit en testant le coefficient de régression de degré 2, puis de degré 1. Tous ces coefficients sont significatifs et le modèle final est le suivant :

Cons = 5.6679 t – 0.7235t2 + 0.0221 t3 + 160.8636

On obtient un coeffcient de détermination R2 égal à 0.6708 au lieu de 0.6794. L’estimation sans biais de la variance résiduelle est égale à 23.75, très légèrement supérieur  à  la précédente. La diminution du degré du polynôme ne fait quasiment rien perdre de la qualité de l’ajustement.

On contrôle ensuite les résidus (option 8 du logiciel régression linéaire multiple) :

Coefficient d'asymétrie des résidus cas = -0.183

Coefficient d'aplatissement cap = 2.712

Le coefficient d’asymétrie est inférieur à 0.722 en valeur absolue et n’est pas significativement non nul. Le coefficient d’aplatissement est compris entre 1.910 et 4.160 et n’est pas significativement difféent de 3. L’étude des résidus montre donc une bonne proximité entre leur répartition et la loi normale. Cette proximité est confrmée par le test de Kolmogorov-Smirnov qui montre que l’écart entre la fonction de répatition empirique et celle de la loi normale est faible:

D+ =0.116

D- = 0.111

D  = 0.116

PC =P(D > 0.116) = 0.9159

Dans le cas de données chronologiques, on étudie aussi les coefficients d’autocorrélation pour contrôler l’hypothèse d’indépendance de la variable résiduelle , par approximation des résidus. Il est ici égal à 0.0818, largement inférieur en valeur absolue à la valeur limite 0.409 pour un risque de première espèce de 5%. On admet donc l’hypothèse d’indépendance des résidus.

Les résultats du modèle sont donc, au plan statistique, très satisfaisants. Nous donnons ci-dessous la représentation graphique simultanée de la série observée et de la tendance ajustée (la procédure est la suivante : on sauvegarde les coefficients de régression précédent à la suite de l’option 3, puis on exécute le logiciel contrôle d’une régression. On saisit le modèle précédent sauvegardé, et on exécute à partir de ce programme l’analyse chronologique des sauvegarde).

On notera toutefois que, compte tenu de la forme de la tendance, il serait complètement illusoire de procéder à des prévisions pour les années suivantes. Ce modèle est uniquement descriptif, et les questions auxquelles il peut donner des indications de réponse ne concernent que la période étudiée 1919-1941. Une question concerne par exemple la faiblesse de la consommation de viande en 1935 : pourquoi un tel décalage dans le temps par rapport à la crise économique de 1929 ? Cette année – 1935 – fixe une autre date pour la crise sociale qui a suivi la crise économique.