« Naître ou ne pas naître»

étude de cas corrigée

L’évolution des naissances dans la région Centre est un facteur important dans la gestion financière des mairies en charge des écoles maternelles et dans celle des collectivités territoriales qui gèrent les allocations dépendant directement du nombre d’enfants. Il est donc utile de disposer d’informations sur le nombre de naissances, d’effectuer si possible des prévisions à moyen terme pour prévoir les investissements et les budgets nécessaires.

Les données fournies pas l’INSEE sont des données trimestrielles. Par suite, la tendance peut être est caractérisée au départ par les moyennes mobiles de longueur 4. La représentation graphique ci-dessous montre que ces moyennes mobiles font effectivement disparaître les variations saisonnières. 

Mais la tendance ainsi mise en évidence ne présente pas la régularité que l’on constate sur le nombre de mariages (cf. application « Le Premier Jour »). Pendant les quatre premières années, de 1972 à 1975 (t =  16) , le nombre de naissances diminue régulièrement. On observe ensuite un léger rebond suivi d’un rebond plus net jusqu’en 1981 (t = 40). A partir du second trimestre 1982, le nombre de naissances se remet à diminuer avec encore un léger rebond à partir de 1984 (t = 48).

 

Figure 5 : série des naissances et des moyennes mobiles de longueur 4

(1972 à 1985)

L’évolution du nombre de naissances est donc très irrégulière. Une prévision est bien difficile à effectuer, sauf à court terme et sous l’hypothèse d’une stabilité des conditions dans lesquelles les naissances évoluent. Notons que, compte tenu du fait que les naissances sont prévues au moins neuf mois à l’avance, l’intérêt de prévisions statistiques à très court terme est très discutable.

Imaginons que l’on effectue des prévisions pour les années 1976 (t = 17) et 1977 à partir des observations antérieures : la décroissance régulière de la tendance laisse en effet penser que de telles prévisions sont possibles, et une diminution des budgets prévisionnels peut être décidée à la suite de ces prévisions. Le retournement de la tendance à partir de 1976 montre le danger de telles décisions .

De même, des prévisions pour les années 1984 et 1985 à partir des observations de 1976 à 1983 ne peuvent intégrer le retournement de tendance opéré en 1984.

Le nombre de naissances résulte évidemment d’un grand nombre de facteurs biologiques (vieillissement de la population), sociologiques (migrations interrégionales, accueil de l’enfant par la société), psychologiques (évolution des mentalités). Les retournements de tendance ne peuvent être en réalité prévus que par des méthodes sociologiques fondées sur des analyses de textes réglementaires et d’enquêtes auprès des ménages.

Pour effectuer une prévision statistique relativement justifiée par une méthode élémentaire, il faut donc supposer que les conditions dans lesquelles les observations ont été effectuées sont constantes, et qu’il n’y a pas de modifications du corps social.

Inversement, si des prévisions ne correspondent pas aux observations, cela peut être interprété, suivant les résultats statistiques, comme un signe que les conditions du fait social observé ont changé. L’intérêt n’est donc plus ici dans la prévision elle-même, mais dans la détection d’une évolution collective sociale et psychologique particulière qu’il appartient au spécialiste (sociologue, psychologue) d’expliquer. Pourquoi par exemple le retournement de tendance en 1976 ?

 

C’est dans cet objectif de détection d’une évolution particulière que nous étudions les naissances de 1976 (t = 17) à 1985 et que nous effectuons les prévisions pour 1986.

 

La méthode que nous choisissons tout d’abord est le filtre de Buys Ballot, avec une certaine réticence d’ailleurs puisqu’il faut supposer que la série suit le modèle linéaire additif, ce qui est discutable. Nous étudierons donc avec attention les résidus pour contrôler que ces hypothèses peuvent être considérées comme vraisemblables.

On utilisera le logiciel StatPC pour établir les résultats numériques (le fichier de paramètres est centre76.par).

Coeff. de régression b = 5.963636

Coeff.constant a = 7073.045

Coeff. de corrélation r = 0.76483

Variance des résidus s² = 67491.02

 

s1

s2

s3

s4

-287.75455

466.18182

64.21818

-242.64545

Avant d’examiner les prévisions, nous étudions les résidus. L’histogramme ci-dessous n’est guère satisfaisant. Il ne remet toutefois pas en cause une répartition normale des résidus : nous avons effectué le test d’ajustement du c2 en choisissant dix classes dont les bornes sont définies par l’écart type suivant la méthode proposée par Kendall et Stuart, et en procédant aux regroupements nécessaires :

Cl.

%

Probabilité

Contribution

Cl.

%

Probabilité

Contribution

1

0.175

0.15866

0.07

2

0.200

0.14988

0.67

3

0.125

0.19146

0.92

4

0.175

0.19146

0.06

5

0.125

0.14988

0.17

6

0.200

0.15866

0.43

 

Test du Chi²: x²= 2.3134 Ddl: 4 Probabilité critique P(X²>x²) = 0.6816

Le degré de liberté est égal à 3, la valeur théorique de la moyenne étant connue et égale à 0. De même , les coefficients d’asymétrie et d’aplatissement n’ont pas de valeurs particulières (cas = 0.1218774, cap = 2.161833) pour un niveau de confiance de 95% :

-0.587 < cas < 0.587

2.070 < cap < 4.060

 

Histogramme des résidus après regroupement de classes

On obtient les prévisions suivantes :

 

1er trimestre

2e trimestre

3e trimestre

4e trimestre

prévisions 1986

7029.80001

7789.70001

7393.70001

7092.80001

observations 1986

7018

7720

7414

6986

 

Il est clair que les prévisions sont très proches des valeurs réelles : les écarts sont largement en dessous de l’écart type des résidus, et on peut donc penser que les conditions dans lesquelles les naissances ont lieu n’ont guère changé depuis 1976.

 

Le coefficient d’autocorrélation de rang 1 est égal à 0.6650. Les résidus ne sont donc pas indépendants, et le modèle est perfectible. On peut donc envisager d’analyser les résidus par un modèle autorégressif. Le tableau ci-dessous donne les coefficients d’autocorrélation et d’autocorrélation partielle jusqu’au rang 4 :

 

Coefficient d’autocorrélation

Borne sup.

Autocorrélation partielle

Borne sup.

1

0.6650

0.3099

0.6650

0.3099

2

0.4690

0.4254

0.0481

0.3099

3

0.3950

0.4725

0.1188

0.3099

4

0.3499

0.4725

0.0654

0.3099

On peut considérer que tous les coefficients d’autocorrélation partielle sont nuls du rang 2 jusqu’au rang 4, et que par suite les résidus suivent un processus autorégressif de rang 1 :

et = b et-1 + a + et

Les résultats numériques sont les suivants :

t

et-1

et

41

-118.95

-79.3

42

-79.3

-35.1

43

-35.1

-23.3

44

-23.3

-15.4

On obtient les prévisions définitives ci-dessous :

 

1er trimestre

2e trimestre

3e trimestre

4e trimestre

prévisions BB 1986

7029.8

7789.7

7393.7

7092.8

prévisions des résidus

- 79.3

-35.1

-23.3

– 15.4

prévisions définitives 1986

6949.7

7743.9

7370.4

7077.4

observations 1986

7018

7720

7414

6986

On peut se demander si la correction par les résidus donnent des prévisions meilleures que les précédentes. Pour répondre à cette question, on peut calculer la somme des carrés des erreurs dans chaque cas :

Prévisions par le filtre de Buys Ballot 

16 815.7

Prévisions corrigées par le processus AR(1)

15 768.2

L’amélioration que l’on observe n’est pas très importante. On remarque que les prévisions des résidus convergent rapidement vers 0 (ce qui est toujours le cas), et, à un horizon un peu plus lointain, cette amélioration disparaît, puisque les prévisions des résidus convergent vers leur moyenne, égale à 0.

Les valeurs observées en 1986 sont donc conformes aux prévisions. Elles ne montrent aucune évolution particulière, et laissent penser que les facteurs dont elles résultent n’ont guère changé.

 

Une autre approche que l’on peut envisager est celle du lissage exponentiel. En effet, la tendance irrégulière est un argument en faveur d’un modèle de prévision souple, limité à un horizon à court terme : le lissage exponentiel correspond à cet objectif. La méthode la plus adaptée pour effectuer des prévisions est ici le filtre de Holt et Winters puisque la série des naissances est visiblement soumise à des variations saisonnières.

Il n’est pas très facile de choisir entre le modèle additif et le modèle multiplicatif qui sont tous les deux compatibles avec le filtre de Holt et Winters. Nous avons, pour conserver une certaine homogénéité avec le filtre de Buys Ballot, choisir le modèle additif et nous en donnons les résultats ci-dessous. Mais le modèle multiplicatif donne des résultats quasiment identiques, et le choix ne se révèle pas fondamental dans la qualité des prévisions. 

Nous avons minimisé la somme des carrés des résidus pour déterminer les trois constantes définies dans l’algorithme. Les résultats sont les suivants :

a = 0.2

b = 0.9

g = 0.1

 

On obtient finalement les prévisions ci-dessous :

Prévision effectuée le

pour le

nombre de naissances

prévu

nombre de naissances

observé

1e trimestre 1985

1e trimestre 1986

6870.88053

7018

2e trimestre 1985

2e trimestre 1986

7545.18857

7720

3e trimestre 1985

3e trimestre 1986

7468.66474

7414

4e trimestre 1985

4e trimestre 1986

6995.90747

6986

 

Les prévisions sont visiblement beaucoup moins bonnes que les précédentes.

Nous avons représenté en figure 8 la série des naissances et les prévisions effectuées par le filtre de Holt et Winters. Les prévisions suivent les évolutions avec un certain retard, mais dès que la tendance est stabilisée, elles s’en rapprochent et paraissent satisfaisantes.

Figure 8 : nombre de naissances et prévisions pour 1986

(Filtre de Holt et Winters).

 

 

On ne peut guère conclure de façon générale sur l’intérêt, l’efficacité des différentes méthodes de prévisions utilisées ici. Le fait que, sur ces données, le filtre de Buys Ballot ait donné des prévisions pour 1986 nettement meilleures que celles que l’on obtient par le filtre de Holt et Winters n’est pas généralisable. Les prévisions effectuées pour 1987 présenteraient peut-être la propriété inverse. Le choix d’une méthode de prévision résulte en réalité d’une approche très pragmatique. Ce qui est important, c’est d’appliquer correctement la méthode que l’on a choisie, et d’examiner d’un œil critique les prévisions effectuées.