PROJET STATISTIQUE
Prévision du nombre de naissances en France
Groupe n°10
EMINES
School of Industrial Management
UNIVERSITÉ MOHAMMED
VI POLYTECHNIQUE
20 AVRIL 2017
Page 1
Table des matières
Introduction 2
1 Prévision des séries chronologiques 2
1.1 Méthode de la décomposition 3
1.2 Méthode du lissage exponentiel 3
1.3 Méthode Box & Jenkins 6
2 Prévision du nombre de naissances en France 7
2.1 Description de la série chronologique 7
2.2 Application de la décomposition 10
2.3 Application du lissage exponentiel 13
2.4 Application de Box & Jenkins 16
2.5 Choix de la meilleure méthode 22
Conclusion 23
Annexe 24
Annexe A : Méthode de la décomposition 24
Annexe B : Méthode de Winters 27
Annexe C : Méthode de Box & Jenkins 30
?
?
?
s
s
s
s
s
s
· ??1 ??2??3 ????
· ????+h
· ?? ??< 1
· ??^?? ??^?? = ????+h = ??^?? (h)
·
??^?? = ??^??-1 + (1 - ??)(???? -
??^??-1)
??
??
^????
·
^XT = ???? ????
???? = ì ???? - ????-1) ì) ????-1
????
????
???? = è × ???? + (1 - è) ????-1 +
????-1) ì) ????-1
0 < ì < 1 ???? 0 < è < 1
?
?
^XT = (AT BT
ST-??+h
ST: un terme saisonnier.
??T
ST= y + ( 1 - y)ST-?? BT
y, ??, ??
?
^XT = AT BT
ST-??+h
ST= y( ??T- BT) + ( 1 -
y)ST-??
.
.
.
.
.
.
.
.
?
?
?
?
?
nbre naissance
85000
80000
75000
nbre naissance
70000
65000
60000
55000
50000
24/01/1941 03/10/1954 11/06/1968 18/02/1982 28/10/1995 06/07/2009
15/03/2023
date
nbre naissance
?
?
100000
40000
80000
60000
20000
0
Page 10
2.2 Application de la décomposition
· Construction du modèle
Afin de modéliser notre série et prévoir le
nombre de naissances en France métropolitain, nous avons choisi une
transformation logarithmique de notre série, ce qui signifie que la
nouvelle série correspond au log (nombre de naissances).
Ensuite, nous avons divisé notre data en 2 parties, une
partie pour construire le modèle (Annexe A 5) et une partie pour tester
le modèle (Annexe C 2). La première partie correspond aux
années 1946-2015, et la deuxième partie comprend le nombre de
naissances de l'année 2016. Nous avons effectué sous SAS (Annexe
A -- 5), une décomposition de la série en utilisation la data
training. Le tableau 3 représentent éléments des
résultats obtenus que nous avons utilisés pour l'analyse de ce
modèle (les tableaux complets sont mis en Annexe A - 1) :
Composante
|
Pr>khi-2
|
Irrégulier
|
0.8915
|
Niveau
|
<.0001
|
Cycle
|
0.0789
|
Saison
|
<.0001
|
Log de vraisemblance
|
2023.2
|
R2
|
0.91904
|
|
Tableau 3 -- Analyse des significativités des
composantes et statistique d'ajustement de
la. (lécnmoositinn (le la. Série avec dlata.
tra.inirer
Il est clair que la série comprend significativement des
effets saisonniers et tendanciels, ceci est justifié par le test khi-2
qui indique que la p-value du niveau (tendance) et saison est inférieur
à 5 %. Par contre, les composantes irrégulière et cyclique
ne sont pas significatives.
Aussi, l'ajustement du modèle qui a pour objectif
l'estimation des paramètres de la loi, la méthode d'ajustement
considérée est celle de la vrai-
Page 11
semblance qui se base sur la maximisation de la vraisemblance
pour estimer les paramètres de la loi. D'après les
résultats, le log de la vraisemblance est suffisamment
élevé pour conclure que ce modèle est significatif. Ainsi,
R2 de ce modèle est à l'ordre de 92%.
Mais, il fallait reconstruire un modèle qui ne comprend
en considération que les effets saisonniers et tendanciels. Le tableau 4
représentent éléments des résultats obtenus que
nous avons utilisés pour l'analyse de ce modèle (les tableaux
complets sont mis en Annexe A - 2) :
Composante
|
Pr>khi-2
|
Niveau
|
<.0001
|
Saison
|
<.0001
|
Log de vraisemblance
|
1934.2
|
R2
|
0.90037
|
|
Tableau 4 -- Analyse (les significativités (les
composantes et statistique (l'ajustement (le
ln. (lécomnosition (le la série avec (la.ta.
tra.inintr
Notre modèle final est plus performant, en effet :
· R2 a diminué mais
légèrement de 0,919 à 0,900.
· Le log de la vraisemblance est encore élevé
: 934,2.
· Toutes les composantes du modèle sont
significatives ; la p-value est inférieure à 5%.
· Les AIC, AICC BIC sont très petits.
Prévisions
En utilisant le dernier modèle construit par la data
training, nous avons effectué des prévisions pour l'année
2016 avec un intervalle de confiance de 95% (Les valeurs et les erreurs types
sont présentées en Annexe A 3).
?
??????
??????
?????? = ?(????- ??^??)2
?????? = ?(????- ????)2
?
?
66000
64000
62000
60000
58000
70000
68000
56000
54000
52000
janv-16 fev-16 mars-16 avr-16 mai-16 juin-16 juil-16 aout-16
sept-16
Prévision Observation
66000
64000
62000
60000
58000
10483382
85260000
0,87704
70000
68000
56000
54000
52000
50000
janv-16 fev-16 mars-16 avr-16 mai-16 juin-16 juil-16 aout-16
sept-16
Prévision Obseravtion
?
11,4
11,3
11,2
11,1
11
10,9
10,8
nbre naissance
Box-Cox(nbre naissance)
24/01/1941 03/10/1954 11/06/1968 18/02/1982 28/10/1995 06/07/2009
15/03/2023
date
Transformation Box-Cox (nbre naissance)
0,1
0,08
0,06
0,04
0,02
0
-0,02
-0,04
-0,06
-0,08
-0,1
log(nbre naissance)
Diff(log(nbre naissance))
Différenciation (log(nbre naissance))
0,02
0,015
0,01
0,005
0
-0,005
-0,01
-0,015
Composante tendancielle
Tendance
Composante tendancielle
350
300
250
200
150
100
50
0
-50
Composante saisonnière
Tendance
Composante saisonnière
Composante aléatoire
100
50
Aléatoire
0
-50
-100
-150
Composante aléatoire
1
1
0,5
0,5
0
0
-0,5
-0,5
-1
-1
Décalage
Décalage
Autocorrélation
Autocorrélation partielle
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28
Autocorrélogrammeserie
Autocorrélogramme partielserie
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28
?
?
Autocorrélation
-0,2
-0,4
-0,6
-0,8
0,8
0,6
0,4
0,2
-1
0
1
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28
AutocorrélogrammeRésidus
Décalage
Autocorrélation partielle
-0,2
-0,4
-0,6
-0,8
0,8
0,6
0,4
0,2
-1
Autocorrélogramme
partielRésidus
0
1
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28
Décalage
Paramètre
|
Valeur
|
Ecart-type Hess.
|
Borne inférieure
(95%)
|
Borne supé- rieure
(95%)
|
Constante
|
-4,805E-07
|
1,351E-05
|
-2,697E-05
|
2,599E-05
|
AR(1)
|
-0,775
|
0,005
|
-0,784
|
-0,766
|
SAR(1)
|
0,170
|
0,003
|
0,164
|
0,176
|
MA(1)
|
-0,211
|
0,003
|
-0,217
|
-0,205
|
MA(2)
|
-0,767
|
0,002
|
-0,771
|
-0,764
|
|
SMA(1)
|
-1,933
|
0,003
|
-1,940
|
-1,927
|
SMA(2)
|
0,938
|
0,003
|
0,933
|
0,943
|
ARIMA
80000
70000
60000
50000
40000
30000
20000
10000
0
prévision observation
|