PROJET STATISTIQUE
Prévision du nombre de naissances en France
Groupe n°10
EMINES
School of Industrial Management
UNIVERSITÉ MOHAMMED
VI POLYTECHNIQUE
20 AVRIL 2017
Page 1
Table des matières
Introduction 2
1 Prévision des séries chronologiques 2
1.1 Méthode de la décomposition 3
1.2 Méthode du lissage exponentiel 3
1.3 Méthode Box & Jenkins 6
2 Prévision du nombre de naissances en France 7
2.1 Description de la série chronologique 7
2.2 Application de la décomposition 10
2.3 Application du lissage exponentiel 13
2.4 Application de Box & Jenkins 16
2.5 Choix de la meilleure méthode 22
Conclusion 23
Annexe 24
Annexe A : Méthode de la décomposition 24
Annexe B : Méthode de Winters 27
Annexe C : Méthode de Box & Jenkins 30
?
?
?
s
s
s
s
s
s
· ??1 ??2??3 ????
· ????+h
· ?? ??< 1
· ??^?? ??^?? = ????+h = ??^?? (h)
·
??^?? = ??^??-1 + (1 - ??)(???? -
??^??-1)
??
??
^????
·
^XT = ???? ????
???? = ì ???? - ????-1) ì) ????-1
????
????
???? = è × ???? + (1 - è) ????-1 +
????-1) ì) ????-1
0 < ì < 1 ???? 0 < è < 1
?
?
^XT = (AT BT
ST-??+h
ST: un terme saisonnier.
??T
ST= y + ( 1 - y)ST-?? BT
y, ??, ??
?
^XT = AT BT
ST-??+h
ST= y( ??T- BT) + ( 1 -
y)ST-??
.
.
.
.
.
.
.
.
?
?
?
?
?
nbre naissance
85000
80000
75000
nbre naissance
70000
65000
60000
55000
50000
24/01/1941 03/10/1954 11/06/1968 18/02/1982 28/10/1995 06/07/2009
15/03/2023
date
nbre naissance
?
?
100000
40000
80000
60000
20000
0
Page 10
2.2 Application de la décomposition
· Construction du modèle
Afin de modéliser notre série et prévoir le
nombre de naissances en France métropolitain, nous avons choisi une
transformation logarithmique de notre série, ce qui signifie que la
nouvelle série correspond au log (nombre de naissances).
Ensuite, nous avons divisé notre data en 2 parties, une
partie pour construire le modèle (Annexe A 5) et une partie pour tester
le modèle (Annexe C 2). La première partie correspond aux
années 1946-2015, et la deuxième partie comprend le nombre de
naissances de l'année 2016. Nous avons effectué sous SAS (Annexe
A -- 5), une décomposition de la série en utilisation la data
training. Le tableau 3 représentent éléments des
résultats obtenus que nous avons utilisés pour l'analyse de ce
modèle (les tableaux complets sont mis en Annexe A - 1) :
Composante
|
Pr>khi-2
|
Irrégulier
|
0.8915
|
Niveau
|
<.0001
|
Cycle
|
0.0789
|
Saison
|
<.0001
|
Log de vraisemblance
|
2023.2
|
R2
|
0.91904
|
|
Tableau 3 -- Analyse des significativités des
composantes et statistique d'ajustement de
la. (lécnmoositinn (le la. Série avec dlata.
tra.inirer
Il est clair que la série comprend significativement des
effets saisonniers et tendanciels, ceci est justifié par le test khi-2
qui indique que la p-value du niveau (tendance) et saison est inférieur
à 5 %. Par contre, les composantes irrégulière et cyclique
ne sont pas significatives.
Aussi, l'ajustement du modèle qui a pour objectif
l'estimation des paramètres de la loi, la méthode d'ajustement
considérée est celle de la vrai-
Page 11
semblance qui se base sur la maximisation de la vraisemblance
pour estimer les paramètres de la loi. D'après les
résultats, le log de la vraisemblance est suffisamment
élevé pour conclure que ce modèle est significatif. Ainsi,
R2 de ce modèle est à l'ordre de 92%.
Mais, il fallait reconstruire un modèle qui ne comprend
en considération que les effets saisonniers et tendanciels. Le tableau 4
représentent éléments des résultats obtenus que
nous avons utilisés pour l'analyse de ce modèle (les tableaux
complets sont mis en Annexe A - 2) :
Composante
|
Pr>khi-2
|
Niveau
|
<.0001
|
Saison
|
<.0001
|
Log de vraisemblance
|
1934.2
|
R2
|
0.90037
|
|
Tableau 4 -- Analyse (les significativités (les
composantes et statistique (l'ajustement (le
ln. (lécomnosition (le la série avec (la.ta.
tra.inintr
Notre modèle final est plus performant, en effet :
· R2 a diminué mais
légèrement de 0,919 à 0,900.
· Le log de la vraisemblance est encore élevé
: 934,2.
· Toutes les composantes du modèle sont
significatives ; la p-value est inférieure à 5%.
· Les AIC, AICC BIC sont très petits.
Prévisions
En utilisant le dernier modèle construit par la data
training, nous avons effectué des prévisions pour l'année
2016 avec un intervalle de confiance de 95% (Les valeurs et les erreurs types
sont présentées en Annexe A 3).
?
??????
??????
?????? = ?(????- ??^??)2
?????? = ?(????- ????)2
?
?
66000
64000
62000
60000
58000
70000
68000
56000
54000
52000
janv-16 fev-16 mars-16 avr-16 mai-16 juin-16 juil-16 aout-16
sept-16
Prévision Observation
66000
64000
62000
60000
58000
10483382
85260000
0,87704
70000
68000
56000
54000
52000
50000
janv-16 fev-16 mars-16 avr-16 mai-16 juin-16 juil-16 aout-16
sept-16
Prévision Obseravtion
?
11,4
11,3
11,2
11,1
11
10,9
10,8
nbre naissance
Box-Cox(nbre naissance)
24/01/1941 03/10/1954 11/06/1968 18/02/1982 28/10/1995 06/07/2009
15/03/2023
date
Transformation Box-Cox (nbre naissance)
0,1
0,08
0,06
0,04
0,02
0
-0,02
-0,04
-0,06
-0,08
-0,1
log(nbre naissance)
Diff(log(nbre naissance))
Différenciation (log(nbre naissance))
0,02
0,015
0,01
0,005
0
-0,005
-0,01
-0,015
Composante tendancielle
Tendance
Composante tendancielle
350
300
250
200
150
100
50
0
-50
Composante saisonnière
Tendance
Composante saisonnière
Composante aléatoire
100
50
Aléatoire
0
-50
-100
-150
Composante aléatoire
1
1
0,5
0,5
0
0
-0,5
-0,5
-1
-1
Décalage
Décalage
Autocorrélation
Autocorrélation partielle
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28
Autocorrélogrammeserie
Autocorrélogramme partielserie
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28
?
?
Autocorrélation
-0,2
-0,4
-0,6
-0,8
0,8
0,6
0,4
0,2
-1
0
1
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28
AutocorrélogrammeRésidus
Décalage
Autocorrélation partielle
-0,2
-0,4
-0,6
-0,8
0,8
0,6
0,4
0,2
-1
Autocorrélogramme
partielRésidus
0
1
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28
Décalage
Paramètre
|
Valeur
|
Ecart-type Hess.
|
Borne inférieure
(95%)
|
Borne supé- rieure
(95%)
|
Constante
|
-4,805E-07
|
1,351E-05
|
-2,697E-05
|
2,599E-05
|
AR(1)
|
-0,775
|
0,005
|
-0,784
|
-0,766
|
SAR(1)
|
0,170
|
0,003
|
0,164
|
0,176
|
MA(1)
|
-0,211
|
0,003
|
-0,217
|
-0,205
|
MA(2)
|
-0,767
|
0,002
|
-0,771
|
-0,764
|
|
SMA(1)
|
-1,933
|
0,003
|
-1,940
|
-1,927
|
SMA(2)
|
0,938
|
0,003
|
0,933
|
0,943
|
ARIMA
80000
70000
60000
50000
40000
30000
20000
10000
0
prévision observation
Annexe
Annexe A : Méthode de la décomposition
1. Analyse des significativités des composantes
Irrégulier, Niveau, Cycle et Saison et statistique d'ajustement de la
décomposition de la série avec data training du modèle.
Statistiques d'ajustement basées sur
la vraisemblance
|
Statistique
|
Valeur
|
Log-vraiserrbhrKe compëte
|
2023.2
|
Lng-vraisembI nce de partie diffuse
|
-Z48.6
|
Ctrze niions non manquantes utilisées
|
940
|
Paranrélres
e9ümés
|
6
|
Elérnems d'état diffus initiai
rés
|
12
|
Scarne des carrés résiduelle
normalisée
|
928
|
AIC(préférer les petites
valeurs)
|
4034
|
BIC (préférer les petites
valeurs)
|
-4006
|
AICC (préférer les petites
valeurs)
|
-4034
|
EE 1C (préférer les petites
valeurs)
|
-4024
|
CRIC (préférer les petites
valeurs)
|
-4000
|
Statistiques d'ajustement basées sur les
résidus
|
Erreur quadratique moyenne
|
0.00045885
|
Erreur RMS
|
0.02142
|
Erreur absolue du pourcentage de la moyenne
|
0.14905
|
Erreur relative (en ) maximum
|
1.22121
|
R carré
|
0.91904
|
R carré ajusté
|
0.91855
|
R carré de marche aléatoire
|
0.85075
|
R carré ajusté d'Amemiya
|
0.91786
|
Number of non-missing residuals used for computing the
fit statistics = 828
|
Analyse de significativité des
composantes (basée sur l'état
final)
Composante
|
DDL
|
khi-2
|
Pr > khi-2
|
Irrégulier
|
1
|
0.02
|
0.8915
|
Niveau
|
1
|
982036
|
c.0001
|
Cycle
|
2
|
5.08
|
0.0789
|
Saison
|
11
|
162.01
|
c_0001
|
2. Analyse des significativités des composantes
Irrégulier, Niveau, Cycle et Saison et statistique d'ajustement de la
décomposition de la série avec data training du deuxième
modèle
/Analyse de sij'ihca1Ytke des composantes
sur l'état final)
|
Composante
|
DI)_
|
khi-2
|
Pr >161-2
|
Niveau
|
1
|
1379868
|
c.0001
|
Saison
|
11
|
237.43
|
c.0001
|
Page 24
Statistiques d'ajustement tri sin les
r&sidus
|
Erreur quadratique moyenne
|
0.00056471
|
Erreur RMS
|
0.02376
|
Erreur absolue du pourcentage de la moyenne
|
0.16626
|
Erreur relative (en ) maximum
|
1.22121
|
R carré
|
0.90037
|
R carré ajuste
|
0.90025
|
R carré de marche aleatoke
|
0.$1632
|
R carré ajusté d'lvrremiya
|
0.89969
|
Humber of noir-rrissing residuals used
for computing the lit statistics = 829
|
Page 25
Sta1üques d'ajustement basera srr
la vraisemblance
|
Statistique
|
Valeur
|
Lcgvrai serrblance cc:api:ire
|
1934.2
|
Lngvraiserrblance de partie tirffuse
|
-2485
|
Chseruaüans non manquantes
utilisées
|
940
|
Pararniitres
élimés
|
2
|
Blé/rems détat diffus inrlial se'
s
|
12
|
Sonne des carrés résiduelle
norrn2lisde
|
428
|
PJC (préférer les
pelitesvaleurs)
|
-3864
|
BIC (préférer Ies petit.
valeurs)
|
-3855
|
AICC {préférer les pefl s
valeurs}
|
-3864
|
I-I!IC (préférer le .
pelités valeurs)
|
-3861
|
CAIC {préférer Ies petitim
valeurs}
|
-3853
|
3. Prévision du log de nombre de naissance de
l'année 2016 par la data training en utilisant la méthode de la
décomposition de la série.
Prëvisirsns pour la variable Ig
|
Obis
|
date
|
Prëvisian
|
Erreur type
|
95%
Confidence Liras
|
841
|
.JAF 2O16
|
11.163318
|
0.12323
|
11.017792
|
11.1l3 845
|
142
|
FE B2016
|
10.964711
|
0.12764
|
14.911534
|
11.0184166
|
843
|
11AR2016
|
11.137546
|
0.13203
|
1O.9747E9
|
11.100324
|
044
|
.4P R2016
|
11.167695
|
0.635136
|
14.936803
|
11. 677386
|
045
|
MAY2016
|
11.169912
|
0.13932
|
10.992839
|
11.146985
|
145
|
,11..11 42015
|
11.162956
|
01142561 51
|
119796E2
|
11.141261
|
047
|
JU L2016
|
11.107541
|
0_04546
|
11.118440
|
11.196642
|
948
|
AUG2016
|
11.187381
|
0_04924
|
10.992836
|
11.181923
|
844
|
9EP2016
|
11.17905D
|
0.15186
|
10.979367
|
11.178733
|
050
|
OCf2016
|
11.18617E
|
0.15332
|
10.981674
|
11.190632
|
051
|
NOV2116
|
11.026563
|
0.05544
|
10.917926
|
11.135240
|
IV
|
DED11
|
11.16095D
|
4.15555
|
1O.95008
|
11.171803
|
4.
Page 26
Comparaison des prévisions de nombre de naissance du
modèle et des observations de la testing data de l'année 2016.
Date
|
Prévision
|
Observa- tion
|
exp (prévi-Sion)
|
Janv-16
|
11,063318
|
62600
|
63787,8492
|
Fev-16
|
10,9647
|
57900
|
57797,4537
|
Mars-16
|
11,037546
|
59700
|
62164,9118
|
Avr-16
|
11,007095
|
57300
|
60300,4593
|
Mai-16
|
11,069912
|
62400
|
64209,8561
|
Juin-16
|
11,062956
|
62800
|
63764,7622
|
Juil-16
|
11,107541
|
67300
|
66672,0431
|
Aout-16
|
11,08738
|
65100
|
65341,3274
|
Sept-16
|
11,07905
|
63500
|
64799,2948
|
|
5. Code sous SAS :
Importation de la base de données :
proc import DATAFILE='/folders/myshortcuts/my fold-
ers/emines/nbrenaissance.xls'
OUT=NBNAISSANCE
dbms=xls
replace;
getnames=yes;
RUN;
Division de la base de données en training et testing
:
data training;
set NBNAISSANCE;
Page 27
IE (ann e >= 2016) THEN DELETE; date = mdy(mois,1,ann e); lg =
log(nbre naissance);
run;
data testing;
set NBNAISSANCE;
IE (ann e < 2016) THEN DELETE;
date = mdy(mois,1,ann e);
lg = log(nbre naissance);
run;
Affichage de training data selon la date :
proc sort data=training out=training; by date;
run;
Méthode de décomposition pour la training data :
proc ucm data=training ;
id date interval=month ;
model lg ;
level;
season length=12 type=dummy ;
forecast lead=12 back=0 alpha=0.05
outlier;
run;
Annexe B : Méthode de Winters
1. Statistiques d'ajustement pour la variable lg du
nombre de naissance pour la méthode de Winters.
9latistiques d'ajustement pour le variable
Ig
|
|
51eRiigie
|
Valeur
|
Erreur rials
|
0.88020589
|
Erreur min.
|
-0.0683435
|
Erreur relative fen 1 maximum
|
0.72888889
|
Erreur relative (en 1 milirrum
|
-0.6201216
|
Erreur dela moyenne
|
-B.8456E-G
|
Erreur relative (en 1 de la
moyenne
|
-0.0002846
|
Calculs basés sur finterealle d'ejustemem des
données.
|
Sues e ajrstenent pour la variable lq
|
Siaristbrue
|
Valeur
|
Dames de liste de rem-rarr
|
337
|
Nombre dobservations
|
840
|
Nombre d-observations
rniisèa
|
340
|
Nombre de va leu rs réels manu Liantes
|
O
|
Nombre de va lems Perlas erarpu
aras
|
O
|
3
|
Nombre de pararnétris du modèle
|
.Somme iodate des grés
|
103496.1£54
|
Swrerre tele cor ragée des cirri
|
4_79009221
|
Erreur de la somme dus vus
|
O 30579789
|
Erreur quadratique moyenne
|
0.00645858
|
Erreur dela moyenne quadratique
|
0.0211145
|
Carré moyen de r..leur va bi..i.
|
6.90015022
|
Rame carrée de la moyenne du mrré
des erreurs sans biais
|
6.92115284
|
Erreur relative [en 1 de la moyenne absolue
|
0.15008928
|
Erreur absolue de la moyenne
|
0.81674100
|
R orrà
|
0.91972983
|
R orr4 ajusté
|
0.91953003
|
R orné ajusté dAnieniya
|
6.91915442
|
R carré de marche aléatnue
|
0-M1371371
|
criera dimrorunaion dAkakx
|
-6451.3942
|
Critère d'iriorn.ation
beyésien de Sarema
|
-6417.194
|
Critère de prévision dnrmeri ya
|
0.90018187
|
Calculs baste sir Re[evaie dajrstemem[ de
dent
|
Page 28
2. Prévision du log de nombre de naissance de
l'année 2016 par la data training en utilisant la méthode de
Winters.
Prëvisinns pour La variable 1g
|
Obs-
|
Heure
|
Prëeisions
|
Erreur
type
|
9514
Confidence Limits
|
841
|
JA/42016
|
11.0546
|
03215
|
113126
|
113967
|
MO
|
FEE12016
|
10.9509
|
037'7
|
103054
|
103964
|
MO
|
;MR2016
|
11.0192
|
03249
|
103703
|
113690
|
844
|
APR2016
|
10.90.92
|
03264
|
103374
|
113410
|
845
|
MAY2016
|
11.0571
|
03260
|
113023
|
11.1120
|
846
|
JUN2016
|
11.0485
|
03294
|
10.9909
|
11.1061
|
847
|
JUL2016
|
11.1041
|
03306
|
113438
|
11.1645
|
848
|
AUG2016
|
11.0891
|
03321
|
113262
|
11-1519
|
846
|
SEP2016
|
11.0604
|
0.1:1111.
|
113151
|
11.1456
|
850
|
O C T2016
|
11.0899
|
03345
|
113223
|
11.1575
|
851
|
NO112016
|
11.0297
|
03355
|
103600
|
113994
|
852
|
D E 02016
|
11.0620
|
03367
|
10.9900
|
11.1341
|
11,0546
|
62600
|
63234,16377
|
10,9509
|
57900
|
57005,32708
|
11,0192
|
59700
|
61034,83221
|
10,9892
|
57300
|
59230,98031
|
11,0571
|
62400
|
63392,44695
|
11,0485
|
62800
|
62849,60945
|
11,1041
|
67300
|
66443,01885
|
11,0891
|
65100
|
65453,81118
|
11,0804
|
63500
|
64886,83295
|
Annexe C : Méthode de Box & Jenkins
1. Comparaison des AIC des modèles des p et q
estimé
ARIMA (1, 0) ARIMA (1, 1) ARIMA (2, 0)
787
781 138,652179 0,17519052 0,41975091 0,17519052 451,824961
3369,10159 877,615875 0,18823014
889,615875
·
889,723567
917,625244
5
Observation
|
787
|
Observation
|
787
|
Observat ll
|
DCL
|
783
|
DIDL
|
780
|
DDL
|
SCE
|
191,1919556
|
SCE
|
63,3819531
|
SCE
|
NICE
|
0,242937582
|
MCE
|
0,08053615
|
MCE
|
RMCE
|
0,492887083
|
RMCE
|
0,28378892
|
RMCE
|
Variance BB
|
0,242937582
|
Variance BB
|
0,08053615
|
Variance BB
|
MAPE(Diff)
|
374,4611297
|
MAPE(Diff)
|
158,374455
|
MAPE(Diff)
|
MAPE
|
3566,524083
|
MAPE
|
619,179499
|
MAPE
|
-2Log(Vrai5.)
|
1125,942611
|
-2Log(Vrais.)
|
323,57229
|
-2Log(Vrais. }
|
FPE
|
0,251098379
|
FPE
|
0,4832415
|
FPE
|
AIC
|
1133,9426111
|
AIC
|
337,572291
·
|
AIC
|
1133,993762
|
337,7160M
|
AICC
|
AICC
|
AICC
|
SRC
|
1152,615524
|
SBC
|
370,249888
|
SIC
|
Itérations
|
9
|
Itérations
|
1215
|
Itérations
|
Page 30
ARIMA (2, 1) ARIMA (2, 2) ARIMA (1, 2)
|
|
|
|
|
Observation
|
787
|
Observation
|
787 Observation
|
799
|
DDL
|
778
|
DDL
|
776 DDL
|
790
|
SCE
|
60,4830125
|
SCE
|
58,3290885 SCE
|
47,08.578269
|
MCE
|
0,07685262
|
MCE
|
0,07411574
|
MCE
|
0,058930892
|
RMCE
|
0,27722305
|
RMCE
|
0,27224206
|
RMCE
|
0,242756858
|
Variance BB
|
0,07685262
|
Variance BB
|
0,07074629
|
Variance BB
|
0,065423693
|
MAPE(Diff)
|
167,093544
|
MAPE(Diff)
|
172,392173
|
MA PE( Diff}
|
188,3964168
|
MAPE
|
692,511683
|
MAPE
|
712,742811
|
MAPE
|
697,5812251
|
-2Log(Vrais.)
|
29 2,407247
|
- 2Log(Vra i s. )
|
265,801652
|
-2Log{Vrais.}
|
122,666405
|
FPE
|
0,08210405
|
FPE
|
0,07918015
|
FPE
|
0,06088026
|
AIC
|
310,4072471
·
|
AIC
|
287,8016521
|
AIC
|
140,666405
|
AICC
|
310,638907
|
AICC
|
288,142297
|
AICC
|
140,8945419
|
SBC
|
352,421301
|
SBC
|
339,152162
|
SBC
|
182,8166535
|
Itérations.
|
345
|
Itérations
|
21488,
|
Itérations
|
2002
|
01/06/2016
|
-0,004
|
0,322
|
-0,634
|
0,627
|
01/07/2016
|
-0,004
|
0,322
|
-0,635
|
0,626
|
01/08/2016
|
-0,004
|
0,322
|
-0,634
|
0,627
|
01/09/2016
|
-0,004
|
0,322
|
-0,634
|
0,627
|
01/10/2016
|
-0,004
|
0,322
|
-0,634
|
0,627
|
01/11/2016
|
-0,003
|
0,322
|
-0,634
|
0,627
|
01/12/2016
|
-0,004
|
0,322
|
-0,634
|
0,627
|
01/01/2017
|
-0,004
|
0,322
|
-0,634
|
0,627
|
01/02/2017
|
-0,002
|
0,322
|
-0,633
|
0,628
|
01/03/2017
|
-0,004
|
0,322
|
-0,634
|
0,627
|
01/04/2017
|
-0,004
|
0,322
|
-0,634
|
0,627
|
01/05/2017
|
0,001
|
0,322
|
-0,630
|
0,631
|
01/06/2017
|
-0,003
|
0,322
|
-0,634
|
0,627
|
01/07/2017
|
-0,004
|
0,322
|
-0,634
|
0,627
|
01/08/2017
|
-0,004
|
0,322
|
-0,634
|
0,627
|
01/09/2017
|
-0,004
|
0,322
|
-0,634
|
0,627
|
01/10/2017
|
-0,004
|
0,322
|
-0,634
|
0,627
|
01/11/2017
|
-0,003
|
0,322
|
-0,634
|
0,627
|
01/12/2017
|
-0,004
|
0,322
|
-0,634
|
0,627
|
01/01/2018
|
-0,004
|
0,322
|
-0,634
|
0,627
|
01/02/2018
|
-0,003
|
0,322
|
-0,634
|
0,627
|
|
|