WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La modélisation et prévision du nombre de naissances en France

( Télécharger le fichier original )
par Fouad Ezzebdi
EMINES - Université Mohammed VI Polytechnique - Ingénieur en Management Industriel  2017
  

Disponible en mode multipage

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

PROJET STATISTIQUE

Prévision du nombre de naissances en France

Groupe n°10

EMINES

School of Industrial Management

UNIVERSITÉ MOHAMMED VI
POLYTECHNIQUE

20 AVRIL 2017

Page 1

Table des matières

Introduction 2

1 Prévision des séries chronologiques 2

1.1 Méthode de la décomposition 3

1.2 Méthode du lissage exponentiel 3

1.3 Méthode Box & Jenkins 6

2 Prévision du nombre de naissances en France 7

2.1 Description de la série chronologique 7

2.2 Application de la décomposition 10

2.3 Application du lissage exponentiel 13

2.4 Application de Box & Jenkins 16

2.5 Choix de la meilleure méthode 22

Conclusion 23

Annexe 24

Annexe A : Méthode de la décomposition 24

Annexe B : Méthode de Winters 27

Annexe C : Méthode de Box & Jenkins 30

?

?

?

s

s

s

s

s

s

· ??1 ??2??3 ????

· ????+h

· ?? ??< 1

· ??^?? ??^?? = ????+h = ??^?? (h)


·

??^?? = ??^??-1 + (1 - ??)(???? - ??^??-1)

??

??

^????


·

^XT = ???? ????

???? = ì ???? - ????-1) ì) ????-1

????

????

???? = è × ???? + (1 - è) ????-1 + ????-1) ì) ????-1

0 < ì < 1 ???? 0 < è < 1

?

?

^XT = (AT BT ST-??+h

ST: un terme saisonnier.

??T

ST= y + ( 1 - y)ST-??
BT

y, ??, ??

?

^XT = AT BT ST-??+h

ST= y( ??T- BT) + ( 1 - y)ST-??

.

.

.

.

.

.

.

.

?

?

?

?

?

nbre naissance

85000

80000

75000

nbre naissance

70000

65000

60000

55000

50000

24/01/1941 03/10/1954 11/06/1968 18/02/1982 28/10/1995 06/07/2009 15/03/2023

date

nbre naissance

?

?

100000

40000

80000

60000

20000

0

Page 10

2.2 Application de la décomposition

· Construction du modèle

Afin de modéliser notre série et prévoir le nombre de naissances en France métropolitain, nous avons choisi une transformation logarithmique de notre série, ce qui signifie que la nouvelle série correspond au log (nombre de naissances).

Ensuite, nous avons divisé notre data en 2 parties, une partie pour construire le modèle (Annexe A 5) et une partie pour tester le modèle (Annexe C 2). La première partie correspond aux années 1946-2015, et la deuxième partie comprend le nombre de naissances de l'année 2016. Nous avons effectué sous SAS (Annexe A -- 5), une décomposition de la série en utilisation la data training. Le tableau 3 représentent éléments des résultats obtenus que nous avons utilisés pour l'analyse de ce modèle (les tableaux complets sont mis en Annexe A - 1) :

Composante

Pr>khi-2

Irrégulier

0.8915

Niveau

<.0001

Cycle

0.0789

Saison

<.0001

Log de vraisemblance

2023.2

R2

0.91904

 

Tableau 3 -- Analyse des significativités des composantes et statistique d'ajustement de

la. (lécnmoositinn (le la. Série avec dlata. tra.inirer

Il est clair que la série comprend significativement des effets saisonniers et tendanciels, ceci est justifié par le test khi-2 qui indique que la p-value du niveau (tendance) et saison est inférieur à 5 %. Par contre, les composantes irrégulière et cyclique ne sont pas significatives.

Aussi, l'ajustement du modèle qui a pour objectif l'estimation des paramètres de la loi, la méthode d'ajustement considérée est celle de la vrai-

Page 11

semblance qui se base sur la maximisation de la vraisemblance pour estimer les paramètres de la loi. D'après les résultats, le log de la vraisemblance est suffisamment élevé pour conclure que ce modèle est significatif. Ainsi, R2 de ce modèle est à l'ordre de 92%.

Mais, il fallait reconstruire un modèle qui ne comprend en considération que les effets saisonniers et tendanciels. Le tableau 4 représentent éléments des résultats obtenus que nous avons utilisés pour l'analyse de ce modèle (les tableaux complets sont mis en Annexe A - 2) :

Composante

Pr>khi-2

Niveau

<.0001

Saison

<.0001

Log de vraisemblance

1934.2

R2

0.90037

 

Tableau 4 -- Analyse (les significativités (les composantes et statistique (l'ajustement (le

ln. (lécomnosition (le la série avec (la.ta. tra.inintr

Notre modèle final est plus performant, en effet :

· R2 a diminué mais légèrement de 0,919 à 0,900.

· Le log de la vraisemblance est encore élevé : 934,2.

· Toutes les composantes du modèle sont significatives ; la p-value est inférieure à 5%.

· Les AIC, AICC BIC sont très petits.

Prévisions

En utilisant le dernier modèle construit par la data training, nous avons effectué des prévisions pour l'année 2016 avec un intervalle de confiance de 95% (Les valeurs et les erreurs types sont présentées en Annexe A 3).

?

??????

??????

?????? = ?(????- ??^??)2

?????? = ?(????- ????)2

?

?

66000

64000

62000

60000

58000

70000

68000

56000

54000

52000

janv-16 fev-16 mars-16 avr-16 mai-16 juin-16 juil-16 aout-16 sept-16

Prévision Observation

66000

64000

62000

60000

58000

10483382

85260000

0,87704

70000

68000

56000

54000

52000

50000

janv-16 fev-16 mars-16 avr-16 mai-16 juin-16 juil-16 aout-16 sept-16

Prévision Obseravtion

?

11,4

11,3

11,2

11,1

11

10,9

10,8

nbre naissance

Box-Cox(nbre naissance)

24/01/1941 03/10/1954 11/06/1968 18/02/1982 28/10/1995 06/07/2009 15/03/2023

date

Transformation Box-Cox (nbre naissance)

0,1

0,08

0,06

0,04

0,02

0

-0,02

-0,04

-0,06

-0,08

-0,1

log(nbre naissance)

Diff(log(nbre naissance))

Différenciation (log(nbre naissance))

0,02

0,015

0,01

0,005

0

-0,005

-0,01

-0,015

Composante tendancielle

Tendance

Composante tendancielle

350

300

250

200

150

100

50

0

-50

Composante saisonnière

Tendance

Composante saisonnière

Composante aléatoire

100

50

Aléatoire

0

-50

-100

-150

Composante aléatoire

1

1

0,5

0,5

0

0

-0,5

-0,5

-1

-1

Décalage

Décalage

Autocorrélation

Autocorrélation partielle

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28

Autocorrélogrammeserie

Autocorrélogramme partielserie

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28

?

?

Autocorrélation

-0,2

-0,4

-0,6

-0,8

0,8

0,6

0,4

0,2

-1

0

1

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28

AutocorrélogrammeRésidus

Décalage

Autocorrélation partielle

-0,2

-0,4

-0,6

-0,8

0,8

0,6

0,4

0,2

-1

Autocorrélogramme partielRésidus

0

1

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28

Décalage

Paramètre

Valeur

Ecart-type
Hess.

Borne inférieure

(95%)

Borne supé-
rieure (95%)

Constante

-4,805E-07

1,351E-05

-2,697E-05

2,599E-05

AR(1)

-0,775

0,005

-0,784

-0,766

SAR(1)

0,170

0,003

0,164

0,176

MA(1)

-0,211

0,003

-0,217

-0,205

MA(2)

-0,767

0,002

-0,771

-0,764

 

SMA(1)

-1,933

0,003

-1,940

-1,927

SMA(2)

0,938

0,003

0,933

0,943

ARIMA

80000

70000

60000

50000

40000

30000

20000

10000

0

prévision observation

Annexe

Annexe A : Méthode de la décomposition

1. Analyse des significativités des composantes Irrégulier, Niveau, Cycle et Saison et statistique d'ajustement de la décomposition de la série avec data training du modèle.

Statistiques d'ajustement basées sur la
vraisemblance

Statistique

Valeur

Log-vraiserrbhrKe compëte

2023.2

Lng-vraisembI nce de partie diffuse

-Z48.6

Ctrze niions non manquantes utilisées

940

Paranrélres e9ümés

6

Elérnems d'état diffus initiai rés

12

Scarne des carrés résiduelle normalisée

928

AIC(préférer les petites valeurs)

4034

BIC (préférer les petites valeurs)

-4006

AICC (préférer les petites valeurs)

-4034

EE 1C (préférer les petites valeurs)

-4024

CRIC (préférer les petites valeurs)

-4000

Statistiques d'ajustement basées sur les résidus

Erreur quadratique moyenne

0.00045885

Erreur RMS

0.02142

Erreur absolue du pourcentage de la moyenne

0.14905

Erreur relative (en ) maximum

1.22121

R carré

0.91904

R carré ajusté

0.91855

R carré de marche aléatoire

0.85075

R carré ajusté d'Amemiya

0.91786

Number of non-missing residuals used for computing the fit statistics = 828

Analyse de significativité des

composantes (basée sur l'état final)

Composante

DDL

khi-2

Pr > khi-2

Irrégulier

1

0.02

0.8915

Niveau

1

982036

c.0001

Cycle

2

5.08

0.0789

Saison

11

162.01

c_0001

2. Analyse des significativités des composantes Irrégulier, Niveau, Cycle et Saison et statistique d'ajustement de la décomposition de la série avec data training du deuxième modèle

/Analyse de sij'ihca1Ytke des composantes

sur l'état final)

Composante

DI)_

khi-2

Pr >161-2

Niveau

1

1379868

c.0001

Saison

11

237.43

c.0001

Page 24

Statistiques d'ajustement tri sin les r&sidus

Erreur quadratique moyenne

0.00056471

Erreur RMS

0.02376

Erreur absolue du pourcentage de la moyenne

0.16626

Erreur relative (en ) maximum

1.22121

R carré

0.90037

R carré ajuste

0.90025

R carré de marche aleatoke

0.$1632

R carré ajusté d'lvrremiya

0.89969

Humber of noir-rrissing residuals used for computing the lit statistics = 829

Page 25

Sta1üques d'ajustement basera srr la
vraisemblance

Statistique

Valeur

Lcgvrai serrblance cc:api:ire

1934.2

Lngvraiserrblance de partie tirffuse

-2485

Chseruaüans non manquantes utilisées

940

Pararniitres élimés

2

Blé/rems détat diffus inrlial se' s

12

Sonne des carrés résiduelle norrn2lisde

428

PJC (préférer les pelitesvaleurs)

-3864

BIC (préférer Ies petit. valeurs)

-3855

AICC {préférer les pefl s valeurs}

-3864

I-I!IC (préférer le . pelités valeurs)

-3861

CAIC {préférer Ies petitim valeurs}

-3853

3. Prévision du log de nombre de naissance de l'année 2016 par la data training en utilisant la méthode de la décomposition de la série.

Prëvisirsns pour la variable Ig

Obis

date

Prëvisian

Erreur type

95%

Confidence Liras

841

.JAF 2O16

11.163318

0.12323

11.017792

11.1l3 845

142

FE B2016

10.964711

0.12764

14.911534

11.0184166

843

11AR2016

11.137546

0.13203

1O.9747E9

11.100324

044

.4P R2016

11.167695

0.635136

14.936803

11. 677386

045

MAY2016

11.169912

0.13932

10.992839

11.146985

145

,11..11 42015

11.162956

01142561 51

119796E2

11.141261

047

JU L2016

11.107541

0_04546

11.118440

11.196642

948

AUG2016

11.187381

0_04924

10.992836

11.181923

844

9EP2016

11.17905D

0.15186

10.979367

11.178733

050

OCf2016

11.18617E

0.15332

10.981674

11.190632

051

NOV2116

11.026563

0.05544

10.917926

11.135240

IV

DED11

11.16095D

4.15555

1O.95008

11.171803

4.

Page 26

Comparaison des prévisions de nombre de naissance du modèle et des observations de la testing data de l'année 2016.

Date

Prévision

Observa- tion

exp (prévi-Sion)

Janv-16

11,063318

62600

63787,8492

Fev-16

10,9647

57900

57797,4537

Mars-16

11,037546

59700

62164,9118

Avr-16

11,007095

57300

60300,4593

Mai-16

11,069912

62400

64209,8561

Juin-16

11,062956

62800

63764,7622

Juil-16

11,107541

67300

66672,0431

Aout-16

11,08738

65100

65341,3274

Sept-16

11,07905

63500

64799,2948

 

5. Code sous SAS :

Importation de la base de données :

proc import DATAFILE='/folders/myshortcuts/my fold-

ers/emines/nbrenaissance.xls'

OUT=NBNAISSANCE

dbms=xls

replace;

getnames=yes;

RUN;

Division de la base de données en training et testing :

data training;

set NBNAISSANCE;

Page 27

IE (ann e >= 2016) THEN DELETE; date = mdy(mois,1,ann e); lg = log(nbre naissance);

run;

data testing;

set NBNAISSANCE;

IE (ann e < 2016) THEN DELETE;

date = mdy(mois,1,ann e);

lg = log(nbre naissance);

run;

Affichage de training data selon la date :

proc sort data=training out=training; by date;

run;

Méthode de décomposition pour la training data :

proc ucm data=training ;

id date interval=month ;

model lg ;

level;

season length=12 type=dummy ;

forecast lead=12 back=0 alpha=0.05

outlier;

run;

Annexe B : Méthode de Winters

1. Statistiques d'ajustement pour la variable lg du nombre de naissance pour la méthode de Winters.

9latistiques d'ajustement pour le variable Ig

 

51eRiigie

Valeur

Erreur rials

0.88020589

Erreur min.

-0.0683435

Erreur relative fen 1 maximum

0.72888889

Erreur relative (en 1 milirrum

-0.6201216

Erreur dela moyenne

-B.8456E-G

Erreur relative (en 1 de la moyenne

-0.0002846

Calculs basés sur finterealle d'ejustemem des données.

Sues e ajrstenent pour la variable lq

Siaristbrue

Valeur

Dames de liste de rem-rarr

337

Nombre dobservations

840

Nombre d-observations rniisèa

340

Nombre de va leu rs réels manu Liantes

O

Nombre de va lems Perlas erarpu aras

O

3

Nombre de pararnétris du modèle

.Somme iodate des grés

103496.1£54

Swrerre tele cor ragée des cirri

4_79009221

Erreur de la somme dus vus

O 30579789

Erreur quadratique moyenne

0.00645858

Erreur dela moyenne quadratique

0.0211145

Carré moyen de r..leur va bi..i.

6.90015022

Rame carrée de la moyenne du mrré des erreurs sans biais

6.92115284

Erreur relative [en 1 de la moyenne absolue

0.15008928

Erreur absolue de la moyenne

0.81674100

R orrà

0.91972983

R orr4 ajusté

0.91953003

R orné ajusté dAnieniya

6.91915442

R carré de marche aléatnue

0-M1371371

criera dimrorunaion dAkakx

-6451.3942

Critère d'iriorn.ation beyésien de Sarema

-6417.194

Critère de prévision dnrmeri ya

0.90018187

Calculs baste sir Re[evaie dajrstemem[ de dent

Page 28

2. Prévision du log de nombre de naissance de l'année 2016 par la data training en utilisant la méthode de Winters.

Prëvisinns pour La variable 1g

Obs-

Heure

Prëeisions

Erreur

type

9514

Confidence
Limits

841

JA/42016

11.0546

03215

113126

113967

MO

FEE12016

10.9509

037'7

103054

103964

MO

;MR2016

11.0192

03249

103703

113690

844

APR2016

10.90.92

03264

103374

113410

845

MAY2016

11.0571

03260

113023

11.1120

846

JUN2016

11.0485

03294

10.9909

11.1061

847

JUL2016

11.1041

03306

113438

11.1645

848

AUG2016

11.0891

03321

113262

11-1519

846

SEP2016

11.0604

0.1:1111.

113151

11.1456

850

O C T2016

11.0899

03345

113223

11.1575

851

NO112016

11.0297

03355

103600

113994

852

D E 02016

11.0620

03367

10.9900

11.1341

11,0546

62600

63234,16377

10,9509

57900

57005,32708

11,0192

59700

61034,83221

10,9892

57300

59230,98031

11,0571

62400

63392,44695

11,0485

62800

62849,60945

11,1041

67300

66443,01885

11,0891

65100

65453,81118

11,0804

63500

64886,83295

Annexe C : Méthode de Box & Jenkins

1. Comparaison des AIC des modèles des p et q estimé

ARIMA (1, 0) ARIMA (1, 1) ARIMA (2, 0)

787

781 138,652179 0,17519052 0,41975091 0,17519052 451,824961 3369,10159 877,615875 0,18823014

889,615875


·

889,723567

917,625244

5

Observation

 

787

Observation

787

Observat ll

DCL

783

DIDL

780

DDL

SCE

191,1919556

SCE

63,3819531

SCE

NICE

0,242937582

MCE

0,08053615

MCE

RMCE

0,492887083

RMCE

0,28378892

RMCE

Variance BB

0,242937582

Variance BB

0,08053615

Variance BB

MAPE(Diff)

374,4611297

MAPE(Diff)

158,374455

MAPE(Diff)

MAPE

3566,524083

MAPE

619,179499

MAPE

-2Log(Vrai5.)

1125,942611

-2Log(Vrais.)

323,57229

-2Log(Vrais. }

FPE

0,251098379

FPE

0,4832415

FPE

AIC

1133,9426111

AIC

337,572291


·

AIC

1133,993762

337,7160M

AICC

AICC

AICC

SRC

1152,615524

SBC

370,249888

SIC

Itérations

9

Itérations

1215

Itérations

Page 30

ARIMA (2, 1) ARIMA (2, 2) ARIMA (1, 2)

 
 
 
 
 

Observation

787

Observation

787 Observation

799

DDL

778

DDL

776 DDL

790

SCE

60,4830125

SCE

58,3290885 SCE

47,08.578269

MCE

0,07685262

MCE

0,07411574

MCE

0,058930892

RMCE

0,27722305

RMCE

0,27224206

RMCE

0,242756858

Variance BB

0,07685262

Variance BB

0,07074629

Variance BB

0,065423693

MAPE(Diff)

167,093544

MAPE(Diff)

172,392173

MA PE( Diff}

188,3964168

MAPE

692,511683

MAPE

712,742811

MAPE

697,5812251

-2Log(Vrais.)

29 2,407247

- 2Log(Vra i s. )

265,801652

-2Log{Vrais.}

122,666405

FPE

0,08210405

FPE

0,07918015

FPE

0,06088026

AIC

310,4072471


·

AIC

287,8016521

AIC

140,666405

AICC

310,638907

AICC

288,142297

AICC

140,8945419

SBC

352,421301

SBC

339,152162

SBC

182,8166535

Itérations.

345

Itérations

21488,

Itérations

2002

01/06/2016

-0,004

0,322

-0,634

0,627

01/07/2016

-0,004

0,322

-0,635

0,626

01/08/2016

-0,004

0,322

-0,634

0,627

01/09/2016

-0,004

0,322

-0,634

0,627

01/10/2016

-0,004

0,322

-0,634

0,627

01/11/2016

-0,003

0,322

-0,634

0,627

01/12/2016

-0,004

0,322

-0,634

0,627

01/01/2017

-0,004

0,322

-0,634

0,627

01/02/2017

-0,002

0,322

-0,633

0,628

01/03/2017

-0,004

0,322

-0,634

0,627

01/04/2017

-0,004

0,322

-0,634

0,627

01/05/2017

0,001

0,322

-0,630

0,631

01/06/2017

-0,003

0,322

-0,634

0,627

01/07/2017

-0,004

0,322

-0,634

0,627

01/08/2017

-0,004

0,322

-0,634

0,627

01/09/2017

-0,004

0,322

-0,634

0,627

01/10/2017

-0,004

0,322

-0,634

0,627

01/11/2017

-0,003

0,322

-0,634

0,627

01/12/2017

-0,004

0,322

-0,634

0,627

01/01/2018

-0,004

0,322

-0,634

0,627

01/02/2018

-0,003

0,322

-0,634

0,627






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Ceux qui vivent sont ceux qui luttent"   Victor Hugo