ANNEXE 5 : Exploration de modèles logistiques
d'estimation
Modèle 1 : Modèle avec
l'âge non regroupé et le diplôme regroupé en quatre
modalités
Logistic regression
Nombre d'observation = 2341
LR chi2(6) = 116,21
Prob > chi2 = 0,0000
Pseudo R2 = 0,0804
Le test de significativité global du modèle nous
montre qu'il est significatif avec
une p-valeur égale à 0 et le Pseudo R2
du modèle est de 0,0804. Le tableau ci-dessous
nous présente l'estimation du modèle et le test de
significativité individuel.
Tableau 13 : Estimation du modèle
1 et tests de significativité Vraisemblance = -664.63048
Statut
socioprofessionnel
|
Coefficients
|
Std. Err.
|
Z
|
P>z
|
[95% Conf.Interval]
|
Âge
|
-0.0945954
|
0,0113425
|
-8,34
|
0,000
|
-0,1168263
|
-0,0723645
|
diplôme
|
Aucun diplôme en référence
|
Diplôme du
secondaire
|
-0.6540304
|
1,125662
|
-0,58
|
0,561
|
-2,860288
|
1,552227
|
Diplôme du
supérieur
|
-1,160117
|
1,104388
|
-1,05
|
0,294
|
-3,324678
|
1,004443
|
milieu_residence
|
Rural en référence
|
Urbain
|
0,5797404
|
0,1971086
|
2,94
|
0,003
|
0,1934146
|
0,9660662
|
_cons
|
0,8961176
|
1,166726
|
0,77
|
0,442
|
-1,390623
|
3,182858
|
Source : Tableau réalisé à
partir des données de l'enquête ENSPD 2015
Ce tableau nous montre à travers les p-valeur (P>z)
que l'âge et la modalité Urbain du milieu de résidence ont
des coefficients significatifs dans le modèle puisque leur p-valeur est
inférieure à 0,05 qui est notre seuil. Mais par contre, les
coefficients de la constante et les modalités du diplôme
détenu ne sont pas significatifs.
62
Le graphique suivant nous montre la courbe Roc qui est
indicateur de mesure de la qualité du modèle.
Graphique 11 : Test de qualité du
modèle 1 ; la courbe Roc.
0.00 0.25 0.50 0.75 1.00
1 - Specificity
Area under ROC curve = 0.7112
Source : Graphique réalisé
à partir des données de l'enquête ENSPD 2015
En observant ce graphique, nous remarquons que la courbe est
un peu éloignée de la première bissectrice ce qui est un
bon signe pour la qualité du modèle. Ce graphique nous montre par
ailleurs que le modèle nous permet d'avoir des estimations à
71,12 % de précision.
Tableau 14 : Critères
d'information du modèle 1
Observation
|
ll(null)
|
ll(model)
|
Df
|
AIC
|
BIC
|
2341
|
-722,7372
|
-664,6305
|
5
|
1339,261
|
1368,053
|
Source : Tableau réalisé à
partir des données de l'enquête ENSPD 2015
63
Modèle 2 : Modèle avec
l'âge regroupé en classe et le diplôme regroupé en
quatre modalités
Logistic regression
Nombre d'observation = 2341
LR chi2(5) = 84,64
Prob > chi2 = 0,0000
Pseudo R2 = 0,0586
Le test de significativité global du modèle nous
montre qu'il est significatif avec
une p-valeur égale à 0 et le Pseudo R2
du modèle est de 0,0586. Le tableau ci-dessous
nous présente l'estimation du modèle et le test de
significativité individuel.
Tableau 15 : Estimation du modèle
2 et tests de significativité Vraisemblance = -680,41853
Statut
socioprofessionnel
|
Coefficients
|
Std. Err.
|
Z
|
P>z
|
[95% Conf.Interval]
|
age
|
18-24 ans en référence
|
25-45 ans
|
-1,002424
|
0,1529633
|
-6,55
|
0,000
|
-1,302227
|
-0,7026215
|
46-64 ans
|
-2,287972
|
0,4613451
|
-4,96
|
0,000
|
-3,192192
|
-1,383752
|
milieu_residence
|
Rural en référence
|
Urbain
|
0,5120931
|
0,196332
|
2,61
|
0,009
|
0,1272894
|
0,8968968
|
diplôme
|
CEPE/CEPD en référence
|
Diplôme du
secondaire
|
-0,5626872
|
1,117028
|
-0,50
|
0,614
|
-2,752022
|
1,626648
|
Diplôme du
supérieur
|
-1,051922
|
1,094704
|
-0,96
|
0,337
|
-3,197503
|
1,093659
|
Constante
|
-1,110507
|
1,111805
|
-1,00
|
0,318
|
-3,289604
|
1,06859
|
Source : Tableau réalisé à
partir des données de l'enquête ENSPD 2015
Ce tableau nous montre à travers les p-valeur (P>z)
que les modalités 25-45 ans et 46-64 ans et la modalité Urbain du
milieu de résidence ont des coefficients significatifs dans le
modèle puisque leur p-valeur est inférieure à 0,05 qui est
notre seuil.
64
Mais par contre, les coefficients de la constante et les
modalités du diplôme détenu ne sont pas significatifs.
Le tableau suivant nous montre le test de normalité des
résidus et la courbe Roc qui est indicateur de mesure de la
qualité du modèle.
Graphique 12 : Test de qualité du
modèle 2 ; la courbe Roc.
0.00 0.25 0.50 0.75 1.00
1 - Specificity
Area under ROC curve = 0.6762
Source : Graphiques réalisés
à partir des données de l'enquête ENSPD 2015
La courbe Roc que nous présente ce graphique est aussi
éloignée de la première bissectrice. Mais cet
éloignement est moins important que celui du modèle 1. Ce qui
réduit la précision des estimations à 67,62%.
Le tableau suivant nous montre les critères d'information
pour la comparaison des modèles
Tableau 16 : Critères
d'information du modèle 2
Observation
|
ll(null)
|
ll(model)
|
Df
|
AIC
|
BIC
|
2341
|
-722.7372
|
-680.5734
|
5
|
1371.147
|
1399.938
|
Source : Tableau réalisé à
partir des données de l'enquête ENSPD 2015
65
Le tableau suivant nous montre la comparaison des deux
modèles Tableau 17 : Comparaison du
modèle 1 au modèle 2
Critère
|
Modèle 1
|
Modèle 2
|
Pseudo R2
|
0,0804 *
|
0,0586
|
Area under ROC curve
|
0,7112 *
|
0,6762
|
AIC
|
1339,261 *
|
1371,147
|
BIC
|
1368,053 *
|
1399,938
|
Nombre de critère choisissant le
modèle
|
4
|
0
|
* marque le modèle retenu pour un critère
Source : Tableau réalisé à
partir des données de l'enquête ENSPD 2015
Ce tableau nous indique que le modèle 1
réalisé avec l'âge non regroupé est plus fiable et
permet d'avoir une bonne qualité d'estimation. Cela nous montre qu'en
regroupant l'âge en classe, nous perdons une partie de l'information.
Mais bien que le modèle 1 semble meilleur que le modèle 2, la
variable diplôme le plus élevé détenu n'a aucune de
ses modalités bien représentées. Ce qui nous amène
à réaliser une ANOVA sur le modèle 1 estimé avec le
diplôme pour voir directement si la variable diplôme est
significative ou pas. Le tableau ci-dessous nous présente les
résultats de cette ANOVA.
Nombre d'observation = 2341
R2 = 0,0547
R2 Ajusté = 0,0345
Root MSE = 0,285022
Tableau 18 : ANOVA sur le modèle 1
estimé avec le diplôme
Source
|
Partial SS
|
df
|
MS
|
F
|
Prob > F
|
Model
|
10,7700836
|
49
|
0,219797625
|
2,71
|
0,0000
|
q103
|
0,87892028
|
46
|
0,214759136
|
2,64
|
0,0000
|
milieu_residence
|
0,766203738
|
1
|
0,766203738
|
9,43
|
0,0022
|
Diplôme
|
0,262959598
|
2
|
0,131479799
|
1,62
|
0,1984
|
Residual
|
186,115008
|
2291
|
0 ,081237454
|
|
|
Total
|
196,885092
|
2340
|
0,084138928
|
|
|
Source : Tableau réalisé à
partir des données de l'enquête ENSPD 2015
66
Le test de significativité global du modèle nous
montre qu'il est significatif avec une p-valeur égale à 0. Mais
quand nous descendons à la significativité individuelle des
variables, nous remarquons que seule la variable diplôme n'est pas
significatif avec une p-valeur égale à 0,1984 supérieure
au seuil 0,05. Cela vient renforcer le résultat du modèle 1.
Modèle 3 : Modèle avec
l'âge non regroupé et le diplôme non regroupé en 4
modalités.
Nombre d'observation = 2298
LR chi2(5) = 128,55
Prob > chi2 = 0,0000
Pseudo R2 = 0,09
Le test de significativité global du modèle nous
montre qu'il est significatif avec
une p-valeur égale à 0 et le Pseudo R2
du modèle est de 0,09. Le tableau ci-dessous nous
présente l'estimation du modèle et le test de
significativité individuel.
Tableau 19 : Estimation du modèle
3 et tests de significativité Vraisemblance = -657.18567
Statut
socioprofessionnel
|
Coefficients
|
Std. Err.
|
Z
|
P>z
|
[95% Conf.Interval]
|
q103
|
-0.0869959
|
0.0117805
|
-7.38
|
0.000
|
-0.1100854
|
-0.0639065
|
Milieu de résidence
|
Rural en référence
|
Urbain
|
0.4985708
|
.198826
|
2.51
|
0.012
|
0.1088791
|
0.8882626
|
Diplôme
|
Aucun diplôme en référence
|
CEPE/CEPD
|
0.3447763
|
0.2176949
|
1.58
|
0.113
|
-0.0818978
|
0.7714504
|
BEPC
|
0.624205
|
0.2256656
|
2.77
|
0.006
|
0.1819086
|
1.066501
|
BAC
|
0.7629872
|
0.3189892
|
2.39
|
0.017
|
0.1377799
|
1.388195
|
DEUG
|
1.756677
|
0.7243685
|
2.43
|
0.015
|
0.3369407
|
3.176413
|
Licence
|
0.9360532
|
0.5702568
|
1.64
|
0.101
|
-0.1816295
|
2.053736
|
Maîtrise
|
-0.2663954
|
1.035416
|
-0.26
|
0.797
|
-2.295773
|
1.762982
|
CFA
|
1.477507
|
1.11154
|
1.33
|
0.184
|
-0.701072
|
3.656085
|
CAP
|
1.333481
|
0.5898355
|
2.26
|
0.024
|
0.1774251
|
2.489538
|
BAC-
TECHNIQUE
|
1.483673
|
0.8744432
|
1.70
|
0.090
|
-0.2302044
|
3.19755
|
Licence
professionnelle
|
1.939365
|
0.8944026
|
2.17
|
0.030
|
0.1863685
|
3.692362
|
Constante
|
-0.7596916
|
0.3919659
|
-1.94
|
0.053
|
-1.527931
|
0.0085475
|
Source : Tableau réalisé à
partir des données de l'enquête ENSPD 2015
67
Ce tableau nous montre à travers les p-valeur (P>z)
que l'âge, la modalité Urbain du milieu de résidence et les
modalités BEPC, BAC, DEUG, CAP et Licence Professionnelle de la variable
Diplôme ont des coefficients significatifs dans le modèle puisque
leur p-valeur est inférieure à 0,05 qui est notre seuil. Mais par
contre, les coefficients de la constante et des modalités CEPE/CEPD,
Licence, CFA et Bac Technique de la variable Diplôme ne sont pas
significatifs.
Le graphique suivant nous montre la courbe Roc qui est
indicateur de mesure de la qualité du modèle.
Graphique 13 : Test de qualité du
modèle 3 ; la courbe Roc.
0.00 0.25 0.50 0.75 1.00
1 - Specificity
Area under ROC curve = 0.7222
Source : Graphique réalisé
à partir des données de l'enquête ENSPD 2015
En observant ce graphique, nous remarquons que la courbe est
un peu éloignée de la première bissectrice ce qui est un
bon signe pour la qualité du modèle. Ce graphique nous montre par
ailleurs que le modèle nous permet d'avoir des estimations à
72,22 % de précision.
68
Le tableau suivant nous montre les critères de
qualité du modèle 3 Tableau 20 :
Critères d'information du modèle 3
Observation
|
ll(null)
|
ll(model)
|
Df
|
AIC
|
BIC
|
2298
|
-713.9818
|
-649.7076
|
13
|
1325.415
|
1400.033
|
Source : Tableau réalisé à
partir des données de l'enquête ENSPD 2015
De façon globale, les résultats de ce
modèle nous montrent que toutes les modalités de la «
Diplôme ne sont pas significatifs. Cela nous amène à
réaliser une ANOVA sur le modèle 3 estimé avec le
diplôme pour voir la variable diplôme est significative ou pas dans
le modèle. Le tableau ci-dessous nous présente les
résultats de cette ANOVA.
Nombre d'observation = 2323
R-squared = 0.0653
Root MSE = 0.284656
Adj R-squared = 0.03964
Tableau 21 : les résultats de
l'ANOVA sur le modèle 3
Source
|
Partial SS
|
df
|
MS
|
F
|
Prob > F
|
Model
|
12.7903858
|
62
|
0.206296545
|
2.55
|
0.0000
|
Âge
|
7.68935823
|
46
|
0.167159962
|
2.06
|
0.0000
|
Milieu de résidence
|
0.617137203
|
1
|
0.617137203
|
7.62
|
0.0058
|
Diplôme
|
2.50244544
|
15
|
0.166829696
|
2.06
|
0.0095
|
Residual
|
183.125241
|
2260
|
0.081028867
|
|
|
Total
|
195.915626
|
2322
|
0.084373655
|
|
|
Source : Tableau réalisé à
partir des données de l'enquête ENSPD 2015
Le test de significativité global du modèle nous
montre qu'il est significatif avec une p-valeur égale à 0.
Lorsque nous descendons à la significativité individuelle des
variables, nous remarquons que toutes les variables sont significatives dans le
modèle avec des p-valeur inférieures au seuil 0,05.
69
De tout ce qui précède, nous remarquons que les
résultats du modèle 3 sont similaires à ceux du
modèle. Mais le modèles 3 contient plus de paramètres
estimés, et donc plus complexe à interpréter. Par
conséquent, ceux sont les résultats de l'estimation du
modèle 1 sans la variable diplôme que nous
interpréterons.
|
|