4.1.4.2. Description du modèle de base
Le modèle estimé (modèle 1) est
globalement significatif au seuil de 5 % (p-valeur=0,0000). Cela implique qu'il
existe au moins un paramètre du modèle qui soit significativement
différent de 0 ; en effet, quatre (04) variables (Rep_RS, Attit_MC3,
Contact_media, Delai_interv) sont significatives au seuil de 5 %. En ce qui
concerne le pouvoir explicatif du modèle, il est évalué
par le pseudo-R2 de Mc Fadden qui donne une valeur de 51,13 %
(Tableau 30, Annexe H).
63
Rédigé par: MPELI MPELI Ulrich
Stéphane, Elève Ingénieur d'Application de la Statistique,
4ème année
Toutefois, ces résultats doivent être pris sous
réserve d'une éventuelle mauvaise modélisation et de
l'influence que certaines femmes peuvent avoir sur la modélisation. Il
est donc important de faire une analyse des résidus.
4.1.4.3.Diagnostic du modèle initial et
sélection du meilleur modèle ? Analyse des
résidus standardisés de Pearson
Le graphique des résidus standardisés (Figure
35, Annexe H) montre que certaines femmes se décrochent de façon
significative des autres, de par leurs comportements. Ainsi toute femme ayant
une valeur résiduelle supérieure à trois en valeur absolue
semble être mal modélisée.
Ces femmes qui semblent influencer les paramètres du
modèle et leur significativité sont au total six (06). La plupart
d'entre elles avait repris les rapports sexuels (83,33 %), mais n'utilisait
aucune méthode contraceptive (83,33 %) ; pourtant la plupart des
partenaires y était favorable (66,67 %). Ces caractéristiques ne
cadrent pas avec le profil que nous avons décrit dans le chapitre
précédent. Ceci pourrait justifier l'influence de ces femmes sur
les paramètres estimés. Nous allons donc les retirer
successivement du modèle. A cet effet, nous estimons un deuxième
modèle en retirant l'individu situé à la position 196
(ligne 196) qui se décroche très largement des autres
(modèle 2), et ensuite nous allons retirer les autres individus qui
semblent mal modélisés (modèle 3).
? Sélection du meilleur modèle
La précédente analyse montre que la
présence des individus mal modélisés et atypiques dans
l'échantillon peut biaiser les résultats des estimations. Les
caractéristiques des modèles candidats sont renseignées
dans le tableau ci-dessous :
Tableau 12 : Comparaison des modèles
candidats pour le premier niveau de l'analyse
Modèle 1
Modèle 2
Modèle 3
-118,843
-111,579
-94,403*
LV20
Pseudo R2 (%)
60,35*
51,13
54,02
TBC21 (%)
87,32*
83,43
86,11
AUC (%)
94,34*
91,51
91,97
262,8061*
297,1593
311,6861
AIC
406,0745*
455,5746
440,9452
BIC
Source : Auteur (Données du CPC) *
Meilleur modèle pour le critère courant
20 Log-Vraisemblance
21 Taux de Bon Classement
64
Rédigé par: MPELI MPELI Ulrich
Stéphane, Elève Ingénieur d'Application de la Statistique,
4ème année
Le modèle 3 semble être celui qui apporte une
plus grande précision sur l'explication du phénomène. En
effet, il maximise la vraisemblance, a un plus grand pouvoir explicatif, une
plus grande aire en dessous de la courbe ROC (AUC) et minimise les
critères d'information d'AKAIKE (AIC) et de SCHWARZ (BIC); en fin de
compte, il respecte tous les critères retenus. En accord avec les
différents critères de sélection, nous retenons donc le
modèle 3. Cette étape montre à quel point la
détection des points influents est importante pour améliorer la
qualité du modèle.
? Test de bonne spécification du
modèle retenu
Le test de Hosmer-Lemeshow est l'outil statistique
approprié pour savoir si le modèle spécifié est bon
ou mauvais. Il s'appuie sur les hypothèses suivantes :
? H0 : Le modèle estimé s'ajuste bien aux
données (Goodness of fit)
? H1 : Le modèle estimé ne s'ajuste pas bien aux
données.
Le tableau 31 (Annexe H) montre que le modèle
estimé s'ajuste bien aux données et les résultats obtenus
peuvent donc faire l'objet d'interprétations.
|