2.3.2. Méthodologie d'analyse statistique
La provenance des données de notre étude
étant définie, il importe de décrire les méthodes
d'analyse statistique que nous allons utiliser pour atteindre nos objectifs.
Dans cette section, nous présentons le choix des méthodes, ainsi
que la démarche d'analyse.
2.3.2.1. Choix des méthodes d'analyse
L'analyse empirique comprend deux volets : un volet descriptif
et un volet explicatif. La partie descriptive consiste en des analyses
univariée, bivariée et multivariée. La partie explicative
consiste en l'estimation d'un modèle de régression polytomique
non ordonné.
2.3.2.2. Démarche d'analyse
Dans cette partie, nous présentons le but des
différentes méthodes d'analyse utilisées. ? Analyses
univariée et bivariée
Les analyses univariée et bivariée permettront
de ressortir les caractéristiques générales de la
population étudiée. Le test du Khi-deux de Pearson est l'outil
statistique qui sera utilisé pour tester l'indépendance entre la
variable dépendante (le recours à la contraception en postpartum)
et les autres variables nominales de l'étude ; cette étape nous
permettra aussi de sélectionner les variables qui seront
utilisées dans l'analyse multivariée. Il est recommandé
d'adopter un seuil conservateur de 20 % ou 25 % (au lieu du seuil classique de
5 %) pour la sélection des variables initiales à
considérer pour l'analyse multivariée (AHMADOU, et JUTAND, 2011).
Par conséquent, toutes les variables ayant un seuil de
significativité inférieur à 20 % seront retenues pour la
suite de l'analyse. Le rapport de corrélation sera utilisé pour
mesurer le lien entre la
30
Rédigé par: MPELI MPELI Ulrich
Stéphane, Elève Ingénieur d'Application de la Statistique,
4ème année
variable d'intérêt et la variable quantitative
(Revenu) ; nous appliquerons le logarithme à la variable « Revenu
» pour résoudre les problèmes d'échelle dans la
modélisation. Par ailleurs, nous retiendrons également certaines
variables fréquemment retrouvées dans la littérature,
indépendamment de leur niveau de significativité.
Cette première partie de l'analyse donnera les
premières impressions sur les premiers résultats quant à
l'atteinte de nos objectifs.
? Analyses multivariées
Nous utiliserons les méthodes d'analyse des
correspondances multiples (ACM) et de classification pour ressortir le profil
des femmes selon la pratique contraceptive. La présentation de ces
méthodes est faite en annexe.
? Exécution de l'ACM
Une ACM préliminaire sera effectuée pour
déterminer les variables qui contribuent très fortement ou alors
très faiblement à la formation des axes factoriels retenus. Ces
variables seront retirées progressivement et envoyées en
supplémentaire. Cette procédure est très avantageuse car
elle assure une grande robustesse de l'ACM finale. Nous nous appuierons sur la
règle du coude pour retenir le nombre d'axes factoriels à
interpréter.
Pour l'interprétation d'un axe, on sélectionnera
les modalités qui ont les plus fortes contributions : une
modalité contribue fortement à un axe, si sa contribution est
supérieure à la moyenne des contributions sur cet axe.
Nous utiliserons les cosinus carrés pour
apprécier la qualité de représentation des
modalités sur l'axe ; seules les modalités bien
représentées seront maintenues. La valeur minimale pour le
cosinus carré est la moyenne des cosinus carré sur un axe
donné.
En ce qui concerne les coordonnées des
modalités, on considère généralement qu'une
valeur-test supérieure à 2 en valeur absolue indique que la
modalité correspondante est significativement différente du
centre de gravité et peut faire l'objet d'interprétation.
31
Rédigé par: MPELI MPELI Ulrich
Stéphane, Elève Ingénieur d'Application de la Statistique,
4ème année
? Exécution de la classification
Afin d'affiner les résultats obtenus en ACM, nous
utiliserons la classification ascendante hiérarchique, qui permet de
constituer des classes par agrégations successives, deux à deux
des éléments les plus proches au sens d'une distance
donnée. La condition d'arrêt est la minimisation de l'inertie
intra-classes et la maximisation de l'inertie inter-classes. Nous utiliserons
les axes retenus en ACM. La sélection des partitions optimales se fera
automatiquement à l'aide de la procédure PARTI-DECLA, qui
permettra non seulement la coupure du dendrogramme, mais aussi la description
des classes obtenues.
? Modélisation
Une fois les profils des femmes définis, nous
utiliserons une méthode spécifique de modélisation sur
variables catégorielles à savoir le modèle logit
multinomial ou le modèle séquentiel (selon que l'hypothèse
d'indépendance des alternatives non pertinentes (IIA) est
vérifiée ou non), pour rechercher les déterminants du
recours à la contraception, et quantifier les chances d'appartenance
d'une femme à un groupe donné.
? Le modèle logit multinomial
C'est un modèle utilisé lorsque les
modalités de la variable supposées mutuellement exclusives sont
non ordonnées (le nombre de modalités est supérieur
à 2). Ce modèle permet de rendre compte des choix probabilistes
car il décrit les choix individuels en présence d'utilité
stochastique. Dans le cadre de notre étude, les modalités de la
variable dépendante (recours à la contraception) sont : Aucune
méthode, méthode moderne et méthode traditionnelle.
? Spécification du modèle
On suppose qu'un individu j doit effectuer un choix
entre M + 1 alternatives, c'est-à-dire que la variable
dépendante Y a M + 1 modalités non
ordonnées. On suppose aussi que Y est la
manifestation d'une variable inobservable continue
Ulk, représentant l'utilité indirecte de l'individu
j associée à l'alternative k et reliée
aux variables explicatives Xl.
. On postule donc pour le modèle suivant :
32
Rédigé par: MPELI MPELI Ulrich
Stéphane, Elève Ingénieur d'Application de la Statistique,
4ème année
{ ( )
( )
Les erreurs sont indépendantes et identiquement
distribuées, ce qui garantit l'indépendance
des alternatives
Dans le cadre de notre étude, les variables explicatives
varient uniquement en fonction des
individus et les paramètres diffèrent selon les
modalités des variables explicatives. Si est la variable qualitative
indiquant le recours à la contraception d'un individu, prenant les
valeurs
le modèle de détermination de sous
l'hypothèse de normalisation ( ) s'écrit alors :
( )
[ ]
? ( )
Dans cette équation, représente l'indice de
l'individu (une femme donnée) et l'indice de son
choix. est le vecteur des paramètres à estimer,
lié aux caractéristiques des individus. Les variables
qualitatives sont introduites sous formes d'indicatrice en laissant une
modalité comme référence.
? Justification du modèle
L'idée étant d'estimer un ensemble de
paramètres inhérents au recours à la contraception
(variable nominale à trois modalités), les modèles
probabilistes notamment le modèle logit multinomial non ordonné
semble le mieux adapté, ceci parce qu'il n'existe pas une structure
d'ordre entre les modalités de la variable d'intérêt. En
effet, il est possible de déterminer la probabilité qu'un
individu donné choisisse une modalité plutôt qu'une autre
en fonction de ses caractéristiques spécifiques. Les
paramètres de cette régression n'ont aucune relation avec les
effets marginaux ; ils s'interprètent comme des
écarts au référentiel (aux paramètres de la
modalité de référence). Nous pouvons
soupçonner la violation de l'hypothèse d'indépendance
33
Rédigé par: MPELI MPELI Ulrich
Stéphane, Elève Ingénieur d'Application de la Statistique,
4ème année
des alternatives non pertinentes (IIA16), qui
stipule que le rapport de deux probabilités associées à
deux évènements particuliers, est indépendant des autres
évènements. En d'autres termes, le choix préexistant entre
deux modalités ne doit pas être influencé par une autre
modalité. Si cette hypothèse n'est pas vérifiée, le
modèle logit multinomial n'est plus approprié pour expliquer le
phénomène étudié ; il faut donc recourir aux
modèles alternatifs (modèle polytomique probit non
ordonnée, modèle hiérarchisé ou
séquentiel).
? Test de l'hypothèse IIA
Le test de Hausman ou l'estimation SUEST (Seemingly unrelated
estimation) sont souvent utilisés pour tester l'hypothèse IIA.
Les hypothèses à vérifier sont les suivantes :
? {
Dans le cadre de notre étude, nous utiliserons
l'estimation SUEST, car c'est une généralisation du test de
Hausman. L'hypothèse H0 sera rejetée si la p-valeur du test est
inférieur à 5 % ; et dans ce cas, nous utiliserons un
modèle séquentiel.
? Le modèle séquentiel
Si l'hypothèse IIA n'est pas vérifiée, le
modèle logit multinomial n'est plus approprié pour atteindre
notre objectif ; il faut recourrir à un modèle alternatif.
L'alternative naturelle à ce dernier consiste en un modèle probit
multivarié dont l'estimation se révèle toutefois complexe
dans l'état actuel des connaissances et surtout des moyens
technologiques (AMEMIYA, 1985).
Un autre modèle plus opérationnel a
été développé pour pouvoir relâcher
partiellement l'hypothèse forte de l'IIA ; il s'agit du modèle
logistique multinomial emboîté ou hiérarchique.
L'originalité de sa structure consiste à assembler les
différentes alternatives en sous-groupes. La variance peut
différer entre ces sous-groupes mais l'hypothèse IIA est
maintenue à l'intérieur de ces derniers. On peut
considérer ce modèle comme un problème de choix à
deux niveaux (ou plus) (AMEMIYA, 1985).
16 Independance of Irrelevant Alternatives
34
Rédigé par: MPELI MPELI Ulrich
Stéphane, Elève Ingénieur d'Application de la Statistique,
4ème année
Supposons que les J alternatives puissent être
divisées en N sous-ensembles. On peut logiquement
considérer le processus de choix comme suit : l'individu choisit un
groupe
d'alternatives n puis fait son choix «définitif»
] parmi les différentes alternatives du groupe n. Ce
processus conduit à une structure arborescente similaire à
l'exemple de la figure ci-dessous, considérant deux «groupes de
choix» et quatre choix possibles.
Figure 5 : Schéma du modèle
séquentiel
Choix
Groupe 1
|
Groupe 2
|
|
Premier niveau de choix
|
Choix 1
Choix 2
Deuxième niveau de choix
Source : Auteur
? Estimation des paramètres du modèle
La littérature propose plusieurs méthodes pour
l'estimation des paramètres des modèles. Nous
avons entre autre :
? La méthode des Moindres Carrés Ordinaires (MCO)
;
? La méthode des moments ;
? La méthode du Maximum de Vraisemblance (MMV).
Les deux premières méthodes s'avèrent
incompatibles pour mener ce genre d'analyse, en raison de la violation d'un
certain nombre d'hypothèses comme celle de la normalité des
résidus. Nous utiliserons donc la méthode du maximum de
vraisemblance.
La log-vraisemblance de l'échantillon de N
observations indépendantes et identiquement distribuées est
donnée par :
35
Rédigé par: MPELI MPELI Ulrich
Stéphane, Elève Ingénieur d'Application de la Statistique,
4ème année
log L(Y, 131, 132, ., 13M) = ? = ? = - ? l g[ ? = (
)
Les paramètres du modèle sont solutions de
l'algorithme de maximisation de la log-vraisemblance.
n Analyse des résidus du modèle
L'analyse des résidus après l'estimation d'un
modèle consiste à déterminer les individus atypiques et
les individus ayant été mal modélisés. Ces deux
groupes d'individus peuvent biaiser les résultats des estimations des
paramètres du modèle. Les individus mal modélisés
seront identifiés grâce à l'analyse des résidus
standardisés de Pearson. Quant aux individus atypiques, ils seront
détectés grâce à l'examen du levier.
n Interprétation des résultats du modèle
Dans les modèles logit, les paramètres de la
spécification ne sont identifiables qu'à une
et la variance ?? des
??
constante multiplicative près. En effet le coefficient
estimé vaut b ??
erreurs n'est pas identifiable. Par conséquent, la
valeur numérique des paramètres estimés dans les
équations n'a pas d'interprétation pertinente. Ainsi nous
utiliserons les rapports de côte (odds ratio (OR)) pour
l'interprétation des résultats du modèle. Le rapport de
côte est le rapport de la
probabilité associée à un
évènement (« ») à la probabilité de non
survenue de cet
évènement. Il est donné par :
ORi = P(Yi = )
P(Yi = )
ORi = P(Yi = )
- P(Yi = )
On dira donc que l'individu i a ORi fois plus de
chance que l'évènement associé à Yi = 1 se
réalise, plutôt qu'il ne se réalise pas ; ou encore,
l'individu i a ORi fois moins de chance que
36
Rédigé par: MPELI MPELI Ulrich
Stéphane, Elève Ingénieur d'Application de la Statistique,
4ème année
l'évènement associé à Yi = 1 se
réalise, plutôt qu'il ne se réalise pas (cette forme
d'interprétation sera utilisée lorsque ORi < 1).
Enfin, pour analyser l'impact d'une variable sur la
probabilité d'observer l'événement d'intérêt
mesuré par la variable dépendante nous calculerons les effets
marginaux.
37
Rédigé par: MPELI MPELI Ulrich Stéphane,
Elève Ingénieur d'Application de la Statistique, 4ème
année
DEUXIEME PARTIE : CADRE PRATIQUE DE L'ETUDE
Rédigé par: MPELI MPELI Ulrich Stéphane,
Elève Ingénieur d'Application de la Statistique, 4ème
année
38
|