IV.1.1 Présentation du modèle de
régression logistique
Notre variable dépendante est l'utilisation de la
contraception moderne. Elle est définie comme suit:
Y=
|
{1 si la femme utilise la contraception moderne 0 si non
|
|
Cette variable étant dichotomique, nous allons utiliser
le modèle de régression logistique. Soit X = ( x
1 , x 2 , x 3 , ...,
x p ) le vecteur des variables
indépendantes70. Les variables
quantitatives sont utilisées en l'état, les
variables qualitatives sont dichotomisées. La régression
logistique permet de déterminer parmi les variables explicatives, celles
qui influencent significativement l'utilisation de la contraception moderne.
Elle vise la production d'un modèle permettant de prédire les
valeurs prises par une variable catégorielle binaire71,
à partir d'une série de variables explicatives. Ce modèle
peut être résumé ainsi qu'il suit :
Posons : Y = Xâ + å où
å représente le terme d'erreur.
Le modèle logistique suppose l'existence d'une variable
latente Y * telle que :
70 Par exemple, x1 représente la religion, x2,
l'arrondissement de résidence etc.
71 Ici il s'agit de la variable utilisation de la
contraception moderne
Y = {
|
1 s i * 0
Y >
0 s i *
Y < = 0
|
|
C'est cette variable latente Y * qui est
utilisée pour la résolution de l'équation :
Y* = Xâ + å
On a ainsi: P(yi = 1) = P(yt > 0) = Pil3 + Ei > 0) = Pil3
> --Ei) = F(Xil3)
Où F est la fonction de répartition des
erreurs.
Dans le modèle de régression logistique, on pose
que les erreurs ont une distribution
logistique d'espérance E(Ei) = 0 et de variance Var(ei) =
cr2rr
3
-
-
Donc El suit une loi logistique standard. En effet,
E (E' ) = 0 et Var (Ei n ) = . Ainsi
Q cr cr 3
l'estimation du modèle logistique donne :
P (y; = 1) = P (Ei < xi13) =
F (xi13) = 1
. xi/
1+e
.
Xis
a
La méthode d'estimation utilisée est celle du
maximum de vraisemblance.
Après l'estimation du modèle, il faut examiner
sa qualité. Pour ce faire un certain nombre de tests sont
utilisés, notamment le test de khi-deux pour la significativité
globale du modèle, le LR-test et le test de Hosmer et Lemeshow pour la
qualité de l'ajustement, la courbe ROC pour le pouvoir discriminant du
modèle et bien d'autres. Ces tests seront présentés au fur
à mesure qu'ils seront utilisés.
Après avoir examiné la qualité du
modèle, on peut faire les interprétations des résultats du
modèle. Elles sont basées sur le rapport de côte ou «
odds ratio ». Ce dernier traduit les rapports de chances de l'utilisation
de la contraception. Si le rapport de côte est supérieur à
1 on dira que l'événement a plus de chance de se produire sinon
on dira que l'événement a moins de chance de se produire. Les
odds ratio sont interprétés uniquement pour les variables
significatives du modèle. Nous interpréterons aussi les signes
des coefficients de ces variables. Une variable dont le coefficient a un signe
positif, influence positivement l'utilisation de la contraception moderne,
autrement dit la probabilité d'utiliser la contraception moderne croit
avec cette variable. Par ailleurs, si le signe est négatif, alors cette
variable influence négativement l'utilisation de la contraception
moderne. C'est-à-dire que la chance d'utiliser la contraception moderne
décroit avec cette variable.
|