3.2.2 Analyse explicative multivariée
Comme énoncé précédemment, la
garantie de l'influence déterminée d'une variable
indépendante sur une variable dépendante ne peut, en aucun cas,
être valable sur la base de méthodes d'analyse purement
descriptives. C'est pourquoi des modèles explicatifs multivariés
ont été développés pour tenir compte des relations
entre variables explicatives, avant de mesurer l'influence de chacune d'elles
sur la variable expliquée. Cela permet de mesurer l'effet net de chaque
variable indépendante dans l'explication d'un phénomène
donné. Nombreux sont ces modèles, mais chacun a sa
spécificité et son domaine d'application. Leur utilisation est
généralement fonction des objectifs de l'étude d'une part
et de la variable expliquée d'autre part. Nous pouvons citer en guise
d'exemples, sans que la liste ne soit exhaustive : les modèles de
régression logistique (simple et multiple), les modèles
multiniveaux, le Modèle de régression linéaire multiple.
Ainsi, nous avons jugé bon d'utiliser les modèles de
régression logistique binomiale dans ce travail.
3.2.2.1 Justification du choix de la méthode
d'analyse
Le choix du modèle de régression logistique
binomial dans ce travail se justifie par le fait que cette méthode
d'analyse se prête à notre étude car notre variable
à expliquer (abandon scolaire) est dichotomique. Dans ce modèle
on part du principe (quasiment) toujours vérifié comme dans notre
cas, que les individus des deux catégories (ceux qui ont
abandonnés et ceux qui fréquentent encore) ne se ressemblent pas,
pour répondre à deux questions : sur quelles
caractéristiques se différencient-ils ces deux groupes
d'individus ? Et lesquelles [caractéristiques] jouent les premiers
rôles en la matière ? (AFSA, 2016).
Le modèle de régression logistique binomiale,
dit modèle logit, est tout à fait adapté à cette
problématique. Outre qu'il permet d'identifier les
caractéristiques distinguant les individus des deux groupes, il mesure
aussi l'influence de chacune d'entre elles dans cette distinction (AFSA,
2016).
L'analyse se fera au moyen du logiciel STATA 14.0.
3.2.2.2 Modélisation de l'analyse logistique
binomiale
Soit la variable Y (abandon scolaire), une
variable dichotomique ayant pour modalités "1" si l'individu ne
fréquente plus l'école au moment du recensement mais a
fréquenté dans le passé et "0" si l'individu
fréquente actuellement. Considérons l'ensemble des enfants
âgés
LAMAH François Xavier Master Professionnel en
Démographie Page 67
de 6 à 14 ans recensés lors du troisième
RGPH de la Guinée en 2014, appartenant à l'une des deux
modalités de la variable abandon scolaire précédemment
définie et dont on connait n de leurs caractéristiques,
représentées par les n variables x1, x2,...,xn
indépendantes.
Posons P, la probabilité que
l'évènement se réalise, c'est-à-dire que l'individu
i (compte tenu de ses caractéristiquesx1i, x2i,,,,, xni) abandonne
l'école et 1-P le cas contraire, c'est-à-dire
que l'individu i (compte tenu de ses caractéristiquesx1i, x2i,,,,, xni)
fréquente encore l'école.
Notre analyse consiste à estimer la probabilité
qu'un enfant âgé de 6 à 14 ans puisse abandonner
l'école, c'est-à-dire P (Y=1) en fonction de plusieurs variables
indépendantes, X1, X2,....,Xn. Au lieu d'utiliser la probabilité
elle-même, on peut calculer des « odds » (è), tels que
:
??
Pour linéariser è, on prend son logarithme
népérien, Ce qui nous donne
??????(??) = ?????? ( ?? 1 - ??) = ??0 +
??1??1 + ??2??2 + ? , + ????????
La procédure « logistic regression » de STATA
permet d'estimer les coefficients (30,..., (3n. Ces valeurs permettent ensuite
de calculer les valeurs de Z, puis les probabilités de
fréquentation scolaire (P) pour un individu dont les
caractéristiques (X1, ..., Xn) sont connues. Ce calcul se fait de la
manière suivante :
?? = ??0 + ??1??1 +
??2??2 + ?, + ???????? ???????? ?? = ?????? (??1-??) et
???? = ( ??
1-??)
On obtient finalement p ????
= (1+ ????).
Cette régression fournit plusieurs statistiques en
particulier le nombre d'observations, la probabilité du Chi-deux
associée au modèle, les rapports de chances (Odds ratios), le
seuil de signification P > |z| des paramètres (coefficients (3),
l'intervalle de confiance des Odds ratio pour chacune des modalités des
variables introduites dans le modèle. Celles-ci ont l'avantage de
faciliter l'interprétation des résultats obtenus.
LAMAH François Xavier Master Professionnel en
Démographie Page 68
|