4.3 Modèle de régression logistique
La régression logistique est une technique de
modélisation qui vise à prédire et à expliquer les
valeurs d'une variable binaire Y à partir d'une série de
variables explicatives (Rakotomalala, 2015) qui peuvent être qualitatives
ou quantitatives.
En d'autres termes, la régression logistique permet
d'estimer l'effet spécifique de chaque variable indépendante sur
le risque étudié et en contrôlant les autres variables.
Le modèle de la régression logistique s'exprime
selon la formule suivante : Logit P=ln (P/ (1-P))=30+ 31X1+ 32X2+
33X3+...+ 3kXk.
Où :
? P = la probabilité que l'événement
survienne ;
? 1-P = la probabilité que l'événement ne
survienne pas ;
? Xi (allant de i à k) est la valeur de chacune des k
variables explicatives ;
? 30 est une constante représentant l'ordonnée
à l'origine ;
? 3i (allant de i à k) est le coefficient de
régression qui mesure l'effet net de la variable i sur la côte
de l'événement considéré après
ajustement sur toutes les autres.
Les coefficients 3i sont estimés par la méthode
de maximum de vraisemblance. L'exponentiel de ces coefficients 3i dans une
régression logistique est appelé rapports de cotes (odds ratios,
OR en sigle) en anglais (Masuy-Stroobant et Costa, 2013 ; Rizzi, sd : 15).
L'examen de différents rapports de cotes permettra
d'identifier à la fin de l'analyse les catégories les plus
exposées au risque ou les déterminants. Ce rapport
s'interprète en termes d'écart par rapport à une
modalité de référence. Un OR inférieur à l
signifie que la probabilité de l'événement
étudié dans la catégorie i est inférieure à
celle de la catégorie de référence. Un OR supérieur
à 1 signifie que cette probabilité est supérieure par
rapport à la catégorie de
75
référence. Un OR égal à 1 traduit
l'absence d'effet de la catégorie considérée sur la
variable expliquée au seuil de signification spécifique par
rapport à la catégorie de référence.
La significativité statistique des différents
coefficients sera mesurée à l'aide de la valeur de p. La valeur
de p est une valeur critique utilisée pour quantifier la
significativité statistique d'un résultat dans le cadre d'une
hypothèse nulle - hypothèse postulant l'égalité
entre des paramètres statistiques-. Ainsi, à cette valeur de p
est associé un seuil de significativité au-dessus duquel le
résultat observé serait réellement improbable. Le seuil de
significativité utilisé est celui des sciences sociales ;
inférieur ou égal à 5% (Berkson, 2003).
Dans la présentation des résultats, ce
modèle explicatif est précédé de l'analyse
descriptive par distribution de fréquences et du test de
chi2. La description par distribution de fréquences permet
d'identifier le profil et de caractériser les migrants africains vivant
en Belgique. Le test de chi2 permet de déceler lesquelles des
variables explicatives ont une relation statistiquement significative avec
l'intention d'émigration secondaire.
Le chapitre 5 ci-dessous présente les principaux
résultats obtenus par les analyses descriptives et les différents
modèles de régression logistique.
76
|