CHAPITRE IV : RESULTATS ET DISCUSSIONS
Dans ce chapitre nous avons présenté les
différents résultats obtenus après utilisation du logiciel
stata11. Il comporte deux sections. La première section porte sur les
résultats de l'étude et la seconde sur la discussion.
IV.1-Résultats de l'étude
Dans cette section, il s'agit de la
présentation des résultats obtenus à travers la
modélisation du phénomène de déforestation et de
dégradation des forêts via le modèle logit
binaire.
IV.1.1-Présentation du modèle logistique
Le modèle logistique a permis de
déterminer les relations entre un ensemble de variables et la variable
dépendante qui n'est autre que le statut de déforestation et de
dégradation des forêts dans le département du
Pool.
Lorsque la variable dépendante est qualitative,
le modèle de régression linéaire n'est plus
approprié. En effet, l'écriture d'un modèle
linéaire conduirait à une équation dont les deux membres
ne sont pas de même nature. Le premier membre est constitué de
codes associés à des modalités de la variable qualitative
et a pour ensemble de définition un ensemble dénombrable. Par
contre le second membre, combinaison linéaire de variables quantitatives
et/ou qualitatives, peut prendre n'importe quelle valeur. Le principe dans ce
cas consiste à modéliser la probabilité de survenance des
différentes modalités et cela se fait généralement
en utilisant une fonction de répartition.
Dans notre cas, nous disposons d'une variable Y
(Statut de déforestation et de dégradation des forêts
dans le département du Pool) à expliquer. Elle ne prend que deux
valeurs 0 (pas de déforestation et de dégradation des
forêts) et 1 (déforestation et dégradation totale des
forêts). Pour un ménage i de l'échantillon de
taille n, Y prend la valeur Y(i). La base des données
comporte j variables explicatives x1, x2, x3,...xj et pour un
ménage i, X (i) prend les valeurs x1(i),
x2 (i), x3 (i),...xj (i).
Supposons que le risque de déforestation et de
dégradation des forêts est guidé par une variable X non
observée. Cette variable latente, qui par hypothèse s'adapte
à une mesure quantitative d'écrit alors le risque de non
déforestation et dégradation
70
des forêts contre les changements climatiques.
Ainsi, le ménage i ne participe pas à la
déforestation et à la dégradation des forêts
dès lors que x(i) est supérieur à un certain
seuil y0.
L'hypothèse émise sur la variable latente
nous permet d'obtenir d'une part :
Et d'autre part :
De ce fait, la probabilité P1 que le
ménage puisse déboiser (Y = 1) est:
Avec c1(.) la fonction de
répartition de la loi de ci.
Ne connaissant pas la distribution de
ci, on est amené à faire des
hypothèses sur la fonction de répartition ø(.).
On parlera ainsi de modèle logit, probit ou gombit selon que la fonction
de répartition utilisée soit respectivement celle de la loi de
logistique, de la loi normale ou de la loi de Gumbel. Le modèle logit
est le plus utilisé dans le domaine des sciences sociales car il fait
intervenir les Odds Ratios. Et lorsque la variable dépendante ne
contient que deux modalités, on parle du Modèle logistique
binaire.
71
L'objectif du modèle est de construire une
fonction qui permettra de prédire et d'expliquer les valeurs de la
variable Y à partir de l'ensemble de descripteurs. Pour cela la
régression binaire postule l'hypothèse suivante :
Si c1 (.) est la fonction de
répartition de la loi logistique, alors
En posant
pi devient :
Nous pouvons observer qu'une fonction Logit
s'écrit :
Le rapport est appelé rapport de chance (Odds
ratio (en anglais)).
La méthode utilisée pour estimer les
paramètres du modèle est celui du maximum de vraisemblance et la
probabilité d'individu est modélisée à l'aide de la
loi binomiale c'est-à-dire :
Ainsi, la vraisemblance du modèle s'écrit
:
La statistique de Wald permet de tester la
significativité individuel des variables, c'est-à-dire de tester
si chacune des variables influence significativement la variable
dépendante. Les hypothèses dans ce cas sont les suivantes
:
Ou 13k représente le
coefficient associé à la variable explicative Xk. Le
calcul R2 de MC Faden permet de mesurer la qualité d'ajustement
du modèle.
72
Une fois le modèle est estimé, il faut
déterminer la qualité d'ajustement du modèle aux
données en anglais "Goodness of fit". Pour fixer les idées,
notons les valeurs observées de la variable dépendante
observée par y' = (y1, y2, yn)
et les valeurs prédites par le modèle par 9'=
(91,
92....9n),
où n est la taille de l'échantillon.
Le modèle sera considéré bon si
:
- la distance entre la variable dépendante
observé y et la valeur prédite par le
modèle 9' est petite. Cela
sera vérifié par le test d' Hosmer et Lemeshow ; -
le modèle prédit bien les valeurs Y=0 et les valeurs Y=1,
la vérification de
cette hypothèse se fera dans le tableau de
classification ;
- le modèle permet de bien discriminer entre
les valeurs d'Y=0 et Y=1 en fonction des variables explicatives X1, X2,
X3,...Xj. Autrement dit, on obtient de
bonnes sensibilités, de bonnes
spécificités et une bonne courbe de ROC.
|