WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Les déterminants de la pauvreté monétaire. Cas du Sénégal.


par Zeynil El Abdine NDONGO
Universite Cheickh Anta Diop de Dakar (UCAD) - Master 2 Economie et finance quantitatives 2018
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE III : MÉTHODOLOGIE ET SOURCE DE DONNÉES

Dans cette partie nous allons présenter la méthode retenue pour déceler les déterminants de la pauvreté monétaire au Sénégal. Par ailleurs nous présenterons les données utilisées et dans le cadre de l'étude, et justifierons la pertinence des variables exogènes considérées.

I. MÉTHODOLOGIE

Notre démarche consiste à faire d'abord le profil de pauvreté en calculant l'incidence, la profondeur et la sévérité de la pauvreté à travers l'indice de FGT, et ensuite faire une régression logistique pour déterminer les facteurs explicatifs de la pauvreté monétaire. Et pour cela, nous allons utiliser la base de données de l'enquête de 2011 (ESPS II).

Le profil de pauvreté nous permet d'identifier les pauvres, de les localiser, etc. Pour classer les individus comme étant pauvres ou non pauvres, on utilise souvent le revenu par tête ou les dépenses de consommation. Le revenu que possède un individu est facile à mesurer si le nombre de sources de revenus est limité. Mais, dans le cas contraire, l'individu peut ne pas se souvenir de certaines sources lors de l'enquête. Et dans ce cas, l'inconvénient d'approximer le bien être par le revenu pour classer les pauvres et les non pauvres est qu'il est susceptible d'être sous-estimé. Et pour éviter cela, nous allons utiliser les dépenses par équivalent adulte. Elles sont moins sous-estimées que le revenu car, il est plus facile de se souvenir de ces dépenses. Le choix des échelles d'équivalences permet de résoudre les problèmes liés à la comparaison des ménages de compositions différentes. Et pour comparer le niveau de vie de ces derniers, on fait recours habituellement à une échelle d'équivalence de façon à obtenir une dépense par équivalent adulte. Elle permet d'appréhender les économies d'échelles que réalise un ménage de plusieurs personnes principalement grâce au partage des biens à usage collectif. L'échelle d'équivalence souvent utilisée est celle d'OXFORD, qui attribue un poids de 1 à l'adulte, de 0,7 à l'adulte supplémentaire et 0,5 à chaque enfant. Une fois les dépenses par équivalent adulte identifiées, nous allons, à partir d'un seuil (qui va servir de frontière entre les riches et les pauvres), classer les ménages. Ce seuil est généralement calculé par l'agence nationale de la statistique et de la démographie (ANSD). Donc, est pauvre tout individu ou ménage ayant une dépense inferieure à ce seuil, et non pauvre, tout individu ou ménage ayant une dépense supérieure à ce seuil. Une fois l'identification des pauvres et des non pauvres faite, nous allons calculer l'incidence, la profondeur et la sévérité pour chaque variable socioéconomique intégrée dans le modèle.

Après le profil de pauvreté, nous allons faire une régression logistique pour détecter les déterminants de la pauvreté monétaire, en mettant en relation une variable binaire (pauvre ou non pauvre) avec plusieurs variables endogènes (taille du ménage, niveau d'éducation du chef de ménage, occupation du chef de ménage, situation matrimoniale du chef de ménage, groupe d'âge du

31

chef de ménage, sexe du chef de ménage, milieu de résidence et région de résidence), susceptibles d'expliquer la pauvreté monétaire dans nos pays afin de pouvoir faire un meilleur ciblage des politiques économiques, en vue d'éliminer la pauvreté au Sénégal.

I.1. Présentation théorique du modèle

Pour déterminer les déterminants de la pauvreté monétaire, nous recourrons à une des méthodes d'économétrie. En général, le but de la plupart des recherches est de déterminer des relations entre un ensemble de variables. On a opté pour la régression logistique parce qu'elle combine les avantages de la régression et de l'échelle logistique. Ici, l'intérêt de l'utilisation de la modélisation logistique réside dans l'existence simultanée de variables quantitatives et qualitatives dans l'enquête socio-économique qui va nous servir de base de données. Souvent, on considère une variable dépendante que l'on veut expliquer en fonction d'autres variables appelées variables explicatives. Cette méthode s'appelle l'analyse en régression. L'un des objectifs de cette analyse est d'étudier les associations et de faire des prévisions. Lorsque la variable dépendante est qualitative, le modèle de régression linéaire n'est pas approprié. En effet, l'écriture d'un modèle linéaire conduirait à une équation dont les deux membres ne seraient pas de même nature, et donc à des estimateurs biaisés. Le premier membre serait constitué de codes associés à des modalités de la variable qualitative, et aurait, de ce fait, pour ensemble de définition un ensemble dénombrable. Le second membre, combinaison linéaire de variables quantitatives et/ou qualitatives, pourrait prendre n'importe quelle valeur. Le principe dans ce cas consiste à modéliser la probabilité de survenance des différentes modalités et cela se fait généralement en utilisant une fonction de répartition. Dans notre cas, nous disposons d'une variable ?? (l'indicateur de la pauvreté monétaire) à prédire. Elle ne prend que deux valeurs 1 (Pauvre) et 0 (Non pauvre). Pour un individu i de l'échantillon de taille n, ?? prend la valeur ??(i). La base de données comporte j variables explicatives X1, X2, X3, ...., X??, et pour un individu i, X(i) prend les valeurs X1(i), X2(i), X3(i), .... , X?? (i). Supposons que le risque de transmission est guidé par une variable X(i) non observée. Cette variable latente, qui par hypothèse s'adapte à une mesure quantitative décrit alors le risque de finir pauvre. Ainsi, le ménage i devient pauvre dès lors que X(i) est supérieure à un certain seuil??0. Un exemple concret nous pousse ainsi à dire que Y est une variable supposée mesurer le risque de pauvreté.

L'hypothèse émise sur la variable latente nous permet d'écrire d'une part :

Et d'autre part :

X(i) = {0, si X(i) = ??0

1, sin??n

X(i) = ??0 +

Ci

????X??(i)) + ????

k=1

De ce fait, la probabilité Pi qu'un ménage soit pauvre (Y=1) sera :

l

Pi= P(Y(i) = 1) = P(X(i) > Y0) = P(a0 + / akXk(i) + Ei > Y0)

k=1

k=1 k=1 k=1

l l l

P Ei > Y0 - a0 - / akXk(i) )]= P Ei < a0 + / akXk(i) - Y0] = t[a0 + / akXk(i) - Y0I

q$(. ) est la fonction de répartition de la loi de Ei.

Ne connaissant pas la distribution de E1, on est amené à faire des hypothèses sur la fonction de répartition q$(. ). On parlera ainsi de modèle logit, de modèle Probit ou de modèle gambit selon que la fonction de répartition utilisée soit respectivement celle de la loi logistique, de la loi normale ou de la loi de Gumbel. Le modèle logit est le plus utilisé dans le domaine de la pauvreté car il fait intervenir des Odds Ratio. Et lorsque la variable dépendante ne contient que deux modalités, on parle du modèle logistique binaire. L'objectif du modèle est de construire une fonction qui permettra de prédire et expliquer les valeurs de la variable Y à partir de l'ensemble de descripteurs. Pour ce faire, la régression logistique binaire postule l'hypothèse suivante :

? jPi=q$ ao +I EakXk(i))--yo )J

Si q$(.) est la fonction de répartition de la loi logistique, alors

I\ k=1

En posant A=

?o ? #177;?kXk (i) ?? yo

k?1

Pi=q$(A)= eA ?1

1?eA 1?e?A

j

Nous pouvons observer qu'une fonction Logit s'écrit :

ln

?p

J=A=ao-yo +?akXk(i p~k=1

)

Le rapport

1

pi

? pi

est appelé rapport de chance (Odds ratio (en anglais)). La méthode utilisée pour

32

estimer les paramètres du modèle est celui du maximum de vraisemblance et la probabilité d'un individu est modélisée à l'aide de la loi binomiale.

33

?? (Y(??) = ??k/X (??)) = ??????(??) (1 - ????)1-??(??).

Ainsi, la vraisemblance du modèle s'écrit :

(/c9modèle -- sans var iables--exp licative

n

L (??, X) = ? ??????(??) (1 - ????)1-??(??) ??=1

La statistique de Wald permet de tester la significativité individuelle des variables, c'est-à-dire tester si chacune des variables influence significativement la variable dépendante. Les hypothèses dans ce cas sont les suivantes :

{

H0 : ??k= 0
H1 : ??k? 0

?k représente le coefficient associé à la variable explicative Xk.

Le calcul du R2 de Mc Fadden permet de mesurer la qualité d'ajustement du modèle. Il permet d'avoir une idée sur le pourcentage de variabilité de la variable endogène expliquée par la variabilité des variables explicatives. Il est basé sur les fonctions de log vraisemblances des modèles avec variables explicatives et sans variables explicatives. Mais, dans le cadre d'un logit tout comme d'un Probit, il est généralement faible.

R2 1 -- logL(/c9modèle--avec--var iable--explivative)

L

log

)

Il se peut que lors de l'estimation d'un modèle, le problème de l'ajout ou du retrait d'une ou de plusieurs variables se pose généralement. À cet effet, il a été développé au sein de la littérature une batterie de techniques visant à répondre à cette question. Au premier rang de celles-ci, se trouvent : Le test du Likelihood-ratio, qui a pour hypothèses :

- H0, les variables supplémentaires ne sont pas pertinentes ;

- H1, les variables supplémentaires sont pertinentes.

Ensuite, la technique de comparaison de la quantité d'information : Le meilleur modèle est celui qui minimise la quantité d'information.

Une fois le modèle est estimé, il faut déterminer la qualité de l'ajustement du modèle aux données ou, en anglais, le « Goodness of fit ». Pour fixer les idées, notons les valeurs observées de la variable dépendante observée par Y' = (Y1, Y2, ......, Yn) et les valeurs prédites par le modèle par Y^' = (Y^1, Y^2, . ....., Y^n), où n est la taille de l'échantillon. On considérera que le modèle est bon si :

- La distance entre la variable dépendante observée Y'et la valeur prédite Y^'par le modèle ^est petite. On vérifiera cela avec le test de Hosmer et Lemeshow.

34

- Le modèle prédit bien les valeurs Y = 0 et les valeurs Y = 1. La vérification de cette hypothèse se fera par le tableau de classification.

- Le modèle permet de bien discriminer entre les valeurs de Y = 0 et Y = 1 en fonction des variables explicatives X1, X2, X3,...., X??; autrement dit, on obtient de bonnes sensibilités, de bonnes spécificités et une bonne courbe ROC.

I.1.1.2. Évaluation de la calibration du modèle : le test de Hosmer et Lemeshow

Le test de Hosmer et Lemeshow est basé sur un regroupement des probabilités prédites par le modèle, par exemple par décile. On calcule, ensuite, pour chacun des groupes, le nombre observé de réponses positives Y = 1 et négatives Y = 0, que l'on compare au nombre espéré prédit par le modèle. On calcule alors une distance entre les fréquences observées et prédites au moyen d'une statistique du khi-deux. Lorsque cette distance est petite (p-valeur est supérieure au seuil de signification) on considère que le modèle est bien calibré.

I.1.1.3. Évaluation du pouvoir discriminant du modèle : sensibilité, spécificité et courbe ROC

On utilise le modèle Logistique pour modéliser la probabilité des attributs 0/1 de la variable dépendante Y en fonction des Co variables. A partir des probabilités estimées, on décidera en fixant un seuil, par exemple à 0.5, de classer l'individu dans la catégorie Y = 1 si sa probabilité est supérieure au seuil et dans la catégorie Y = 0 sinon. Il s'agit d'une règle de classement : Il est intéressant de déterminer la performance du classement et savoir comment celui-ci dépend du seuil (ou de la règle) choisi. Pour cela, nous allons considérer les notions de sensitivité et de spécificité. La sensitivité est définie comme la probabilité de classer l'individu dans la catégorie y = 1 (on dit que le test est positif) étant donné qu'il est effectivement observé dans celle-ci :

??e??siti??ité = P (test positif |?? = 1)

La spécificité, par contre, est définie comme la probabilité de classer l'individu dans la catégorie y=0 (on dit que le test est négatif) étant donné qu'il est effectivement observé dans celle-ci :

spécificité = P(test ??e????tif|?? = 1)

Lorsqu'on fait varier le seuil, la sensibilité et la spécificité changent, puisque la règle de classement est modifiée. Afin de représenter les valeurs pour toutes les possibilités de seuil, on dessine sur un graphe des courbes de sensibilités et spécificités.

Une courbe ROC est une courbe qui découle du graphique des courbes de sensibilités et spécificités. Pour un seuil donné, on relève la valeur de l'ordonnée pour chacune des deux courbes, et en les reportant dans le graphique, on obtient un point particulier de la courbe ROC. Il est clair qu'un modèle sans valeur prédictive donne une courbe ROC qui correspond à la droite à 45° et une aire

35

sous la courbe de 0.5 (moitié de la surface du carré 1x1). Par contre, un modèle parfait aura une courbe ROC avec une aire en dessous d'elle égale à 1. La surface de la courbe nous permet d'évaluer la précision du modèle pour discriminer les valeurs positives (Y = 1) des valeurs négatives (Y = 0).

On retiendra comme règle du pouce (source : méthodes économétrique cours et exercice résolus avec logiciel eviews et stata, tome 2 de Doucouré Fodiyé (Septembre 2016)) :

- Si aire ROC < 0.5, il n'y a pas de discrimination.

- Si aire 0.5 = ROC < 0.7, la discrimination est acceptable.

- Si aire 0.7 = ROC< 0.9, la discrimination est excellente.

Lorsque toutes les étapes sont validées, on a des raisons de croire que le modèle choisi est bon. Ainsi, on peut passer à l'interprétation des résultats.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Enrichissons-nous de nos différences mutuelles "   Paul Valery