WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Analyse de la vulnérabilité de la santé de la femme: cas du cameroun

( Télécharger le fichier original )
par Monde MAMBIMONGO WANGOU
Institut Sous-régional de Statistique et d'Economie Appliquée (ISSEA) - Ingénieur Statisticien 2009
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE 4 : MODELISATION DE LA SITUATION SANITAIRE DE LA FEMME AU CAMEROUN

Comme il l'a été souligné au niveau de la méthodologie générale de l'étude (chapitre 3, section 3.2), la variable d'intérêt est l'état de santé des femmes durant les 12 mois ayant précédé la MICS 2006. Pour cela, nous comptons proposer un modèle de régression logistique capable de déterminer les groupes de femmes les plus vulnérables en terme de santé (femmes malades pendant au moins 3 mois pendant les 12 derniers mois avant la MICS).

Ce chapitre va se diviser en deux sections. La première section traite exclusivement de la modélisation, alors la seconde parle des limites de l'étude et des propositions de politiques de santé publique sous-jacentes aux résultats de l'étude.

4.1 MODELISATION LOGISTIQUE DE LA SANTE DE LA FEMME AU CAMEROUN

Il existe deux types d'analyses au niveau de la modélisation logistique : l'analyse pronostic et l'analyse étiologique. La première cherche à construire un modèle dont la finalité est de prédire le mieux possible les modalités de la variable d'intérêt alors que la seconde analyse s'intéresse plus particulièrement à évaluer le risque associé à un facteur. Nous avons retenu l'analyse étiologique.

Nous disposons des données sur l'état de santé de la femme au Cameroun. Ces données sont issues de l'enquête MICS 2006 du Cameroun. Nous comptons les utiliser pour déterminer les facteurs de risque liés à la mauvaise santé (être malade pendant au moins 3 mois au cours des 12 derniers mois). L'échantillon concerne 7855 femmes âgées de 18 à 49 ans dont 379 ont été de mauvaise santé. Les facteurs de risques potentiels évalués (sur base de la littérature et de la description) sont l'âge de la femme (en année), l'état matrimonial de la femme (célibataire, mariée monogame, mariée polygame, veuve, séparée ou divorcée, union libre), le niveau d'instruction (sans niveau, primaire, secondaire et plus), nombre d'associations (aucune association, une association, deux associations, plus de deux associations), le quintile de pauvreté du ménage (le plus pauvre, second, moyen, le quatrième, le plus riche), l'occupation principale de la femme (sans occupation, agriculture, écoles/études, commerce, service et administration, ménages/travaux domestiques, autres) et la province (Douala, Yaoundé et les 10 autres provinces) et la taille du ménage.

La variable dépendante (à expliquer) est nominale. Elle prend la valeur 1 si l'individu a été malade pendant au moins 3 mois au cours des 12 derniers mois et 0 si non. Les variables explicatives, excepté l'âge et la taille du ménage sont également qualitatives (nominales et ordinales). Le modèle approprié pour traduire les facteurs de risques associés à la variable dépendante est le modèle de régression logistique.

4.1.1 Présentation théorique du modèle logit

La régression linéaire n'est plus appropriée lorsque la variable dépendante est qualitative ou catégorielle. Ainsi, lorsque la variable qualitative a deux modalités, on parle de variable dichotomique et lorsque ces modalités sont supérieures à deux, on parle de variable polytomique. La formulation mathématique du modèle logit telle que présentée dans les encadrés qui suivent est inspirée de Bourbonnais (2005) et de Taffé (2004).

Encadré 1 : Aperçu sur le modèle logit

Définition : On dispose d'une variable d'intérêt Y pour un individu i qui s'écrit :

Xi= (Xi1, ... Xip) un ensemble de variables explicatives pour Yi. On désire expliquer E(Yi) par Rk avec k = p+1, sont des paramètres inconnus qu'on désire estimer.

Soit un modèle dichotomique : où F(.) désigne une fonction de répartition. Ainsi, on appelle modèle logistique, le modèle dichotomique qui admet pour fonction de répartition la fonction de distribution de la loi logistique définie comme suit :  ;

Le modèle logit définit donc la probabilité associée à l'événement Y=1 comme la valeur de la fonction de répartition de la loi logistique au point c'est-à-dire : == pi .

A partir de cette expression, on peut faciliter l'interprétation des paramètres estimés par la construction de la quantité suivante :

Logit = =

On peut aussi écrire le modèle de régression logistique sous la forme d'un modèle de régression linéaire :

Y=F() +

Cependant, le modèle est non linéaire et le résidu ne peut pas être distribué selon une loi normale. En effet, si l'on admet le codage 0/1 (qui n'est pas unique), le résidu ne pourra prendre que deux valeur, à savoir : =1-F() si Y=1 ou =-F() si Y=0. Delà, la variance n'est plus (cas de régression linéaire) mais plutôt V()=F()[1-F()]. Cette variance dépend de la variable X et par conséquent, elle n'est pas constante mais heteroscédastique.

Estimation du modèle : l'estimation au niveau de la modélisation logistique se fait à partir de la méthode du maximum de vraisemblance. Ainsi, on décrit la vraisemblance de l'échantillon. Cette vraisemblance s'écrit comme suit :

L ()=

On maximise cette vraisemblance par rapport aux paramètres au moyen d'un algorithme numérique.

Les informations relatives aux tests de significativité et aux interprétations des coefficients et odd ratio sont consignés dans l'encadre 2, placé en annexe D.

4.1.2 Spécification du modèle

Les variables retenues pour traduire les facteurs de risques associés à la mauvaise santé sont de deux natures. Elles reflètent la situation sociodémographique (l'âge, l'état matrimonial, le niveau d'instruction, la province, le nombre d'associations) de l'individu et la situation du ménage (quintile de richesse et le nombre de membres).

Pour faciliter l'interprétation de la constante du modèle, les variables continues (l'âge de la femme et le nombre de membres du ménage) sont centrées. Par contre, l'interprétation des coefficients et Odd ratio nécessite la définition des catégories de référence. Le tableau suivant expose les différentes variables explicatives et les modalités de référence associées.

Tableau 16: variables et catégories de référence

Libellé de la variable

Nombre de modalités

Catégorie de référence

Etat matrimonial

6

Mariée monogame

Occupation principale

7

Agriculture

Niveau d'instruction

3

Aucun niveau

Nombre d'association

4

Aucune association

Province

12

Douala

Indice de richesse des ménages

5

Le plus pauvre

La réussite d'une modélisation par régression logistique nécessite le respect de certaines étapes. La procédure à respecter est décrite dans l'encadré suivant.

Encadre 3 : Etapes nécessaires pour réaliser une régression logistique

4.1.3 Estimation du modèle

Le modèle est estimé par la méthode de maximum de vraisemblance à partir du logiciel STATA 9. Après 4 itérations, on obtient les résultats suivants : 

Tableau 17 : Résultats de l'estimation du modèle

Etat de santé

Coef

Std. Err.

Effet marginal

Odds Ratio

P>z

Intervalle de confiance 95%

inf.

Sup

Age centré

0,045

0,007

0,0017

1,046

0,000

0,030

0,059

Taille centrée du ménage

-0,022

0,016

-0,0008

0,978

0,165

-0,053

0,009

Etat matrimonial (base=mariée monogame)

Célibataire

0,033

0,174

0,0131

1,034

0,848

-0,308

0,375

Mariée polygame

-0,015

0,177

-0,0005

0,986

0,935

-0,362

0,333

Divorcée/séparée

0,642

0,206

0,0329

1,900

0,002

0,239

1,045

Veuve

0,643

0,203

0,0331

1,903

0,002

0,245

1,042

Union libre

0,081

0,226

0,0032

1,084

0,720

-0,361

0,523

Province (base=Douala)

Yaoundé

1,105

0,253

0,0665

3,019

0,000

0,610

1,600

Adamaoua

-0,151

0,343

-0,0055

0,860

0,659

-0,824

0,521

Centre

0,232

0,309

0,0099

1,261

0,452

-0,373

0,837

Est

0,412

0,300

0,0188

1,509

0,170

-0,177

1,000

Extrême Nord

-0,152

0,383

-0,0056

0,859

0,691

-0,903

0,598

Littoral

0,416

0,292

0,0191

1,516

0,154

-0,156

0,989

Nord

-0,061

0,376

-0,0023

0,940

0,870

-0,798

0,675

Nord Ouest

0,274

0,323

0,0119

1,315

0,396

-0,359

0,907

Ouest

0,470

0,296

0,0220

1,599

0,112

-0,110

1,049

Sud

0,715

0,294

0,0374

2,045

0,015

0,140

1,291

Sud Ouest

0,767

0,279

0,0407

2,154

0,006

0,220

1,315

Occupation principale (base=agriculture)

Ecole/étude

0,485

0,287

0,0228

1,625

0,090

-0,077

1,047

Ménage/travaux domestiques

0,209

0,170

0,0083

1,232

0,220

-0,125

0,543

Sans occupation

0,574

0,292

0,0286

1,775

0,049

0,002

1,146

Commerce

0,109

0,195

0,0043

1,115

0,578

-0,274

0,491

Administration

0,011

0,241

0,0004

1,011

0,965

-0,462

0,483

Autres occupations

0,092

0,343

0,0037

1,096

0,789

-0,581

0,765

Nombre d'associations (base=aucune association)

Une association

-0,005

0,137

-0,0001

0,995

0,972

-0,273

0,264

Deux associations

0,032

0,168

0,0012

1,033

0,846

-0,296

0,361

Plus de deux associations

0,040

0,194

0,0015

1,041

0,837

-0,340

0,420

Niveau d'instruction (base=sans instruction)

Primaire

0,431

0,200

0,0176

1,539

0,031

0,039

0,823

Secondaire et plus

0,278

0,234

0,0112

1,321

0,235

-0,181

0,737

Indice de richesse des ménages (base=le plus pauvre)

Second

0,068

0,217

0,0027

1,070

0,754

-0,357

0,493

Moyen

-0,111

0,226

-0,0042

0,895

0,623

-0,555

0,332

Quatrième

-0,155

0,239

-0,0057

0,857

0,517

-0,623

0,314

Le plus riche

-0,312

0,268

-0,0113

0,732

0,243

-0,837

0,212

_cons

-3,881

0,363

 

0,021

0.000

-4,592

-3,169

Number of obs

7855

LR chi2(33)

147,7300

Prob > chi2

0,00001

Pseudo R2

0,0486

log likelihood

-1444,7308

 
 

Source : MICS 2006 et nos calculs

4.1.4 Diagnostic du modèle

Diagnostiquer un modèle logistique consiste à déterminer la qualité d'ajustement du modèle aux données (en anglais « Goodness of fit »). Pour fixer les idées, nous allons nous appuyer sur l'analyse des résidus comme celui de Pearson et la distance de Cook25(*). L'analyse de ces résidus permet de statuer sur l'existence ou non des observations très mal ajustées et ayant possiblement un effet important sur l'estimation des coefficients. L'évaluation de la capacité du modèle à discriminer les modalités de la variable d'intérêt va se faire à partir des courbes de sensibilité, de spécificité et la courbe ROC (Receiving Operating Curve). Mais avant de s'intéresser aux résidus, il est important d'évaluer la calibration26(*) du modèle. Pour cela, on va utiliser le test d'Hosmer et Lemeshow.

4.1.4.1 Evaluation de la calibration du modèle

Le principe du test de Hosmer et Lemeshow consiste à comparer les valeurs prédites et observées des modalités de la variable d'intérêt, après regroupement des individus en classes. On utilise ensuite la distance de Khi-deux pour calculer la distance entre les fréquences observées et prédites. Lorsque cette distance est relativement petite, on considère que le modèle est bien calibré.

Le test repose sur les hypothèses suivantes :

H0 : le modèle est bien calibré contre H1 : le modèle n'est pas bien calibré.

Dans le cas présent, l'échantillon a été divisé en 10 groupes. La lecture du tableau suivant relatif aux résultats du test d'Hosmer et Lemeshow montre que l'ajustement global du modèle aux données est satisfaisant. Car, la valeur de la probabilité critique (Prob > chi2) est supérieure au seuil de signification de 5%.

Tableau 18 : Résultats du test de Hosmer et Lemeshow

Groupe

Prob

Obs_1

Exp_1

Obs_0

Exp_0

Total

1

0,0187

10

12,5

776

773,8

786

2

0,0239

18

16,7

767

768,3

785

3

0,0288

19

20,7

767

765,3

786

4

0,0335

27

24,4

758

760,6

785

5

0,0392

34

28,6

752

757,4

786

6

0,0461

28

33,4

757

751,6

785

7

0,0552

42

39,7

744

746,3

786

8

0,0667

48

47,5

737

737,5

785

9

0,0888

57

60,1

729

725,9

786

10

0,2811

96

95,7

689

689,3

785

Hosmer Lemeshow Chi2 (8)

3,24

Prob > chi2

0,9187

Source : MICS 2006 et nos calculs

Néanmoins, certains « covariate patterns27(*) » très mal ajustés peuvent nous échapper, malgré l'ajustement global du modèle. L'analyse des résidus permet de savoir si l'ajustement est « bon » pour tous les « covariate patterns ».

4.1.4.2 Analyse des résidus du modèle

L'examen des résidus a de multiples objectifs. Il permet entre autres de déterminer s'il y'a des observations mal expliquées (résidus extrêmes) et si certaines observations (outlier28(*) ou effet

de levier) influencent catastrophiquement les résultats des estimations (changement de signe ou de valeurs des coefficients) et biaisent ainsi les analyses29(*).

Une observation est mal expliquée lorsque la valeur du résidu de Pearson associé est supérieure à 2. Elles deviennent suspectes lorsque leur nombre dépasse 5% de l'ensemble des observations. Dans notre cas, sur les 7855 observations, 370 ont présenté des résidus extrêmes (voir graphique 8, page 79). Il s'agit essentiellement des personnes qui ont été malades au cours des 12 derniers mois ayant précédé l'enquête MICS. Le graphique suivant illustre bien la dispersion des observations. Une observation peut influencer l'estimation des coefficients du modèle lorsque la distance de Cook associée à l'observation est supérieure à 4 divisé par le nombre d'observation (). Dans notre cas, les observations dont la distance de Cook est supérieure à 0,0005 sont suspectes. Après examen de cette distance, on constate que 1495 observations peuvent influencer significativement les estimations du modèle. Ces observations n'ont pas de comportement particulier hormis le fait que la totalité des femmes malades font partie de ce groupe. Cependant, la lecture du graphique suivant apporte l'information selon laquelle aucune observation n'influence significativement l'estimation des observations car toutes les valeurs du « pregibon dbeta » sont inférieures à l'unité.

Graphique 4: Représentation de la distance de Cook en fonction de la probabilité critique

Source : MICS 2006 et nos calculs

* 25 Distance qui mesure l'influence de la i e observation sur le modèle.

* 26 Le modèle est bien calibré si les fréquences prédites sont proches de celles observées.

* 27 Un covariate pattern est constitué de tous les individus qui présentent simultanément les mêmes caractéristiques (âge, taille du ménage, état matrimonial et autres).

* 28 Un outlier est une observation qui ne suit pas le mouvement général des autres observations.

* 29On cherche généralement à ajuster le modèle sur le centre de gravité du nuage des points et il est indésirable que quelques valeurs extrêmes modifient sensiblement les estimations.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Il y a des temps ou l'on doit dispenser son mépris qu'avec économie à cause du grand nombre de nécessiteux"   Chateaubriand