Analyse de déterminants de la mortalité infanto juvénile au Cameroun( Télécharger le fichier original )par Valery Martial TANKOU KAMELA Institut Sous régional de Statistique et d'Economie Appliqué - Ingénieur Statisticien 2009 |
4.2 QUALITÉ D'AJUSTEMENT DU MODÈLE DE RÉGRESSION LOGISTIQUEPouvoir prédictif du modèle Comme nous l'avons évoqué, le modèle de régression logistique modélise les probabilités des attributs d'une variable qualitative binaire. Les probabilités estimées permettent de classer les enfants en mort ou en survivant ceci en fonction du seuil qu'on se fixe. Lorsque la probabilité d'un individu de subir le phénomène (mort) est supérieure au seuil, on affecte cet individu dans le groupe des individus morts. Un problème est désormais posé, celui du choix du seuil. Notre échantillon n'étant pas « équilibré », il est peu raisonnable de fixer un seuil de 0,5 car dans l'échantillon il y a moins des décès que des survivants. Afin de corriger cette distribution, nous prenons comme seuil la proportion des décès dans l'échantillon qui est de 14 %. En effet, comme le montre les tableaux 7 et 8 en annexe B, page 80 le taux de prédiction globale pour un seuil fixé à 0,5 est de 85,8 %. Celui obtenu par contre en fixant le seuil de 0,14 est de 65,7 %. Nous préférons ce dernier seuil au premier En effet, selon le premier pronostic, seulement 2,9 % d'enfants sont réellement décédés, alors qu'avec le second 69 % d'enfants sont réellement décédés. Il s'agit là d'une règle de classement. Il convient alors de déterminer la performance du classement. Mais avant cela, nous allons d'abord définir les notions de sensibilité et de spécificité. Pouvoir discriminant du modèle, Sensibilité, Spécificité et Courbe ROC La sensibilité est définie comme la probabilité de classer l'individu dans la catégorie y = 1 (on dit que le test est positif) étant donné qu'il est effectivement observé dans celle-ci. La spécificité est définie comme la probabilité de classer l'individu dans la catégorie y = 0 (on dit que le test est négatif) étant donné qu'il est effectivement observé dans celle-ci. Ainsi, la sensibilité et la spécificité dépendent du seuil qu'on s'est fixé. Pour le seuil précédemment retenu, celui de 0,144 on obtient donc une sensibilité de 65,2 %40(*) et une spécificité de 69 %. Comme indicateur de la capacité du modèle à discriminer on utilisera plutôt la courbe ROC41(*) qui tient compte des différentes valeurs possibles du seuil. Du graphique ci-dessous, la surface sous la courbe est de 72,71 % ce qui nous permet de dire que la discrimination est acceptable42(*). Figure : Représentation de la sensibilité en fonction de la spécificité (courbe ROC) Source : EDS III, 2004 Calibration du modèle : ajustement global du modèle aux données Le principe du test de Hosmer et Lemeshow consiste à comparer les valeurs prédites et observées des modalités de la variable d'intérêt, après regroupement des individus en classe. On utilise ensuite la distance de khi deux pour évaluer l'écart entre les fréquences observées et prédites. Lorsque cette distance est relativement petite, on considère que le modèle est bien calibré. Le test repose sur les hypothèses suivantes : H0 : le modèle est bien calibré H1 : le modèle n'est bien calibré Dans le cas présent, l'échantillon a été divisé en 10 groupes. La lecture du tableau 10 en annexe B relatif aux résultats du test d'Hosmer et Lemeshow montre que l'ajustement global du modèle aux données est satisfaisant. Car la valeur de p-value est supérieure au seuil 5%. Tableau 3 : Rapports des chances des estimations logit des déterminants de la mortalité
* 40 _ Le modèle prédit 65 % d'enfants réellement décédés au seuil de 14,4 % * 41 _ Receiving Operating Curve. * 42 _ Si aire ROC = 0.5 il n'y a pas de discrimination Si aire 0,7 < ROC < 0,8 la discrimination est acceptable Si aire 0,8 < ROC < 0,9 la discrimination est excellente Si aire ROC > 0,9 la discrimination est exceptionnelle |
|