Scoring crédit: une application comparative de la régression logistique et des réseaux de neurones( Télécharger le fichier original )par Fred NTOUTOUME OBIANG-NDONG Université Cheikh Anta Diop (UCAD) - Master Methodes Statistiques et Econometriques 2006 |
2.4. Le protocole d'expérimentation par la régression logistique28(*)2.4.1) Génération des modalités discriminantesLa modélisation mathématique requière le choix d'une variable dépendante dont on aimerait connaître les déterminants ou variables explicatives qui l'influencent. Pour notre cas, les modalités « mauvais payeurs » et « bons payeurs » sont générées à partir de la variable dépendante rem3mois (l'entreprise a-t-elle remboursé son crédit 3 mois au plus après la dernière échéance prévue ?). Pour la réponse « non » à cette variable, l'individu est classé « mauvais payeur ». Pour la réponse « oui », l'individu est classé « bon payeur ». 2.4.2) Estimation du modèle par le maximum de vraisemblanceOn a considéré que l'ajustement est satisfaisant si : 1. La distance entre la variable de sortie observé y et l'outcome prédit par le modèle y est petite (test de Hosmer-Lemeshow). 2. Le modèle est bien « calibré », i.e. les fréquences prédites sont proches de celles observées (test de Hosmer-Lemeshow).. 3. Le modèle permet de bien discriminer entre les valeurs de y = 0 et y = 1 en fonction des variables explicatives (matrice de confusions). La démarche que nous avons adopté a consisté à évaluer, d'abord, globalement l'adéquation du modèle au moyen des différents tests de « Goodness of fit », puis lorsqu'on a été satisfait de la qualité de l'ajustement global, à déterminer s'il n'y a pas localement des observations très mal ajustées et ayant possiblement un effet important sur l'estimation des coefficients. Le but des ces évaluations globale et locale est de s'assurer que l'ajustement du modèle soit satisfaisant pour toutes les valeurs observées dans l'échantillon des variables explicatives. Finalement, l'évaluation du pouvoir discriminant du modèle nous a permis d'appréhender si nous avons choisi les « bonnes » variables explicatives ou s'il manque d'importants régresseurs pour arriver à prédire avec suffisamment de précision la variable de sortie.
2.4.3) Test de sigificativité globale (Evaluation de la calibration du modèle : le test de Hosmer et Lemeshow)Le test de Hosmer et Lemeshow a été basé sur un regroupement des probabilités prédites par le modèle. On a calculé ensuite, pour chacun des groupes le nombre observé de réponses positives y = 1 et négatives y = 0, que l'on a comparé au nombre espéré prédit par le modèle. On a alors calculé une distance entre les fréquences observées et prédites au moyen d'une statistique du Khi 2. Lorsque cette distance est petite on considère que le modèle est bien calibré * 28 TAFFE, Patrick, « cours de Régression logistique Appliquée », Institut Universitaire de Médecine Sociale et Préventive (IUMSP), Lausanne, Août 2004 |
|