3.4. Le réajustement de la structure du
réseau de neurones et les résultats
Le réajustement de la deuxième couche consiste
à lui retrancher un neurone, sur les deux de départ. Toutes
choses étant donc égales par ailleurs, nous relançons le
réseau et obtenons ce qui suit :
Tableau 30: Résultats de la modélisation
neuronale
(avec 1 neurone dans la 2e couche cachée)
INFORMATION SUR LE RESEAU UTILISE
ROLE DES INDIVIDUS ACTIFS : APPRENTISSAGE
NOMBRE DE COUCHES CACHEES : 2 COUCHES
NOMBRE DE NEURONES PAR COUCHE CACHEE
COUCHE 2 : 18
COUCHE 3 : 1
COEFFICIENT D'APPRENTISSAGE : 0.10000
MATRICE DE CONFUSION AVEC MARGES
EN LIGNE : Ce client a til remboursé integralement son
credit au plus 3
EN COLONNE : CLASSES DE SORTIE
+----------------------+------+------+------+
| |CLA 1|CLA 2| ENS |
+----------------------+------|------|------|
| oui | 28 | 8 | 36 |
| non | 10 | 166 | 176 |
+----------------------+------+------+------+
| ENSEMBLE | 38 | 174 | 212 |
+----------------------+------+------+------+
POURCENTAGE DE BIEN CLASSES
+----------------------+---------+---------+---------+---------+---------+
| | BIEN | MAL | | %BIEN |
|
| | CLASSES | CLASSES | TOTAL | CLASSES |
PURETE |
+----------------------+---------+---------+---------+---------+---------+
| oui | 28 | 8 | 36 | 77.78 |
73.68 |
| non | 166 | 10 | 176 | 94.32 |
95.40 |
+----------------------+---------+---------+---------+---------+---------+
| TOTAL | 194 | 18 | 212 | 91.51 |
91.51 |
+----------------------+---------+---------+---------+---------+---------+
Source : Recherche de Fred Ntoutoume, Crefdes, 2007
Suite de notre réajustement structurel du réseau
Perceptron Multicouches, nous observons que la performance globale des
classements a été améliorée de 3 points environ. En
effet, alors que le pourcentage des biens classés était de
l'ordre de 88,21% dans le premier cas, il se situe à présent au
niveau de 91,51%. Nous en déduisons que notre
réajustement a permis d'obtenir l'une des plus robustes performances de
classement possibles pour notre échantillon, et nous le gardons.
IV/ Comparaison des modèles logistique et neuronal
Après avoir procédé avec succès
à la modélisation par la régression logistique binaire
d'une part, et par les réseaux de neurones PMC d'autre part, nous nous
proposons de comparer les performances de classement prédictif des deux
modèles à des fin d'arbitrage.
4.1. Comparaison des matrices de confusion (pourcentage de
classement prédictif)
La règle de décision associée à un
score nous permet d'affecter chaque entreprise à un des groupes
« mauvais payeur », ou « bon payeur ».
Toutes les entreprises de notre base de données ont donc un groupe
auquel elles appartiennent réellement, et un groupe auquel elles sont
affectées. Le décompte des affectations correctes,
c'est-à-dire correspondant au groupe réel, nous a fournit les
pourcentages de bons classements, celui-ci dépendant du seuil de
décision. Les pourcentages de classement pour les deux méthodes,
sont comparés dans le tableau qui suit :
Tableau 31: Comparaison des pouvoirs discriminants
Classes à prédire
|
Modèles de classement prédictif
|
Régression Logistique binaire
|
RNA Perceptron Multicouches
|
« bons payeurs »
|
75,0
|
77,78
|
« mauvais payeurs »
|
97,2
|
94,32
|
Ensemble
|
93,4
|
91,51
|
Source : Recherche de Fred Ntoutoume, Crefdes, 2007
La comparaison des pourcentages des bons classements
prédictifs nous révèle que la modélisation du
risque de contrepartie issue de notre échantillon d'apprentissage est
plus fiable lorsque l'on se base sur une régression logistique,
plutôt que sur une régression neuronale. En effet, l'ensemble des
prédictions est correct à 93,4% dans le cas de la première
méthode, alors qu'il n'est fiable qu'à 91,51% dans le
deuxième cas. Ce constat nous suggère d'opter, dans le cadre du
choix de notre scoring final, pour l'équation de régression
définie par la procédure Logit.
La qualité de prédiction des mauvais payeurs,
qui sont correctement classés dans 97,2% des cas en régression
logistique conte 94,32% en régression neuronale, vient en appui à
notre décision en raison de la sensibilité. La sensibilité
est définie pour mémoire comme la probabilité de classer
l'individu dans la catégorie y = 1 (on dit que le test est
positif) étant donné qu'il est effectivement observé dans
celle-ci. En effet, nous l'avons dit, il est bien plus grave d'octroyer un
prêt à une personne qui ne le remboursera pas (faux positif -
erreur de type 1) que de ne pas octroyer un prêt à une personne
fiable (faux négatif - erreur de type 2).
Nous rappelons que nous avons fixé notre seuil à
0,5, cela signifie que l'on considère comme mauvais payeur tout individu
dont la probabilité de non-remboursement dépasse 0,5.
|