RESUME ANALYTIQUE
Notre étude avait pour but de proposer à
l'UMECUDEFS, qui est une Institution de Microfinance sénégalaise,
un modèle de scoring-crédit afin d'améliorer la
qualité de son portefeuille client, et plus généralement
sa gestion opérationnelle. Pour ce faire nous nous sommes basés
sur l'hypothèse centrale selon laquelle en dehors même des
indicateurs et ratios purement comptables et financiers, d'autres variables
d'ordres démographique, socioculturel, ou liées aux conditions
d'octroi du crédit lui-même, peuvent expliquer le risque de
contrepartie des PME sénégalaises opérant dans l'informel.
Ce d'autant plus que pour cette frange de clients qui représente 80% du
tissu industriel au Sénégal, les données comptables et
financières rendant compte de leur volume d'activité demeurent
rarement fiables, sinon inexistantes.
Partant de cela, notre stratégie de recherche s'est
basée sur la mise en compétition de deux méthodes de
discrimination prédictive, très robustes, l'une appartenant
à la famille de la modélisation statistique (régression
logistqiue) et l'autre à la famille de l'intelligence artificielle
(réseaux de neurones). L'idée étant, en dehors de
l'intérêt pratique de cette étude pour les dirigeants de
l'UMECUDEF, de participer au débat actuel chez les chercheurs qui tente
de trancher entre deux paradigmes: le constructivisme qui
présuppose l'existence d'un modèle par lequel la solution est
estimée, et le connexionnisme qui privilégie les
résultats par apprentissage. A l'issue de notre démarche
comparative, il s'agissait de sélectionner le modèle ayant les
meilleures performances prédictives, afin de constituer l'hyperplan ou
l'équation de la grille de score.
Les résultats de notre data mining se sont
appuyés sur une base de données reconstituée par les
agents de crédit de l'UMECUDEFS. Cette base portait sur 212 PME ayant
sollicité et obtenu un crédit en 2005, 2006 et 2007. Une analyse
factorielle (analyse en composantes principales sur données
recodées) nous ayant permis de réduire la dimension des
données de départ, nous avons poursuivi l'étude par une
estimation de la probabilité de non remboursement des PME via la
méthode du maximum de vraisemblance (maximum likelihood).
L'équation de régression qui en a résulté nous a
permis de retenir 7 variables comme étant réellement
significatives dans la probabilité de non remboursement. En
l'occurrence, ces variables sont l'age du dirigeant de la PME, son niveau de
revenus, la durée d'existence de l'entreprise, la valeur de la garantie
proposée, le montant du crédit octroyé, la
sélection adverse des micropreteurs et le non respect des
échéances qui met le doigt sur le suivi des dossiers.
Après les tests statistiques nécessaires et les simulations de
validation, nous avons enregistré un taux de prédiction de plus
de 93% pour le modèle logistique.
A contrario, le modèle de prédiction neuronale,
basé sur un réseau de type perceptron multicouches et sur un
fonctionnement par rétroprogation du gradient de l'erreur, nous a fourni
un taux de prédiction de 91%. Pourtant la structure du réseau a
du être réajusté après un premier essai peu
concluant, par soustraction d'un des neurones de la deuxième couche
cachée. Les résultats prédictifs issus de la
méthode par apprentissage sont restés malgré tout moins
robustes (échantillon trop faible ?), que ceux issus de la
méthode par estimation. Nous avons donc conclu à la
supériorité du modèle logistique, que nous avons in
fine gardé comme celui devant faire fonctionner notre grille de
score.
Enfin, notre étude s'est achevée en recommandant
le lancement du scoring-crédit à l'UMECUDEFS pour un premier test
de 3 mois, et sous interface EXCEL dans l'immédiat, en attendant une
implémentation informatique plus poussée. Ce lancement
expérimental serait accompagné par un suivi ponctuel et continue
des performances du score par tableau de bord.
|