WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

la gestion des risques de crédit en microfinance par le crédit scoring

( Télécharger le fichier original )
par MERIAM BELGHITH
IHEC Carthage - mastère en finance 2008
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

SECTION ²² : ESTIMATION DU MODELE

Du fait que, d'une part, la variable à expliquer est discrète, et d'autre part l'hypothèse de normalité des variables n'est pas vérifiée, on ne peut pas, pour produire le modèle, mener une analyse discriminante qui suppose l'existence de relations linéaires entre les variables explicatives et la variable à expliquer, le recours à une analyse en terme probabiliste serait donc l'issue ; il s'agit de la régression logistique qui est une extension de la régression multiple.

A. REGRESSION LOGISTIQUE

La régression logistique est une technique statistique qui consiste à produire un modèle permettant de prédire les valeurs prises par une variable catégorielle, le plus souvent binaire, à partir d'une série de variables explicatives continues ou binaires.

1. principe de la régression logistique

Par rapport aux autres techniques de régression, en particulier la régression linéaire, la régression logistique se distingue essentiellement par le fait que la variable à expliquer est discrète (catégorielle).

nous supposons que Pi = P( Yi = 1) représente la probabilité que l'individu i réalise un retard de remboursement,

On définit une fonction score Y*= ß0 + ßnX+ åi

si Yi*=< 0 alors Yi =0

si Yi*> 0 alors Yi =1

Avec :

Y représente le vecteur dummy retard

ß0 représente le vecteur de la constante

X représente le vecteur des variables explicatives

ß représente le vecteur des coefficients à estimer

å représente le terme d'erreur qui suit une loi double exponentielle

ce qui se traduit par ; Pi = P(Yi = 1) = P (Yi* > 0) et P ( Yi = 0) = P (Yi*=< 0)

Pi est compris entre 0 et 1, d'où, elle peut être assimilé à une fonction de répartition F, elle s'écrit alors :

Pi = F (ß0 +ß X)

P ( Yi* =< 0) = P (ß0 + ßnXi + åi =< 0)

= P (åi =< - (ß0 + ßnXi))

= F(- (ß0 + ßnXi))

Etant donné qu'il s'agit d'une loi symétrique, F(x) + F (-x) = 1, alors

P(Yi = 1) = F (ß0 + ßnXi) = 1 - F(- (ß0 + ßnXi))

Puisque le terme d'erreur suit une loi double exponentielle,

f(åi) = exp (- exp (åi)) d'où P(Yi = 1) = F (ß0 + ß1Xi+...... +ßnXi)

Pi=

et P( Yi = 0) = 1- P(Yi = 1) =

logodds = log = ß0 + ß1Xi+...... +ßnXi

La méthode d'estimation par une régression logistique est une méthode d'estimation non linéaire qui est la méthode de maximum de vraisemblance ;elle suppose que la probabilité d'appartenance d'un individu à un groupe, que nous pouvons également voir comme une contribution à la vraisemblance, peut être décrit de la manière suivante :


La vraisemblance d'un échantillon s'écrit alors :

Dans notre cas de retard de remboursement , la formule de vraisemblance s'écrit donc comme suit :

L = Ï P( Yi =1) * Ï P (Yi =0)

Les paramètres ßn qui maximisent ce produit sont les estimateurs du maximum de vraisemblance de la régression logistique.

2. la régression logistique en pratique

Pour construire notre modèle et estimer les variables explicatives, nous avons recouru au logiciel SPSS, la régression logistique binaire réalisée par ce type de logiciel repose sur un principe d'itérations ; à la première étape (step 1) , il choisit la variable la plus significative, ensuite lors de la deuxième itération, il choisit la seconde variable la plus significative pour prévoir le retard, et ainsi de suite jusqu'à ce que les tests statistiques qu'il effectue ne soient plus significatifs pour les autres variables.

B. LES RESULTATS DE L'ESTIMATION

La facilité d'utilisation de la régression logistique repose sur le fait qu'elle ne se base pas sur des hypothèses restrictives, on peut passer directement à la régression sans effectuer des tests de colinéarité et d'homosédasticité.

1. Les variables du modèle

En fait, la détermination des variables significatives du modèle s'est faite en deux étapes et par le recours à deux modèles ; un modèle comportant 11 variables, mais dont la qualité d'ajustement s'est dégradé avec l'introduction de la 11ème variable, ce qui nous a permis de passer à la production d'un deuxième modèle qui tient compte de 10 variables à savoir :

v Le prêt individuel (dummy fardi)

v Le nombre de mensualités (number of payments)

v Le passage en montant (passage montant)

v La situation matrimoniale du client (dummy marié)

v L'expérience de l'agent du crédit (experience AC)

v L'âge du client (age)

v Le genre du client (dummy homme)

v Le montant du prêt (amount)

v Le nombre des prêts reçus (cycle)

v Le prêt solfa (dummy solfa)

v Le montant précédent (previous amount)

a) Les variables retenues par la première régression

Le logiciel s'est arrêté à la 11éme itération et n'a retenu que 11 variables sur les 26 variables introduites qui sont significatives et qui permettent de prédire la probabilité de réaliser un retard de remboursement ; les variables retenues et introduites dans l'équation du modèle à la 11éme étape en plus de la constante sont :

Variables dans l'équation

 

B

E.S.

Wald

ddl

Signif.

Exp(B)

Etape 11(k)

AMOUNT

1,25E+12

322,625

1,51E+19

1

,000

,000

NUMBEROF

,131

,011

131,752

1

,000

1,140

AGE

-,010

,002

21,831

1

,000

,990

CYCLE

,042

,011

13,411

1

,000

1,043

PREVAMOU

-1,25E+12

322,625

1,51E+19

1

,000

,000

PASSAGEM

-1,25E+12

322,625

1,51E+19

1

,000

,000

DUMMY_FA

,671

,046

212,722

1

,000

1,956

DUMMY_SO

,299

,130

5,280

1

,022

1,348

DUMMY_HO

,265

,052

26,260

1

,000

1,304

DUMMY_MA

-,233

,049

22,990

1

,000

,792

EXPERIEN

,005

,001

40,447

1

,000

1,005

Constante

-2,377

,110

464,541

1

,000

,093

k Variable(s) entrées à l'étape 11: PREVAMOU.

Les variables qui ne sont pas significatives et qui n'exercent pas d'impact sur le comportement de remboursement sont donc les variables que le logiciel nomme « variables hors de l'équation »

Variables hors de l'équation

Score

ddl

Signif.

Etape 11

Variables

NOOFDEPE

30,767

1

,000

 

DUMMY_GS

12,337

1

,000

 

DUMMY_FO

,854

1

,356

 

DUMMY_TA

,494

1

,482

 

DUMMY_EL

,009

1

,923

 

DUMMY_VE

1,756

1

,185

 

DUMMY_DI

,009

1

,925

DUMMY_LI

,338

1

,561

 

DUMMY_PR

24,087

1

,000

DUMMY_SE

5,101

1

,024

DUMMY_SU

3,015

1

,083

DUMMY_CO

13,302

1

,000

V28_A

2,049

1

,152

V29_A

1,888

1

,169

DUMMY_AC

2,410

1

,121

Statistiques globales

1173,406

15

,000

a Les khi-deux résiduels ne sont pas calculés du fait de la présence de redondances.

Le khi deux (khi square) du modèle obtenu augmente d'une étape à l'autre avec l'introduction de chaque variable significative suivante, jusqu'à ce qu'il atteint son maximum à la 10ème étape, pour une valeur de 637,621. La valeur du khi deux de la 11ème étape qui consiste en l'introduction de la variable « montant précédent » est égale à - 36, 195 et la valeur du khi square du modèle tombe à 601, 426.

Etape 11(a)

Etape

-36,195

1

,000

Bloc

601,426

11

,000

Modèle

601,426

11

,000

a Une valeur khi-deux négative indique que la valeur du khi-deux a diminué depuis l'étape précédente

De même, nous remarquons que l'indicateur « -2 log vraisemblance » diminue d'une étape à l'autre pour atteindre sa valeur minimum 14630,533 à la dixième étape, tandis qu'il augmente à la 11ème étape par l'introduction de la variable « previous amount » pour atteindre 1466,728, sachant que le modèle parfait est celui dont le « -2 log vraisemblance » se rapproche le plus de 0.

Le même phénomène se produit avec les indicateurs « R-deux de Cox&Snell » et « R-deux de Nagelkerke » qui augmentent au fur et à mesure que le logiciel procède à l'introduction de variable significative suivante pour les 10 premières étapes, et diminuent à l'introduction de la 11ème variable.

Ces différentes observations nous permettent de conclure que le modèle adéquat est plutôt celui qui tient compte des 10 premières variables. L'influence qu'exerce l'introduction de la variable « montant précédent » sur la diminution de la qualité du modèle provient en fait des fortes corrélations entre cette variable et les deux variables « passage en montant » et « montant du prêt », la matrice de corrélation indique une corrélation positive parfaite entre passage en montant et montant précédent =1, et une corrélation négative parfaite = -1 entre montant du prêt et montant précédent (voir annexe).

b) Le modèle prédit par la deuxième régression

La variable previous amount peut donc ne pas être introduite dans le modèle. A cet effet, on procède à une autre régression en ne tenant compte que des dix premières variables significatives pour estimer leurs coefficients respectifs.

L'estimation nous fournit les résultats suivants à la dixième étape :

Variables in the Equation

 

 

B

S.E.

Wald

df

Sig.

Exp(B)

Step 10j

Amount

-0,00058950

0,0001

32,058

1

,000

,999

NumberOfpayments

0,13209881

0,0118

125,750

1

,000

1,141

Age

-0,01007606

0,0021

22,352

1

,000

,990

Cycle

0,03672781

0,0117

9,801

1

,002

1,037

PassageMontant

-0,00027807

0,0001

7,412

1

,006

1,000

dummy_fardi

0,65894468

0,0468

198,097

1

,000

1,933

dummy_solfa

0,29147199

0,1323

4,853

1

,028

1,338

dummy_homme

0,27335096

0,0525

27,151

1

,000

1,314

dummy_marie

-0,22959808

0,0493

21,684

1

,000

,795

experience_AC

0,00530517

0,0008

39,519

1

,000

1,005

Constant

-2,35967705

0,1123

441,124

1

,000

,094

Notre fonction score s'écrit alors ;

Y* = -2,35967705 - 0,00058950* Amount + 0,13209881 * NumberOfpayments - 0,01007606 * Age + 0,03672781* Cycle - 0,00027807 * PassageMontant +0,65894468 * dummy_fardi + 0,29147199* dummy_solfa + 0,27335096*dummy_homme - 0,22959808 * dummy_marie +0,00530517* experience_AC

Et la probabilité de réaliser un retard s'écrit

Pi =

EXEMPLE : Pour un homme célibataire âgé de 26 ans, qui contracte son troisième prêt en mode individuel, d'une valeur de 1200 TND, remboursable sur 12 mensualités, ce crédit qui dépasse le montant précédent d'une valeur de 400 DT a été attribué par un agent de crédit d'expérience 15 mois, la fonction score vaut - 0,733 et la probabilité de réalisation du retard est de l'ordre de 0,324.

2. Significativité du modèle et pouvoir prédictif

Pour notre modèle à dix variables explicatives, le khi deux augmente d'une étape à une autre et atteint sa valeur maximale à la dernière étape soit 640,830 qui dépasse la valeur maximale du khi deux du premier modèle.

etape

1

2

3

4

5

6

7

8

9

10

Khi deux du modèle

333,368

398,590

481,067

527,486

559,658

584,450

605,784

625,189

636,054

640,830

« -2 log vraisemblance » diminue avec l'introduction de chaque variable et atteint son minimum à la dernière étape, de même les « R-deux de Cox & Snell » et de « Nagelkerke » augmentent d'une étape à l'autre.

Model Summary

Step

-2 Log likelihood

Cox & Snell R Square

Nagelkerke R Square

1

14960,255a

,021

,033

2

14895,033b

,025

,040

3

14812,557b

,030

,048

4

14766,137b

,032

,053

5

14733,965b

,034

,056

6

14709,173b

,036

,058

7

14687,839b

,037

,060

8

14668,434b

,038

,062

9

14657,570b

,039

,063

10

14652,793b

,039

,064

a. Estimation terminated at iteration number 4 because parameter estimates changed by less than ,001.

b. Estimation terminated at iteration number 5 because parameter estimates changed by less than ,001.

On peut donc affirmer que notre modèle mis en place est globalement pertinent, les variables explicatives retenues sont significatives individuellement au seuil de 5%, elles sont celles qui s'avèrent utiles et importantes dans l'explication et la prédiction de la probabilité de défaut, et il est plus approprié que le premier modèle à onze variable, du fait que l'élimination de la 11ème variable améliore la qualité d'ajustement du modèle.

Le modèle dispose d'un bon pouvoir prédictif, il prédit correctement 81,6% des retards de remboursement à un seuil de césure de 0,5. En essayant de déplacer le seuil pour retenir celui qui maximise le pouvoir prédictif, on a trouvé que ce seuil de 0,5 est le meilleur puisqu'il procure 13075 prédictions justes, car le nombre de bonnes prédictions diminue dès qu'on l'augmente ou qu'on le diminue ; le nombre de bonnes prédictions descend à 13072 si on diminue le taux de césure de 0,01 et on le fixe à 0,49 et il s'élève à 13073 si on augmente ce seuil de 0,01.

3. Interprétation des coefficients estimés

Les variables dont le coefficient estimé est positif influent positivement sur la probabilité de retard, alors que les coefficients négatifs indiquent que les variables auxquelles ils se rapportent affectent négativement la probabilité de réaliser un retard.

la chance =

Etant donnée

Les coefficients peuvent être interprétés comme les coefficients des régression simples où ils présentent l'impact d'une unité supplémentaire sur le « log des chances (logodds) » . Par exemple : Une unité monétaire supplémentaire du montant du crédit entraîne la diminution du logodds de -0,00058950.

D'une manière plus concrète, l'interprétation des coefficients s'effectue suivant la formule suivante ;

Ä probabilité = ßi * P *(1-P)

Avec P = la moyenne de la variable binaire à expliquer

ßi = le coefficient de la variable i

Ainsi on peut procéder à l'interprétation des variables comme suit :

v Le montant du prêt

Ä probabilité = -0,00058950 * 0,18 * 0,82 = -0,0000870

Un accroissement d'une unité monétaire supplémentaire du montant du crédit demandé, toute chose étant égales par ailleurs, entraîne la diminution de la probabilité de réaliser un retard de 0, 0000870, la probabilité du retard diminue donc avec le montant du prêt.

En effet, d'une part, un montant octroyé plus élevé engendre des opérations d'encadrement et de suivi plus rigoureuses pour garantir le bon remboursement, et d'autre part, généralement plus le montant est important plus il est affecté au financement de projet plus rentable, cette rentabilité permet de rembourser sans failles. 

v Le nombre de mensualités

Ä probabilité = 0,13209881* 0,18 * 0,82 = 0,0194977

L'augmentation du nombre de mensualités d'une échéance, sans modifier les autres variables, se traduit par l'augmentation de la probabilité de retard de 0, 0194977, le risque de retard augmente avec le nombre des mensualités. Cette constatation rejoint l'idée que le court terme est l'un des facteurs de réussite du microcrédit, du fait que le temps est en lui-même un facteur de risque.

v L'âge du client

Ä probabilité = -0,01007606* 0,18 * 0,82 = - 0,0014872

L'âge influe négativement sur le risque de réalisation du retard ; un emprunteur plus âgé qu'un autre et disposant des mêmes autres caractéristiques a une probabilité de retard inférieure de 0,0014872 de la probabilité de retard de l'autre client.

v Le nombre de prêts

Ä probabilité = 0,03672781* 0,18 * 0,82 = 0,005421

A chaque fois que l'emprunteur procède à un autre crédit, en gardant les mêmes caractéristiques que le prêt précédent, la probabilité de réaliser un retard augmente de 0,005421

v Le passage en montant

Ä probabilité = -0,00027807* 0,18 * 0,82 = - 0,000041

Si la différence entre le montant du prêt actuel et le montant du prêt précédent augmente d'une unité monétaire (un dinar tunisien), la probabilité de représenter un retard de remboursement diminue de 0,000041.

v L'expérience de l'agent de crédit

Ä probabilité = 0,00530517 * 0,18 * 0,82 = 0,0007830

Un prêt octroyé par un agent de crédit plus expérimenté est plus risqué, il présente une probabilité de réalisation de retard plus élevée de 0,0007830, même si ce résultat s'oppose à la logique d'expérience qui suppose normalement l'amélioration de la qualité du portefeuille, il peut trouver une explication plausible dans la surestime des AC de leurs compétences au point de négliger certains aspects qualitatifs et de ne pas effectuer des études rigoureuses.

v Le mode d'octroi individuel

Le mode d'octroi individuel accroît la probabilité de réaliser un retard de remboursement, logodds augmente de 0,65894468 si l'emprunteur demande un crédit individuel. Ce lien négatif est attendu, et il explique la préférence des IMF pour le type de crédit collectif pour minimiser conjointement le risque de non remboursement et le risque de retard.

v Le crédit solfa

Alors que les autres types de prêts n'ont pas de significativités, ils n'influencent pas le comportement de remboursement, le crédit « solfa » affecte le remboursement, le recours à ce type de crédit augmente log de la chance de réalisation du retard de 0,29147199. Ce type de crédit est plus risqué parce que son octroi n'exige pas de conditions sélectives ; il n'exige pas la possession de la patente, ni la viabilité du projet d'au moins un an comme l'est le cas du crédit entreprise.

v Le genre du client

L'octroi d'un crédit à un homme est plus risqué que l'octroi à une femme, toutes choses étant égales par ailleurs, le logodds entre les deux sexes diffère d'une valeur de 0,27335096. Les femmes respectent leurs obligations plus que les hommes, ce qui fait qu'elles soient les cibles privilégiées des programmes de microcrédit.

v La situation matrimoniale du client

La probabilité de retard diminue avec le mariage de l'emprunteur, un client marié est moins risqué qu'un célibataire, la différence du logodds entre les deux catégorie est de l'ordre de 0,22959808. En fait, c'est la stabilité familiale du marié qui est à l'origine de sa performance de remboursement.

Les résultats auraient pu être plus pertinents et plus précis si nous avions disposé d'une base de donnée plus rigoureuse ; En fait le nombre d'observations est important, mais d'autres améliorations sur les informations collectées sont envisageables :

§ la variable niveau d'instruction décomposée en 4 variables (dummy sait-lire, dummy primaire, dummy secondaire, dummy supérieur) distinctes aurait dû être regroupée en une seule. En se référant à notre base de données, on trouve que le niveau d'instruction indique le dernier niveau de l'emprunteur, donc pour un individu de niveau supérieur, on attribue des zéros pour les autres niveaux (primaire et secondaire et sait lire), alors qu'en réalité on aurait dû attribuer des 1 partout, ce qui fait que cette décomposition ne permet pas d'étudier convenablement l'impact la variable niveau d'éducation.

Même si, l'on installe un programme qui attribue 1 directement pour les niveaux les moins élevés à chaque niveau d'instruction, il y aurait, d'une part, une corrélation parfaite entre les variables du modèle, et d'autre part le modèle traitera par exemple un bachelier exactement comme un élève qui n'a pas réussi sa première année secondaire puisqu'ils ont tous les deux le niveau secondaire ; or dans la réalité, ces deux individus disposent de compétences distinctes qui peuvent influencer sur leurs comportement de remboursement.

A mon humble avis, ce biais peut être résolu par le remplacement de ces quatre variables par une seule qui serait le nombre d'années d'étude.

§ L'absence de données sur les avoirs de l'emprunteur, qui peuvent être d'une grande utilité pour la prédiction de sa capacité du bon remboursement, pourrait être corrigée par l'intégration de données qui peuvent donner une idée sur la situation du patrimoine du demandeur. Par exemple, on s'attend intuitivement à ce qu'un locataire ait plus de difficultés de remboursement qu'un propriétaire de son logement du fait de la dépense supplémentaire de location, une variable dummy propriété du logement semble intéressante. Ces données pourraient même servir pour des études ultérieures relatives aux effets des microcrédits sur l'évolution du patrimoine des bénéficiaires.

§ L'expérience de l'emprunteur n'est pas exploitée, pourtant elle peut être très déterminante dans la réussite du projet pour lequel le crédit est affecté, et peut donc influencer le comportement de remboursement.

CONCLUSION

A partir d'un échantillon des clients d'Enda, on a construit un modèle statistique permettant de prédire le comportement de remboursement à l'échéance par le biais de la régression logistique.

Les statistiques ont montré que le retard de remboursement peut résulter de:

§ certaines caractéristiques relatives à l'emprunteur, et particulièrement son âge, son genre et sa situation matrimoniale,

§ d'autres caractéristiques du prêt demandé, à savoir le montant sollicité, le nombre de remboursements, le nombre de prêts, la différence du montant avec le prêt précédent, le mode d'octroi individuel, et le type de crédit « solfa »

§ et de l'expérience de l'agent de crédit.

Toutefois, ce modèle devrait être testé par l'institution sur un autre échantillon historique de clients ; Une fois son pouvoir prédictif prouvé, Enda pourrait l'utiliser progressivement pour effectuer la sélection des demandeurs de crédit.

Pour ce faire, il faudrait par ailleurs, fixer les seuils de risque en fonction des objectifs et de la politique de l'organisation. Par exemple , s'ils fixent les seuils à :

· 5% pour la classe de risque excellent,

· à 12% pour la classe de risque normal,

· à 25% pour le risque limite,

· à 35% pour la classe de risque très problématique ;

Alors :

Ø Une demande dont la formule prédit une probabilité de retard de 0,01 serait approuvée d'emblée et l'organisation peut fidéliser l'emprunteur trop faiblement risqué par une diminution du taux d'intérêt applicable.

Ø Une demande à probabilité de retard de 11%, serait acceptée normalement

Ø Les demandes à risque 20%, doivent faire l'objet d'un approfondissement d'étude de solvabilité pour décider de l'octroi

Ø Une demande dont la probabilité de retard se situe au niveau de 30%, doit faire l'objet d'un réexamen qui peut entraîner soit le rejet, soit l'acceptation avec une révision du montant demandé vers la baisse, une augmentation du taux d'intérêt applicable et une exigence si possible de garanties matérielles.

Ø Toute demande dont le risque de retard dépasse 0,35  serait rejetée dés le départ, sans y passer beaucoup de temps pour son étude et son examen.

Par la mise en place d'un système de gestion de risque de crédits se basant sur la méthode de crédit scoring qui devrait être affiné, discuté et amélioré par les avis des agents de crédits et des instances dirigeantes de l'institution, Enda ne peut qu'améliorer ses performances en matière de remboursement à l'échéance et d'efficacité et qui constituent des atouts appréciables pour entamer la nouvelle phase de restructuration à laquelle elle s'apprête.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Entre deux mots il faut choisir le moindre"   Paul Valery