WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Scoring crédit: une application comparative de la régression logistique et des réseaux de neurones

( Télécharger le fichier original )
par Fred NTOUTOUME OBIANG-NDONG
Université Cheikh Anta Diop (UCAD) - Master Methodes Statistiques et Econometriques 2006
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

III/ Résultats de la modélisation par les réseaux de neurones

Après la modélisation logistique, notre étude s'attachera dans cette section à tenter une modélisation prédictive par la méthode neuronale. Pour mémoire, nous rappelons que la fonction de transfert utilisée dans la première couche cachée est la sigmoïde logistique ou logsigmoide Y=F(x) = 1/(1+exp(-x)), similaire à celle de la régression logistique que nous avons vu plus haut. Dans une deuxième couche, il s'agira d'une fonction linéaire. L'idée c'est d'obtenir une fonction qui présente un comportement linéaire lorsque les poids des noeuds sont petits (au voisinage de zero), et non linéaire lorsque l'on se situe aux extrémités.

3.1. Identification des données en entrée et en sortie.

Les données en entrées sont celles composant notre échantillon après épurement de l'analyse fréquentielle. En l'occurrence, il s'agit des 212 individus décrits à travers leurs 18 variables explicatives, qui constitueront les neurones input. Les données en sortie sont soit la modalité 1 pour « bon payeur », ou la modalité 2 pour « mauvais payeur ». Le type de réseau qui sera utilisé est le perceptron multicouches (PMC), encore appelé « Multi Layer Perceptron ». Celui-ci semble adapté aux modèles non linéaires, et se compose en plusieurs couches : les variables en entrée, les variables de sortie, les niveaux cachés.

Tableau 27 : Caractéristiques du réseau neuronal PMC utilisé

 

Libellé

caractéristiques

« poids »

Poids pi, et Poids qi

Couches cachées

Fonction de combinaison

Produit scalaire ?i pixi

Fonction transfert

Logistique

F(X)= 1/(1+exp(-X))

Nombre de couches cachées

2

Couche de sortie

Fonction de combinaison

Produit scalaire ?k pkxk

Fonction transfert

Logistique

F(X)= 1/(1+exp(-X))

 

Rapidité

Plus rapide en mode « application du modèle »

Avantage

Meilleure généralisation

Source : Recherche de Fred Ntoutoume, Crefdes, 2007 (inspiré de Tufféry, 2006)

Nous avons augmenté le pouvoir de prédiction en admettant deux couches cachées entre la couche d'entrée et la couche de sortie. La structure générale de notre réseau est de la forme :

Figure 10: Structure générale du réseau neuronal PMC utilisé

Variables explicatives

(Couches d'entrée)

& Poids synaptiques (p et q)

Fonction de sortie (couche de sortie)

Fonction de combinaisaon

(couches cachées)

Source et Format

des données

(pi)

(qi)

SEXEDIR

(pi)

(qi)

STATMAT

Ó pi xi

(pi)

(qi)

AGE

Y=F(X)= 1/(1+exp(-X))

Base de données UMECUDEFS

(212 individus)

Ó qi xi

(pi)

(qi)

NBENF

.

.

.

.

.

.

.

.

(pi)

(qi)

Source :

Recherche de Fred Ntoutoume, Crefdes, 2007

DEMOCT

Pour procéder à l'identification des données en entrée et en sortie sur le logiciel SPAD 5.5, nous procédons par exportation de la base de données d'origine de SPSS à SPAD, via une conversion en extension *.sba, puis par création et enregistrement d'une filière, non sans avoir précisé la méthode que nous souhaitions utiliser. Après un double clic sur l'icône de la méthode, nous obtenons la boite de dialogue de définition du modèle (cf figure ci-dessous).

Figure 11: procédure de définition du modèle neuronal sous SPAD

Source : Recherche de Fred Ntoutoume, Crefdes, 2007

Cette procédure SPAD nous permet, d'une part, de définir la variable à discriminer (variable de sortie) qui correspond dans notre cas à la variable REM3MOIS (remboursement du crédit au plus 3 mois a près la dernière échéance). Cette variable est codée en V20 sur SPAD. D'autre part, le logiciel nous demande de spécifier les variables explicatives du modèle, ou variables d'entrée. Celles-ci correspondent aux variables V2 à V19.

Les réseaux de neurones souffrant fréquemment de « sur-apprentissage » on a scindé l'échantillon de base en deux : l'échantillon d'apprentissage et son complément l'échantillon test. Par ailleurs, on utilise la fonction sigmoïde et l'apprentissage s'effectue avec une fonction d'erreur quadratique (encore appelée coût). La vitesse de convergence est alors sensible au coefficient å.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"L'ignorant affirme, le savant doute, le sage réfléchit"   Aristote