II.7 Equations d'un réseau :
soit un réseau MLP " maltilayered perception ou
perception à multiple couche " non récurrent (statique ) à
entrées (Rn) et m sortie (Rn) .
Supposons que le réseau est composé de (L)
couches :
(L -1) couches cachées plus une couche de sortie .
Les sorties de neurones de la couche K sont données par
l'expression suivante :
YKj (t) = f [SKj (L) ]
( II . 2 )
Telle que :
j = 1,........,nK .
K= 1 , 2 ,....., L .
j = l'indice de ces couches .
nK = le nombre de neurones correspondant
.
f = est la fonction d'activation choisie .
Ainsi [35] :
SjK (t) = ?j=0NK-1 WijK
yjK-1 (t) (
II . 3 )
Telle que :
y0K (t) = 1 , K = 1 ,
2 , ....., L .
yj0 (t) = xj (t) ,
j = 1 , 2 , ......, n . sont des éléments du vecteur
d'entrée .
yjL (t) = yj(t) ,
j = 1 , 2 ,.......,m . sont des éléments du vecteur de
sortie .
( yjL ) : est la sortie du neurone j
de la couches K et Wj0 est son seuil interne .
( WijK ) : est le poids de la
connexion du neurone j de la couche K et le neurone i de la couche (K-1) .
Chapitre 11 : Les réseaux de
neurones
II.8 Notion des minimums :
II.8.1 Minimum local :
si le système reste bloqué et la
convergence n'est pas complète on dit qu'il y a un minimum local .
II.8.2 Minimum global :
en ce point le système est stable et la
convergence est complète et la réponse actuelle coïncide
avec celle de la réponse désirée .
II.9 Le principe de minimisation :
Les règles d'apprentissages dont le rôle est de
trouver le plus rapidement possible le minimum d'une fonction d'énergie
sont des adaptation aux réseaux neuronaux des techniques classiques de
recherche de minimum , nous citeront les grandes lignes des principes les plus
importants vis-à-vis des applications .
II.9.1 La décente de gradient :
Ce principe est très simple : si l'on cherche un
endroit situé plus bas que les autres endroits c'est- à - dire un
minimum , alors déplaçons nous vert le bas en suivant les lignes
de plus grandes pente .
La pente étant mathématiquement calculé par
le gradient , on appel une telle méthode une descente de gradient .
Fonction d'énergie de
L'erreur
Etat initial
état final obtenu par poids synaptiques
Tiré au hasard
par descente du gradient
Figure
II.6 : La décente de gradient
Chapitre 11 : Les réseaux de
neurones
mais ce n'est que dans les années 80 ,
que l'adaptation aux réseaux neuronaux a pus être
réalisé .
En effet la notion de gradient , et donc de dérivé
, pour réalisé cette adaptation , on doit utilisé des
fonctions dérivables telle que ( fonction sigmoïde , tangente
hyperbolique...) :
L'erreur est calculé en sortie du réseau neuronal ,
et les contributions à cette erreur de chaque poids synaptique de chaque
couche sont calculées en utilisant des lois classiques de compositions
des dérivés partielles , par ce que les contributions
précitées sont évaluées en partant de la sortie (
dernière couche ) vert l'entrée du réseau ( premier couche
) .
On appel cette règle d'apprentissage rétro -
propagation du gradient
( en anglais Bac propagation ) .
En effet , le minimum recherché peut très bien
être entouré de pics qui interdiront le passage à une
descente de gradient .
Deux adaptation de cette heuristiques sont alors possible pour
amélioré les performances de la descente de gradient
[39].
II.9.1.1 La descente de gradient avec
inertie :
Cette méthode consiste à poussé encore un
peu plus loin la métaphore mécanique du processus de descente ,
et cela par l'inertie qui permet de remonter pour sortir d'un minimum local ,
mais elle induit aussi une oscillation amortie qui ralenti la stabilisation sur
le minimum absolu .
Fonction d'énergie
de l'erreur
Etat
initial minimum local minimum absolu poids synaptiques
tiré au hasard parasite
recherché
Figure
II.7 : La descente de gradient avec inertie
II.9.1.2 La descente stochastique :
Cette méthode à été proposé
par Windrow et Hoff dans les années 60 .
Au lieu de minimisé les l'erreur global due à
l'ensemble des vecteurs d'apprentissage , ils ont proposé de
minimisé itérativement l'erreur due à chaque exemples
d'apprentissage .
Mathématiquement , on cherche à minimiser
itérativement chaque terme d'une somme , au lieu de minimiser la somme
.
Chapitre 11 : Les réseaux de
neurones
|