CHAPITRE 2. FONDEMENTS THÉORIQUES
d'entrée à travers tout le réseau, couche
par couche, permet d'obtenir des sorties classées par le réseau.
Par exemple, le réseau de la figure-2.3 contient une première
couche d'entrée de deux neurones, deux couche cachée l'une de
trois neurones et l'autre quatre neurones et enfin une couche de deux neurones
à la sortie.
FIGURE 2.3 - Structure d'un perceptron multicouche
Un PMC peut être formé d'un nombre quelconque de
couches pouvant chacune contenir un nombre quelconque de neurones. Grâce
à sa structure, le PMC est capable de pouvoir former des
frontières de décision qui soient adaptées à la
complexité du problème posée (figure-2.4).
FIGURE 2.4 - Frontière de décision obtenue à
l'aide d'un perceptron multicouche [Gos96]
Malgré son pouvoir de modélisation
intéressant, le PMC a été inexploité durant
plusieurs années. C'est à cause de l'absence d'algorithme
d'apprentissage adéquat pour ajuster ses nombreux paramètres.
C'est en 1986, que D.E. RUMELHART et AL [Héb99] ont proposé
une
25
CHAPITRE 2. FONDEMENTS THÉORIQUES
généralisation de l'algorithme d'apprentissage
original de ROSENBLATT afin de permettre l'ajustement des poids d'un
réseau de structure quelconque. L'ajustement se fait en minimisant de
manière satisfaisante l'erreur engendrée à la sortie du
réseau. Cet algorithme, connu sous le nom d'algorithme de
rétropropagation du gradient, a permis au PMC de prendre
définitivement son envol. Nous décrivons le fonctionnement
d'algorithme de rétropropagation du gradient dans la section
suivante.
2.1.3 Apprentissage d'un perceptron multicouches
L'apprentissage d'un PMC par rétropropagation des erreurs
consiste à lui présenter un
ensemble deN données d'entraînement
D = {(x1, o1), (x2,
o2), , (xn, on)} . Ceci est
dans le but d'ajuster itérativement ses différents
paramètres de manière à minimiser l'erreur
qua-dratique3 de sortie. Une donnée d'entraînement
(x; o)E D est en fait un couple de vecteurs
(x; o) E IRn --+ IRm
tel que x est un vecteur d'entrée qui est propagé
à travers toutes les couches du PMC, jusqu'à la couche de sortie,
et o est le vecteur de sortie désirée.
BISHOP [Bis95] a démontré qu'un réseau de
type PMC à une couche cachée peut estimer n'importe quelle
fonction dans un IRn avec une précision arbitraire.
Ainsi, le PMC est capable d'estimer des hyper-surfaces discriminantes
très complexes. En effet, la difficulté majeure rencontrée
lors de l'utilisation de ce type de classifieur est de déterminer le
nombre de couches cachées, le nombre de neurones dans chaques couches et
les poids de connexions entre les différentes couches. De ce fait, la
construction du classifieur de type PMC utilise des règles empiriques.
Afin d'obtenir des performances de généralisation
intéressantes, il est nécessaire d'éffectuer un certain
nombre d'essais. L'utilisation des algorithmes d'apprentissage permet de
déterminer les poids de connexions du réseaux. L'objectif de cet
algorithmes est de minimiser l'erreur de décision effectuée par
le RN en ajustant les poids à chaque présentation d'un vecteur
d'entraînement.
Nous utiliserons pour l'apprentissage du réseau
l'algorithme de rétropropagation du gradient qui est défini par
les étapes suivantes :
1. Initialiser les poids et les seuils du réseau à
des petites valeurs;
2. Présenter à l'entrée du réseau
un vecteur de caractéristiques de la base de données, puis
calculer la valeur d'activation et la fonction d'activation de ce vecteur en
utilisant la
3. Somme des carrés de l'erreur de chaque composante
entre la sortie réelle et la sortie désirée
26
|