3- le modèle `Transformer'
Le `Transformer' est un modèle d'apprentissage profond
introduit en 2017, utilisé principalement dans le domaine du traitement
du langage naturel.
Comme les réseaux neuronaux récurrents (RNN),
les `Transformers' sont conçus pour traiter des données
séquentielles, comme le langage naturel, pour des tâches telles
que la traduction et le résumé de textes. Toutefois,
contrairement aux RNN, les 'Transformers' n'exigent pas que les données
séquentielles soient traitées dans l'ordre. Par exemple, si les
données d'entrée sont une phrase en langage naturel, le
'Transformer' n'a pas besoin de traiter le début de cette phrase avant
la fin. Grâce à cette caractéristique, le `Transformer'
permet une parallélisation beaucoup plus importante que les RNN et donc
des temps de formation(entraînement) réduits.
Depuis leur introduction, les `Transformers' sont devenus le
modèle de choix pour résoudre de nombreux problèmes en
NLP, L'intérêt du `Transformer' réside dans le fait qu'il
fait largement appel à l'attention. Le mécanisme d'attention
permet à un réseau
4 Token : On appelle ici token les différents
mots constituant une phrase
Master Data Science - Big Data 27
de neurones d'apprendre à se focaliser sur certaines
caractéristiques d'une séquence en cours de traitement pour la
décision L'utilisation classique de l'attention vient du modèle
de traduction automatique, où la sortie est produite selon le contexte
des données en entrée. [ 12 ]
a. Architecture
Six encodeurs empilés, chaque encodeur prenant en
entrée la sortie de l'encodeur précédent (sauf le premier
qui prend en entrée les embeddings), suivi de six décodeurs
empilés, prenant en entrée la sortie du décodeur
précédent et la sortie du dernier encodeur (sauf pour le premier
décodeur qui ne prend en entrée que la sortie du dernier
encodeur). [ 15]
Figure 16 : Représentation simplifiée d'un
`Transformer'
b. Description
l Chaque encodeur se compose de deux sous-couches: une couche
d'auto-attention
5
suivie d'un FFNcomplètement connecté. Chaque
sous-couche possède en sortie une couche qui ajoute, additionne, les
sorties de la couche et du raccord à une connexion dite
résiduelle (qui connecte directement les valeurs d'entrée de la
couche à la sortie de la couche) et qui normalise l'ensemble;
l Chaque décodeur se compose de trois couches : une
couche d'auto-attention suivie d'une couche d'attention avec le dernier
encodeur, puis d'un FFN complètement connecté. Chaque sous-couche
possède en sortie une couche qui ajoute, additionne, les sorties de la
couche et du raccord à une connexion dite résiduelle (qui
connecte directement les valeurs d'entrée de la couche à la
sortie de la couche) et qui normalise l'ensemble.
5 FFN : Feed Forward Network
Master Data Science - Big Data 28
|