CHAPITRE 2. GÉNÉRALITÉS
À ce stade, le mécanisme d'attention est apparu
pour permettre d'examiner la phrase en tenant compte de tous les états
précédents. Ces derniers sont ensuite pondérés en
fonction d'une mesure apprise de la pertinence du jeton actuel, fournissant
ainsi des informations plus précises sur les jetons pertinents
lointains.
2.2.1 Le mécanisme d'attention
Dans le domaine de traitement du langage naturel, les
éléments qui composent le texte source se caractérisent
par le fait qu'ils ont chacun une pertinence différente par rapport
à la tâche à accomplir. Par exemple, dans l'analyse des
sentiments basée sur les aspects, les mots clés tels que
»bon» ou »mauvais» peuvent être pertinents pour
certains aspects à l'étude, mais pas pour d'autres. Dans la
traduction automatique, certains mots du texte source pourraient ne pas
être pertinents pour la traduction du mot suivant [Vaswani et al., 2017].
Par exemple, la traduction anglais-français, le premier mot de la sortie
française dépend probablement beaucoup du début de
l'entrée anglaise. Cependant, afin de produire le premier mot de la
sortie française, le modèle ne reçoit que le vecteur
d'état du dernier mot anglais. Théoriquement, ce vecteur peut
coder des informations sur l'ensemble de la phrase à traduire, mais en
pratique ces informations ne sont souvent pas bien préservées.
Pour cela, il est important de prendre en compte la notion de pertinence, de
manière à concentrer les ressources de calcul sur un ensemble
restreint d'éléments importants. Le mécanisme d'attention
est une approche de plus en plus populaire qui consiste à apprendre par
machine la pertinence des éléments d'entrée. De cette
façon, les architectures neurales pourraient automatiquement
évaluer la pertinence de n'importe quelle région de
l'entrée, et considérer ce poids lors de l'exécution de la
tâche principale [Bahdanau et al., 2015]. Lorsque ce mécanisme est
ajoutéaux RNN, le modèle peut apprendre à tenir en compte
l'état des premiers mots anglais lorsqu'il produit le début de la
phrase française et donc des gains de performance importants [Vaswani et
al., 2017].
L'introduction du transformateur a mis en lumière le
fait que les mécanismes d'attention étaient puissants en
eux-mêmes, et que le traitement séquentiel récurrent des
données n'était pas nécessaire pour obtenir les gains de
performance des RNN avec attention.
2.2.2 Les Transformateurs
Le Transformateur est un modèle de DL
utiliséprincipalement dans le domaine du NLP. Comme les RNNs, les
transformateurs sont conçus pour traiter des données
séquentielles, comme le langage naturel, pour des tâches telles
que la traduction et la classification de textes [Vaswani et al., 2017].
Ils utilisent un mécanisme d'attention sans être
un RNN, en traitant tous les jetons en même temps et en calculant les
poids d'attention entre eux. Le fait que les transformateurs ne reposent pas
sur un traitement séquentiel et se prêtent très facilement
à la parallélisation permet de les former plus efficacement sur
des ensembles de données plus importants. Ils ont remplacéles
anciens modèles de RNN tels que les LSTM [Greff et al., 2016].
20
|