IV- PRESENTATION DES RESULTATS
1- Evaluation
L'évaluation des modèles de traduction
automatique est extrêmement importante car elle est le facteur clé
qui détermine la qualité de la traduction. En
général, les résultats produits par un système de
traduction automatique sont évalués à la fois
automatiquement et manuellement. L'une des mesures d'évaluation
automatique les plus courantes est le BLEU score tel que décrit dans le
plus haut..
Nous résumons dans le tableau ci-après les
résultats obtenus des différentes architectures de modèle
de traduction automatique construites
|
N°
|
MODELES
|
BLEU Score
|
BLEU Score
|
|
|
(sur un ensemble de test au contexte biblique)
|
(sur un ensemble de test au contexte non biblique)
|
|
Modèle 1
Sequence-to-sequence
Modèle 2
Sequence-to-sequence avec mécanisme d'attention
0.4143
|
0.1111
|
0.598
|
0.232
|
0.787
|
|
|
|
|
Modèle 3
Transformer
Master Data Science - Big Data 41
Tableau 12 : Présentation des résultats des
différents modèles de traduction automatique
2- Commentaires
Suite à la comparaison des trois modèles
construits, nous constatons que le modèle 3 (Transformer) à des
performances meilleures que les deux autres modèles 1 et 2. Le score de
0.409 s'explique par plusieurs raisons :
l Quantité de données trop peu pour
entraîner un modèle de traduction automatique ;
l Modèle entraîné uniquement sur les
données bibliques et donc peu performant sur des jeux de données
ne se situant pas dans un contexte similaire au contexte biblique.
Pour une amélioration du modèle 3, nous
comptons collecter encore plus de données de contextes différents
et refaire l'entraînement du modèle.
Toutefois, pour des phrases bibliques, nous avons une
très bonne qualité de traduction.
Master Data Science - Big Data 42
|