IV- EVALUATION D'UN MODÈLE DE TRADUCTION
AUTOMATIQUE
Nous présentons dans cette partie la métrique
utilisée pour l'évaluation de la qualité de la traduction
produite par les systèmes de traduction automatique.
1- La métrique BLEU
Le score BLEU «BiLingual Evaluation Understudy» est
la métrique utilisée pour l'évaluation d'un modèle
de traduction automatique. Il compare la traduction produite avec un ou
plusieurs fichiers de référence. Le calcul est basé sur
une comparaison de courtes séquences de mots(n-grammes), pour chaque
phrase du texte traduit et du texte de référence. En effet, le
BLEU score tient compte des correspondances entre les n-grammes et entre les
mots simples de la phrase traduite et de la phrase référence. Le
BLEU est une mesure de précision qui calcule le degré de
similitude entre une traduction et sa référence, en se basant sur
la précision n-grammes. Le score BLEU peut être exprimé en
pourcentage. [6]
Réécrivons plus simplement l'expression :
On a :
Si la traduction produite par le traducteur est identique
à la traduction de référence, le score est égal
à 100. Dans le cas contraire, où aucune phrase traduite n'existe
dans la traduction référence, le score est égal à
0. Le BLEU est compris entre 0 et 1 et calculé suivant la formule
suivante :
Avec :
l BP : Brevity Penalty
l c : Nombre de mot dans la traduction
proposée (phrase candidate)
l r : Nombre de mot dans la phrase servant
de référence (phrase de
référence)
l N : Nombre de n-grams pour le calcul du
BLEU : unigram, bigram, 3-gram, 4-gram
6
l Wn : Poids uniforme des différentes
précisions des n-grammes .
l Pn : Précision modifiée
2- Exemple de calcul du BLEU Score
Source en anglais : Love each other like your
heavenly father loves you (x)
Référence en lingala : Bo lingana
boko basusu lokola tata na bino a lingui bino (y) Phrase
candidate : Bo lingana bo lingana boko basusu lokola tata na bino
lingui bino (j)
6 Un n-gramme : est une sous-séquence de
n éléments construite à partir d'une séquence
donnée.
Master Data Science - Big Data 29
Master Data Science - Big Data 30
a- calcul manuel
Nous nous proposons de faire un calcul manuel du score BLEU de
la traduction proposée par notre modèle
l Calculons la précision modifiée (P 1 ) des
unigrams :
Différents mots dans la
phrase candidate
|
Nombre d'apparition dans la Candidate
|
Nombre d'apparition dans la
Référence
|
P 1 = 10/12
|
Bo
|
2
|
1
|
|
2
|
1
|
|
1
|
1
|
|
1
|
1
|
|
1
|
1
|
|
1
|
1
|
|
1
|
1
|
|
2
|
2
|
|
1
|
1
|
|
12
|
10
|
|
Tableau 2 : Calcul de la précision modifiée
(P1) des unigrams
l Calculons la précision modifiée (P 2 ) des
bigrams :
Différents mots dans la
phrase candidate
|
Nombre d'apparition dans la Candidate
|
Nombre d'apparition dans la
Référence
|
P 2 = 8/11
|
Bo lingana
|
2
|
1
|
|
1
|
0
|
|
1
|
1
|
|
1
|
1
|
|
1
|
1
|
|
1
|
1
|
|
1
|
1
|
|
1
|
1
|
|
1
|
0
|
|
1
|
1
|
|
11
|
8
|
|
Tableau 3 : Calcul de la précision modifiée
(P2) des bigrams
Master Data Science - Big Data 31
l Calculons la précision modifiée (P 3 ) pour les
3-grams :
Différents mots dans la phrase
candidate
|
Nombre
d'apparition dans la Candidate
|
Nombre d'apparition dans la
Référence
|
P 3 = 6/10
|
Bo lingana bo
|
1
|
0
|
|
1
|
0
|
|
1
|
1
|
|
1
|
1
|
|
1
|
1
|
|
1
|
1
|
|
1
|
1
|
|
1
|
1
|
|
1
|
0
|
|
1
|
0
|
|
10
|
6
|
|
Tableau 4 : Calcul de la précision modifiée
(P3) des 3-grams
l Calculons la précision modifiée (P 4 ) pour les
4-grams :
Différents mots dans la phrase
candidate
|
Nombre d'apparition dans la Candidate
|
Nombre d'apparition dans la
Référence
|
P4 = 5/9
|
Bo lingana bo lingana
|
1
|
0
|
|
1
|
0
|
|
1
|
1
|
|
1
|
1
|
|
1
|
1
|
|
1
|
1
|
|
1
|
1
|
|
1
|
0
|
|
1
|
0
|
|
9
|
5
|
|
Tableau 5 : Calcul de la précision modifiée
(P4) des 4-grams
Le résultat est donc le suivant :
|