WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Traduction automatisée des langues africaines. Cas du lingala.


par Assandé Jacob TANO
International Data Science Institute - Master Data Science - Big Data 2020
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

IV- EVALUATION D'UN MODÈLE DE TRADUCTION AUTOMATIQUE

Nous présentons dans cette partie la métrique utilisée pour l'évaluation de la qualité de la traduction produite par les systèmes de traduction automatique.

1- La métrique BLEU

Le score BLEU «BiLingual Evaluation Understudy» est la métrique utilisée pour l'évaluation d'un modèle de traduction automatique. Il compare la traduction produite avec un ou plusieurs fichiers de référence. Le calcul est basé sur une comparaison de courtes séquences de mots(n-grammes), pour chaque phrase du texte traduit et du texte de référence. En effet, le BLEU score tient compte des correspondances entre les n-grammes et entre les mots simples de la phrase traduite et de la phrase référence. Le BLEU est une mesure de précision qui calcule le degré de similitude entre une traduction et sa référence, en se basant sur la précision n-grammes. Le score BLEU peut être exprimé en pourcentage. [6]

Réécrivons plus simplement l'expression :

On a :

Si la traduction produite par le traducteur est identique à la traduction de référence, le score est égal à 100. Dans le cas contraire, où aucune phrase traduite n'existe dans la traduction référence, le score est égal à 0. Le BLEU est compris entre 0 et 1 et calculé suivant la formule suivante :

 

TANO Assandé Jacob

 

D'où :

 
 

Avec :

l BP : Brevity Penalty

l c : Nombre de mot dans la traduction proposée (phrase candidate)

l r : Nombre de mot dans la phrase servant de référence (phrase de référence)

l N : Nombre de n-grams pour le calcul du BLEU : unigram, bigram, 3-gram, 4-gram

6

l Wn : Poids uniforme des différentes précisions des n-grammes .

l Pn : Précision modifiée

2- Exemple de calcul du BLEU Score

Source en anglais : Love each other like your heavenly father loves you (x)

Référence en lingala : Bo lingana boko basusu lokola tata na bino a lingui bino (y) Phrase candidate : Bo lingana bo lingana boko basusu lokola tata na bino lingui bino (j)

6 Un n-gramme : est une sous-séquence de n éléments construite à partir d'une séquence donnée.

Master Data Science - Big Data 29

Master Data Science - Big Data 30

TANO Assandé Jacob

 

a- calcul manuel

Nous nous proposons de faire un calcul manuel du score BLEU de la traduction proposée par notre modèle

l Calculons la précision modifiée (P 1 ) des unigrams :

Différents mots dans la phrase
candidate

Nombre d'apparition dans la Candidate

Nombre d'apparition
dans la Référence

P 1 = 10/12

Bo

2

1

 

2

1

 

1

1

 

1

1

 

1

1

 

1

1

 

1

1

 

2

2

 

1

1

 

12

10

 

Tableau 2 : Calcul de la précision modifiée (P1) des unigrams

l Calculons la précision modifiée (P 2 ) des bigrams :

Différents mots dans la phrase
candidate

Nombre d'apparition dans la Candidate

Nombre d'apparition
dans la Référence

P 2 = 8/11

Bo lingana

2

1

 

1

0

 

1

1

 

1

1

 

1

1

 

1

1

 

1

1

 

1

1

 

1

0

 

1

1

 

11

8

 

Tableau 3 : Calcul de la précision modifiée (P2) des bigrams

Master Data Science - Big Data 31

TANO Assandé Jacob

 

l Calculons la précision modifiée (P 3 ) pour les 3-grams :

Différents mots dans la phrase candidate

Nombre

d'apparition dans la
Candidate

Nombre d'apparition
dans la Référence

P 3 = 6/10

Bo lingana bo

1

0

 

1

0

 

1

1

 

1

1

 

1

1

 

1

1

 

1

1

 

1

1

 

1

0

 

1

0

 

10

6

 

Tableau 4 : Calcul de la précision modifiée (P3) des 3-grams

l Calculons la précision modifiée (P 4 ) pour les 4-grams :

Différents mots dans la phrase candidate

Nombre d'apparition dans la Candidate

Nombre d'apparition
dans la Référence

P4 = 5/9

Bo lingana bo lingana

1

0

 

1

0

 

1

1

 

1

1

 

1

1

 

1

1

 

1

1

 

1

0

 

1

0

 

9

5

 

Tableau 5 : Calcul de la précision modifiée (P4) des 4-grams

TANO Assandé Jacob

 

Le résultat est donc le suivant :

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Enrichissons-nous de nos différences mutuelles "   Paul Valery