2 - Traduction Automatique Statistique (TAS)
Dans les années 90, la puissance de calcul et la
capacité de stockage des ordinateurs ont connu un boom. Cela a
donné lieu à l'essor de la traduction automatique statistique
(TAS) ou Statistical Machine Translation (SMT). Cette technologie
génère des traductions basées sur des modèles
statistiques dérivés de grands corpus de textes bilingues, qui
ont commencé à être disponibles dans les années
90.
L'hypothèse initiale est que toute phrase d'une langue
est une traduction possible d'une phrase dans une autre langue. Si on traduit
depuis une langue source s vers une langue cible ( t) , le but est de
trouver la phrase cible (t) la plus appropriée pour traduire la phrase
source s . Pour chaque paire de phrases possible (s, t) , on
attribue une probabilité P(t|s) qui peut être
interprétée comme la probabilité qu' « un
traducteur» produise ( t) dans la langue cible, lorsque la phrase (s) a
été énoncée dans une langue source, ou autrement
dit, la probabilité que la traduction de s soit t.
En traduction automatique statistique, les modèles
probabilistes sont utilisés pour trouver la meilleure traduction
possible ( t*) d'une phrase source donnée s , parmi
toutes les traductions t possibles dans la langue cible. Il s'agit
alors d'appliquer des méthodes d'apprentissage statistiques afin
d'entraîner le système avec un corpus bilingue(composé
d'une langue source et d'une langue cible).
Source : Enquête de Barbara Vignaux(
https://www.liglab.fr/files/qa_traduction_auto_bd.pdf)
Figure 3 : traduction automatique statistique
Master Data Science - Big Data 10
Avantages
l Nécessite un effort humain minimal;
l Contrairement au RBMT, la traduction est basée sur
le calcul de probabilités de succession de mots ce qui rend la
qualité de traduction meilleure.
Inconvénients
l L'une des faiblesses de la TAS est le défi de
traduire des documents qui ne sont pas similaires au contenu des corpus de
formation;
l La traduction automatique statistique TAS fonctionne
généralement moins bien pour les paires de langues dont l'ordre
des mots est sensiblement différent.
3 - Traduction Automatique Neuronale (TAN)
L'intelligence artificielle (IA) envahit progressivement tous
les aspects de la vie et des affaires. Dans le monde de la traduction, la
traduction automatique neuronale(TAN) ou Neural Machine Translation (NMT) est
le nouveau venu. La TAN s'appuie sur les réseaux de neurones pour
obtenir des traductions plus précises en fonction du contexte,
plutôt que des phrases fragmentées traduites mot par mot.
Destinés à imiter les neurones du cerveau
humain, les neurones d'un système TAN peuvent apprendre et recueillir
des informations, établir des connexions et évaluer les
données d'entrée comme une unité entière. La TAN
effectue son analyse en deux phases : l'encodage et le décodage. Pendant
la phase d'encodage, le texte de la langue source est entré dans la
machine et ensuite convertit en vecteurs. Les mots qui sont similaires dans
leur contexte seront placés dans des vecteurs de mots comparables.
Ensuite, la phase de décodage transcrit les vecteurs dans la langue
cible de manière efficace et transparente. Tout au long du processus de
traduction, la technologie ne se contente pas de traduire des mots et des
phrases, mais traduit le contexte et les informations.
Le schéma ci-après illustre de façon
simplifiée le processus de fonctionnement d'une TAN.
Source : Enquête de Barbara Vignaux(
https://www.liglab.fr/files/qa_traduction_auto_bd.pdf)
Figure 4 : Traduction automatique neuronale
Master Data Science - Big Data 11
Cette approche présente bien des avantages et
inconvénients. Avantages
l Traduit efficacement des langues grammaticalement
complexes, notamment le coréen, le japonais et l'arabe;
l Analyse complète d'une phrase avant traduction ce
qui permet de faire une traduction en employant des mots selon le contexte;
l Apprend les nuances des langues, telles que le genre et le
nombre;
l Aide à la rédaction multilingue, la
vérification des traductions et la vidéoconférence
multilingue.
Inconvénients
l Pour un apprentissage profond et pour une bonne
prédiction, l'on a besoin d'une grande quantité de données
au contenu diversifié pour permettre aux réseaux de neurones de
mieux se généraliser.
|