WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Traduction automatisée des langues africaines. Cas du lingala.


par Assandé Jacob TANO
International Data Science Institute - Master Data Science - Big Data 2020
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

2 - Traduction Automatique Statistique (TAS)

Dans les années 90, la puissance de calcul et la capacité de stockage des ordinateurs ont connu un boom. Cela a donné lieu à l'essor de la traduction automatique statistique (TAS) ou Statistical Machine Translation (SMT). Cette technologie génère des traductions basées sur des modèles statistiques dérivés de grands corpus de textes bilingues, qui ont commencé à être disponibles dans les années 90.

L'hypothèse initiale est que toute phrase d'une langue est une traduction possible d'une phrase dans une autre langue. Si on traduit depuis une langue source s vers une langue cible ( t) , le but est de trouver la phrase cible (t) la plus appropriée pour traduire la phrase source s . Pour chaque paire de phrases possible (s, t) , on attribue une probabilité P(t|s) qui peut être interprétée comme la probabilité qu' « un traducteur» produise ( t) dans la langue cible, lorsque la phrase (s) a été énoncée dans une langue source, ou autrement dit, la probabilité que la traduction de s soit t.

En traduction automatique statistique, les modèles probabilistes sont utilisés pour trouver la meilleure traduction possible ( t*) d'une phrase source donnée s , parmi toutes les traductions t possibles dans la langue cible. Il s'agit alors d'appliquer des méthodes d'apprentissage statistiques afin d'entraîner le système avec un corpus bilingue(composé d'une langue source et d'une langue cible).

Source : Enquête de Barbara Vignaux( https://www.liglab.fr/files/qa_traduction_auto_bd.pdf)

Figure 3 : traduction automatique statistique

Master Data Science - Big Data 10

TANO Assandé Jacob

 

Avantages

l Nécessite un effort humain minimal;

l Contrairement au RBMT, la traduction est basée sur le calcul de probabilités de succession de mots ce qui rend la qualité de traduction meilleure.

Inconvénients

l L'une des faiblesses de la TAS est le défi de traduire des documents qui ne sont pas similaires au contenu des corpus de formation;

l La traduction automatique statistique TAS fonctionne généralement moins bien pour les paires de langues dont l'ordre des mots est sensiblement différent.

3 - Traduction Automatique Neuronale (TAN)

L'intelligence artificielle (IA) envahit progressivement tous les aspects de la vie et des affaires. Dans le monde de la traduction, la traduction automatique neuronale(TAN) ou Neural Machine Translation (NMT) est le nouveau venu. La TAN s'appuie sur les réseaux de neurones pour obtenir des traductions plus précises en fonction du contexte, plutôt que des phrases fragmentées traduites mot par mot.

Destinés à imiter les neurones du cerveau humain, les neurones d'un système TAN peuvent apprendre et recueillir des informations, établir des connexions et évaluer les données d'entrée comme une unité entière. La TAN effectue son analyse en deux phases : l'encodage et le décodage. Pendant la phase d'encodage, le texte de la langue source est entré dans la machine et ensuite convertit en vecteurs. Les mots qui sont similaires dans leur contexte seront placés dans des vecteurs de mots comparables. Ensuite, la phase de décodage transcrit les vecteurs dans la langue cible de manière efficace et transparente. Tout au long du processus de traduction, la technologie ne se contente pas de traduire des mots et des phrases, mais traduit le contexte et les informations.

Le schéma ci-après illustre de façon simplifiée le processus de fonctionnement d'une TAN.

Source : Enquête de Barbara Vignaux( https://www.liglab.fr/files/qa_traduction_auto_bd.pdf)

Figure 4 : Traduction automatique neuronale

Master Data Science - Big Data 11

TANO Assandé Jacob

 

Cette approche présente bien des avantages et inconvénients. Avantages

l Traduit efficacement des langues grammaticalement complexes, notamment le coréen, le japonais et l'arabe;

l Analyse complète d'une phrase avant traduction ce qui permet de faire une traduction en employant des mots selon le contexte;

l Apprend les nuances des langues, telles que le genre et le nombre;

l Aide à la rédaction multilingue, la vérification des traductions et la vidéoconférence multilingue.

Inconvénients

l Pour un apprentissage profond et pour une bonne prédiction, l'on a besoin d'une grande quantité de données au contenu diversifié pour permettre aux réseaux de neurones de mieux se généraliser.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"En amour, en art, en politique, il faut nous arranger pour que notre légèreté pèse lourd dans la balance."   Sacha Guitry