WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Traduction automatisée des langues africaines. Cas du lingala.


par Assandé Jacob TANO
International Data Science Institute - Master Data Science - Big Data 2020
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

AVANT-PROPOS

l'International Data Science Institute est une chaire internationale de formation en Data Science et Big Data, issu d'un partenariat entre l'opérateur de téléphonie Orange, l'Institut National Polytechnique Félix Houphouët-Boigny (INP-HB), l'École Nationale Supérieure de Statistique et d'Economie Appliquée (ENSEA), l'École polytechnique (X) et la Fondation de l'École polytechnique (FX).

Homologué par l'État de Côte d'Ivoire, la chaire à ouvert ses portes à la toute première promotion en 2017 et elle a pour objectif de former des experts dans le domaine de la statistique, de l'intelligence artificielle et du Big Data.

D'une durée de deux ans, l'IDSI propose un master d'excellence de niveau international à destination d'étudiants qui s'approprient des connaissances en ingénierie informatique basée sur les nouvelles évolutions en matière de stockage et de traitement des données. Les cours sont dispensés au sein du Data Science Institute de l'INP-HB par une équipe pédagogique composée de professeurs de l'INP-HB, de l'ENSEA, de l'X, ainsi que des professionnels experts dans leur domaine.

Pour parfaire la formation et se rapprocher du monde professionnel, il est prévu un projet de fin d'études sanctionné par la rédaction d'un mémoire puis une soutenance devant un jury d'enseignants de l'INP-HB de l'ENSEA de l'X et de responsables d'entreprises.

C'est dans ce cadre que l'IDSI initie en fin de cycle, des stages pratiques en entreprise en vue d'amener ses élèves à confronter leurs connaissances théoriques acquises durant leur parcours académique aux réalités du monde professionnel. C'est ainsi que nous avons été accueilli par l'entreprise data354 du 17 mars 2020 au 18 septembre 2020 pour un stage de 6 mois dans ses locaux.

Master Data Science - Big Data IX

TANO Assandé Jacob

 

RESUME

Le traitement automatique de langues naturelles ou Natural Language Processing (NLP) a connu une révolution majeure ces dernières années. Plusieurs systèmes de traduction ont vu le jour permettant de traduire certaines langues les plus parlées dans le monde. Le constat général est que beaucoup de langues africaines sont restées en marge de cette révolution outre certaines langues telles que l'Arabe, le Yoruba, le Zulu, le Swahili, le Igbo, le Wolof qui sont actuellement traduisibles par certaines plateformes tel google translate. De ce fait, nous nous sommes intéressés à ce domaine afin de concevoir un traducteur automatique basé sur un modèle de réseaux de neurones pour la traduction l'anglais vers le lingala.

Le travail exposé dans ce mémoire est un projet interne à l'entreprise qui vise à mettre en place un système de traduction de langues africaines par l'utilisation des méthodes du NLP.

Nous exposons dans ce mémoire les méthodes et outils utilisés pour atteindre nos objectifs, pour se faire, nous procédons tout d'abord par la collecte des données utilisées par la suite pour entraîner un modèle de traduction automatique neuronale appelé sequence-to-sequence. L'évaluation du sesquence-to-sequence produisant des résultats peu satisfaisants, nous avons été amenés à mettre en place un transformer (aussi un modèle de traduction automatique neuronale) qui nous a donné des résultats encore meilleurs. L'implémentation s'est entièrement faite avec le langage de programmation python et l'entraînement des différents modèles s'est fait sur google collaboratory.

Mots clés :

Traduction automatique neuronale; deep learning; apprentissage profond; sequence-to-sequence; transformer; Natural Language Processing; réseaux de neurones; traduction automatisée de langues africaines.

Master Data Science - Big Data 1

TANO Assandé Jacob

 

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Le don sans la technique n'est qu'une maladie"