AVANT-PROPOS
l'International Data Science Institute est
une chaire internationale de formation en Data Science et Big Data, issu d'un
partenariat entre l'opérateur de téléphonie Orange,
l'Institut National Polytechnique Félix Houphouët-Boigny (INP-HB),
l'École Nationale Supérieure de Statistique et d'Economie
Appliquée (ENSEA), l'École polytechnique (X) et la Fondation de
l'École polytechnique (FX).
Homologué par l'État de Côte d'Ivoire, la
chaire à ouvert ses portes à la toute première promotion
en 2017 et elle a pour objectif de former des experts dans le domaine de la
statistique, de l'intelligence artificielle et du Big Data.
D'une durée de deux ans, l'IDSI propose un master
d'excellence de niveau international à destination d'étudiants
qui s'approprient des connaissances en ingénierie informatique
basée sur les nouvelles évolutions en matière de stockage
et de traitement des données. Les cours sont dispensés au sein du
Data Science Institute de l'INP-HB par une équipe pédagogique
composée de professeurs de l'INP-HB, de l'ENSEA, de l'X, ainsi que des
professionnels experts dans leur domaine.
Pour parfaire la formation et se rapprocher du monde
professionnel, il est prévu un projet de fin d'études
sanctionné par la rédaction d'un mémoire puis une
soutenance devant un jury d'enseignants de l'INP-HB de l'ENSEA de l'X et de
responsables d'entreprises.
C'est dans ce cadre que l'IDSI initie en fin de cycle, des
stages pratiques en entreprise en vue d'amener ses élèves
à confronter leurs connaissances théoriques acquises durant leur
parcours académique aux réalités du monde professionnel.
C'est ainsi que nous avons été accueilli par l'entreprise data354
du 17 mars 2020 au 18 septembre 2020 pour un stage de 6 mois dans ses
locaux.
Master Data Science - Big Data IX
RESUME
Le traitement automatique de langues naturelles ou Natural
Language Processing (NLP) a connu une révolution majeure ces
dernières années. Plusieurs systèmes de traduction ont vu
le jour permettant de traduire certaines langues les plus parlées dans
le monde. Le constat général est que beaucoup de langues
africaines sont restées en marge de cette révolution outre
certaines langues telles que l'Arabe, le Yoruba, le Zulu, le Swahili, le Igbo,
le Wolof qui sont actuellement traduisibles par certaines plateformes tel
google translate. De ce fait, nous nous sommes intéressés
à ce domaine afin de concevoir un traducteur automatique basé sur
un modèle de réseaux de neurones pour la traduction l'anglais
vers le lingala.
Le travail exposé dans ce mémoire est un projet
interne à l'entreprise qui vise à mettre en place un
système de traduction de langues africaines par l'utilisation des
méthodes du NLP.
Nous exposons dans ce mémoire les méthodes et
outils utilisés pour atteindre nos objectifs, pour se faire, nous
procédons tout d'abord par la collecte des données
utilisées par la suite pour entraîner un modèle de
traduction automatique neuronale appelé sequence-to-sequence.
L'évaluation du sesquence-to-sequence produisant des résultats
peu satisfaisants, nous avons été amenés à mettre
en place un transformer (aussi un modèle de traduction automatique
neuronale) qui nous a donné des résultats encore meilleurs.
L'implémentation s'est entièrement faite avec le langage de
programmation python et l'entraînement des différents
modèles s'est fait sur google collaboratory.
Mots clés :
Traduction automatique neuronale; deep learning;
apprentissage profond; sequence-to-sequence; transformer; Natural Language
Processing; réseaux de neurones; traduction automatisée de
langues africaines.
Master Data Science - Big Data 1
|