WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Traduction automatisée des langues africaines. Cas du lingala.


par Assandé Jacob TANO
International Data Science Institute - Master Data Science - Big Data 2020
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

II- COLLECTE ET PRÉPARATION DES DONNÉES

1- La collecte des données

Les données sont indispensables et primordiales pour la formation(entrainement) d'un d'un modèle de machine learning.

Dans le cadre de notre projet nous avons eu recours au site web intitulé OPUS dont le lien d'accès est http://opus.nlpl.eu/ , pour la collecte de données.

a- OPUS

OPUS est une plateforme web proposant des corpus parallèles en diverses langues et divers domaines.

Dans le cadre de notre projet nous y avons trouvé un corpus parallèle (anglais - Lingala) des références bibliques.

b- Caractéristiques du jeu de données

l Les variables du jeu de données :

- Anglais (en) : les phrases en anglais;

- Lingala (ln) : la traduction en lingala des phrases en anglais

l Quelques descriptions

:

 
 
 
 
 
 
 
 

en - ln

 
 

Nombre de phrases
(enregistrements)

 
 
 

537 792

 
 

Nombre Colonnes (variables)

 
 
 

2

 
 

Nombre de mots

8

623

680

 

23

715

120

Nombre de mots uniques

2

123

681

 

16

708

380

Taille sur disque du jeu de
données

 
 
 

115 MO

 
 
 

Tableau 6 : Caractéristiques du jeu de données

 

TANO Assandé Jacob

 

2- Préparation les données

La préparation des données est une étape très importante dans la mise en place d' un modèle d'apprentissage automatique. Elle consiste à nettoyer les données afin de les

rendre idéales à la formation d'un modèle d'apprentissage automatique. [ 17 ]

Dans notre étude la préparation des données prend en compte les étapes suivantes :

a- Minuscules

La mise en minuscules de toutes les données textuelles est applicable à la plupart des problèmes d'exploration de texte et de NLP et contribue considérablement à la cohérence de la sortie attendue. Les minuscules sont un excellent moyen de résoudre les problèmes de parcimonie.

Voici un exemple de la façon dont les minuscules résolvent le problème de parcimonie, où les mêmes mots avec des cas différents correspondent à la même forme minuscule :

Texte brut

 

CANADA Canada CanadA

Normalisé en minuscule

 

canada

 

TOMCAT Tomcat toMcat

tomcat

 

Tableau 7 : Exemple de mise en minuscule des mots du jeu de données b- Suppression du bruit

La suppression du bruit consiste à supprimer les caractères, les chiffres et les morceaux de texte qui peuvent interférer avec votre analyse de texte. La suppression du bruit est l'une des étapes les plus essentielles du prétraitement de texte. Il dépend également fortement du domaine.

Par exemple, dans les Tweets, le bruit peut être tous les caractères spéciaux à l'exception des hashtags, car il signifie des concepts qui peuvent caractériser un Tweet. Le problème avec le bruit est qu'il peut produire des résultats incohérents dans vos tâches en aval. Prenons l'exemple ci-dessous :

Texte avec bruts

Texte sans bruits

 

..trouble..

trouble<

trouble

trouble

 

<a>trouble</a>

1.trouble

trouble

trouble

 

Master Data Science - Big Data 37

Tableau 8 : Exemple de suppression de bruts du jeu de données

Master Data Science - Big Data 38

TANO Assandé Jacob

 

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Il faut répondre au mal par la rectitude, au bien par le bien."   Confucius