II- COLLECTE ET PRÉPARATION DES
DONNÉES
1- La collecte des données
Les données sont indispensables et primordiales pour la
formation(entrainement) d'un d'un modèle de machine learning.
Dans le cadre de notre projet nous avons eu recours au site web
intitulé OPUS dont le lien d'accès est
http://opus.nlpl.eu/ , pour la collecte de données.
a- OPUS
OPUS est une plateforme web proposant des corpus
parallèles en diverses langues et divers domaines.
Dans le cadre de notre projet nous y avons trouvé un
corpus parallèle (anglais - Lingala) des références
bibliques.
b- Caractéristiques du jeu de
données
l Les variables du jeu de données :
- Anglais (en) : les phrases en anglais;
- Lingala (ln) : la traduction en lingala des phrases en
anglais
l Quelques descriptions
|
:
|
|
|
|
|
|
|
|
|
en - ln
|
|
|
Nombre de phrases (enregistrements)
|
|
|
|
537 792
|
|
|
Nombre Colonnes (variables)
|
|
|
|
2
|
|
|
Nombre de mots
|
8
|
623
|
680
|
|
23
|
715
|
120
|
Nombre de mots uniques
|
2
|
123
|
681
|
|
16
|
708
|
380
|
Taille sur disque du jeu
de données
|
|
|
|
115 MO
|
|
|
|
Tableau 6 : Caractéristiques du jeu de
données
2- Préparation les données
La préparation des données est une étape
très importante dans la mise en place d' un modèle
d'apprentissage automatique. Elle consiste à nettoyer les données
afin de les
rendre idéales à la formation d'un modèle
d'apprentissage automatique. [ 17 ]
Dans notre étude la préparation des données
prend en compte les étapes suivantes :
a- Minuscules
La mise en minuscules de toutes les données textuelles
est applicable à la plupart des problèmes d'exploration de texte
et de NLP et contribue considérablement à la cohérence de
la sortie attendue. Les minuscules sont un excellent moyen de résoudre
les problèmes de parcimonie.
Voici un exemple de la façon dont les minuscules
résolvent le problème de parcimonie, où les mêmes
mots avec des cas différents correspondent à la même forme
minuscule :
CANADA Canada CanadA
|
Normalisé en minuscule
|
|
TOMCAT Tomcat toMcat
|
tomcat
|
|
Tableau 7 : Exemple de mise en minuscule des mots du
jeu de données b- Suppression du bruit
La suppression du bruit consiste à supprimer les
caractères, les chiffres et les morceaux de texte qui peuvent
interférer avec votre analyse de texte. La suppression du bruit est
l'une des étapes les plus essentielles du prétraitement de texte.
Il dépend également fortement du domaine.
Par exemple, dans les Tweets, le bruit peut être tous
les caractères spéciaux à l'exception des hashtags, car il
signifie des concepts qui peuvent caractériser un Tweet. Le
problème avec le bruit est qu'il peut produire des résultats
incohérents dans vos tâches en aval. Prenons l'exemple ci-dessous
:
Texte avec bruts
|
Texte sans bruits
|
|
..trouble..
|
trouble<
|
trouble
|
trouble
|
|
<a>trouble</a>
|
1.trouble
|
trouble
|
trouble
|
|
Master Data Science - Big Data 37
Tableau 8 : Exemple de suppression de bruts du jeu de
données
Master Data Science - Big Data 38
|