4.2 Aspect technique
4.2.1 Comment préparer les données ?
4.2.1.1 Vérifier les données à
disposition
La première phase consiste à vérifier que
les données à disposition sont exploitables. Il n'existe pas
d'outils pour évaluer la faisabilité du projet en fonction des
données disponibles (Microsoft, 2018). Cependant, on peut estimer qu'un
corpus d'environ 100 000 mots est suffisant pour construire un classifieur
correct, et même moins si le champ lexical est restreint (Antidot, 2018).
En effet, lorsque les variables discriminantes sont clairement identifiables,
le besoin en exemple lors de l'apprentissage est moindre (Sinequa, 2018).
4.2.1.2 Effectuer le prétraitement
Les données textuelles ne sont pas exploitables, il
faut les transformer numériquement. Cette opération
nécessite de réduire le nombre de variables, le plus souvent des
mots, en filtrant ceux qui ne portent pas de sens, et en les rapportant
à leur racine (Microsoft, 2018) (Upfluence, 2018) (Sinequa, 2018). La
première technique est le stopword et la deuxième, «
racinisation ».
La sélection de variables est l'opération la
plus importante du pré-traitement (Microsoft, 2018). Elle consiste
à sélectionner les éléments les plus pertinents qui
caractérisent chaque document (Upfluence, 2018) (Antidot, 2018).
L'implication du métier dans cette phase est primordiale (Sinequa,
2018).
Les techniques de sélection de variables sont
nombreuses. La plus classique se base sur la fréquence des mots,
nommée « tf.idf ». Les méthodes les plus
récentes sont basées sur la prédiction, elles semblent
être plus efficaces (Sinequa, 2018), car elles prennent en compte
l'aspect sémantique du texte en se basant sur une énorme base de
données. Cependant, elles ne sont pas efficaces sur les textes longs
(Upfluence, 2018), par exemple « word2vec » ou « fastext
».
4.2.1.3 Définir le jeu d'entrainement
Il faut définir une stratégie de
répartition de l'échantillon de données qui servira
à la construction du modèle. Il est conseillé de garder
une petite partie, en général 20 %, pour le test final avant mise
en production. Puis de scinder en deux le reste, la plus grande partie servira
à l'apprentissage et doit être étiqueter à la main
avec les métiers, attention c'est une phase sensible (Antidot, 2018)
(Sinequa, 2018).
La technique de « validation croisée »
augmente les chances de construire un bon classifieur (Microsoft, 2018)
(Sinequa, 2018), cette technique permet de diminuer le risque de
surapprentissage.
|