L’intelligence artificielle. Outil de la gestion des connaissances.

par Jamal ELMAHDALI
Ecole de Management de Grenoble - Mastère spécialisé en management des systèmes d'information 2018

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

4.2 Aspect technique

4.2.1 Comment préparer les données ?

4.2.1.1 Vérifier les données à disposition

La première phase consiste à vérifier que les données à disposition sont exploitables. Il n'existe pas d'outils pour évaluer la faisabilité du projet en fonction des données disponibles (Microsoft, 2018). Cependant, on peut estimer qu'un corpus d'environ 100 000 mots est suffisant pour construire un classifieur correct, et même moins si le champ lexical est restreint (Antidot, 2018). En effet, lorsque les variables discriminantes sont clairement identifiables, le besoin en exemple lors de l'apprentissage est moindre (Sinequa, 2018).

4.2.1.2 Effectuer le prétraitement

Les données textuelles ne sont pas exploitables, il faut les transformer numériquement. Cette opération nécessite de réduire le nombre de variables, le plus souvent des mots, en filtrant ceux qui ne portent pas de sens, et en les rapportant à leur racine (Microsoft, 2018) (Upfluence, 2018) (Sinequa, 2018). La première technique est le stopword et la deuxième, « racinisation ».

La sélection de variables est l'opération la plus importante du pré-traitement (Microsoft, 2018). Elle consiste à sélectionner les éléments les plus pertinents qui caractérisent chaque document (Upfluence, 2018) (Antidot, 2018). L'implication du métier dans cette phase est primordiale (Sinequa, 2018).

Les techniques de sélection de variables sont nombreuses. La plus classique se base sur la fréquence des mots, nommée « tf.idf ». Les méthodes les plus récentes sont basées sur la prédiction, elles semblent être plus efficaces (Sinequa, 2018), car elles prennent en compte l'aspect sémantique du texte en se basant sur une énorme base de données. Cependant, elles ne sont pas efficaces sur les textes longs (Upfluence, 2018), par exemple « word2vec » ou « fastext ».

4.2.1.3 Définir le jeu d'entrainement

Il faut définir une stratégie de répartition de l'échantillon de données qui servira à la construction du modèle. Il est conseillé de garder une petite partie, en général 20 %, pour le test final avant mise en production. Puis de scinder en deux le reste, la plus grande partie servira à l'apprentissage et doit être étiqueter à la main avec les métiers, attention c'est une phase sensible (Antidot, 2018) (Sinequa, 2018).

La technique de « validation croisée » augmente les chances de construire un bon classifieur (Microsoft, 2018) (Sinequa, 2018), cette technique permet de diminuer le risque de surapprentissage.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"En amour, en art, en politique, il faut nous arranger pour que notre légèreté pèse lourd dans la balance." Sacha Guitry