5 RECOMMANDATIONS SYNTHÉTISÉES
Rappel de la problématique :
Quelles sont les bonnes pratiques qui permettent de
réussir l'implémentation d'une solution basée sur
l'intelligence artificielle pour automatiser la classification d'une base
documentaire ?
Réponses à la problématique :
Vérifier la quantité de données
disponibles
- La quantité minimum d'exemples nécessaires est
d'au moins 100 documents pour un corpus spécialisé.
Choisir une méthode de projet agile
- Cette méthode permet de planifier des
itérations calquées sur la démarche empirique du Machine
Learning.
Choisir un profil technique qui a les capacités
d'interpréter les résultats d'un cycle
d'apprentissage
- Un profil développeur ne suffit pas, il faut avoir
des bases solides en Machine Learning, notamment être capable de
comprendre le comportement du modèle pour ajuster les paramètres
d'optimisation, notamment la sélection de variables qui nécessite
de comprendre le fonctionnement des méthodes.
Intégrer un spécialiste métier dans
l'équipe dès le début du projet et le faire monter en
compétence - Le métier doit comprendre le fonctionnement
des méthodes de Machine Learning, notamment les
spécificités de la classification supervisée de
données textuelles. Cela lui permettra de comprendre ce qu'on attend de
lui.
Démarrer la première itération avec
des méthodes classiques
- Cela permettra de définir une référence et
un objectif à atteindre pour les itérations suivantes.
Utiliser de préférence l'outillage
disponible sur les plateformes MLaaS
- Les outils présents sur ces framework permettent de
construire un modèle plus facilement, grâce à une interface
graphique et à des outils d'assistance au paramétrage.
Choisir un algorithme « state of the art »
connu pour performer sur la tâche de classification de textes
- Si l'outillage ne permet pas de choisir automatiquement un
algorithme et ses paramètres, alors il faut choisir l'algorithme SVM qui
est connu pour être le meilleur dans ce type de tâche. Essayer
d'abord la version linéaire, puis la version kernel.
Choisir aléatoirement l'échantillon de
données et utiliser une méthode de « validation
croisée »
- Cela diminuera le risque de distribution
déséquilibrée dans l'échantillon d'apprentissage,
et donc de sur-apprentissage.
L'étiquetage des exemples doit être fait par
un spécialiste métier
49
- La phase la plus critique est l'étiquetage manuel des
documents qui serviront d'exemples pour
la phase d'apprentissage, il faut donc la traiter avec la plus
grande minutie.
Commencer par utiliser la méthode TF.IDF pour
sélectionner les variables
- C'est une méthode classique qui donne de bons
résultats. La phase de sélection de variables est importante, il
ne faut pas hésiter à utiliser d'autres méthodes plus
évoluées pour améliorer le modèle comme les
méthodes SVD ou LDA.
Mesurer la performance du modèle avec la matrice
de confusion
- La matrice de confusion permet de mieux comprendre le
comportement du modèle. Pour une métrique en production, choisir
la mesure F-mesure.
50
|