L’intelligence artificielle. Outil de la gestion des connaissances.

par Jamal ELMAHDALI
Ecole de Management de Grenoble - Mastère spécialisé en management des systèmes d'informations 2018

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

5 RECOMMANDATIONS SYNTHÉTISÉES

Rappel de la problématique :

Quelles sont les bonnes pratiques qui permettent de réussir l'implémentation d'une solution basée sur l'intelligence artificielle pour automatiser la classification d'une base documentaire ?

Réponses à la problématique :

Vérifier la quantité de données disponibles

- La quantité minimum d'exemples nécessaires est d'au moins 100 documents pour un corpus spécialisé.

Choisir une méthode de projet agile

- Cette méthode permet de planifier des itérations calquées sur la démarche empirique du Machine Learning.

Choisir un profil technique qui a les capacités d'interpréter les résultats d'un cycle d'apprentissage

- Un profil développeur ne suffit pas, il faut avoir des bases solides en Machine Learning,
notamment être capable de comprendre le comportement du modèle pour ajuster les paramètres d'optimisation, notamment la sélection de variables qui nécessite de comprendre le fonctionnement des méthodes.

Intégrer un spécialiste métier dans l'équipe dès le début du projet et le faire monter en compétence - Le métier doit comprendre le fonctionnement des méthodes de Machine Learning, notamment les spécificités de la classification supervisée de données textuelles. Cela lui permettra de comprendre ce qu'on attend de lui.

Démarrer la première itération avec des méthodes classiques

- Cela permettra de définir une référence et un objectif à atteindre pour les itérations suivantes.

Utiliser de préférence l'outillage disponible sur les plateformes MLaaS

- Les outils présents sur ces framework permettent de construire un modèle plus facilement, grâce à une interface graphique et à des outils d'assistance au paramétrage.

Choisir un algorithme « state of the art » connu pour performer sur la tâche de classification de textes

- Si l'outillage ne permet pas de choisir automatiquement un algorithme et ses paramètres, alors il faut choisir l'algorithme SVM qui est connu pour être le meilleur dans ce type de tâche. Essayer d'abord la version linéaire, puis la version kernel.

Choisir aléatoirement l'échantillon de données et utiliser une méthode de « validation croisée »

- Cela diminuera le risque de distribution déséquilibrée dans l'échantillon d'apprentissage, et
donc de sur-apprentissage.

L'étiquetage des exemples doit être fait par un spécialiste métier

- La phase la plus critique est l'étiquetage manuel des documents qui serviront d'exemples pour

la phase d'apprentissage, il faut donc la traiter avec la plus grande minutie.

Commencer par utiliser la méthode TF.IDF pour sélectionner les variables

- C'est une méthode classique qui donne de bons résultats. La phase de sélection de variables est importante, il ne faut pas hésiter à utiliser d'autres méthodes plus évoluées pour améliorer le modèle comme les méthodes SVD ou LDA.

Mesurer la performance du modèle avec la matrice de confusion

- La matrice de confusion permet de mieux comprendre le comportement du modèle. Pour une métrique en production, choisir la mesure F-mesure.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Qui vit sans folie n'est pas si sage qu'il croit." La Rochefoucault