L’intelligence artificielle. Outil de la gestion des connaissances.

par Jamal ELMAHDALI
Ecole de Management de Grenoble - Mastère spécialisé en management des systèmes d'information 2018

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

4.2.2 Choix de l'algorithme

En référence au théorème « No Free launch », il n'y a pas de meilleur algorithme qui s'appliquerait sur tous les problèmes, il faut donc faire un choix (Upfluence, 2018). Les algorithmes « state of the art » sont connus et reconnus pour leur performance, notamment pour la classification textuelle (Sinequa, 2018). C'est le cas par exemple pour la famille d'algorithme SVM et les réseaux bayésiens (Upfluence, 2018). Le SVM est robuste mais ne peut pas se mettre à jour, le Bayésien Naïf performe bien avec peu de données et se met à jour facilement.

Il existe aujourd'hui des techniques qui permettent de sélectionner automatiquement le meilleur algorithme ainsi que les paramètres optimisés en fonction des données en entrée (Microsoft, 2018) (Upfluence, 2018) (Sinequa, 2018). Par exemple la technique de « Grid Search » associée à la « validation croisée » permet de tester dans un intervalle prédéfini, à la main, tous les algorithmes et leurs paramètres.

4.2.3 Validation et régularisation du classifieur

4.2.3.1 La validation

Il y a différentes techniques de validation du classifieur, la validation permet de construire le modèle en charge en cherchant pourquoi il réagit de telle ou telle façon. C'est ce qui guidera vers les paramètres à modifier (Sinequa, 2018).

La technique de validation classique consiste à utiliser plusieurs mesures, il est conseillé de les utiliser dans l'ordre suivant (Microsoft, 2018) (Upfluence, 2018) :

- Le taux de réussite pour s'assurer que le classifieur fonctionne bien.

- La matrice de confusion pour analyser le fonctionnement du classifieur pour voir en détail les

erreurs et leur origine.

- La F-Mesure (F1-score) permet d'avoir une métrique de performance comme mesure de performance pour la supervision.

Le taux de réussite ne donne pas d'informations sur la distribution des classes. Lors de la construction du modèle, il faudra impérativement analyser la matrice de confusion pour déterminer les leviers à utiliser pour régulariser le modèle. C'est encore plus important si le classifieur est multi-classes (Microsoft, 2018) (Upfluence, 2018).

4.2.3.2 La régularisation

Cette phase consiste à revenir sur certains paramètres. Si l'algorithme a été sélectionné avec une méthode automatique, la régularisation consistera surtout à améliorer la qualité du jeu d'entrainement, par exemple, en améliorant l'apprentissage, en ajoutant de nouveaux exemples (Antidot, 2018), ou en changeant la technique de sélection de variable comme le « word2vec » (Upfluence, 2018).

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Piètre disciple, qui ne surpasse pas son maitre !" Léonard de Vinci