4.2.2 Choix de l'algorithme
En référence au théorème « No
Free launch », il n'y a pas de meilleur algorithme qui s'appliquerait sur
tous les problèmes, il faut donc faire un choix (Upfluence, 2018). Les
algorithmes « state of the art » sont connus et reconnus pour leur
performance, notamment pour la classification textuelle (Sinequa, 2018). C'est
le cas par exemple pour la famille d'algorithme SVM et les réseaux
bayésiens (Upfluence, 2018). Le SVM est robuste mais ne peut pas se
mettre à jour, le Bayésien Naïf performe bien avec peu de
données et se met à jour facilement.
46
Il existe aujourd'hui des techniques qui permettent de
sélectionner automatiquement le meilleur algorithme ainsi que les
paramètres optimisés en fonction des données en
entrée (Microsoft, 2018) (Upfluence, 2018) (Sinequa, 2018). Par exemple
la technique de « Grid Search » associée à la «
validation croisée » permet de tester dans un intervalle
prédéfini, à la main, tous les algorithmes et leurs
paramètres.
4.2.3 Validation et régularisation du
classifieur
4.2.3.1 La validation
Il y a différentes techniques de validation du
classifieur, la validation permet de construire le modèle en charge en
cherchant pourquoi il réagit de telle ou telle façon. C'est ce
qui guidera vers les paramètres à modifier (Sinequa, 2018).
La technique de validation classique consiste à
utiliser plusieurs mesures, il est conseillé de les utiliser dans
l'ordre suivant (Microsoft, 2018) (Upfluence, 2018) :
- Le taux de réussite pour s'assurer que le classifieur
fonctionne bien.
- La matrice de confusion pour analyser le fonctionnement du
classifieur pour voir en détail les
erreurs et leur origine.
- La F-Mesure (F1-score) permet d'avoir une métrique de
performance comme mesure de performance pour la supervision.
Le taux de réussite ne donne pas d'informations sur la
distribution des classes. Lors de la construction du modèle, il faudra
impérativement analyser la matrice de confusion pour déterminer
les leviers à utiliser pour régulariser le modèle. C'est
encore plus important si le classifieur est multi-classes (Microsoft, 2018)
(Upfluence, 2018).
4.2.3.2 La régularisation
Cette phase consiste à revenir sur certains
paramètres. Si l'algorithme a été
sélectionné avec une méthode automatique, la
régularisation consistera surtout à améliorer la
qualité du jeu d'entrainement, par exemple, en améliorant
l'apprentissage, en ajoutant de nouveaux exemples (Antidot, 2018), ou en
changeant la technique de sélection de variable comme le « word2vec
» (Upfluence, 2018).
|