3.5.5 Algorithmes adaptés à la
classification de documents textuels
Certains programmes sont plus performants que d'autres, parmi
ceux qu'on retrouve dans la littérature, le SVM et le Bayésien
Naïf sont souvent en tête pour les tâches de classification de
document textuel (Osisanwo, 2017) (Kotsiantis, et al., 2007) (Mertsalov,
2009).
3.5.5.1 Les SVM
Le SVM16 est un classifieur linéaire,
c-à-d que les données doivent être linéairement
séparables. Les données sont représentées dans un
espace vectoriel. La fonction va rechercher le meilleur séparateur pour
partager les données en deux classes via une ligne, ou un hyperplan, qui
sera placée de façon à maximiser les marges la
séparant des points, représentant les variables, les plus
proches. Si les données ne sont pas linéairement
séparables, on utilise alors la technique du « noyau » qui
consiste à considérer le problème dans un espace de
dimension supérieure, ainsi on augmente grandement les chances de
trouver une séparation.
C'est algorithme de classification binaire, mais il existe
des méthodes pour l'adapter à la classification multi-classes,
notamment la technique « one-vs-all ».
Le SVM est largement accepté dans l'industrie ainsi
que dans le monde académique. Par exemple, Health Discovery Corporation
utilise le SVM dans un outil d'analyse d'images médicales actuellement
sous licence de Pfizer. Dow Chemical utilise le SVM dans ses recherches pour la
détection des valeurs aberrantes et Reuters l'utilise pour la
classification de textes (Mertsalov, 2009).
Ils sont particulièrement bien adaptés aux
problèmes de classification binaire dans des espaces vectoriels de
grande dimension. Les documents textuels étant par définition
composé d'un grand nombre de dimensions, le SVM est donc
particulièrement performant sur ce type de données (Amancio,
2014). Le SVM surclasse les autres algorithmes sur les aspects de
surdimensionnement, de redondance des fonctionnalités, de robustesse et
donc de précision de la classification (Luo & Li, 2014). De plus, il
performe bien avec peu d'exemples.
Malheureusement, il n'est pas incrémental (Tellier,
2010), il ne peut s'adapter au changement de nature inhérents aux
document textuels. Mais d'autres le sont, notamment le Bayésien
naïf.
3.5.5.2 Le Bayésien naïf
C'est un classifieur17 probabiliste, basé
sur le théorème de Bayes. Ces programmes sont simples, rapides et
relativement efficaces pour les données textuelles. Un de leur principal
intérêt est leur
16 Support Vector Machine
17 Modèle de classification
33
caractère quasi-incrémental. Comme le
»modèle» sur lequel il repose n'est fait que de comptes de
nombres d'occurrences, il est très facile à mettre à jour
si de nouveaux exemples sont disponibles. C'est probablement pour cela qu'ils
sont utilisés pour ranger en »spam» ou »non spam»
des emails qui arrivent en flux continus dans les gestionnaires de courriers
électroniques (Tellier, 2010).
Malgré le fait que l'algorithme suppose une
indépendance entre les caractéristiques d'un exemple
d'entraînement, son efficacité rivalise tout de même avec
des algorithmes plus puissants. Il peut être considéré
comme un très bon classifieur (Ting, 2011).
|