3.5.7.4 L'algorithme
Il y a des algorithmes qui sont sensibles au sur-apprentissage et
inversement il y en a qui sont sujets au sous-apprentissage car trop simples.
C'est pourquoi, lorsque les leviers précédents n'ont pas
été suffisants, le changement d'algorithme devient
nécessaire (Kotsiantis, et al., 2007).
3.5.7.5 La réduction de dimension
La matrice dans laquelle est représenté le jeu
de donnée peut être de très grande dimension, ce qui risque
de consommer énormément de temps et de ressources pour traiter
les données, on nomme ce risque « la malédiction de la
dimension » (Biernat & Lutz, 2015). Il faut réduire la
37
dimension. L'idée principale est de sélectionner
un sous-ensemble de termes caractéristiques du document, et ce, en
gardant les mots dotés des scores ou poids les plus
élevés, en appliquant des mesures confirmant l'importance des
termes sélectionnés. De nombreuses mesures d'évaluation
des termes sont utilisées dans la littérature, en voici quelques
un : le seuillage de fréquence, le Gain d'information, la mesure de x2
et Odds Ratio (Bazzi, 2016).
|