WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

L’intelligence artificielle. Outil de la gestion des connaissances.


par Jamal ELMAHDALI
Ecole de Management de Grenoble - Mastère spécialisé en management des systèmes d'information 2018
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.5.5 Algorithmes adaptés à la classification de documents textuels

Certains programmes sont plus performants que d'autres, parmi ceux qu'on retrouve dans la littérature, le SVM et le Bayésien Naïf sont souvent en tête pour les tâches de classification de document textuel (Osisanwo, 2017) (Kotsiantis, et al., 2007) (Mertsalov, 2009).

3.5.5.1 Les SVM

Le SVM16 est un classifieur linéaire, c-à-d que les données doivent être linéairement séparables. Les données sont représentées dans un espace vectoriel. La fonction va rechercher le meilleur séparateur pour partager les données en deux classes via une ligne, ou un hyperplan, qui sera placée de façon à maximiser les marges la séparant des points, représentant les variables, les plus proches. Si les données ne sont pas linéairement séparables, on utilise alors la technique du « noyau » qui consiste à considérer le problème dans un espace de dimension supérieure, ainsi on augmente grandement les chances de trouver une séparation.

C'est algorithme de classification binaire, mais il existe des méthodes pour l'adapter à la classification multi-classes, notamment la technique « one-vs-all ».

Le SVM est largement accepté dans l'industrie ainsi que dans le monde académique. Par exemple, Health Discovery Corporation utilise le SVM dans un outil d'analyse d'images médicales actuellement sous licence de Pfizer. Dow Chemical utilise le SVM dans ses recherches pour la détection des valeurs aberrantes et Reuters l'utilise pour la classification de textes (Mertsalov, 2009).

Ils sont particulièrement bien adaptés aux problèmes de classification binaire dans des espaces vectoriels de grande dimension. Les documents textuels étant par définition composé d'un grand nombre de dimensions, le SVM est donc particulièrement performant sur ce type de données (Amancio, 2014). Le SVM surclasse les autres algorithmes sur les aspects de surdimensionnement, de redondance des fonctionnalités, de robustesse et donc de précision de la classification (Luo & Li, 2014). De plus, il performe bien avec peu d'exemples.

Malheureusement, il n'est pas incrémental (Tellier, 2010), il ne peut s'adapter au changement de nature inhérents aux document textuels. Mais d'autres le sont, notamment le Bayésien naïf.

3.5.5.2 Le Bayésien naïf

C'est un classifieur17 probabiliste, basé sur le théorème de Bayes. Ces programmes sont simples, rapides et relativement efficaces pour les données textuelles. Un de leur principal intérêt est leur

16 Support Vector Machine

17 Modèle de classification

33

caractère quasi-incrémental. Comme le »modèle» sur lequel il repose n'est fait que de comptes de nombres d'occurrences, il est très facile à mettre à jour si de nouveaux exemples sont disponibles. C'est probablement pour cela qu'ils sont utilisés pour ranger en »spam» ou »non spam» des emails qui arrivent en flux continus dans les gestionnaires de courriers électroniques (Tellier, 2010).

Malgré le fait que l'algorithme suppose une indépendance entre les caractéristiques d'un exemple d'entraînement, son efficacité rivalise tout de même avec des algorithmes plus puissants. Il peut être considéré comme un très bon classifieur (Ting, 2011).

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Les esprits médiocres condamnent d'ordinaire tout ce qui passe leur portée"   François de la Rochefoucauld