L’intelligence artificielle. Outil de la gestion des connaissances.

par Jamal ELMAHDALI
Ecole de Management de Grenoble - Mastère spécialisé en management des systèmes d'information 2018

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.6 Spécificités de la classification de textes

Figure 17 - Pré-traitement des données textuelles

Contrairement aux données structurées, les données textuelles doivent subir une modification car elles ne sont pas exploitables par les algorithmes telles quelles, il faut les rendre mathématiquement intelligibles en les transformant en chiffres (Leopold & Kindermann, 2002).

La représentation des documents textuels au format numérique n'est pas simple. Une des particularités du problème de classification de textes est le nombre de variables, qui peut facilement atteindre les dizaines de milliers, car dans l'absolu, une variable peut représenter un mot ou une chaine de caractères. Cela peut poser de nombreux problèmes aux algorithmes qui auront du mal à traiter un espace d'une telle dimension. Le pré-traitement des données répond à cette problématique en réduisant le nombre de variables grâce à différentes techniques (Ikonomakis, et al., 2005). Il a été démontré que la phase de pré-traitement (figure 17) était très importante pour augmenter la qualité d'un classifieur (Ting, 2011).

L'objectif de ce processus sera de déterminer les variables les plus pertinentes pour la classification. En effet, certaines variables sont beaucoup plus susceptibles d'être corrélées à la distribution de classes que d'autres. Une grande variété de méthodes est proposée dans la littérature afin de déterminer les caractéristiques les plus importantes pour la classification (Aggarwal & Zhai, 2012). Le choix de combinaisons appropriées de méthodes de pré-traitement peut apporter une amélioration significative de la précision de la classification (Gunal, 2014). Dans la suite de ce chapitre, nous choisirons les techniques classiques à mettre en oeuvre.

3.6.1 Etapes du pré-traitement des données textuelles

Le processus de pré-traitement est composé habituellement de cinq étapes (figure 18), on commence d'abord à segmenter le texte en token, c'est-à-dire en termes (généralement en mots), ensuite un filtrage est effectué pour ne prendre en compte que les mots qui ont du sens. Puis, une autre technique

permet de réduire le nombre variable en ramenant les mots à leur forme d'origine ou canonique. Chaque texte peut désormais être représenté par un vecteur de nombres qui correspond au nombre d'occurrences de chaque variable (mot). Enfin, la phase la plus importante, celle qui aura le plus d'impact sur la qualité du corpus, est la sélection des variables. On utilisera une technique de pondération non-supervisée (Tellier, 2010).

3.6.1.1 Tokenisation

La tokenisation consiste à découper un texte en mots (mots / phrases) appelés token. Il est ensuite possible de traiter chacun de ces mots pour réduire la taille de chaque texte (Webster & Kit, 1992).

Figure 18 - Etapes du pré-traitement des données textuelles

(Osisanwo, 2017)

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Qui vit sans folie n'est pas si sage qu'il croit." La Rochefoucault