Memoire Online - L’intelligence artificielle. Outil de la gestion des connaissances.

Il existe deux façons de fusionner des mots proches pour diminuer la dimension : la racinisation et la lemmatisation. La racinisation est plus adaptée à l'anglais alors que la lemmatisation le sera pour le français.

La racinisation consiste à ramener un mot à sa racine en se basant sur des règles et un lexique. La lemmatisation consiste à remplacer un mot par sa forme canonique à partir de son analyse morphosyntaxique. En d'autres termes, on tente de mettre les verbes à l'infinitif et les noms au masculin singulier.

3.6.1.3 Filtrage

Le filtrage est généralement effectué afin de supprimer certains mots. Un filtrage courant est la suppression des mots vides, les stopwords. Ce sont les mots qui apparaissent très fréquemment dans le texte, ou inversement les mots rarement présents et qui n'ont que peu de pertinence, tous peuvent être supprimés. Les seuils sont à déterminer en fonction du contexte. Les ponctuations et les chiffres sont aussi filtrés, enfin, il est aussi conseillé de normaliser la case.

3.6.1.4 Vectorisation des textes

La représentation de documents la plus utilisée est appelée modèle vectoriel. Le principe est d'affecter une dimension de l'espace à chaque variable présente dans les documents du jeu de données. Les documents sont représentés par des vecteurs de mots de grande dimension et creux, en effet, un nombre important de cellules sera vide eu égard à l'improbabilité d'avoir les mêmes mots dans tous les documents.

Chaque document est donc un vecteur dont les coordonnées sont la suite des nombres présents sur toute la ligne. L'algorithme va considérer les nombres contenus dans chaque colonne comme un point de coordonnées dans un espace vectoriel.

Mais cette représentation a des limites, la haute dimensionnalité, la perte de corrélation avec les mots adjacents et la perte de relation sémantique existants entre les termes d'un document. Pour résoudre

Terme 1

Terme 2

...

Terme ri

ces problèmes, les méthodes de pondération de termes sont utilisées pour attribuer une pondération appropriée (Korde & Mahender, 2012).

3.6.1.5 Sélection des variables

Les variables sont définies, il n'y a plus qu'à les compter. Le but est de rechercher des variables discriminantes, pour cela il faut évaluer l'importance des variables dans un texte par rapport à l'ensemble des documents. La méthode la plus simple est basée sur la fréquence des variables le TF-IDF (Term Frequency-Inverse Document Frequency). C'est une méthode de pondération non-supervisée (Patra & Singh, 2013), le poids de chaque variable augmente proportionnellement au nombre d'occurrences du mot dans le document.

D'une part, il va augmenter, pour chaque document, l'importance des mots présents plusieurs fois dans ce document, et d'autre part, il va augmenter globalement l'impact des mots présents dans peu de documents.

Les inconvénients sont le risque d'augmenter le bruit et de biaiser l'algorithme, ils sont dus à la porosité de la matrice. Les variables ne sont pas présentes dans tous les documents, on aura beaucoup de cases à 0. Un autre inconvénient est la non prise en compte des relations potentiellement précieuses de la polysémie et de la synonymie (Luo & Li, 2014).

Une alternative basée sur la prédiction se nomme le Word Embedding, par exemple les méthodes PCA, LSA ou LDA basées sur la fréquence, ou des méthodes plus récentes Word2vec ou Fastext. A la différence de TF.IDF, ces méthodes prennent en compte le contexte de la variable, c-à-d les variables qui l'entourent. Des variables souvent associées auront un sens particulier, les vecteurs de comparaison seront plus précis.

L’intelligence artificielle. Outil de la gestion des connaissances.

3.6.1.2 Lemmatisation

3.6.1.3 Filtrage

3.6.1.4 Vectorisation des textes

3.6.1.5 Sélection des variables