3.6.1.2 Lemmatisation
Il existe deux façons de fusionner des mots proches
pour diminuer la dimension : la racinisation et la lemmatisation. La
racinisation est plus adaptée à l'anglais alors que la
lemmatisation le sera pour le français.
La racinisation consiste à ramener un mot à sa
racine en se basant sur des règles et un lexique. La lemmatisation
consiste à remplacer un mot par sa forme canonique à partir de
son analyse morphosyntaxique. En d'autres termes, on tente de mettre les verbes
à l'infinitif et les noms au masculin singulier.
L'inconvénient de ces deux méthodes est la perte
de sens.
3.6.1.3 Filtrage
Le filtrage est généralement effectué
afin de supprimer certains mots. Un filtrage courant est la suppression des
mots vides, les stopwords. Ce sont les mots qui apparaissent très
fréquemment dans le texte, ou inversement les mots rarement
présents et qui n'ont que peu de pertinence, tous peuvent être
supprimés. Les seuils sont à déterminer en fonction du
contexte. Les ponctuations et les chiffres sont aussi filtrés, enfin, il
est aussi conseillé de normaliser la case.
3.6.1.4 Vectorisation des textes
La représentation de documents la plus utilisée
est appelée modèle vectoriel. Le principe est d'affecter une
dimension de l'espace à chaque variable présente dans les
documents du jeu de données. Les documents sont
représentés par des vecteurs de mots de grande dimension et
creux, en effet, un nombre important de cellules sera vide eu égard
à l'improbabilité d'avoir les mêmes mots dans tous les
documents.
Chaque document est donc un vecteur dont les
coordonnées sont la suite des nombres présents sur toute la
ligne. L'algorithme va considérer les nombres contenus dans chaque
colonne comme un point de coordonnées dans un espace vectoriel.
Mais cette représentation a des limites, la haute
dimensionnalité, la perte de corrélation avec les mots adjacents
et la perte de relation sémantique existants entre les termes d'un
document. Pour résoudre
Terme 1
|
Terme 2
|
...
|
...
|
Terme ri
|
39
ces problèmes, les méthodes de
pondération de termes sont utilisées pour attribuer une
pondération appropriée (Korde & Mahender, 2012).
3.6.1.5 Sélection des variables
Les variables sont définies, il n'y a plus qu'à
les compter. Le but est de rechercher des variables discriminantes, pour cela
il faut évaluer l'importance des variables dans un texte par rapport
à l'ensemble des documents. La méthode la plus simple est
basée sur la fréquence des variables le TF-IDF (Term
Frequency-Inverse Document Frequency). C'est une méthode de
pondération non-supervisée (Patra & Singh, 2013), le poids de
chaque variable augmente proportionnellement au nombre d'occurrences du mot
dans le document.
D'une part, il va augmenter, pour chaque document,
l'importance des mots présents plusieurs fois dans ce document, et
d'autre part, il va augmenter globalement l'impact des mots présents
dans peu de documents.
Les inconvénients sont le risque d'augmenter le bruit
et de biaiser l'algorithme, ils sont dus à la porosité de la
matrice. Les variables ne sont pas présentes dans tous les documents, on
aura beaucoup de cases à 0. Un autre inconvénient est la non
prise en compte des relations potentiellement précieuses de la
polysémie et de la synonymie (Luo & Li, 2014).
Une alternative basée sur la prédiction se nomme
le Word Embedding, par exemple les méthodes PCA, LSA ou LDA
basées sur la fréquence, ou des méthodes plus
récentes Word2vec ou Fastext. A la différence de TF.IDF, ces
méthodes prennent en compte le contexte de la variable, c-à-d les
variables qui l'entourent. Des variables souvent associées auront un
sens particulier, les vecteurs de comparaison seront plus précis.
Document 1
Document 2
...
...
...
Document m
Tableau 4 - Matrice Document-Termes
40
|