II. Approche et principaux objectifs
L'essentiel de notre approche consiste à agréger
les noeuds d'un graphe ; chaque agrégat obtenu devant correspondre
à un ensemble présentant une cohérence sémantique.
Notre approche se propose de traiter principalement les problématiques
suivantes :
? Créer des agrégats de mots pouvant
contenir des parties en recouvrement. Une orthographe peut appartenir
à plusieurs thématiques. Pour cette raison nous étudions
plus particulièrement les méthodes de regroupement avec
recouvrements.
? Définir une technique de regroupement
garantissant une forte cohérence sémantique. Pour cela nous
proposons et utilisons plusieurs techniques de regroupement avec recouvrements
ou de création de recouvrements et de validation sémantique dont
nous comparerons les résultats.
? Caractériser les agrégats pour comprendre
les différences de cohérence sémantique. Nous
recherchons par une évaluation sémantique en fonction de
caractéristiques et plus particulièrement de la taille des
agrégats, à déterminer ce qui fait la différence
entre des agrégats de forte et de faible
homogénéité sémantique.
? Créer des agrégats non pollués.
Les mots ne sont pas tous égaux entre eux en tant que signifiants.
Les mots de liaisons ou les articles ne sont pas, par
III. Plan du mémoire 25
Introduction générale
exemple, porteurs de sens. Nous rechercherons une technique de
regroupement qui a la capacité d'écarter ou de conserver ces mots
en fonction de leurs usages dans la globalité du graphe et dans la
relation locale aux mots de l'agrégat.
? Proposer des techniques de validation de la
cohérence sémantique des agrégats. Nous proposons et
mettons en oeuvre plusieurs techniques de validation de la cohérence
sémantique des agrégats, notamment une technique de validation
basée sur la comparaison du « comportement » d'agrégats
avec le comportement « des requêtes d'utilisateurs » et
d'agrégats aléatoires lorsqu'ils sont utilisés comme
élément de requêtes dans des moteurs de recherche. D'autres
techniques automatiques, manuelles ou semi manuelles sont utilisées et
comparées.
III. Plan du mémoire
Ce mémoire est constitué de deux parties.
La première partie présente le contexte de notre
travail et l'état de l'art des travaux connexes. Cette première
partie est divisée en deux chapitres :
? Dans le premier chapitre, nous introduisons le vocabulaire
utilisé dans le mémoire.
? Dans le second chapitre, nous proposons un état de
l'art des méthodes utilisées pour créer des
communautés dans un graphe. Nous étudierons ces
différentes propositions en fonction de notre objectif. Dans notre cas
la nature des objets manipulés - des agrégats de mots
représentant un thème - nous ont amenés à classer
ces méthodes en deux familles principales : les méthodes sans
recouvrements et les méthodes avec recouvrements.
Dans une deuxième partie nous décrivons notre
contribution. Fondée sur une recherche orientée sur la
création de regroupements de mots, elle ne prétend en aucun cas
se positionner comme une technique universelle. Cette deuxième partie
est partagée en deux chapitres.
? Dans le troisième chapitre, nous exposons plusieurs
techniques de regroupement. Nous justifions l'usage d'une nouvelle technique
fondée sur la résolution de contraintes ainsi que ses
évolutions et des techniques complémentaires.
? Dans le quatrième chapitre, nous présentons
plusieurs techniques d'évaluation de la validité
sémantique des agrégats de mots obtenus par les méthodes
du chapitre précédents.
Enfin, dans un cinquième chapitre, nous faisons
partager au lecteur quelques réflexions, retours d'expériences et
sentiments personnels sur notre expérience.
1.1. Introduction 26
Première partie. Définitions et état de
l'art
|