Chapitre 3.
Les méthodes d'agrégations
proposées
3.1 Introduction
Nous présentons dans ce chapitre quatre méthodes
de création ou d'enrichissement d'agrégats, dont trois que nous
avons créées. Leur avantage est qu'elles offrent toutes la
possibilité de créer des agrégats avec recouvrements sans
qu'il soit nécessaire de prédéfinir le nombre
d'agrégats à priori. Elles sont présentées par
ordre « chronologique » de conception. Chaque méthode
proposée est en fait une évolution de la ou des
précédentes. Pour expliquer et justifier ces modifications, il
nous est apparu intéressant d'en décrire la source et les
mécanismes.
Les quatre méthodes proposées sont :
? L'agrégation par détection de cliques,
nommée « Détection de Cliques ». Cette
méthode est avant tout un moyen d'évaluation de la
difficulté du travail et d'apprentissage du réseau à
traiter. Elle peut être considérée comme une implantation
extrêmement simplifiée, de la méthode de C-Finder
[Palla&al-2005].
? La rigidification, méthode que nous avons
créée et nommée « Rigidification Simple
». Cette nouvelle méthode est basée sur des
règles locales. Elle a pour but dans un réseau
particulièrement pollué par des liaisons de validités
diverses de proposer un tri entre liaisons à écarter et liaisons
à conserver. Elle est aussi une phase d'apprentissage sur le
réseau, la nature et la qualité des agrégats que l'on peut
espérer créer. Cette méthode issue d'une théorie
mathématique de
3.2 : Méthode 1 : Détection de cliques 90
Chapitre 3. Les méthodes d'agrégations
proposées
G.C.S.P. (Geometric
Constraint Satisfaction
Problem) est à notre connaissance la première
implantation de cette théorie mathématique
[Belbeze&al-2009-3].
? La rigidification avec régulation de taille des
agrégats, méthode que nous avons créée et
nommée « Rigidification Régulée
». Nous avons notablement amélioré la
méthode précédente « Rigidification Simple
» sur plusieurs points. Se fondant toujours sur la même
théorie mathématique de GCSP, elle permet de conserver l'ensemble
des noeuds dans le graphe à étudier préalablement à
la création d'agrégats et d'améliorer la qualité
des agrégats créés
[Belbeze&al-2009-1].
? L'enrichissement des agrégats, méthode que
nous avons créée et nommée « Enrichissement
par Gravité ». Cette méthode permet de rajouter aux
agrégats connus des noeuds périphériques. Contrairement
aux méthodes présentées dans la partie 1 comme «
méthodes en plusieurs phases » [Shang&al-2007]
[Baumes&al-2005-2], celle qui est présentée ici ne
cherche pas à étendre ou créer des parties en
recouvrement. Cet algorithme a pour but de rattacher de manière
pondérée à un ou plusieurs agrégat(s) des noeuds
isolés. De plus, l'enrichissement par gravité n'est pas une
simple phase participant d'une méthode plus générale, mais
une méthode à part entière. Ainsi, elle sera
validée indépendamment des méthodes par regroupement
[Belbeze&al-2009-2].
Ces méthodes ont toutes les quatre comme point commun
qu'elles partent d'un noeud (ou d'un agrégat de noeuds) pour construire
de manière agrégative l'ensemble recherché. En effet,
elles ne travaillent pas sur l'ensemble du réseau, elles
considèrent un noeud et ses voisins comme espace de première
exploration. Compte tenu de notre objectif qui est de créer des
agrégats de mots sémantiquement cohérents, la
démarche ne nous semble pas pouvoir être séparatiste ou
globale. Au contraire, l'ajout ou la suppression d'un mot pouvant faire
évoluer fortement la cohérence sémantique d'un
agrégat, la méthode se doit d'être une méthode
d'agrégation contextuelle. Le contexte est défini par les mots
déjà présents dans l'agrégat et les mots
susceptibles d'être rajoutés. Les méthodes
présentées ne sont donc ni séparatistes ni globales. De
plus, les méthodes séparatistes sont souvent déterministes
dans le nombre d'agrégats à créer. Compte tenu de la
nature des réseaux et des agrégats recherchés, la
prédétermination de cette valeur ne peut se faire sur de
véritables fondements sémantiques.
|