Deuxième partie.
Nos propositions pour la création
d'agrégats par rigidification et
enrichissement
Cette seconde partie présente notre propre contribution
à la recherche sur les méthodes de regroupement et de validation
: la création d'agrégats par rigidification et enrichissement.
Les recherches présentées dans le chapitre
précédent bien que très nombreuses et en pleine
évolution, n'offrent pas de solution adaptée au contexte
précis des grands graphes de terrain de mots. En effet, même le
procédé C-Finder [Palla&al-2005] qui permet
d'avoir des recouvrement sans avoir à prédéterminer le
nombre de regroupements n'est pas, de toute façon, adapté aux
réseaux de grande taille qui présentent des zones de faible
densité et d'autres de très forte densité.
Il était donc nécessaire d'imaginer des
solutions spécifiques. Les méthodes que nous avons conçues
- la rigidification, la Rigidification Régulée et
l'enrichissement d'agrégats-sont précisément
adaptées à la création d'agrégats de mots
sémantiquement cohérents dans les grands graphes de terrain car
elles respectent les règles suivantes :
? ne pas prédéfinir le nombre d'agrégats
à créer ;
? n'étudier que des kilo-graphes ou mega-graphes (nous
nous situons volontairement uniquement dans l'espace des grands graphes) ;
? n'étudier que des graphes de mots utilisés
dans des requêtes d'utilisateurs. Nous n'avons pas la prétention
de proposer des méthodes de regroupement efficientes, quel que soit la
nature du réseau. La raison pour laquelle nous nous sommes
concentrés sur un seul type de réseau (les réseaux de mots
issus de requêtes) est que ce travail se positionne comme la
première brique d'un système utilisant des agrégats de
mots tel que présenté dans l'avant-propos ;
2.6. Conclusion 88
Deuxième partie. Nos propositions pour la création
d'agrégats par rigidification et enrichissement
? cibler des agrégats ayant une forte cohérence
sémantique, ce qui est le critère exclusif de qualité
(celui des méthodes non spécifiques aux réseaux de mots
est généralement la modularité ou d'autres
caractéristiques ayant servi à créer l'agrégat).
Cette seconde partie est organisée en deux chapitres :
? Le chapitre 3 dans lequel nous présentons l'ensemble
des méthodes d'agrégation que nous avons mises au point :
o Détection de Cliques ;
o Rigidification Simple ;
o Rigidification Régulée ;
o Enrichissement par Gravité.
? Le chapitre 4 où nous validons la valeur
sémantique des agrégats en utilisant pour cela plusieurs
procédés :
o Un procédé que nous avons inventé :
- Validation par comparaison de comportement de
requête.
o trois procédés que nous avons adaptés
:
- Validation par comparaison de qualité de requête
;
- Validation par comparaison de distance entre documents
retournés ;
- Validation manuelle.
Notre travail porte donc autant sur la recherche d'une
méthode d'agrégation respectant une cohérence
sémantique que sur un système de mesure de cette
cohérence.
3.1 : Introduction 89
Chapitre 3. Les méthodes d'agrégations
proposées
|