Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain

( Télécharger le fichier original )
par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Deuxième partie.

Nos propositions pour la création

d'agrégats par rigidification et

enrichissement

Cette seconde partie présente notre propre contribution à la recherche sur les méthodes de regroupement et de validation : la création d'agrégats par rigidification et enrichissement. Les recherches présentées dans le chapitre précédent bien que très nombreuses et en pleine évolution, n'offrent pas de solution adaptée au contexte précis des grands graphes de terrain de mots. En effet, même le procédé C-Finder [Palla&al-2005] qui permet d'avoir des recouvrement sans avoir à prédéterminer le nombre de regroupements n'est pas, de toute façon, adapté aux réseaux de grande taille qui présentent des zones de faible densité et d'autres de très forte densité.

Il était donc nécessaire d'imaginer des solutions spécifiques. Les méthodes que nous avons conçues - la rigidification, la Rigidification Régulée et l'enrichissement d'agrégats-sont précisément adaptées à la création d'agrégats de mots sémantiquement cohérents dans les grands graphes de terrain car elles respectent les règles suivantes :

? ne pas prédéfinir le nombre d'agrégats à créer ;

? n'étudier que des kilo-graphes ou mega-graphes (nous nous situons volontairement uniquement dans l'espace des grands graphes) ;

? n'étudier que des graphes de mots utilisés dans des requêtes d'utilisateurs. Nous n'avons pas la prétention de proposer des méthodes de regroupement efficientes, quel que soit la nature du réseau. La raison pour laquelle nous nous sommes concentrés sur un seul type de réseau (les réseaux de mots issus de requêtes) est que ce travail se positionne comme la première brique d'un système utilisant des agrégats de mots tel que présenté dans l'avant-propos ;

2.6. Conclusion 88

Deuxième partie. Nos propositions pour la création d'agrégats par rigidification et enrichissement

? cibler des agrégats ayant une forte cohérence sémantique, ce qui est le critère exclusif de qualité (celui des méthodes non spécifiques aux réseaux de mots est généralement la modularité ou d'autres caractéristiques ayant servi à créer l'agrégat).

Cette seconde partie est organisée en deux chapitres :

? Le chapitre 3 dans lequel nous présentons l'ensemble des méthodes d'agrégation que nous avons mises au point :

o Détection de Cliques ;

o Rigidification Simple ;

o Rigidification Régulée ;

o Enrichissement par Gravité.

? Le chapitre 4 où nous validons la valeur sémantique des agrégats en utilisant pour cela plusieurs procédés :

o Un procédé que nous avons inventé :

- Validation par comparaison de comportement de requête.

o trois procédés que nous avons adaptés :

- Validation par comparaison de qualité de requête ;

- Validation par comparaison de distance entre documents

retournés ;

- Validation manuelle.

Notre travail porte donc autant sur la recherche d'une méthode d'agrégation respectant une cohérence sémantique que sur un système de mesure de cette cohérence.

3.1 : Introduction 89

Chapitre 3. Les méthodes d'agrégations proposées

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Et il n'est rien de plus beau que l'instant qui précède le voyage, l'instant ou l'horizon de demain vient nous rendre visite et nous dire ses promesses" Milan Kundera