3.6 Conclusion
Dans ce chapitre nous avons présenté trois
méthodes de création d'agrégats et une méthode
d'enrichissement d'agrégats. L'usage de plusieurs méthodes
différentes sur un seul type de réseau (les réseaux de
mots de grande taille), nous fournit des enseignements sur la nature interne de
ces réseaux.
La méthode 1 ou détection de
cliques
La méthode de création d'agrégats par
détection de cliques a permis de valider le fait que nous ne pouvions
faire l'impasse sur la pondération des liaisons. Une requête seule
(sur plusieurs millions de requêtes) crée un agrégat de
plusieurs mots sans que celui-ci soit valide d'un point de vue statistique.
La méthode 2 ou méthode de
Rigidification Simple
La méthode de Rigidification Simple a permis de cerner
que le regroupement contextuel était plus performant que la
détection de cliques. Le contexte tenant compte du poids des mots et du
poids relatif des liaisons. Cependant plusieurs problématiques sont
alors apparues :
o les agrégats de très grande taille (plus de 100
mots) offrent peu de cohérence sémantique ;
3.6 : Conclusion 119
Chapitre 3. Les méthodes d'agrégations
proposées
o la nécessité de supprimer manuellement les
mots vides (articles, conjonctions de coordination, ...) pour ne pas
créer des agrégats de taille trop importante nous fait
également perdre des indications parfois précieuses ;
o certains mots faiblement utilisés deviennent de
véritables verrous (ainsi par exemple, les mots mal orthographiés
utilisés une seule fois, entretiennent des liens correspondant à
100% de leur usage ; ils participent donc de manière extrêmement
active à la construction d'agrégats ; l'agrégat qui se
veut un regroupement basé sur l'utilisation statistique des mots entre
eux devient en fait un objet dépendant d'erreurs de frappe ou de
problèmes d'orthographe dont la l'utilisation est très faible
voire unique).
La méthode 3 ou Méthode de
Rigidification Régulée
La méthode de Rigidification Régulée est
une tentative de réponse à l'ensemble des problèmes
rencontrés par la mise en oeuvre de la méthode 2. Plus complexe,
elle est une évolution de la méthode de Rigidification Simple et
s'appuie, comme elle, sur les méthodes de rigidification de graphe
proposées par Hoffman [Hoffman&al-1999] et
développées par Jermann
[Jermann&al-2004].
Cette méthode propose de changer progressivement les
règles à la fois de la rigidification et de l'appartenance au
graphe en prenant en compte le contexte, afin de contenir la taille de
l'agrégat. Ainsi, les conditions permettant à un noeud de
rejoindre un agrégat ne sont plus statiques.
Si l'agrégat est trop peuplé, les règles
vont changer : les mots de faible usage et ceux très usités vont
être progressivement écartés. Les conditions de validation
des liaisons sont, elles aussi, modifiées de façon à
contenir la taille de chacun des agrégats.
Bien que développée et validée uniquement
sur des graphes de mots, cette méthode paraît pouvoir être
utilisée dans les réseaux sociaux, le nombre de Dunbar
[Dunbar-1992] servant alors de TMA.
La méthode 4 ou méthode
d'Enrichissements par Gravité
La méthode d'Enrichissements par Gravité,
cherche à ordonner les mots dans des orbites de distance variable de
l'agrégat. À titre d'exemple, la méthode de Rigidification
Régulée a écarté des agrégats bon nombre de
mots ayant été très peu utilisés. Il convenait donc
de mettre au point une méthode capable de les réinsérer
dans des agrégats enrichis. Cette technique est aussi utilisable si les
agrégats sont donnés ou connus. C'est sur ce type d'exercice que
nous la testons dans le chapitre suivant.
Ces méthodes peuvent encore évoluer,
l'adaptation de la méthode aux réseaux de mots issus de
requêtes pour la création d'agrégats sémantiquement
cohérents est une démarche que nous n'avons qu'entamée.
Les méthodes doivent aussi pouvoir être comparées et
testées. Chaque modification doit être évaluée.
L'évaluation de la cohérence sémantique d'un
agrégat n'est pas simple. C'est sur cet aspect de notre travail que
porte le chapitre suivant.
3.6 : Conclusion 120
Chapitre 3. Les méthodes d'agrégations
proposées
Méthodes
|
Ref
|
Famille
|
Graphe
|
Nb d'agrégats
|
Les +/-
|
Résumé
|
1. Détection de cliques
|
|
Recherche de forme : recherche de clique
|
orienté
|
non orienté
|
Non prédéterminé = Egal au nombre de
cliques
|
+ Faible coût computationnel
- Faible cohérence sémantique
- Obligation de prétraitements
comme la suppression des mots vides
|
Chaque clique devient un agrégat
|
|
non pondéré
|
|
|
[Belbeze&al-2009-3]
[Belbeze&al-2009-4]
|
Méthode basée sur HLS et GCSP
|
orienté
|
non orienté
|
Non prédéterminé
|
+ Méthode paramétrable
- Valeurs des paramètres
critiques et difficiles à déterminer
- Obligation de prétraitements comme la suppression
des mots vides et de certaines expressions
|
Agrégation autour d'une diade par création
d'une composante bi-connexe
|
|
non pondéré
|
|
|
[Belbeze&al-2009-1]
|
Méthode basée sur HLS et GCSP
|
orienté
|
.Eentd
|
Non prédéterminé
|
+ Méthode paramétrable
+ Taille maximale contrôlée des
agrégats
+ Paramètres déterminés par l'analyse du
graphe et l'autorégulation
? Laisse des noeuds hors agrégats
- Coût computationnel élevé
|
Agrégation autour d'une diade par création
d'une composante bi-connexe avec règles
P g de validation de la présence des noeuds et des
liaisons régulées pour limiter la taille maximale des
agrégats sans compromettre la création d'agrégats de
petite taille
|
|
.._.. _pc
tiares
non ,._n__._
|
|
|
[Belbeze&al-2009-2]
|
Méthode
d'enrichissement de noyau
|
orienté
|
non orienté
|
N/A
|
+ Faible coût computationnel
+ Méthode permettant une
appartenance pondérée du noeud à
plusieurs agrégats
? Permet de diminuer le nombre de noeuds hors
agrégats
|
Rattachement des noeuds « hors agrégats »
aux agrégats « noyaux » par
l'utilisation d'un coefficient d'attraction. Ce coefficient
est proportionnel au degré du noeud
externe en attraction vers les noeuds interne au graphe et
au nombre de noeuds
internes liés au noeud externe. Il est inversement
proportionnel au degré du noeud externe.
|
|
pondéré
|
non pondéré
|
|
Tableau 3.3 : Synthèse des quatre méthodes
proposées.
4.2 : Présentation des réseaux testés 121
Chapitre 4. Expérimentations, validations
sémantiques et résultats de mesure
|