WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain

( Télécharger le fichier original )
par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.6 Conclusion

Dans ce chapitre nous avons présenté trois méthodes de création d'agrégats et une méthode d'enrichissement d'agrégats. L'usage de plusieurs méthodes différentes sur un seul type de réseau (les réseaux de mots de grande taille), nous fournit des enseignements sur la nature interne de ces réseaux.

La méthode 1 ou détection de cliques

La méthode de création d'agrégats par détection de cliques a permis de valider le fait que nous ne pouvions faire l'impasse sur la pondération des liaisons. Une requête seule (sur plusieurs millions de requêtes) crée un agrégat de plusieurs mots sans que celui-ci soit valide d'un point de vue statistique.

La méthode 2 ou méthode de Rigidification Simple

La méthode de Rigidification Simple a permis de cerner que le regroupement contextuel était plus performant que la détection de cliques. Le contexte tenant compte du poids des mots et du poids relatif des liaisons. Cependant plusieurs problématiques sont alors apparues :

o les agrégats de très grande taille (plus de 100 mots) offrent peu de cohérence sémantique ;

3.6 : Conclusion 119

Chapitre 3. Les méthodes d'agrégations proposées

o la nécessité de supprimer manuellement les mots vides (articles, conjonctions de coordination, ...) pour ne pas créer des agrégats de taille trop importante nous fait également perdre des indications parfois précieuses ;

o certains mots faiblement utilisés deviennent de véritables verrous (ainsi par exemple, les mots mal orthographiés utilisés une seule fois, entretiennent des liens correspondant à 100% de leur usage ; ils participent donc de manière extrêmement active à la construction d'agrégats ; l'agrégat qui se veut un regroupement basé sur l'utilisation statistique des mots entre eux devient en fait un objet dépendant d'erreurs de frappe ou de problèmes d'orthographe dont la l'utilisation est très faible voire unique).

La méthode 3 ou Méthode de Rigidification Régulée

La méthode de Rigidification Régulée est une tentative de réponse à l'ensemble des problèmes rencontrés par la mise en oeuvre de la méthode 2. Plus complexe, elle est une évolution de la méthode de Rigidification Simple et s'appuie, comme elle, sur les méthodes de rigidification de graphe proposées par Hoffman [Hoffman&al-1999] et développées par Jermann [Jermann&al-2004].

Cette méthode propose de changer progressivement les règles à la fois de la rigidification et de l'appartenance au graphe en prenant en compte le contexte, afin de contenir la taille de l'agrégat. Ainsi, les conditions permettant à un noeud de rejoindre un agrégat ne sont plus statiques.

Si l'agrégat est trop peuplé, les règles vont changer : les mots de faible usage et ceux très usités vont être progressivement écartés. Les conditions de validation des liaisons sont, elles aussi, modifiées de façon à contenir la taille de chacun des agrégats.

Bien que développée et validée uniquement sur des graphes de mots, cette méthode paraît pouvoir être utilisée dans les réseaux sociaux, le nombre de Dunbar [Dunbar-1992] servant alors de TMA.

La méthode 4 ou méthode d'Enrichissements par Gravité

La méthode d'Enrichissements par Gravité, cherche à ordonner les mots dans des orbites de distance variable de l'agrégat. À titre d'exemple, la méthode de Rigidification Régulée a écarté des agrégats bon nombre de mots ayant été très peu utilisés. Il convenait donc de mettre au point une méthode capable de les réinsérer dans des agrégats enrichis. Cette technique est aussi utilisable si les agrégats sont donnés ou connus. C'est sur ce type d'exercice que nous la testons dans le chapitre suivant.

Ces méthodes peuvent encore évoluer, l'adaptation de la méthode aux réseaux de mots issus de requêtes pour la création d'agrégats sémantiquement cohérents est une démarche que nous n'avons qu'entamée. Les méthodes doivent aussi pouvoir être comparées et testées. Chaque modification doit être évaluée. L'évaluation de la cohérence sémantique d'un agrégat n'est pas simple. C'est sur cet aspect de notre travail que porte le chapitre suivant.

3.6 : Conclusion 120

Chapitre 3. Les méthodes d'agrégations proposées

Méthodes

Ref

Famille

Graphe

Nb d'agrégats

Les +/-

Résumé

1. Détection de
cliques

 

Recherche de forme : recherche de clique

orienté

non orienté

Non prédéterminé = Egal au nombre de cliques

+ Faible coût computationnel

- Faible cohérence sémantique

- Obligation de prétraitements

comme la suppression des mots vides

Chaque clique devient un agrégat

 

non pondéré

 
 

[Belbeze&al-2009-3] [Belbeze&al-2009-4]

Méthode basée sur HLS et GCSP

orienté

non orienté

Non prédéterminé

+ Méthode paramétrable

- Valeurs des paramètres

critiques et difficiles à déterminer

- Obligation de prétraitements
comme la suppression des mots vides et de certaines expressions

Agrégation autour d'une diade par création d'une composante bi-connexe

 

non pondéré

 
 

[Belbeze&al-2009-1]

Méthode basée sur HLS et GCSP

orienté

.Eentd

Non prédéterminé

+ Méthode paramétrable

+ Taille maximale contrôlée des

agrégats

+ Paramètres déterminés par
l'analyse du graphe et l'autorégulation

? Laisse des noeuds hors agrégats

- Coût computationnel élevé

Agrégation autour d'une diade par création d'une composante bi-connexe avec règles

P g
de validation de la présence des noeuds et des liaisons régulées pour limiter la taille maximale des agrégats sans compromettre la création d'agrégats de petite taille

 

.._.. _pc

tiares

non ,._n__._

 
 

[Belbeze&al-2009-2]

Méthode

d'enrichissement de
noyau

orienté

non orienté

N/A

+ Faible coût computationnel

+ Méthode permettant une

appartenance pondérée du
noeud à plusieurs agrégats

? Permet de diminuer le nombre
de noeuds hors agrégats

Rattachement des noeuds « hors agrégats »

aux agrégats « noyaux » par l'utilisation
d'un coefficient d'attraction. Ce coefficient

est proportionnel au degré du noeud

externe en attraction vers les noeuds
interne au graphe et au nombre de noeuds

internes liés au noeud externe. Il est
inversement proportionnel au degré du noeud externe.

 

pondéré

non pondéré

 

Tableau 3.3 : Synthèse des quatre méthodes proposées.

4.2 : Présentation des réseaux testés 121

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"L'imagination est plus importante que le savoir"   Albert Einstein