Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain( Télécharger le fichier original )par Christian Belbèze Université Toulouse 1 Capitole - Doctorat en informatique 2012 |
Conclusion générale et perspectives
189 Conclusion générale et perspectives 2 1 8 5 6 4 9 7 Figure C.5 : C1-. 3 ? Nous pondérons les conversations du résultat de C1- par le graphe C3 : soit (C1-)*C3 (cf. figure C.6) 1 5 8 Figure C.6 : C5 *C3. 3 2 4 7 9 6 ? Enfin nous pondérons de nouveau le résultat obtenu précédemment par C4, soit (C1-)*C3*C4 (cf. figure C.7) 6 5 8 1 2 3 4 9 7 Figure C.7 : (C1-) *C3*C4. Décidément, la mère de famille (6) a bien fait de trouver suspecte sa très jeune fille (9) qui, de toute la soirée, n'a parlé avec aucun des membres de sa famille et a finalement apostrophé ce jeune homme de la famille d'en face (4). Au fait, 4 se nomme Roméo et 9 se fait appeler Juliette. Alors ? 190 Conclusion générale et perspectives 2 4 1 3 9 8 7 5 6 Figure C.8 : La communauté des amoureux : {4,9} Les mots eux aussi peuvent être placés dans des graphes multiples afin de représenter différentes informations et différents types de liens. Figure C.9 : le chasseur d'agrégats combine les graphes pour mieux découvrir les agrégats Comme un chasseur d'images qui empilerait des filtres pour trouver la bonne lumière (cf. figure C.9), le chercheur d'agrégats, lui, combinerait des graphes pour trouver le bon modèle. Les mots pourraient, par exemple, être liés par leur appartenance à une langue commune. Cette liaison serait alors pondérée par la référence à un registre de langue commun. Dans un autre graphe, les liaisons représenteraient l'existence de la paire de mots dans une même définition de dictionnaire, dans une expression, dans une ou plusieurs branches d'ontologie ou encore dans un article encyclopédique. La pondération serait alors, dans ce cas, la distance des mots entre eux et le nombre d'éléments (articles, définitions) de références partagés. On peut aussi imaginer des graphes qui figureraient la géolocalisation des utilisateurs, les liaisons étant alors pondérées par la distance moyenne entre les utilisateurs. La combinaison des différents graphes apporterait, peut-être, alors, de nouveaux éléments permettant d'améliorer la qualité sémantique des agrégats. Et pourquoi pas des graphes qui représenteraient l'usage conjoint des mots en fonction de l'appartenance des utilisateurs à des communautés ? Le graphe serait alors pondéré positivement par le fait que certains mots de la requête seraient déjà dans un agrégat 191 Conclusion générale et perspectives correspondant à une communauté dont notre utilisateur ferait partie. Les communautés participeraient de ce fait à la création des agrégats et donc des communautés dynamiques. Nous voudrions conclure ce travail sur une note plus personnelle à savoir : « comment vit-on cinq ans dans un Grand Graphe de Terrain ? » Un Grand Graphe de Terrain est indicible. Il n'est pas résumable, fût-il construit de mots. Après plusieurs années à côtoyer le log d'AOL c'est avec la plus grande humilité que nous convenons n'en avoir qu'une infime idée. Les ensembles constitués de millions d'objets ne peuvent être perçus que globalement, à travers des chiffres tels que les moyennes de telles ou telles valeurs ou alors « au microscope » par l'observation d'exemples concrets de quelques échantillons. La lecture des distributions des valeurs caractérisant un graphe est une vision intermédiaire. En cela, elle est pertinente mais aussi bien parcellaire. Notre sentiment d'incompétence à percevoir la nature de ces grands graphes de terrain au bout d'un si long temps de recherche est bien réel. La frustration est d'ailleurs partagée et la recherche pour visualiser les graphes est un domaine où art, informatique et mathématiques sont fortement mis à contribution. Figure C.10 : Graphe de terrain des coopérations entre artistes de la base de données last.fm. La couleur est donnée en fonction du style de musique : rock (rouge), pop (vert) et le hip-hop (en bleu)... Auteur Tamas Nepusz, co-créateur du logiciel IGraph. 192 Conclusion générale et perspectives Le graphe que nous avons sans doute le plus « apprivoisé » est celui que nous avons le moins « regardé ». Expliquons-nous : en travaillant sur les données pédophiles des réseaux eDonkey-10-semaines nous n'avions pas les mots au format texte (ceci pour des raisons légales) mais seulement des identifiants numériques. Cela nous a interdit de lire le graphe comme un ensemble de mots ou de retrouver des espaces sémantiques. Cela nous a aussi empêché de traiter différemment certains mots (en pratiquant par exemple des exclusions sur des mots vides). Nous avons alors travaillé sur le graphe comme un artiste sur une matière inconnue. Nous avons cherché des points d'appui, de rupture, des noeuds de matière. Comme un sculpteur ou un potier qui sent sa terre et sait à l'avance quand elle va rompre, nous avons beaucoup appris de ce graphe, par ses réponses aux contraintes, celles que nous lui faisions subir par l'utilisation des algorithmes d'agrégation. 193 Bibliographie |
|