Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain( Télécharger le fichier original )par Christian Belbèze Université Toulouse 1 Capitole - Doctorat en informatique 2012 |
Chapitre 4.Expérimentations, validationssémantiques et résultats de mesure4.1 IntroductionDans ce travail de recherche la phase d'expérimentation s'est révélée particulièrement longue en raison de la taille des graphes considérés. Chaque méthode de regroupement proposée a été testée par des méthodes de validation sémantique différentes et sur plusieurs réseaux de mots. En effet, pour accéder à certains systèmes de validation, il a fallu accepter de ne pas toujours choisir le réseau de mots. Ainsi, pour s'insérer dans un « challenge » avec une validation manuelle, le réseau de mots dit E-donkey-5-mois a été un support imposé. En modifiant les méthodes pour prendre en compte des réseaux sans aucune opération préalable (suppression des mots vides, mots très utilisés, ...), les réseaux choisis ont aussi évolué pour aller vers des tailles plus importantes. Ceci a permis de mesurer les capacités des méthodes que nous avons mises au point, à créer des agrégats sémantiquement cohérents dans des méga-graphes. 4.2 Présentation des réseaux testésLes algorithmes ont été testés sur six réseaux. Chacun fera l'objet d'une description plus détaillée quant à son contenu et à la façon dont il a été obtenu. 4.2 : Présentation des réseaux testés 122 Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure Les trois premiers réseaux sont tous issus du fichier de log d'AOL qui représente un extrait des requêtes de son moteur de recherche pour les mois d'avril et mai 2006. On trouve parmi ceux-ci, deux réseaux filtrés (suppression de mots à faible sens) correspondant chacun à un jour de log :
4.2.1 Les réseaux AOLLe matériel : le « log d'AOL » Un extrait des fichiers de log du moteur de recherche AOL.com est notre support. Cet extrait intègre trente-trois millions de requêtes effectuées du 1er mars 2006 au 30 avril 2006. Ces requêtes sont principalement rédigées en anglais. La structure du fichier intègre un identifiant, la date et l'heure de la recherche, le site éventuellement sélectionné ainsi que son rang (cf. figure 4.1).
Figure 4.1 : Extrait du fichier de log AOL.com. 4.2 : Présentation des réseaux testés 123 Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure Ce fichier est mis à la disposition du public par la société AOL à des fins d'étude. Il est disponible sur le site http://gregsadetsky.com/aol-data. Le réseau « AOL-17/04/2006 » Afin de travailler sur un échantillon représentatif et néanmoins manipulable, nous avons fait le choix de limiter celui-ci à l'ensemble des requêtes d'une journée. La journée de référence prise aléatoirement est celle du 17 avril 2006. Sur les requêtes de cette journée nous avons appliqué plusieurs règles :
Tableau 4.1 : Liste des mots exclus de l'étude en tant que mots non significatifs ? Nous avons ensuite écarté de l'étude une liste de mots considérés comme non significatifs car sur-utilisés (cf. tableau 4.2). Afin d'éviter de manipuler des mots au sens galvaudé par une trop grande utilisation, nous avons décidé de ne pas considérer les mots ayant été utilisés dans plus de 1000 recherches. Ecarter ces mots qui sont par définition les moins discriminants nous permet d'espérer éviter la construction de méga-agrégats centrés sur ces mots-clés. Le nombre total de recherches étudiées dans l'échantillon de la journée du 17 avril 2006 est de plus de 200 000. Ces mots sont au nombre de 14 (cf. tableau 4.2) sur 51994 mots-clés étudiés soit 0.027 % de l'échantillon.
Tableau 4.2 Mots-clés exclus car utilisés dans plus de 1000 requêtes le 17/04/06. Après avoir appliqué ces différents « filtres », l'objet de l'étude se présente comme un ensemble de : 51980 mots-clés utilisés dans 200646 requêtes. 4.2 : Présentation des réseaux testés 124 Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure Dans ce réseau qui n'est pas un méga-graphe, l'objectif est de construire l'ensemble des agrégats possibles. Le réseau « AOL-17/03/2006 » Le réseau AOL-17/03/2006 est créé avec les mêmes règles que le réseau AOL-17/04/2006, la seule modification étant le filtrage sur la date des requêtes. Il contient 48568 mots-clés et 197000 requêtes. Dans ce réseau l'objectif est aussi de construire l'ensemble des agrégats possibles. Le réseau «100 mots dans AOL » Ce réseau est constitué de l'ensemble du réseau du fichier log d'AOL des deux mois dans son entier et sans aucun filtrage. Le réseau est composé de 1 294 245 mots-clés ou noeuds et 5 556 101 de liens. Le nombre de requêtes considérées est de 21 059 661. Son périmètre : Sur ce méga-graphe, nous ne sommes pas en mesure de construire et ensuite de valider l'ensemble des agrégats possibles dans un temps raisonnable. Nous avons donc choisi 100 mots pour lesquels nous créerons tous les agrégats les incluant. Les cent mots sélectionnés sont les dix premiers noms (propres ou communs) de dix oeuvres écrites de références. Ces oeuvres sont de nature différente. On peut les classer en cinq catégories : 1) Deux oeuvres fondamentales de notre civilisation :
2) Deux recherches scientifiques :
3) Deux oeuvres artistiques :
4) Un site web : Linux.org 5) Trois reportages sur des conflits (cf. tableau 4.3) :
4.2 : Présentation des réseaux testés 125 Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure
Tableau 4.3 : La liste des 100 mots utilisés pour créer les agrégats (* le mot «Torvalds» est ignoré car il n'est pas présent dans le fichier d'AOL.). L'idée est de partir d'un échantillon de mots issus d'espaces sémantiques différents permettant de créer des agrégats bien distincts. Toutefois, certains sujets portent sur la même thématique (sujets 1, 2 et 5) de façon à tester la capacité des méthodes d'agrégation sur des espaces sémantiques proches. Enfin, le fichier d'AOL étant essentiellement en anglais, c'est dans cette langue que les cent mots ont été choisis. |
|