Résumé
L'observation d'internautes en situation de recherche
d'informations a permis de mettre en évidence un besoin, celui
d'échanges immédiats. Une telle relation instantanée peut,
dans le cadre qui nous occupe, revêtir différents aspects et
notamment l'aspect coopératif permettant à un internaute de
bénéficier, à un instant critique, des recherches des
autres utilisateurs par des recommandations dynamiques. Selon le principe des
réseaux sociaux, une communauté est un ensemble d'internautes
pouvant tirer parti de liens, prédéfinis ou non, sur la base de
centres d'intérêts communs, de pratiques communes...
Repérer ces liens dynamiquement et provoquer des rencontres entre
internautes nous a semblé être un vrai défi à
relever.
Il s'agit donc de faire en sorte que se créent
dynamiquement des communautés d'internautes à partir de
recherches en cours via des moteurs de recherche (fichiers de log par exemple).
Le processus de génération dynamique de communautés repose
en grande partie sur l'extraction des thèmes de recherche (centres
d'intérêts) des internautes présents sur le réseau
à un instant donné (ou pendant un laps de temps donné).
Les thèmes de recherche permettant la connexion entre internautes
constituent le noyau de la communauté dynamique. L'ensemble des
communautés se présente alors comme un graphe de termes (extraits
des thèmes) s'apparentant à un grand graphe de terrain dans
lequel les connexions représentent les cooccurrences.
Dans cette thèse, nous proposons une démarche de
création et de validation du graphe communautaire. Cette démarche
consiste à agréger les noeuds du graphe pour que chaque
agrégat présente la plus forte cohérence sémantique
possible. Les problématiques suivantes doivent être
résolues:
- créer des agrégats de mots pouvant contenir des
parties en recouvrement (une orthographe peut appartenir à plusieurs
thématiques) ;
- choisir ou définir une technique de regroupement
garantissant une forte cohérence sémantique ; -
caractériser les agrégats pour comprendre les différences
de cohérence sémantique ;
- proposer des techniques de validation de la cohérence
sémantique des agrégats.
Dans une première partie constituant un état de
l'art, nous étudions de nombreuses méthodes de création de
communautés au sein des graphes. Cependant aucune ne satisfait
totalement à l'ensemble des critères nécessaires.
Dans une deuxième partie nous présentons notre
contribution. Celle-ci est constituée de plusieurs méthodes
d'agrégation et de plusieurs méthodes de validation
sémantiques.
Nous proposons quatre méthodes d'agrégation :
Détection de Cliques (agglomération de clique), Rigidification
Simple (recherche de points de rupture dans le graphe), Rigidification
Régulée (recherche de points de rupture en s'appuyant sur
l'étude de populations spécifiques, mots vides et
monosémique) et une Méthode d'Enrichissement d'Agrégat par
Gravité (la méthode détermine un coefficient d'attraction
pour chaque mot vers chaque agrégat).
Nous proposons, ensuite, trois méthodes de validation
de la cohérence sémantique des agrégats : la
Méthode de Coefficient de Validation Sémantique Comparé
(estimation de la valeur sémantique des agrégats par comparaison
du comportement de moteur de recherche sur Internet en utilisant
différents jeux de test et les agrégats), la Méthode
Trec-Eval par enrichissement de requête (les agrégats sont
utilisé pour préciser des requêtes utilisateurs) et une
Méthode de Comparaison de Cohérence de Documents Retournés
(comparaison de la cohérence sémantique des documents
retournés par des requêtes provenant de jeux de test
spécifiques et des agrégats). Nous utiliserons aussi des
validations manuelles réalisées par des experts du domaine des
espaces sémantiques manipulés incluant la comparaison avec
d'autres méthodes.
Les différentes propositions et méthodes
d'expérimentations apportent la preuve de l'importance de
pondérer les noeuds et les liaisons, ainsi que de diriger les graphes.
La limitation de la taille des agrégats de mots est aussi un
élément majeur de leur cohérence sémantique. Les
différentes méthodes de regroupement peuvent encore
évoluer. La combinaison de plusieurs types de liaisons au sein d'un
même graphe, par exemple, permettrait d'affiner le contenu des
agrégats.
Mots-clés
Graphes, Agrégats de termes, Communautés et
communautés d'utilisateurs, Graphes de terrain, Petits
Mondes.
4
|