WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain

( Télécharger le fichier original )
par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Résumé

L'observation d'internautes en situation de recherche d'informations a permis de mettre en évidence un besoin, celui d'échanges immédiats. Une telle relation instantanée peut, dans le cadre qui nous occupe, revêtir différents aspects et notamment l'aspect coopératif permettant à un internaute de bénéficier, à un instant critique, des recherches des autres utilisateurs par des recommandations dynamiques. Selon le principe des réseaux sociaux, une communauté est un ensemble d'internautes pouvant tirer parti de liens, prédéfinis ou non, sur la base de centres d'intérêts communs, de pratiques communes... Repérer ces liens dynamiquement et provoquer des rencontres entre internautes nous a semblé être un vrai défi à relever.

Il s'agit donc de faire en sorte que se créent dynamiquement des communautés d'internautes à partir de recherches en cours via des moteurs de recherche (fichiers de log par exemple). Le processus de génération dynamique de communautés repose en grande partie sur l'extraction des thèmes de recherche (centres d'intérêts) des internautes présents sur le réseau à un instant donné (ou pendant un laps de temps donné). Les thèmes de recherche permettant la connexion entre internautes constituent le noyau de la communauté dynamique. L'ensemble des communautés se présente alors comme un graphe de termes (extraits des thèmes) s'apparentant à un grand graphe de terrain dans lequel les connexions représentent les cooccurrences.

Dans cette thèse, nous proposons une démarche de création et de validation du graphe communautaire. Cette démarche consiste à agréger les noeuds du graphe pour que chaque agrégat présente la plus forte cohérence sémantique possible. Les problématiques suivantes doivent être résolues:

- créer des agrégats de mots pouvant contenir des parties en recouvrement (une orthographe peut appartenir à plusieurs thématiques) ;

- choisir ou définir une technique de regroupement garantissant une forte cohérence sémantique ; - caractériser les agrégats pour comprendre les différences de cohérence sémantique ;

- proposer des techniques de validation de la cohérence sémantique des agrégats.

Dans une première partie constituant un état de l'art, nous étudions de nombreuses méthodes de création de communautés au sein des graphes. Cependant aucune ne satisfait totalement à l'ensemble des critères nécessaires.

Dans une deuxième partie nous présentons notre contribution. Celle-ci est constituée de plusieurs méthodes d'agrégation et de plusieurs méthodes de validation sémantiques.

Nous proposons quatre méthodes d'agrégation : Détection de Cliques (agglomération de clique), Rigidification Simple (recherche de points de rupture dans le graphe), Rigidification Régulée (recherche de points de rupture en s'appuyant sur l'étude de populations spécifiques, mots vides et monosémique) et une Méthode d'Enrichissement d'Agrégat par Gravité (la méthode détermine un coefficient d'attraction pour chaque mot vers chaque agrégat).

Nous proposons, ensuite, trois méthodes de validation de la cohérence sémantique des agrégats : la Méthode de Coefficient de Validation Sémantique Comparé (estimation de la valeur sémantique des agrégats par comparaison du comportement de moteur de recherche sur Internet en utilisant différents jeux de test et les agrégats), la Méthode Trec-Eval par enrichissement de requête (les agrégats sont utilisé pour préciser des requêtes utilisateurs) et une Méthode de Comparaison de Cohérence de Documents Retournés (comparaison de la cohérence sémantique des documents retournés par des requêtes provenant de jeux de test spécifiques et des agrégats). Nous utiliserons aussi des validations manuelles réalisées par des experts du domaine des espaces sémantiques manipulés incluant la comparaison avec d'autres méthodes.

Les différentes propositions et méthodes d'expérimentations apportent la preuve de l'importance de pondérer les noeuds et les liaisons, ainsi que de diriger les graphes. La limitation de la taille des agrégats de mots est aussi un élément majeur de leur cohérence sémantique. Les différentes méthodes de regroupement peuvent encore évoluer. La combinaison de plusieurs types de liaisons au sein d'un même graphe, par exemple, permettrait d'affiner le contenu des agrégats.

Mots-clés

Graphes, Agrégats de termes, Communautés et communautés d'utilisateurs, Graphes de terrain, Petits

Mondes.

4

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"I don't believe we shall ever have a good money again before we take the thing out of the hand of governments. We can't take it violently, out of the hands of governments, all we can do is by some sly roundabout way introduce something that they can't stop ..."   Friedrich Hayek (1899-1992) en 1984