Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain( Télécharger le fichier original )par Christian Belbèze Université Toulouse 1 Capitole - Doctorat en informatique 2012 |
ConclusionCette étude sur les valeurs d'amélioration des requêtes ne doit pas nous détourner de notre objectif qui est de savoir si le système d'agrégation par Rigidification Régulée permet de créer des ensembles porteurs d'une thématique. 4.4 : Résultats des regroupements et validation sémantique 179 Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure La réponse donnée par cette évaluation est bien sûr positive. L'utilisation des agrégats seuls ou conjointement avec les Topics a maintenu la précision de la requête identique dans 62% des cas. Avec une amélioration dans plus de 55% des cas, les agrégats prouvent à la fois leur cohérence sémantique et le fait qu'ils sont même capables de servir de système d'amélioration des requêtes. 4.4.7 Méthode d'enrichissement des agrégats AGGR sur réseau « eDonkey-5 mois » et validation manuelle (challenge)Matériel et conditions de test Nous utilisons ici un réseau de très grande taille. Les agrégats sont fournis par un expert sous la forme de deux listes de mots. Il ne s'agit plus de construire des agrégats mais de chercher à les enrichir. La méthode ne possède pas de paramètre. Elle permet de simplement retourner une liste de mots ordonnée selon un coefficient d'attraction envers l'agrégat. Résultats sur réseau eDonkey-5-mois - Validation manuelle La validation est ici une validation manuelle comparée. Dans le cadre d'un « challenge » [Belbeze&al-2009-2], des experts comparent plusieurs méthodes qui ont pour objectif de retourner deux listes de cent mots chacune. En plus du réseau, l'organisateur du challenge propose deux listes de mots. Ceux-ci sont des mots « bien connus » comme étant utilisés par des pédophiles. Les experts sont des professionnels de la recherche de pédophiles sur Internet. Ils ont la charge de comparer la capacité des méthodes à retourner des mots en employant un classement en quatre types : ? type 1 : le mot est spécifiquement un mot pédophile connu. Il n'a pas d'autre utilisation. C'est généralement un code, par exemple : « pthc » ; ? type 2 : le mot est utilisé par les pédophiles, mais il peut être utilisé dans d'autres contextes, par exemple : « child » ; ? type 3 : le mot est inconnu des experts, mais il n'a pas d'autre sens connu, c'est soit un nouveau mot de « type 1 », soit une erreur ; ? type 4 : le mot n'a pas de caractéristique pédophile propre, par exemple : « jpg ». Une comparaison détaillée des méthodes présentées est disponible dans l'article http://antipaedo.lip6.fr/T24/TR/keyword-detection.pdf et nous encourageons le lecteur désirant plus de détails à le consulter. La conclusion de ce comparatif nous informe de plusieurs points : 4.5 : Conclusion 180 Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure
|
|