Application du processus de fouille de données d'usage du web sur les fichiers logs du site cubba( Télécharger le fichier original )par Nabila Merzoug et Hanane Bessa Centre universitaire de Bordj Bou Arréridj Algérie - Ingénieur en informatique 2009 |
2.3. clustering k-meansL'application de la méthode de clustering k-means met en évidence quatre classes de pages. FIG 5.4. Résultat de classification de pages Nous intéressons notamment à l'interprétation statistique des classes en fonction des variables les plus discriminantes : A
pages est faible. Nous considérons que ces pages correspondent à ce que [21] appelle « pages de références » utilisées pour définir un concept ou expliquer des acronymes. Cependant, nous considérons que ces pages sont, dans une certaine mesure, des pages de contenu. + Résultat A partir du total de pages, nous avons identifié 9.1 % de pages auxiliaires. Les autres pages sont des pages de contenu, des pages hybrides et des pages de référence. L'ensemble des pages restantes est présentant un certain intérêt à l'internaute fait l'objet de notre analyse. 3. Classification des utilisateurs 3.1. Modélisation des données d'usage
TAB 5.4. Variables statistiques décrivant les navigations. Dans le but de mieux caractériser la navigation d'un internaute, nous définissons un ensemble de sept variables statistiques obtenues à partir des données d'usage prétraitées et stockées dans une base de données. Ces variables sont énumérées dans le tableau 5.4 et détaillées dans les paragraphes suivants. Durant la navigation sur un site Web, l'utilisateur peut faire face à des messages d'erreur sur la page demandée (quand la page n'a pas été retrouvée), de redirection (quand la page requise a été physiquement déplacée), d'erreur sur le serveur Web (quand le serveur en question est occupé ou hors service), etc. Le code de retour d'une requête est identifié dans les fichiers log Web par le champ statut. Les codes de retour de requête assument des valeurs standardisées par le W3C6. Une requête est dite réussie quand son code de retour est égal à 200. Dans tous les autres cas, la requête est considérée échouée. Dans le but de discriminer le nombre de requêtes réussies durant une navigation, nous utilisons respectivement les variables NbRequêtes_OK. La variable Nb Requêtes représente le nombre total de clics effectués pendant la navigation. Durant la navigation, un internaute peut, pour un motif quelconque, revenir sur une page déjà visitée. Les pages revisitées durant une navigation sont souvent celles qui attirent le plus l'attention de l'internaute. Les variables Nb Répétitions et P_Repetitions contiennent respectivement le nombre et le pourcentage de pages revisitées dans une navigation. La variable DureeTotale représente le temps (en secondes) consacré par l'internaute à la visite du site Web en question. La variable MDuree représente la moyenne de temps consacré aux pages visitées durant la navigation. Les variables présentées dans cette section ont pour but de décrire la navigation des internautes d'un site Web quelconque à partir des données extraites des fichiers log du serveur Web qui héberge le site en question. 3.2. Construction de groupes d'utilisateurs L'analyse proposée dans cette partie consiste une classification non supervisée dans un premier temps à diviser l'ensemble de variables à des groupes afin que Les résultats de cette première classification sont injectés dans la base des navigations utilisée pour classifier les internautes et découvrir des groupes d'utilisateurs. Chaque navigation sera affectée à un groupe contenant des navigations proches au sens de la distance appliquée par la méthode de classification. 6 Une liste exhaustive des codes de retour de requête peut être consultée à l'adresse suivante : http://www.w3.org/Protocols/rfc2616/rfc2616-sec10.html |
|