Application du processus de fouille de données d'usage du web sur les fichiers logs du site cubba

( Télécharger le fichier original )
par Nabila Merzoug et Hanane Bessa
Centre universitaire de Bordj Bou Arréridj Algérie - Ingénieur en informatique 2009

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

2.3. clustering k-means

L'application de la méthode de clustering k-means met en évidence quatre classes de pages.

FIG 5.4. Résultat de classification de pages

Nous intéressons notamment à l'interprétation statistique des classes en fonction des variables les plus discriminantes :

1. La première classe (09.1%) est composée de pages visitées fréquemment et caractérisées par un nombre important d'inlinks et d'outlinks. Elle correspond à la classe de pages auxiliaires ou de navigation qui contiennent les hyperliens primaires aux autres pages Web et utilisées pour la navigation.

2. La deuxième classe (15.9%) est celle de pages de contenu caractérisées par une durée de consultation assez élevée et contiennent des informations intéressantes aux utilisateurs.

3. L'intersection de ces deux classes (38.6%) est composée de pages présentant à la fois les caractéristiques des pages de contenu et des pages auxiliaires. C'est la classe de pages hybrides

4. La derniere classe (36.4%) est celle des pages visitées rarement, qui ne pointent nulle part et vers lesquelles pointent peu de pages. La durée moyenne de consultation de ces

pages est faible. Nous considérons que ces pages correspondent à ce que [21] appelle « pages de références » utilisées pour définir un concept ou expliquer des acronymes. Cependant, nous considérons que ces pages sont, dans une certaine mesure, des pages de contenu.

+ Résultat

A partir du total de pages, nous avons identifié 9.1 % de pages auxiliaires. Les autres pages sont des pages de contenu, des pages hybrides et des pages de référence. L'ensemble des pages restantes est présentant un certain intérêt à l'internaute fait l'objet de notre analyse.

3. Classification des utilisateurs

3.1. Modélisation des données d'usage

N0	Variable	Signification
1	DureeTotale	Durée totale de la navigation (en secondes)
2	Nb Requêtes	Nombre de clics effectués durant la navigation
3	MDuree	Moyenne de la durée des requêtes (= DureeTotale /Nb Requêtes)
4	Nb Répétitions	Nombre de requêtes répétées dans la navigation
5	P_Repetitions	Pourcentage de répétitions (=Nb Répétitions / Nb Requêtes)
6	Nb Requêtes OK	Nombre de requêtes réussies (statut = 200) dans la navigation
7	P _Requêtes OK	Pourcentage de requêtes réussies (=Nb Requêtes OK / Nb Requêtes)

TAB 5.4. Variables statistiques décrivant les navigations.

Dans le but de mieux caractériser la navigation d'un internaute, nous définissons un ensemble de sept variables statistiques obtenues à partir des données d'usage prétraitées et stockées dans une base de données. Ces variables sont énumérées dans le tableau 5.4 et détaillées dans les paragraphes suivants.

Durant la navigation sur un site Web, l'utilisateur peut faire face à des messages d'erreur sur la page demandée (quand la page n'a pas été retrouvée), de redirection (quand la page requise a été physiquement déplacée), d'erreur sur le serveur Web (quand le serveur en question est occupé ou hors service), etc. Le code de retour d'une requête est identifié dans les fichiers log Web par le champ statut. Les codes de retour de requête assument des valeurs standardisées par le W3C⁶. Une requête est dite réussie quand son code de retour est égal à 200. Dans tous les autres cas, la requête est considérée échouée. Dans le but de discriminer le nombre de requêtes réussies durant une navigation, nous utilisons respectivement les variables NbRequêtes_OK. La variable Nb Requêtes représente le nombre total de clics effectués pendant la navigation.

Durant la navigation, un internaute peut, pour un motif quelconque, revenir sur une page déjà visitée. Les pages revisitées durant une navigation sont souvent celles qui attirent le plus l'attention de l'internaute. Les variables Nb Répétitions et P_Repetitions contiennent respectivement le nombre et le pourcentage de pages revisitées dans une navigation.

La variable DureeTotale représente le temps (en secondes) consacré par l'internaute à la visite du site Web en question. La variable MDuree représente la moyenne de temps consacré aux pages visitées durant la navigation.

Les variables présentées dans cette section ont pour but de décrire la navigation des internautes d'un site Web quelconque à partir des données extraites des fichiers log du serveur Web qui héberge le site en question.

3.2. Construction de groupes d'utilisateurs

L'analyse proposée dans cette partie consiste une classification non supervisée dans un premier temps à diviser l'ensemble de variables à des groupes afin que Les résultats de cette première classification sont injectés dans la base des navigations utilisée pour classifier les internautes et découvrir des groupes d'utilisateurs. Chaque navigation sera affectée à un groupe contenant des navigations proches au sens de la distance appliquée par la méthode de classification.

6 Une liste exhaustive des codes de retour de requête peut être consultée à l'adresse suivante : http://www.w3.org/Protocols/rfc2616/rfc2616-sec10.html

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"L'ignorant affirme, le savant doute, le sage réfléchit" Aristote