Application du processus de fouille de données d'usage du web sur les fichiers logs du site cubba

( Télécharger le fichier original )
par Nabila Merzoug et Hanane Bessa
Centre universitaire de Bordj Bou Arréridj Algérie - Ingénieur en informatique 2009

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE 2

Prétraitement des données

1. Introduction

Le processus du WUM comporte trois étapes principales : le prétraitement des données, Extraction des motifs d'usage et l'interprétation des résultats obtenus. La phase de prétraitement des données est souvent la plus laborieuse et qui demande le plus de temps, ceci dü en particulier à l'absence de structuration et à la grande quantité de bruit existant dans les données brutes d'usage.

Le prétraitement des fichiers log Web consiste à nettoyer et structurer les données contenues dans ces fichiers afin de les préparer à une future analyse. Les fichiers logs Web étant souvent du type texte, l'un des objectifs de l'étape de prétraitement est de transférer ces données dans un environnement plus facile à exploiter (comme par exemple, dans une base de données).

2. Le nettoyage des données

Le nettoyage des données vise à éliminer toutes les requêtes considérées comme inutiles de l'ensemble de logs de départ. En effet, une quantité non négligeable des enregistrements d'un serveur web ne reflète pas le comportement de l'internaute, nous expliquons donc les problèmes de ces enregistrements en détail et ce que nous apportons pour leur gestion.

Le serveur web permet de disposer des ressources de tout type : page web, élément multimédia, programme, donnée quelconque. Lors d'une requête correspondant à une page intégrant d'autres ressources (généralement des images, ou de petites animations), le client exécute effectivement plusieurs requêtes vers le serveur: une pour la page (le contenant), une pour les divers éléments (les contenus). Ainsi, pour une page demandée, plusieurs requêtes peuvent aboutir au serveur.

En se référant au but de notre travail, à savoir l'extraction de modèles d'utilisateurs pour l'amélioration de services web, il nous parait judicieux de ne conserver que les pages web (dites contenant), sans les éléments incorporés. Nous simplifions les données des logs en enlevant tout ce qui ne correspond pas à une page web. Certaines expériences ont montré que la suppression des URL concernant des images réduisait la taille du fichier log original de 40 % à 85 %. Le nettoyage des images consiste à supposer qu'un utilisateur ne peut cliquer à la fois (au même instant) sur plusieurs images pour les visualiser « FIG 3.1 », tenant compte de cette hypothèse, nous déterminons pour chaque utilisateur l'ensemble des requêtes

effectuées au méme instant dont les extensions connues d'images et autres composants multimédias sont éliminées.

De plus, nous faisons le choix de ne garder pour la phase d'apprentissage que les requêtes ayant abouti, c'est à dire correspondant à une ressource valide. Le code de retour présent dans les logs nous permet de filtrer ces requêtes. Par conséquent, nous ne gardons que celles de code compris entre « 200 et 399 ».

Des données dites incohérentes peuvent subsister : en effet, lors du traitement des logs, des requêtes d'annonces apparaissent toutes seules dès que l'utilisateur se connecte sur le site du CUBBA. De ce fait, ces requêtes correspondantes ne sont pas prises en compte. Pour éliminer ces requêtes, il suffit de supprimer les requêtes qui contiennent le mot clé « popups ».

Ainsi, nous faisons le choix que les requêtes correspondantes d'une réponse de serveur à une requête d'un client pour ça on va éliminer toute requête, dont sa méthode différente de « Get », et voici le type des différentes méthodes généralement utilisées :

1' Get : est une requête d'information. Le serveur traite la demande et renvoie le contenu

de l'objet

1' Head : est très similaire à la méthode Get. Cependant, le serveur ne retourne que l'entête de la ressource demandée sans les données.

1' Post : est utilisée pour envoyer des données au serveur.

Un dernier type de requête, non seulement inutiles, mais apportant un bruit dans les données, correspond à celles effectuées de manière automatique par des robots web ne reflétant pas le comportement de l'utilisateur. Il existe plusieurs heuristiques pour considérer la requête correspondante comme étant généré par un robot Web :

v' Identifier les adresses IP et les « User-Agents » connus comme étant des robots Web.

Ces informations sont fournies généralement par les moteurs de recherche. v' Identifier les adresses IP ayant fait une requête à la page : « robots.txt ».

v' Identifier les « User-Agents» comportant l'un des mots clés suivants : « crawler »,

« spider » ou « bot ».

v' Identifier les requêtes effectuées par des aspirateurs de sites Web (HTTrack par exemple), ou par des modules de certains navigateurs permettant la consultation de pages hors ligne tels que DigExt d'Internet Explorer. L'identité de ces aspirateurs est effectuée en se basant sur la durée de leurs requêtes généralement nulle.

Exemple

Une simple vérification sur le site a montré que plusieurs images sont contenues dans la page

FIG 2.1 Exemple de page contenant plusieurs images.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Les esprits médiocres condamnent d'ordinaire tout ce qui passe leur portée" François de la Rochefoucauld