CHAPITRE 2
Prétraitement des données
1. Introduction
Le processus du WUM comporte trois étapes principales :
le prétraitement des données, Extraction des motifs d'usage et
l'interprétation des résultats obtenus. La phase de
prétraitement des données est souvent la plus laborieuse et qui
demande le plus de temps, ceci dü en particulier à l'absence de
structuration et à la grande quantité de bruit existant dans les
données brutes d'usage.
Le prétraitement des fichiers log Web consiste à
nettoyer et structurer les données contenues dans ces fichiers afin de
les préparer à une future analyse. Les fichiers logs Web
étant souvent du type texte, l'un des objectifs de l'étape de
prétraitement est de transférer ces données dans un
environnement plus facile à exploiter (comme par exemple, dans une base
de données).
2. Le nettoyage des données
Le nettoyage des données vise à éliminer
toutes les requêtes considérées comme inutiles de
l'ensemble de logs de départ. En effet, une quantité non
négligeable des enregistrements d'un serveur web ne reflète pas
le comportement de l'internaute, nous expliquons donc les problèmes de
ces enregistrements en détail et ce que nous apportons pour leur
gestion.
Le serveur web permet de disposer des ressources de tout type
: page web, élément multimédia, programme, donnée
quelconque. Lors d'une requête correspondant à une page
intégrant d'autres ressources (généralement des images, ou
de petites animations), le client exécute effectivement plusieurs
requêtes vers le serveur: une pour la page (le contenant), une pour les
divers éléments (les contenus). Ainsi, pour une page
demandée, plusieurs requêtes peuvent aboutir au serveur.
En se référant au but de notre travail, à
savoir l'extraction de modèles d'utilisateurs pour l'amélioration
de services web, il nous parait judicieux de ne conserver que les pages web
(dites contenant), sans les éléments incorporés. Nous
simplifions les données des logs en enlevant tout ce qui ne correspond
pas à une page web. Certaines expériences ont montré que
la suppression des URL concernant des images réduisait la taille du
fichier log original de 40 % à 85 %. Le nettoyage des images consiste
à supposer qu'un utilisateur ne peut cliquer à la fois (au
même instant) sur plusieurs images pour les visualiser « FIG 3.1
», tenant compte de cette hypothèse, nous déterminons pour
chaque utilisateur l'ensemble des requêtes
effectuées au méme instant dont les extensions
connues d'images et autres composants multimédias sont
éliminées.
De plus, nous faisons le choix de ne garder pour la phase
d'apprentissage que les requêtes ayant abouti, c'est à dire
correspondant à une ressource valide. Le code de retour présent
dans les logs nous permet de filtrer ces requêtes. Par conséquent,
nous ne gardons que celles de code compris entre « 200 et 399 ».
Des données dites incohérentes peuvent subsister
: en effet, lors du traitement des logs, des requêtes d'annonces
apparaissent toutes seules dès que l'utilisateur se connecte sur le site
du CUBBA. De ce fait, ces requêtes correspondantes ne sont pas prises en
compte. Pour éliminer ces requêtes, il suffit de supprimer les
requêtes qui contiennent le mot clé « popups ».
Ainsi, nous faisons le choix que les requêtes
correspondantes d'une réponse de serveur à une requête d'un
client pour ça on va éliminer toute requête, dont sa
méthode différente de « Get », et voici le
type des différentes méthodes généralement
utilisées :
1' Get : est une requête d'information. Le
serveur traite la demande et renvoie le contenu
de l'objet
1' Head : est très similaire
à la méthode Get. Cependant, le serveur ne retourne que
l'entête de la ressource demandée sans les données.
1' Post : est utilisée pour envoyer des
données au serveur.
Un dernier type de requête, non seulement inutiles, mais
apportant un bruit dans les données, correspond à celles
effectuées de manière automatique par des robots web ne
reflétant pas le comportement de l'utilisateur. Il existe plusieurs
heuristiques pour considérer la requête correspondante comme
étant généré par un robot Web :
v' Identifier les adresses IP et les « User-Agents »
connus comme étant des robots Web.
Ces informations sont fournies généralement par les
moteurs de recherche. v' Identifier les adresses IP ayant fait une
requête à la page : « robots.txt ».
v' Identifier les « User-Agents» comportant l'un des
mots clés suivants : « crawler »,
« spider » ou « bot ».
v' Identifier les requêtes effectuées par des
aspirateurs de sites Web (HTTrack par exemple), ou par des modules de certains
navigateurs permettant la consultation de pages hors ligne tels que DigExt
d'Internet Explorer. L'identité de ces aspirateurs est effectuée
en se basant sur la durée de leurs requêtes
généralement nulle.
Exemple
Une simple vérification sur le site a montré que
plusieurs images sont contenues dans la page
FIG 2.1 Exemple de page contenant plusieurs
images.
|