3- Nettoyage des données :
Le nettoyage des données est une étape
cruciale dans le processus du WUM en raison du volume important des
données enregistrées dans les fichiers Log Web. En effet, la
dimension de ces fichiers dans les sites Web et les portails Web très
populaires peut atteindre des centaines de giga-octets par heure.
L'étape du nettoyage consiste à filtrer les données
inutiles à travers la suppression des requêtes ne faisant pas
l'objet de l'analyse et celle provenant des robots Web. La suppression du
premier type de requêtes dépend de l'intention de l'analyste. En
effet, si son objectif est de trouver les failles de la structure du site Web
ou d'offrir des liens dynamiques personnalisés aux visiteurs du site
Web, la suppression des requêtes auxiliaires comme celles pour les images
ou les fichiers multimédia est possible. quand il ne faut pas supprimer
ces requêtes puisque dans certains cas les images ne sont pas incluses
dans les fichiers HTML mais accessibles à travers des liens, ainsi
l'affichage de ces images indique une action de l'utilisateur.
La suppression du second type de requêtes i.e. les
entrées dans le fichier Log produites par les robots Web (WR) permet
également de supprimer les sessions non intéressantes. En effet,
les WRs suivent automatiquement tous les liens d'une page Web. Il en
résulte que le nombre de demandes d'un WR dépasse en
général le nombre de demandes d'un utilisateur normal. Pour
identifier les requêtes et les visites issues des WRs on utilise trois
heuristiques:
1. Identifier les adresses IPs qui ont formulé une
requête à la page « robots.txt».
2. Utiliser des listes des «User agents» connus
comme étant des WRs.
3. Utiliser un seuil pour « la vitesse de
navigation» BS (Browsing Speed), qui représente le rapport entre le
nombre de pages consultées pendant une visite de l'utilisateur et la
durée de la visite. Si BS est supérieure à deux pages par
seconde et la visite dépasse 15 pages, alors la visite a
été initiée par un WR
3.1 Nettoyage des graphiques, image :
Les données concernant les pages possédant
des graphiques, Images, n'apporteront rien à l'analyse. Elles seront
donc filtrées :
Pour cela on est amené à supprimer de notre base
de données les URLs suivants :
Les urls correspondant aux images d'extension « .gif
» par la requête
("delete * from tab where url_des_pages like '*.*gif'")
Les urls correspondant aux images d'extension « .jpg
» par la requête
("delete * from tab where url_des_pages like '*.*jpg'")
Les urls correspondant aux images d'extension « .png
» par la requête
("delete * from tab where url_des_pages like '*.*png'")
Figure 19 : exemple sur les urls (.GIF,
.JPG,....).
Les urls correspondant aux robots par la requête :
- Il est presque impossible aujourd'hui d'identifier tous les
robots Web puisque chaque jour apparaissent des nouveaux. Pour les robots dont
l'adresse IP et le User-Agent sont inconnus, nous procédons à un
examen de leurs comportements sachant que les robots Web procèdent
à une visite relativement exhaustive (nombre de pages visitées
par un robot est supérieur au nombre de pages visitées par un
utilisateur normal) et rapide et qu'ils cherchent généralement un
fichier nommé »robot.txt».
("delete * from tab where url_des_pages like
'\robots.txt'")
|