Traitement et exploration du fichier Log du serveur web pour l'extraction des connaissances

( Télécharger le fichier original )
par Nassim et Mohamed ELARBi etTAHAR DJEBBAR
Université Hassiba Benbouali Chlef - licence en informatique 2008

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3- Nettoyage des données :

Le nettoyage des données est une étape cruciale dans le processus du WUM en raison du volume important des données enregistrées dans les fichiers Log Web. En effet, la dimension de ces fichiers dans les sites Web et les portails Web très populaires peut atteindre des centaines de giga-octets par heure. L'étape du nettoyage consiste à filtrer les données inutiles à travers la suppression des requêtes ne faisant pas l'objet de l'analyse et celle provenant des robots Web. La suppression du premier type de requêtes dépend de l'intention de l'analyste. En effet, si son objectif est de trouver les failles de la structure du site Web ou d'offrir des liens dynamiques personnalisés aux visiteurs du site Web, la suppression des requêtes auxiliaires comme celles pour les images ou les fichiers multimédia est possible. quand il ne faut pas supprimer ces requêtes puisque dans certains cas les images ne sont pas incluses dans les fichiers HTML mais accessibles à travers des liens, ainsi l'affichage de ces images indique une action de l'utilisateur.

La suppression du second type de requêtes i.e. les entrées dans le fichier Log produites par les robots Web (WR) permet également de supprimer les sessions non intéressantes. En effet, les WRs suivent automatiquement tous les liens d'une page Web. Il en résulte que le nombre de demandes d'un WR dépasse en général le nombre de demandes d'un utilisateur normal. Pour identifier les requêtes et les visites issues des WRs on utilise trois heuristiques:

1. Identifier les adresses IPs qui ont formulé une requête à la page « robots.txt».

2. Utiliser des listes des «User agents» connus comme étant des WRs.

3. Utiliser un seuil pour « la vitesse de navigation» BS (Browsing Speed), qui représente le rapport entre le nombre de pages consultées pendant une visite de l'utilisateur et la durée de la visite. Si BS est supérieure à deux pages par seconde et la visite dépasse 15 pages, alors la visite a été initiée par un WR

3.1 Nettoyage des graphiques, image :

Les données concernant les pages possédant des graphiques, Images, n'apporteront rien à l'analyse. Elles seront donc filtrées :

Pour cela on est amené à supprimer de notre base de données les URLs suivants :

Les urls correspondant aux images d'extension « .gif » par la requête

("delete * from tab where url_des_pages like '*.*gif'")

Les urls correspondant aux images d'extension « .jpg » par la requête

("delete * from tab where url_des_pages like '*.*jpg'")

Les urls correspondant aux images d'extension « .png » par la requête

("delete * from tab where url_des_pages like '*.*png'")

Figure 19 : exemple sur les urls (.GIF, .JPG,....).

Les urls correspondant aux robots par la requête :

- Il est presque impossible aujourd'hui d'identifier tous les robots Web puisque chaque jour apparaissent des nouveaux. Pour les robots dont l'adresse IP et le User-Agent sont inconnus, nous procédons à un examen de leurs comportements sachant que les robots Web procèdent à une visite relativement exhaustive (nombre de pages visitées par un robot est supérieur au nombre de pages visitées par un utilisateur normal) et rapide et qu'ils cherchent généralement un fichier nommé »robot.txt».

("delete * from tab where url_des_pages like '\robots.txt'")

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"L'ignorant affirme, le savant doute, le sage réfléchit" Aristote