Techniques d'extraction de connaissances appliquées aux données du Web( Télécharger le fichier original )par Malika CHARRAD Ecole Nationale des Sciences de l'Informatique, Université de la Manouba, Tunis - Mastère en informatique, Option : Génies Documentiel et Logiciel 2005 |
Deuxième partieMéthodologie et applicationChapitre 5Prétraitement des donnéesLa première étape d'un processus du WUM consiste en un prétraitement des fichiers Log. En effet, le format des fichiers log Web est impropre à une analyse directe par les diverses techniques de fouille des données. Leur nettoyage et leur structuration sont donc nécessaires avant toute analyse. Dans ce chapitre, nous présentons la méthodologie que nous avons adoptée pour le prétraitement ainsi que les résultats de son application sur les fichiers Log du CCK1 (Centre de Calcul elKhawarizmi). 5.1 Méthodologie de prétraitement5.1.1 Processus de prétraitementDifférentes étapes de prétraitement Le prétraitement des données du fichier Log comprend les étapes illustrées par le schéma suivant : Nettoyage Transformation Retraitement Base des FIG. 5.1 : Processus de prétraitement 5.1.2 Nettoyage des donnéesLe nettoyage des données consiste à supprimer les requêtes inutiles des fichiers »logs», à savoir : Requêtes non valides (N1) Ce sont les requêtes dont le statut est inférieur à 200 ou supérieur à 399. En effet, le code d'état (statut), entier codé sur trois chiffres, a un sens propre dont la catégorie dépend du premier chiffre: - 1xx indique uniquement un message informel, - 2xx indique un succès, - 3xx redirige le client sur un autre URL, - 4xx indique une erreur côté client, - 5xx indique une erreur côté serveur. Requêtes provenant des robots Web (N2) Il est presque impossible aujourd'hui d'identifier tous les robots Web puisque chaque jour apparaissent des nouveaux. Pour les robots dont l'adresse IP et le User-Agent sont inconnus, nous procédons à un examen de leurs comportements sachant que les robots Web procèdent à une visite relativement exhaustive (nombre de pages visitées par un robot est supérieur au nombre de pages visitées par un utilisateur normal) et rapide et qu'ils cherchent généralement un fichier nommé »robot.txt». Ainsi, pour identifier les requêtes provenant des robots ou leurs visites nous avons utilisé cinq heuristiques en considérant qu'il suffit de vérifier une d'entre elles pour considérer la requête correspondante comme étant générée par un robot Web :
Requêtes aux images (N3) Cette étape de nettoyage consiste à supprimer les fichiers dont les extensions sont : .jpg, .gif, .png, etc... et les fichiers multimédia dont l'extension est : .wav, .wma, .wmv, etc. Deux méthodes ont été utilisées pour supprimer les requêtes aux images. La première (N3a) consiste à utiliser la carte du site afin d'identifier les URLs des images nécessitant de cliquer sur un lien pour être affichées. Les images inclues dans les fichiers HTML sont supprimées car elles ne reflètent pas le comportement de l'internaute. A titre d'exemple, la page dont l'URL est www. cck. rnu. tn\ arabe\ ntic_ tunisie\ ntic_ ar. htm comporte les images suivantes qui s'affichent sans avoir besoin de cliquer sur un lien : Cependant, ce n'est pas toujours possible d'identifier toutes les images inintéressantes quand le site est volumineux. Dans ce cas, nous proposons une autre méthode2 dont l'application nécessite tout d'abord l'identification des sessions. Requêtes dont la méthode est différente de »GET» (N4) Les méthodes généralement utilisées sont: GET, HEAD, PUT, POST, TRACE et OPTIONS: - La méthode GET est une requête d'information. Le serveur traite la demande et renvoie le contenu de l'objet. - La méthode HEAD est très similaire à la méthode GET. Cependant le serveur ne retourne que l'en-tête de la ressource demandée sans les données. Il n'y a donc pas de corps de message. - La méthode PUT permet de télécharger un document, dont le nom est précisé dans l'URI, ou d'effacer un document, toujours si le serveur l'autorise. - La méthode POST est utilisée pour envoyer des données au serveur. - La méthode TRACE est employée pour le déboguage. Le serveur renvoie, dans le corps de la réponse, le contenu exact qu'il a reçu du client. Ceci permet de comprendre, en particulier, ce qui se passe lorsque la requête transite par plusieurs serveurs intermédiaires. - La méthode OPTIONS permet de demander au serveur les méthodes autorisées pour le document référencé. 2voir »seconde étape de nettoyage des images» à la page 54. Vu que le WUM s'intéresse à l'étude du comportement de l'internaute sur le Web et par conséquent aux ressources qu'il demande, il faut garder seulement les requêtes dont la méthode utilisée est GET. Scripts (N5) Généralement, le téléchargement d'une page demandée par un utilisateur est accompagné automatiquement par le téléchargement des scripts tels que les scripts Java (fichiers .js), des feuilles de style (fichiers .css), des animations flash (fichier .swf) ,etc. Ces éléments doivent être supprimés du fichier Log étant donné que leur apparition ne reflète pas le comportement de l'internaute. Requêtes spécifiques à l'activité sur le site (N6) Ce sont les requêtes relatives au trafic sur le site objet de l'analyse. Cette étape montre que la méthodologie d'analyse du comportement des internautes sur le Web n'est pas unique et qu'elle dépend de plusieurs facteurs, en particulier du site analysé. Par exemple, en considérant le site du CCK, cette étape consiste à supprimer: - Les requêtes pour les pages »proxy.pac» (N6a). - Les requêtes aux pages: - http :// www.cck.rnu.tn/haut.htm et - http :// www.cck.rnu.tn/haut.asp car ces pages s'affichent automatiquement avec la page d'accueil du site et servent d'entête (frame) pour toutes les autres pages (N6b). - Les requêtes pour les annonces (les popups). En effet, les annonces apparaissent toutes seules dès que l'utilisateur se connecte sur le site du CCK (N6c). De ce fait, les requêtes correspondantes ne reflètent pas son comportement. Pour éliminer ces requêtes, il faut identifier les URLs correspondantes de la forme: www.cck.rnu.tn/popup/pop.htm |
|