Traitement et exploration du fichier Log du serveur web pour l'extraction des connaissances( Télécharger le fichier original )par Nassim et Mohamed ELARBi etTAHAR DJEBBAR Université Hassiba Benbouali Chlef - licence en informatique 2008 |
Chapitre 2 : Fichier logIntroduction Dans ce chapitre, nous expliquons la structure d'un fichier LOG en général a travers quelques exemples relatifs à l'observation de quelque sites web. 1- Présentation des fichiers logs :Le comportement de l'utilisateur sur un site Web réside en une suite de clics de souris et de saisies sur un clavier. Ces informations déclenchent des requêtes qui ont pour résultat l'affichage de certaines pages du site. Ces requêtes sont enregistrées dans un fichier texte à mesure qu'elles sont déclenchées par les utilisateurs. Ces données sont stockées de manière standardisée de façon à ce qu'il soit possible de procéder à des analyses. Cette base de données est communément appelée fichier log. Son analyse permet en principe de savoir quelles sont les requêtes qui n'aboutissent pas (page manquante, lien erroné...) ou encore quelle est la fréquentation de chaque page. Cependant la structure et le contenu de ce fichier permettent d'obtenir de plus amples informations après certains traitements. Le format le plus répandu de fichier log est le format ELF (Extended Log Format). Chaque ligne de ce fichier donne une information sur l'utilisateur, son matériel, la date et l'heure de la requête, la page requise, le statut de la page requise, la page de référence ainsi que quelques informations liées au protocole d'échange de données (figure 1). Et le format (Common Log Format) a le même structure que ELF (Extended Log Format) mais ne contient pas le « referrer » (désignant le navigateur, le système exploitation du l'ordinateur client et ainsi d'autres paramètres éventuelles.
161 .31.1 32 .11 6 - - [21 /Dec/2001:08:42:55 -0500] "GET /home.htm HTTP/1.0" 200 43 92 http://fr.search.yahoo.com/fr?p=peinture "Mozilla/4.7 [en] (Win98)" 161 .31.1 32 .11 6 - - [21 /Dec/2001:08:43:59 -0500] "GET /images/flagfr.jpg HTTP/1.0" 304 - "-" "Mozilla/4.7 [en] (Win98)" 209 .130.181.2 12 - - [21/Dec/2001:08:44:02 -0500] "GET /cs HTTP/1.1" 301 236 "-" "Mozilla/4 .0 (compatible; MSIE 5.5; Windows 98)" 209 .130.181.2 12 - - [21/Dec/2001:08:44:0 3 -0500] "GET /cs/ HTTP/1.1" 200 1643 "-" "Mozilla/4.0 (compatible; MSIE 5.5; Windows 98)" 209 .130.181.212 - - [21/Dec/2001:08:44:05 -0500] "GET /cs/frameh.htm HTTP/1.1" 200 7363 "/cs/" "Mozilla/4.0 (compatible; MSIE 5.5; Windows 98)" Figure 6 - extrait d'un fichier log.
Selon ce format sept informations sont enregistrées: 1. le nom du domaine ou l'adresse de Protocole Internet (IP) de la machine appelante, 2. le nom et le login HTTP de l'utilisateur (en cas d'accès par mot de passe), 3. la date et l'heure de la requête, 4. la méthode utilisée dans la requête (GET, POST, etc.) et le nom de la ressource Web demandée (l'URL de la page demandée), 5. le statut de la requête i.e. le résultat de la requête (succès, échec, erreur, etc.), 6. la taille de la page demandée en octets. 7. le navigateur et le système exploitation utilisé par le client. Tout d'abord, il faut remarquer que les lignes arrivent dans un ordre chronologique au gré des différentes requêtes et non pas regroupées par visiteur. Chaque ligne a un format bien défini. La première ligne de la figure 1 servira d'exemple pour commenter les différents blocs de données. 161.31.132.116 : La première série de chiffres est l'adresse de Protocole Internet ou adresse IP. Cette adresse est unique lors d'une connexion. Ceci veut dire que lorsqu'un utilisateur se connecte à l'Internet, cette adresse sera déposée dans tous les fichiers log des sites que celui-ci visitera le temps de sa connexion. Cependant à chaque déconnexion, l'utilisateur perd cette adresse et en obtient une autre lors d'une connexion ultérieure1. Pour l'analyse du trafic, ceci a deux conséquences importantes. Premièrement, il n'est pas possible de savoir, à partir d'un fichier log standard, si un utilisateur est déjà venu sur le site ou s'il s'agit d'une première visite. Deuxièmement, étant donné que le nombre d'adresses IP disponibles est limité, plusieurs personnes peuvent obtenir successivement la même adresse. En revanche plusieurs personnes ne peuvent pas obtenir la même adresse simultanément. L'adresse IP est unique durant toute la connexion et ne peut être partagée. [21/Dec/2001:08:42:55 -0500] : Le deuxième groupe de données est relatif à la date et à l'heure de la requête. GET /home.htm: Le troisième groupe de données concerne la requête. Ici la page requise est la page home.htm. HTTP/1.0 : correspond au protocole utilisé.
200 : Viennent ensuite des données sur le statut de la page requise (200 pour« disponible », 404 pour « introuvable »...). 4392 : correspond à la taille chargée. http://fr.search.yahoo.com... : C'est la page de référence, la page à partir de laquelle la requête est lancée. Mozilla/4.7 [en] (Win98) : Le dernier bloc de données renseigne sur la configuration de l'utilisateur. Ici, le visiteur utilise le navigateur Netscape 4.7 version anglaise sous un environnement Windows 98. Quelques explications sont nécessaires sur le type de requête et le code de retour : Les principales valeurs de types de requêtes sont : Les requêtes généralement utilisées sont: GET, HEAD, PUT, POST, TRACE et OPTIONS: - La méthode GET est une requête d'information. Le serveur traite la demande et renvoie le contenu de l'objet. - La méthode HEAD est très similaire à la méthode GET. Cependant le serveur ne retourne que l'en-tête de la ressource demandée sans les données. Il n'y a donc pas de corps de message. - La méthode PUT permet de télécharger un document, dont le nom est précisé dans l'URI, ou d'effacer un document, toujours si le serveur l'autorise. - La méthode POST est utilisée pour envoyer des données au serveur. - La méthode TRACE est employée pour le déboguage. Le serveur renvoie, dans le corps de la réponse, le contenu exact qu'il a reçu du client. Ceci permet de comprendre, en particulier, ce qui se passe lorsque la requête transite par plusieurs serveurs intermédiaires. - La méthode OPTIONS permet de demander au serveur les méthodes autorisées pour le document référencé En effet, le code d'état (statut), entier codé sur trois chiffres, a un sens propre dont la catégorie dépend du premier chiffre: - 1xx indique uniquement un message informel, - 2xx indique un succès, - 3xx redirige le client sur un autre URL, - 4xx indique une erreur côté client, - 5xx indique une erreur côté serveur. Dans cette partie nous analyserons les formats des fichiers log existants sur le marché, cette analyse nous permettra d'avoir une idée sur la représentation des différentes informations contenues dans ces fichiers. Ensuite nous établirons la liste des bases de données candidates, cette liste a été faite à partir d'une analyse du marché des systèmes de gestion de base de données. |
|