WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Techniques d'extraction de connaissances appliquées aux données du Web

( Télécharger le fichier original )
par Malika CHARRAD
Ecole Nationale des Sciences de l'Informatique, Université de la Manouba, Tunis - Mastère en informatique, Option : Génies Documentiel et Logiciel 2005
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

5.2 Résultats de l'analyse des fichiers Log du CCK

5.2.1 Corpus expérimental

Il est constitué de l'ensemble de requêtes adressées au site du CCK (Centre de Calcul elKhawarizmi) pendant la période allant du 17 Septembre au 14 Octobre 2004. Le fichier est composé de 279879 requêtes enregistrées suivant la norme ECLF (Extended Common Log Format). Pour chaque requête, nous disposons des champs suivants: la date de réalisation de la requête (date), l'heure à laquelle elle s'est produite (time) , l'adresse IP du client ayant accédé au serveur (c- ip), le nom de l'utilisateur authentifié ayant accédé au serveur (cs-username) , l'adresse IP du serveur (s - ip), le numéro du port auquel le client est connecté (s - port), la méthode i.e. l'action que tentait de réaliser le client (method), la ressource à laquelle un accès a lieu (cs - uri - stem), éventuellement la requête que le client a essayé d'effectuer (cs - uri - query), la réponse du serveur (sc - status), le nombre d'octets reçus par le serveur (cs - bytes), la durée de l'action (time - taken), l'agent utilisé par l'utilisateur (cs(User - Agent)), le référant ou URL de provenance (cs(Referer)). La figure 5.13 présente les données dans leur forme brute:

FIG. 5.13 : Fichier d'enregistrement d'accès

Les variables qui prennent une valeur unique sont éliminées, à savoir csusername (tous les utilisateurs sont anonymes), s- ip (car il s'agit d'un serveur unique), s-port (prend la valeur 80) et cs-host car nous travaillons sur un site unique (étude mono-site).

5.2.2 Résultats

TAB. 5.5 : Tableau récapitulatif des résultats

Remarques

- L'étape N2a de suppression des requêtes des WRs nécessite l'établissement d'une liste des adresses IP (2644 adresses collectées) et une liste de UserAgents5 (1073 User- Agents collectés). Les requêtes provenant d'une des adresses IP ou d'un des User-Agents présents dans les deux listes sont supprimées.

- Dans le cas du traitement des fichiers Log du CCK, une seule image est affichée à la demande de l'internaute. Cette image a pour URL:

/français/reseau_ rnu/images/reseau.jpg

Toutes les autres images sont contenues dans les pages Web du site et elles sont affichées sans intervention de l'utilisateur.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Aux âmes bien nées, la valeur n'attend point le nombre des années"   Corneille