Application du processus de fouille de données d'usage du web sur les fichiers logs du site cubba( Télécharger le fichier original )par Nabila Merzoug et Hanane Bessa Centre universitaire de Bordj Bou Arréridj Algérie - Ingénieur en informatique 2009 |
3. Transformation des données3.1. Identification des internautesEn ce qui concerne l'identification de l'utilisateur, pour les sites Web, il est indispensable d'identifier clairement chaque utilisateur. Si le serveur ne peut différencier les requêtes qui lui parviennent, toute solution proposée n'est pas optimale. 3.1.1. Adresse IP Sur Internet, les ordinateurs communiquent entre eux grâce au protocole TCP/IP « Transmission Control Protocol ». Chaque ordinateur appartenant au réseau est identifié par une séquence unique de 32 bits (l'adresse IP) écrite à l'aide de quatre nombres compris entre 0 et 255. Les adresses IP ont l'avantage d'être toujours disponibles et de ne nécessiter aucun traitement préalable. En revanche, elles possèdent principalement deux limites : + Premièrement, une adresse IP peut n'identifier qu'un groupe d'ordinateurs « cachés » derrière le serveur proxy d'un fournisseur d'accès à Internet ou d'un réseau local. Rappelons qu'un serveur proxy a une double fonction : il permet aux ordinateurs d'un réseau utilisant des adresses IP privées d'accéder à Internet par son intermédiaire. Il peut également servir de cache, c'est-à-dire qu'il peut garder en mémoire les pages les plus souvent visitées pour les fournir plus rapidement. Ainsi, tous les internautes utilisant un serveur proxy seront identifiés par l'unique adresse IP de ce serveur. Le site visité ne peut alors déceler s'il a à faire à un ou plusieurs visiteurs. Exemple : IP des clients Proxy IP apparaissant dans le log hse-montreal-ppp123456.sympatico.ca hse-sherbrookeppp1236456.qc.sympatico.ca hse-quecity-ppp123456.qc.sympatico.ca FIG 2.2 Effet du proxy sur le contenu des logs [16]. + Le deuxième inconvénient de l'utilisation des adresses IP comme identifiants vient de son inadéquation à la rétribution dynamique. La majorité des internautes se voient en effet prêter une adresse IP par leur fournisseur d'accès le temps d'une connexion à Internet. Cet inconvénient est particulièrement influant sur les sites ayant de nombreux visiteurs, les adresses IP attribuées dynamiquement pouvant être réutilisées immédiatement par d'autres utilisateurs. Par ailleurs, l'attribution dynamique ne permet une identification valable que pour une seule session ininterrompue : si l'internaute interrompt sa visite en se déconnectant un bref instant, sa session sera toujours en cours, mais son adresse IP aura changé, l'identification ne sera donc plus possible. 3.1.2. Les sessions a. Définition Une session est composée de l'ensemble de pages visitées par le même utilisateur durant la période d'analyse, cependant, dans [12] la combinaison des champs IP (adresse) et User Agent (le navigateur Web) d'un fichier log Web identifie correctement l'utilisateur dans 92.02 % des cas et seul un nombre limité de ces combinaisons (1.32 %) sont utilisés par plus de trois utilisateurs. Chaque session est caractérisée par le nombre de requêtes effectuées par l'utilisateur durant cette session, le nombre de pages consultées (URLs2 différentes) et la durée de la session. Nous pouvons considérer la combinaison adresse IP plus navigatrice comme étant un critère acceptable pour l'identification d'un utilisateur dans le cadre d'une activité ponctuelle. session1 session2 une base session n FIG 2.3 Le schéma d'identification de session. b. Algorithme d'identification Afin de mieux identifier les sessions, nous adoptons l'algorithme proposé ci-dessous. [13]
FIG 2.4 Algorithme d'identification des sessions. |
|