3-Problèmes spécifiques aux
données des fichiers LOG :
Bien que les données fournies par les fichiers Logs
soient utiles, il importe de prendre en compte les limites inhérentes
à ces données lors de leur analyse et de leur
interprétation. Parmi les difficultés qui peuvent survenir:
3.1-Les requêtes inutiles :
Chaque fois qu'il reçoit une requête, le serveur enregistre une
ligne dans le fichier Log. Ainsi, pour charger une page, il y'aura autant de
lignes dans le fichier que d'objets contenus sur cette page (les
éléments graphiques). Un prétraitement est donc
indispensable pour supprimer les requêtes inutiles.
3.2- Les firewalls
: Ces protections d'accès à un réseau masquent
l'adresse IP des utilisateurs. Toute requête de connexion provenant d'un
serveur doté d'une telle protection aura la même adresse et ce,
quel que soit l'utilisateur. Il est donc impossible, dans ce cas, d'identifier
et de distinguer les visiteurs provenant de ce réseau.
3.3- Le Web
caching: Afin de faciliter le trafic sur le Web, une copie de
certaines pages est sauvegardée au niveau du navigateur local de
l'utilisateur ou au niveau du serveur Proxy afin de ne pas les
télécharger chaque fois qu'un utilisateur les demande. Dans ce
cas, une page peut être consultée plusieurs fois sans qu'il y' ait
autant d'accès au serveur. Il en résulte que les requêtes
correspondantes ne sont pas enregistrées dans le fichier Log.
3.4- L'utilisation des
robots : Les annuaires du Web, connus sous le nom de moteurs de
recherche, utilisent des robots qui parcourent tous les sites Web afin de
mettre à jour leur index de recherche. Ce faisant, ils
déclenchent des requêtes qui sont enregistrées dans tous
les fichiers Logs des différents sites, faussant ainsi leurs
statistiques.
3.5- L'identification des
utilisateurs : L'identification des utilisateurs à partir
du fichier Log n'est pas une tâche simple. En effet, en employant le
fichier Log, l'unique identifiant disponible est l'adresse IP et
»l'agent» de l'utilisateur. Cet identifiant présente plusieurs
limites :
3.6- Adresse IP unique / Plusieurs sessions
serveurs: La même adresse IP peut être
attribuée à plusieurs utilisateurs accédant aux services
du Web à travers un unique serveur Proxy.
3.7- Plusieurs adresses IP / Utilisateur
unique: Un utilisateur peut accéder au Web à partir
de plusieurs machines.
3.8- Plusieurs agents / Utilisateur unique
: Un internaute qui utilise plus d'un navigateur, même si la
machine est unique, est aperçu comme plusieurs utilisateurs.
3.9- L'identification des sessions :
Toutes les requêtes provenant d'un utilisateur identifié
constituent sa session. Le début de la session est défini par le
fait que l'URL de provenance de l'utilisateur est extérieure au site.
Par contre, aucun signal n'indique la déconnexion du site et par suite
la fin de la session.
3.10- Le manque
d'information : Le fichier Log n'apporte rien sur le comportement
de l'utilisateur entre deux requêtes : Que fait ce dernier? Est-il
vraiment en train de lire la page affichée? De plus, le nombre de
visites d'une page ne reflète pas nécessairement
l'intérêt de celle-ci. En effet, un nombre élevé de
visites peut simplement être attribué à l'organisation d'un
site et au passage forcé d'un visiteur sur certaines.
|