3.2. Identification des visites des internautes
Une fois l'utilisateur (approximativement) identifié,
le problème consiste alors à détecter toutes les
requêtes en provenance de cet utilisateur. Concernant cette
problématique, la méthode la plus simple pour le groupement des
requêtes en sous-ensembles de requêtes appartenant au méme
utilisateur est d'utiliser le temps de latence maximum entre deux
requêtes successives. Selon [14] ce temps est
estimé de manière empirique à 25.5 minutes. La
majorité des méthodes d'analyse de l'usage du Web ont donc
adopté le temps de latence de 30 minutes. Dans [15] la
navigation définit comme l'ensemble de requêtes (clics) en
provenance d'un méme utilisateur séparées au-delà
de 30 minutes, et session comme l'ensemble de navigations d'un méme
utilisateur.
Cette stratégie serait capable d'identifier les
requêtes en provenance d'un méme utilisateur dans le contexte
d'une seule navigation. Cependant, on ne peut pas généraliser
cette combinaison pour l'identification de plusieurs navigations appartenant
à un méme utilisateur, puisque nous n'avons aucune garantie que
l'utilisateur d'avant aura les mémes valeurs pour le couple adresse IP
plus navigatrice lors d'une prochaine visite sur le site Web.
Une fois les visites identifiées, la durée de
consultation de la dernière page de chaque visite (la dernière
page de chaque session et les pages dont la durée de consultation a
dépassé 30 minutes celles qui ont permis la construction des
visites) est obtenue à partir de la moyenne des durées de
consultation des pages précédentes appartenant à la
même visite.
![](Application-du-processus-de-fouille-de-donnees-dusage-du-web-sur-les-fichiers-logs-du-site-cubba10.png)
visite 1
une session
visite2
visite n
FIG 2.5 Le schéma d'identification de
visite.
|