5.1.5 Modélisation des unités d'analyse
Soit L le fichier Log composé de l'ensemble de
requêtes effectuées par les utilisateurs du site L = {R1,
R2;..., RN}. Sachant que le nombre d'utilisateurs du site est n, le
fichier L est décomposé en sessions L = {S1, S2, ...,
Sn}. Chaque session est décomposée en visites Si =
{Vi1, Vi2, ..., Vipi}, avecVij est la jème visite
effectuée par l'utilisateur i.
Une requête effectuée par l'utilisateur Uk
à la page Pk dont l'URL de provenance est refk et la réponse du
serveur est rk peut être représentée par le vecteur suivant
: Rk = (Uk, Pk, tk, rk, refk), avec tk est le temps passé par
l'utilisateur sur la page Pk. En ajoutant la visite et la session auxquelles
appartient chaque requête, le vecteur devient : Rk = (Uk, Pk, tk, rk,
refk, Vk, Sk)
Comme dans notre cas, nous ne disposons d'aucune information
sur les utilisateurs, chaque utilisateur est défini par sa session, par
suite, nous avons le vecteur suivant : Rk = (Pk, tk, rk, refk, Vk, Sk)
5.1.6 Schéma relationnel
Afin de pouvoir traiter l'information contenue dans la base le
plus simplement et le plus efficacement possible, il faut restructurer la base
selon le schéma relationnel. Nous disposons d'un ensemble de
règles telles que:
- Une même page peut être demandée par des
utilisateurs différents donc des »IPs» et des
»User-Agents» différents.
- Inversement, le même utilisateur peut demander plusieurs
pages du site.
- A la demande d'une page correspondent plusieurs types de
réponses du serveur donc plusieurs »statuts».
- Inversement, le même statut peut être
attribué à plusieurs demandes de pages différentes.
Comme la relation entre la variable »URL» et toutes
les autres variables (» IP», »User- Agent»,
»statut», »date», »time», »referrer»)
est de type plusieurs à plusieurs (n-m), il faut la scinder en deux
relations : une relation »un - plusieurs» et une relation
»plusieurs - un». Nous obtenons alors le schéma relationnel
suivant.
FIG. 5.12 : Schéma relationnel
|