1.3- Terminologie :
La compréhension du processus du Web Mining
nécessite la définition de certains termes qui se
répèteront tout au long de cette mémoire :
- Une vue de page (ou « page diffusée»)
est le chargement complet d'une page Web suite à une action de
l'utilisateur sur la page (un clic).
- Une session utilisateur est l'ensemble des requêtes
explicites effectuées par l'utilisateur durant la période
d'analyse.
- Une visite est un sous-ensemble des vues de pages
consécutives d'une session durant une connexion. On parle aussi de
« navigation». La pratique courante considère qu'une
absence de consultation de nouvelles pages sur le site dans un délai
excédant 30 minutes met fin à la visite.
- La notion de « visiteur» est à
comprendre au sens d'individu. On appelle ainsi « nombre de
visiteurs» le nombre d'individus ayant consulté le site pendant une
période donnée.
- Un épisode est un sous-ensemble de clics d'une visite
pour la réalisation d'un objectif. Il s'agit d'une phase de la
navigation.
- Un motif de navigation est un usage du site par ses
utilisateurs.
Plusieurs problèmes se posent lors d'une étude
de Web Mining:
- Le stockage des données requiert de très
grands espaces. Il nécessite souvent une machine spécifique.
- L'architecture des sites évolue
régulièrement. Par conséquent, il est parfois difficile
d'opérer des comparaisons entre les différentes périodes
d'analyse.
- La situation géographique des visiteurs est
déterminée à partir des extensions des adresses (.fr, .uk,
.com,). Cependant une adresse se terminant par .com n'est pas forcément
localisée aux Etats-Unis car cette extension est également
devenue une extension commerciale.
Figure 2 : Terminologie.
1-4- Axes de développement du Web Mining:
Les trois axes de développement du Web Mining sont : le
Web Content Mining, le Web Structure Mining et le Web Usage Mining.
1.4.1- Web Content Mining (WCM)
Le Web Content Mining (WCM) consiste en une analyse textuelle
avancée intégrant l'étude des liens hypertextes et la
structure sémantique des pages Web. Ainsi, les techniques de
description, de classification et d'analyse de chaînes de
caractères du Text Mining sont très utiles pour traiter la partie
textuelle des pages. Le WCM s'intéresse également aux images. Il
permet, par exemple, de quantifier les images et les zones de texte, pour
chaque page. Ainsi par l'analyse conjointe de la fréquentation des
pages, il est possible de déterminer si les pages contenant plus
d'images sont plus visitées que les pages contenant plus de texte.
|