Première partie
Etat de l'art
Chapitre 2
Web Mining et Web Usage
Mining
Le Web Mining, défini comme l'application des
techniques du Data Mining* aux données du Web (documents, structure des
pages, des liens...), s'est développé à la fin des
années 1990 afin d'extraire des informations pertinentes sur
l'activité des internautes sur le Web. Dans ce chapitre,
structuré en deux sections, nous présentons dans la
première le Web Mining, en particulier ses objectifs et les axes de son
développement. Dans la seconde, nous nous intéressons au
troisième axe de développement du Web Mining, le Web Usage
Mining, en particulier les motifs du WUM, les données de l'usage et les
diverses approches d'analyse.
2.1 Web Mining
Le Web Mining poursuit deux principaux objectifs:
1. L'amélioration et la valorisation des sites Web :
L'analyse et la compréhension du comportement des internautes sur les
sites Web permet de valoriser le contenu des sites en améliorant
l'organisation et les performances des sites.
2. La personnalisation: Les techniques de Data Mining
appliquées aux données collectées sur le Web permettent
d'extraire des informations intéressantes relatives à
l'utilisation du site par les internautes. L'analyse de ces informations permet
de personnaliser le contenu proposé aux internautes en tenant compte de
leurs préférences et de leur profil.
2.1.1 Processus du Web Mining
Le processus du Web Mining se déroule en trois
étapes :
1. Collecte des données sur l'utilisateur,
2. Utilisation de ces données à des fins de
personnalisation,
3. Présentation à l'utilisateur d'un contenu
ciblé.
Données du Web et leurs sources
[Sri, 00]classifie les données utilisées dans le
Web Mining en quatre types :
- Données relatives au contenu : données contenues
dans les pages Web (textes, graphiques),
- Données relatives à la structure : données
décrivant l'organisation du contenu (structure de la page, structure
inter-page),
- Données relatives à l'usage: données
fournissant des informations sur l'usage telles que les adresses IP, la date et
le temps des requêtes,
- Données relatives au profil de l'utilisateur :
données fournissant des informations démographiques sur les
utilisateurs du site Web.
Ces données sont généralement
stockées dans un Data-Warehouse, appelé data-Webhouse, dont
l'objectif de construction est de collecter des données propres à
la fréquentation des sites Web afin d'analyser les comportements de
navigation. Les principales sources des données permettant d'alimenter
les Data-Webhouses sont :
- Les fichiers Logs du serveur Web: il s'agit du journal des
connexions qui conserve une trace des requêtes et des
opérations traitées par le serveur.
- Les bases de données clients : ce sont les sources des
données des entreprises.
- Les cookies (ou Témoins) : ce sont des fichiers que
le serveur d'un site Web glisse au sein du disque dur de l'internaute le plus
souvent à son insu (fichiers temporaires ou dossier Cookies) afin de
stocker de l'information et mémoriser ses visites. Il permet, par
exemple de l'identifier lorsqu'il revient visiter un site
régulièrement.
Terminologie
La compréhension du processus du Web Mining
nécessite la définition de certains termes qui se
répèteront tout au long de ce mémoire. Cette
définition est faite sur la base des recommandations du W3C relatives
à la normalisation de la terminologie [Lav, 99].
- Une vue de page (ou »page diffusée») est le
chargement complet d'une page Web suite à une action de l'utilisateur
sur la page (un clic).
- Une session utilisateur est l'ensemble des requêtes
explicites effectuées par l'utilisateur durant la période
d'analyse.
- Une visite est un sous-ensemble des vues de pages
consécutives d'une session durant une connexion. On parle aussi de
»navigation». La pratique courante considère qu'une absence de
consultation de nouvelles pages sur le site dans un délai
excédant 30 minutes met fin à la visite.
- La notion de »visiteur» est à comprendre au
sens d'individu. On appelle ainsi »nombre de visiteurs» le nombre
d'individus ayant consulté le site pendant une période
donnée.
- Un épisode est un sous-ensemble de clics d'une visite
pour la réalisation d'un objectif. Il s'agit d'une phase de la
navigation.
- Un motif de navigation est un usage du site par ses
utilisateurs Limites du Web Mining
Plusieurs problèmes se posent lors d'une étude de
Web Mining:
- Le stockage des données requiert de très grands
espaces. Il nécessite souvent une machine spécifique.
- L'architecture des sites évolue
régulièrement. Par conséquent, il est parfois difficile
d'opérer des comparaisons entre les différentes périodes
d'analyse.
- La situation géographique des visiteurs est
déterminée à partir des extensions des adresses (.fr,
.uk,.com,). Cependant une adresse se terminant par .com n'est pas
forcément localisée aux Etats-Unis car cette extension est
également devenue une extension commerciale.
2.1.2 Axes de développement du Web Mining
Les trois axes de développement du Web Mining sont : le
Web Content Mining, le Web Structure Mining et le Web Usage Mining.
Web Content Mining
Le Web Content Mining (WCM) consiste en une analyse textuelle
avancée intégrant l'étude des liens hypertextes et la
structure sémantique des pages Web. Ainsi, les techniques de
description, de classification et d'analyse de chaînes de
caractères du Text Mining sont très utiles pour traiter la partie
textuelle des pages. Le WCM s'intéresse également aux images. Il
permet, par exemple, de quantifier les images et les zones de texte, pour
chaque page. Ainsi par l'analyse conjointe de la fréquentation des
pages, il est possible de déterminer si les pages contenant plus
d'images sont plus visitées que les pages contenant plus de texte.
Web Structure Mining
Il s'agit d'une analyse de la structure du Web i.e. de
l'architecture et des liens qui existent entre les différents sites.
L'analyse des chemins parcourus permet, par exemple, de déterminer
combien de pages consultent les internautes en moyenne et ainsi d'adapter
l'arborescence du site pour que les pages les plus recherchées soient
dans les premières pages du site. De même, la recherche des
associations entre les pages consultées permet d'améliorer
l'ergonomie du site par création de nouveaux liens.
Web Usage Mining
Cette dernière branche du Web Mining consiste à
analyser le comportement de l'utilisateur à travers sa navigation,
notamment l'ensemble des clics effectués sur le site (on parle d'analyse
du clickstream). Cette approche permet de mesurer l'audience et la performance
d'un site Web (combien de temps passé par page, combien de visites,
à quel moment, qui est l'utilisateur, quelle est la fréquence de
ses consultations,..). L'intérêt du WUM est d'enrichir les sources
de données de l'entreprise (bases de données clients, bases
marketing,...) par les données brutes du clickstream afin d'affiner les
profils clients ainsi que les modèles comportementaux.
|