3.4 Fouille de données
Une fois les fichiers Log retravaillés en sessions, les
données sont analysées à l'aide de plusieurs outils
statistiques appropriés regroupés dans une boîte à
outils
5Les références avant-maximale sont des
pages de contenu accessibles à travers les pages auxiliaires.
6Une référence en arrière est une
page qui est déjà incluse dans l'épisode.
nommée »Data Mining».
Le Data Mining consiste à »utiliser un ensemble de
techniques statistiques qui, en »fouillant» un grand nombre de
données structurées, permettent de découvrir et de
présenter des informations à valeur ajoutée dans une forme
interprétable facilement par un individu». Dans le cadre du Web
Mining, il s'agit d'extraire des informations à valeur ajoutée
à partir des données collectées sur les internautes afin
de mieux les connaître. Les méthodes appliquées au WUM se
répartissent en quatre grandes familles [Mic, 02].
3.4.1 Méthodes statistiques unidimensionnelles
Ces méthodes permettent une analyse exploratoire des
données à travers les indicateurs statistiques (moyenne,
écart-type,...) et la représentation graphique (histogrammes,
boîte de dispersion,...);
Les indicateurs d'audience éditoriale selon la
terminologie du CRESP7 (Centre d'étude des supports de
Publicité) sont :
- Le nombre de pages demandées ou vues (i.e. totalement
téléchargées),
- Le nombre de pages provenant de mémoires caches ou de
serveurs Proxy, - Le nombre de visiteurs,
- Le nombre de pages vues par visite,
- L'origine géographique des consultations,
- La durée de consultation par visite.
3.4.2 Méthodes statistiques multidimensionnelles
Ces méthodes (Factorisation, segmentation,
classification, ) permettent, en réduisant l'espace et en fournissant
des représentations graphiques, d'exploiter, de fouiller et de
représenter des grands ensembles des données.
Méthodes factorielles
Les méthodes factorielles se proposent de fournir des
représentations synthétiques, souvent sous forme graphique, de
vastes ensembles de valeurs numériques. L'analyse en composantes
principales (ACP) est une technique permettant de réduire un
système complexe de corrélations en un nombre inférieur de
dimensions. Elle s'applique sur des tableaux dont les lignes sont des individus
et les colonnes des variables numériques. L'analyse factorielle des
correspondances (AFC) traite des variables qualitatives. Elle s'applique sur
des tableaux de contingence. Son extension, l'analyse factorielle des
correspondances multiples (AFCM) s'applique sur des grands tableaux de
variables nominales où les lignes sont les individus et les colonnes des
variables descriptives [Leb, 00].
7http ://www.cesp.org/
Méthodes de classification automatique
La classification automatique, appelée aussi
classification non supervisée, segmentation ou également
clustérisat ion, consiste à rechercher des groupes
homogènes inconnues au départ dans une population d'individus
représentés par une ou plusieurs variables. Le Data Mining
propose plusieurs méthodes de classification automatique telle que la
classification ascendante hiérarchique, la classification descendante
hiérarchique, la méthode des centres mobiles...etc. Cependant,
l'adaptation des méthodes de segmentation au données du Web est
difficile vu la taille des tableaux des données tant pour les sessions
que pour les pages différentes [Lec, 03]. En effet, dans [Fu, 00], les
données sont segmentées, après réduction de
dimension, en utilisant un algorithme BIRCH de segmentation hiérarchique
introduit par [Zha, 96]. Dans [Ben, 03], une classification non
supervisée basée sur un réseau de neurones est
utilisée pour grouper les sessions similaires en classes.
Dans le domaine du WUM, il existe deux types de classes
à découvrir [Sri, 00] : classes d'usagers et classes de pages. La
segmentation des utilisateurs a pour objectif d'établir des groupes
d'internautes ayant des comportements de navigation similaires. L'examen de ces
groupes permet d'associer un profil à chaque classe d'utilisateurs. La
segmentation des pages Web consultées par les internautes permet de
découvrir des groupes de pages ayant des contenus reliés ce qui
facilite la tâche des navigateurs et des robots. Ces deux types de
segmentation servent, dans le cadre d'anticipation de besoins, à
créer des pages Web statiques ou dynamiques et proposer des hyperliens
aux internautes suivant leurs profils ou leurs historiques de navigation.
Méthodes de classification supervisée
La classification8 supervisée cherche
à déterminer l'appartenance d'un événement à
des classes préalablement identifiées par segmentation. Dans le
domaine du WUM, la classification consiste à affecter chaque internaute
à une catégorie de comportement de navigation i.e. elle vise
à relier les caractéristiques sociodémographiques d'un
internaute à son comportement. Pour ce faire, de nombreuses
méthodes de classification sont utilisées telles que les arbres
de décision, les réseaux de neurones et le raisonnement à
base de mémoire.
D'autres méthodes ne faisant pas partie des techniques
du Data Mining ont été également utilisées. Une
première méthode consiste à utiliser les algorithmes de
filtrage collaboratif. Cette technique statistique effectue des comparaisons
entre les données sur le nouveau visiteur et celles sur les internautes
ayant visité le site avant lui afin de l'assigner à une
catégorie d'internautes ayant des profils similaires, à l'aide
d'un calcul de proximité suivi d'une fixation de seuil. Une
deuxième méthode d'attribution du visiteur au segment consiste
à impliquer l'utilisateur
qui devrait choisir sa catégorie. Cette méthode
est utilisée en cas de collecte de données ponctuelle
(l'utilisateur fournit les données lors de son enregistrement sur le
site, au début de la session) avec un profil temporaire. Une autre
façon de procéder à l'attribution d'un profil à un
segment est de minimiser un indice multicritère. Cette technique est
relativement similaire à celle employée par les algorithmes de
filtrage collaboratif. En effet, un indice est calculé pour chaque
profil et est comparé à ceux des segments
prédéfinis. L'attribution se fait au segment présentant la
distance minimale entre son indice et celui du profil du visiteur.
|