CHAPITRE 5
Classification des pages et d'internautes du
site CUBBA
1. Introduction
Dans ce chapitre, nous avons donné une série de
résultats d'expérimentation et leurs interprétations que
nous utilisons dans deux types de fouille : d'une part, les classes de pages
regroupant les pages dont les contenus sont sémantiquement proche, et
d'autre part, de définir les classes d'utilisateurs dont l'objectif est
de trouver des groupes d'internautes ayant des modèles de navigation
similaires.
Cependant ce chapitre n'a pas pour intention de
décrire les techniques de classifications présentées avec
plus de détail dans le chapitre 1. Il présent plutôt
comment ces techniques sont appliquées dans le domaine du fouille
d'usage du Web.
2. Classification des pages
La classification des pages a pour objectif de distinguer les
pages de contenu présentant l'information recherchée par
l'internaute des pages de navigation utilisée pour faciliter la
navigation de l'utilisateur sur le site de manière à ne garder
dans la base que les requêtes aux pages présentant un contenu
intéressant aux visiteurs. Notre approche consiste à
définir des variables servant à la caractérisation des
pages et les utiliser pour la classification des pages.
2.1. Variables statistiques pour la
caractérisation des pages
Afin de caractériser les pages visitées par les
internautes, les variables suivantes sont définies pour chaque page :
N0
|
variable
|
Signification
|
1
|
NV
|
Nombre de Visites effectuées à chaque page.
|
2
|
NI
|
Nombre des Inlinks qui mènent à la page en question
à partir des autres
pages.
|
3
|
NO
|
Nombre des Outlinks dans la page qui mènent vers d'autres
pages
|
4
|
DM
|
Durée Moyenne par page de visite de chaque page
|
TAB 5.1. Variables statistiques
décrivant les pages.
l'indexation des pages du site Web pour faciliter leur
manipulation et la construction de deux matrices : matrice d'hyperliens et
matrice d'accès.
a. 0 DtIiFIRdADFFgs
Cette matrice est utilisée pour déterminer le
nombre de visites effectuées par les internautes à chaque page.
Chaque entrée (i, j) de la matrice représente le nombre de
visites effectuées de la page i à la page j. Si cette
entrée est égale à zéro alors la page j n'a jamais
été visitée à partir de la page i.
Exemple :
|
|
|
A
|
B
|
C
|
D
|
E
|
F
|
G
|
SOM
|
A
|
0
|
42
|
14
|
29
|
17
|
9
|
0
|
111
|
B
|
0
|
1
|
19
|
2
|
3
|
1
|
0
|
26
|
C
|
0
|
0
|
1
|
12
|
3
|
1
|
0
|
17
|
D
|
0
|
3
|
2
|
0
|
11
|
6
|
0
|
22
|
E
|
0
|
4
|
0
|
5
|
1
|
12
|
0
|
21
|
F
|
0
|
0
|
1
|
1
|
4
|
0
|
14
|
20
|
G
|
0
|
0
|
0
|
0
|
0
|
3
|
0
|
3
|
TAB 5.2. Matrice d'accès.
b. 0 DtIiFIRdAN, slims
Cette matrice est utilisée pour calculer le nombre
d'inlinks et le nombre d'outlinks. En effet, le nombre d'inlinks est le total
sur les lignes alors que le nombre d'outlinks est le total sur les colonnes.
Chaque ligne de la matrice correspond à une page du site. Il en est de
même pour chaque colonne. Ainsi, s'il existe N pages différentes
visitées par les internautes, la matrice d'hyperliens sera de dimension
(N, N). Chaque entrée (i, j) de la matrice prend la valeur 1 si
l'utilisateur a visité la page j à partir de la page i et la
valeur 0 sinon.
Toutefois, il ne faut pas oublier que certaines pages du site
ne sont pas visitées par les internautes et que certains liens dans les
pages visitées ne sont pas utilisés. Ces pages et hyperliens ne
sont pas considérés dans cette représentation matricielle
qui ne prend que les accès enregistrés dans les fichiers Logs.
120,00%
100,00%
40,00%
80,00%
60,00%
20,00%
0,00%
0 1 2 3 4 5
% cumulated
% cumulated
Exemple
|
|
|
A
|
B
|
C
|
D
|
E
|
F
|
G
|
inlinks
|
A
|
1
|
1
|
0
|
0
|
1
|
0
|
1
|
4
|
B
|
1
|
1
|
0
|
0
|
1
|
1
|
0
|
4
|
C
|
1
|
1
|
0
|
1
|
1
|
1
|
1
|
6
|
D
|
1
|
0
|
1
|
1
|
0
|
0
|
0
|
3
|
E
|
1
|
1
|
1
|
0
|
1
|
1
|
0
|
5
|
F
|
1
|
1
|
0
|
1
|
1
|
0
|
1
|
5
|
G
|
1
|
0
|
1
|
1
|
0
|
0
|
1
|
4
|
outlinks
|
7
|
5
|
3
|
4
|
5
|
3
|
4
|
31
|
TAB 5.3. Matrice d'hyperlien.
2.2. Application de l'Analyse en Composantes Principale
(ACP)
A partir de l'application de l'Analyse en composante principale
sur l'ensemble des variables du tableau « TAB 5.1 » qui participe
à la construction des axes, On a gardé selon le critère
« valeur du pourcentage » les deux premiers axes qui
représentent à 83 % près l'allure du nuage initial (FIG
5.1).
a. La projection des variables sur les axes
factoriels
FIG 5.2. Projection des variables sur les axes
factoriels.
+ Interprétation
duree
Le premier axe traduit bien un effet de visite, il
oppose les pages ayant une valeur importante de « NI, NO et NV », ces
dernières sont corrélées positivement avec le premier axe.
Le second axe était plus associé à la DM des
visites.
b. la projection des individus sur les axes
factoriels
FIG 5.3. Projection des individus sur les axes
factoriels. ? Interprétation
d1
La popularité de l'ACP repose en grande partie sur les
représentations graphiques qu'elle propose. Elles nous permettent
d'apprécier visuellement les proximités entre les
p _
individus. Dans notre cas, nous projetons les individus dans le
plan factoriel. Nous voulons
p1
associer les individus aux classes.
À partir de la représentation obtenue (FIG 4.3) le
contenu du site peut être divisé en quatre classes dont les pages
dans chaque classe sont sémantiquement proches.
x
Pour aboutir à un meilleur résultat, nous avons
recourt à la combinaison de l'ACP avec
rp d
p
l'une des méthodes de partitionnement k-means. Les axes
factoriels obtenus sont utilisés
i
p13 o l
y
comme des variables d'entrée pour le k-means.
q g
k j m
10
|