6.1.3 Matrice d'accès
Cette matrice est utilisée pour identifier la
fréquence d'usage des pages et la fréquence d'usage des
trajectoires »usage paths». Chaque entrée (i ,j) de la matrice
représente le nombre de visites effectuées de la page i à
la page j. Si cette entrée est égale à zéro alors
la page j n'a jamais été visitée à partir de la
page i. Cette matrice permet d'identifier les pages les plus visitées et
les trajectoires les plus parcourues. Ces deux informations sont utiles pour la
réorganisation des sites Web en vue de la personnalisation des services
Web.
FIG. 6.5 : Matrice d'accès
En considérant les données log du CCK, nous
identifions les pages - »/main.asp» (15.11% des visites),
- »/isg» (10.18%),
- »/Default.asp» (7.53%)
- »/news/bourse _suedoise. htm» (2.41%)
comme étant les pages les plus visitées,
- »/arab e/index. htm» => »/arabe/main.
htm» (1.15%),
- »/haut .asp» =>
»/français/votrecompte/votre _compte.htm» (1.15%) -
»/haut .asp» => » /français/liens _utiles/liens
_utiles. htm» (0.82%) parmi les trajectoires les plus parcourues.
6.1.4 Collecte d'informations sur les accès
Afin de caractériser les pages visitées par les
internautes, les variables suivantes sont définies pour chaque page:
- Nombre de visites (NV) - Nombre des inlinks (NI) - Nombre
des outlinks (NO)
- Durée moyenne par page : temps passé en moyenne
par tous les internautes sur la page (DM)
- Taille du fichier1 (TF)
- Type du fichier (.html, .doc, .pdf, .rtf, etc) (TYF)
Ainsi, chaque page peut être représentée par
un vecteur: Page = {NV, NI, NO, DM, TF, TYF}
Hypothèses
1. Pour la variable TYF, nous supposons que les pages dont
l'extension est ».doc, .pdf, .rtf» sont des pages de contenu. Par
conséquent, nous ne considérons dans la suite que les pages
».asp» et ».html» auxquelles nous appliquons l'ACP.
2. Les pages de contenu, contrairement aux pages auxiliaires
sont caractérisées par un nombre faible de visites, d'inlinks et
d'outlinks et une durée moyenne de consultation assez
élevée.
6.1.5 Application de l'analyse en composantes
principales
En considérant les variables NV, NI, NO et DM, nous avons
appliqué l'ACP au tableau (pages £ variables).
A partir des coordonnées de ces variables sur les axes
factoriels, une étiquette est donnée aux deux premiers axes qui
représentent à 80% près l'allure du nuage initial (Fig.
6.6). Le premier axe factoriel est expliqué par les trois variables NV,
NI et NO. Il oppose les pages les plus fréquentées (nombre de
visites élevé) et ayant un nombre important d'inlinks et
d'outlinks aux pages les moins fréquentées et
caractérisées par un faible nombre d'inlinks et d'outlinks. Le
second axe factoriel est celui de la durée moyenne de consultation de
pages.
FIG. 6.6 : Projection des variables sur les axes factoriels
Il est possible d'interpréter les positions des points
individus (pages) sur les axes conformément au sens que nous lui avons
donné à partir des points variables. Les pages ainsi
projetées définissent quatre classes (Fig. 6.7).
FIG. 6.7 : Projection des individus sur les axes factoriels
La première classe (C1) est composée de pages
visitées fréquemment et caractérisées par un nombre
important d'inlinks et d'outlinks. Elle correspond à la classe de pages
auxiliaires ou de navigation. La deuxième classe (C2) est celle de pages
de contenu caractérisées par une durée de consultation
assez élevée. L'intersection de ces deux classes est
composée de pages présentant à la fois les
caractéristiques des pages de contenu et des pages auxiliaires. C'est la
classe de pages hybrides (C4). La dernière classe (C3) est celle des
pages visitées rarement, qui ne pointent nulle part et vers lesquelles
pointent peu de pages. La durée moyenne de consultation de ces pages est
faible. Nous considérons que ces pages correspondent à ce que
[Rao, 96] appelle »pages de référence» utilisées
pour définir un
concept ou expliquer des acronymes ou présenter des
références bibliographiques. Cependant, nous considérons
que ces pages sont, dans une certaine mesure, des pages de contenu. En
examinant les coordonnées des points-individus sur les axes factoriels,
il est possible d'identifier les éléments qui composent chaque
classe.
FIG. 6.8 : Caractérisation des pages
FIG. 6.9: Classification des pages
A partir d'un total de 652 pages, nous avons identifié
135 pages auxiliaires. Les autres pages sont des pages de contenu, des pages
hybrides et des pages de référence. L'ensemble des 517 pages
restantes et présentant un certain intérêt à
l'internaute fait l'objet de notre analyse.
|