WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Techniques d'extraction de connaissances appliquées aux données du Web

( Télécharger le fichier original )
par Malika CHARRAD
Ecole Nationale des Sciences de l'Informatique, Université de la Manouba, Tunis - Mastère en informatique, Option : Génies Documentiel et Logiciel 2005
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

6.1.3 Matrice d'accès

Cette matrice est utilisée pour identifier la fréquence d'usage des pages et la fréquence d'usage des trajectoires »usage paths». Chaque entrée (i ,j) de la matrice représente le nombre de visites effectuées de la page i à la page j. Si cette entrée est égale à zéro alors la page j n'a jamais été visitée à partir de la page i. Cette matrice permet d'identifier les pages les plus visitées et les trajectoires les plus parcourues. Ces deux informations sont utiles pour la réorganisation des sites Web en vue de la personnalisation des services Web.

FIG. 6.5 : Matrice d'accès

En considérant les données log du CCK, nous identifions les pages - »/main.asp» (15.11% des visites),

- »/isg» (10.18%),

- »/Default.asp» (7.53%)

- »/news/bourse _suedoise. htm» (2.41%)

comme étant les pages les plus visitées,

- »/arab e/index. htm» => »/arabe/main. htm» (1.15%),

- »/haut .asp» => »/français/votrecompte/votre _compte.htm» (1.15%) - »/haut .asp» => » /français/liens _utiles/liens _utiles. htm» (0.82%) parmi les trajectoires les plus parcourues.

6.1.4 Collecte d'informations sur les accès

Afin de caractériser les pages visitées par les internautes, les variables suivantes sont définies pour chaque page:

- Nombre de visites (NV) - Nombre des inlinks (NI) - Nombre des outlinks (NO)

- Durée moyenne par page : temps passé en moyenne par tous les internautes sur la page (DM)

- Taille du fichier1 (TF)

- Type du fichier (.html, .doc, .pdf, .rtf, etc) (TYF)

Ainsi, chaque page peut être représentée par un vecteur: Page = {NV, NI, NO, DM, TF, TYF}

Hypothèses

1. Pour la variable TYF, nous supposons que les pages dont l'extension est ».doc, .pdf, .rtf» sont des pages de contenu. Par conséquent, nous ne considérons dans la suite que les pages ».asp» et ».html» auxquelles nous appliquons l'ACP.

2. Les pages de contenu, contrairement aux pages auxiliaires sont caractérisées par un nombre faible de visites, d'inlinks et d'outlinks et une durée moyenne de consultation assez élevée.

6.1.5 Application de l'analyse en composantes principales

En considérant les variables NV, NI, NO et DM, nous avons appliqué l'ACP au tableau (pages £ variables).

A partir des coordonnées de ces variables sur les axes factoriels, une étiquette est donnée aux deux premiers axes qui représentent à 80% près l'allure du nuage initial (Fig. 6.6). Le premier axe factoriel est expliqué par les trois variables NV, NI et NO. Il oppose les pages les plus fréquentées (nombre de visites élevé) et ayant un nombre important d'inlinks et d'outlinks aux pages les moins fréquentées et caractérisées par un faible nombre d'inlinks et d'outlinks. Le second axe factoriel est celui de la durée moyenne de consultation de pages.

FIG. 6.6 : Projection des variables sur les axes factoriels

Il est possible d'interpréter les positions des points individus (pages) sur les axes conformément au sens que nous lui avons donné à partir des points variables. Les pages ainsi projetées définissent quatre classes (Fig. 6.7).

FIG. 6.7 : Projection des individus sur les axes factoriels

La première classe (C1) est composée de pages visitées fréquemment et caractérisées par un nombre important d'inlinks et d'outlinks. Elle correspond à la classe de pages auxiliaires ou de navigation. La deuxième classe (C2) est celle de pages de contenu caractérisées par une durée de consultation assez élevée. L'intersection de ces deux classes est composée de pages présentant à la fois les caractéristiques des pages de contenu et des pages auxiliaires. C'est la classe de pages hybrides (C4). La dernière classe (C3) est celle des pages visitées rarement, qui ne pointent nulle part et vers lesquelles pointent peu de pages. La durée moyenne de consultation de ces pages est faible. Nous considérons que ces pages correspondent à ce que [Rao, 96] appelle »pages de référence» utilisées pour définir un

concept ou expliquer des acronymes ou présenter des références bibliographiques. Cependant, nous considérons que ces pages sont, dans une certaine mesure, des pages de contenu. En examinant les coordonnées des points-individus sur les axes factoriels, il est possible d'identifier les éléments qui composent chaque classe.

FIG. 6.8 : Caractérisation des pages

FIG. 6.9: Classification des pages

A partir d'un total de 652 pages, nous avons identifié 135 pages auxiliaires. Les autres pages sont des pages de contenu, des pages hybrides et des pages de référence. L'ensemble des 517 pages restantes et présentant un certain intérêt à l'internaute fait l'objet de notre analyse.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Des chercheurs qui cherchent on en trouve, des chercheurs qui trouvent, on en cherche !"   Charles de Gaulle