WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Techniques d'extraction de connaissances appliquées aux données du Web

( Télécharger le fichier original )
par Malika CHARRAD
Ecole Nationale des Sciences de l'Informatique, Université de la Manouba, Tunis - Mastère en informatique, Option : Génies Documentiel et Logiciel 2005
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

6.2.2 Construction de groupes d'utilisateurs

La construction de groupes d'utilisateurs est effectuée en deux étapes. La première étape consiste à attribuer à chaque visite un ou plusieurs motifs de navigation, caractériser les visites par un ensemble de variables et les regrouper en classes. La seconde étape consiste à construire à partir des groupes de visites des groupes d'utilisateurs et les caractériser. La classification des visites est effectuée selon le schéma suivant.

FIG. 6.17 : Etapes de classification des visites

En effet, afin de réduire l'espace des variables, nous avons recourt à l'application de l'ACP. Les axes factoriels obtenus sont utilisés comme des variables d'entrée pour les cartes de Kohonen.

Analyse en composantes principales

L'ACP s'applique à un tableau (individus £ variables). Les variables considérées sont continues. Dans notre cas, les individus sont les visites et les variables considérées sont présentées ci-dessous.

TAB. 6.2: Variables utilisées dans l'ACP

A partir des coordonnées de ces variables sur les axes factoriels, une étiquette est donnée aux trois premiers axes qui expliquent environ 90% de l'inertie totale du nuage des points. Le premier axe factoriel est expliqué par les deux variables »Duree _visite» et »DureeMoyPage» . Le deuxième axe factoriel est expliqué par les variables »PourcReqDiff» et »PourcReqO k» . Le troisième axe factoriel est expliqué par la variable »NbReqVisite» . La projection des visites sur le deuxième plan factoriel montre trois nuages de points non disjoints.

FIG. 6.18 : Résultat de l'application de l'ACP à la base des visites

Pour aboutir à un meilleur résultat, nous avons recourt à la combinaison de l'ACP avec une seconde méthode de classification à savoir les cartes de Kohonen.

Cartes de Kohonen

L'application des cartes de Kohonen met en évidence trois classes de visites. La première classe est composée de visites dont la durée moyenne de la visite, le nombre moyen de requêtes par visite et la durée moyenne de consultation des pages sont assez élevées en comparaison avec les deux autres classes. Ceci s'explique par le fait que ces visites sont effectuées principalement dans le but de télécharger des cours ou visiter des institutions universitaires. La troisième classe est caractérisée par le pourcentage le plus élevé de requêtes réussies (95%) et de requêtes différentes (98%). Ces visites sont effectuées afin de profiter des services fournis par le CCK tels que les services Internet, les services de calcul, le compte Internet. La deuxième classe comporte des visites dont l'objectif est d'avoir des informations sur les congrès, les colloques,.. etc.

FIG. 6.19 : Résultat de la classification des visites

Pour chaque groupe de visites, un groupe d'utilisateurs est construit contenant tous les utilisateurs possédant au moins une visite dans ce groupe de visites. Ainsi, nous obtenons des groupes d'utilisateurs ayant le même motif de navigation. Le premier groupe est celui des universitaires dont l'objectif de la navigation sur le site est le téléchargement des cours, l'inscription dans les établissements universitaires et la visite des bibliothèques universitaires. Le deuxième groupe est celui des chercheurs qui demandent des informations sur les congrès, les colloques, les mastères et les thèses et visitent les laboratoires de recherche (Larodec2 par exemple). Le troisième groupe est celui des visiteurs du site du CCK afin de profiter des services qu'il fournit. Un dernier groupe est déjà défini lors du pré- traitement des fichiers Logs et dont les requêtes ont été supprimées. Il s'agit des agents et robots utilisés par les moteurs de recherche pour parcourir les sites Web et mettre à jour leurs index de recherche.

La caractérisation de ces groupes en se servant des variables disponibles tels que le navigateur et la plateforme donne les résultats suivants:

TAB. 6.3 : Caractérisation des classes d'utilisateurs par les variables
»navigateur» et »plateforme»

La classe des chercheurs présente une certaine différence par rapport aux deux autres classes. En effet, 10% des utilisateurs appartenant à cette classe utilisent des navigateurs différents de Microsoft Internet Explorer et 6% utilisent des systèmes d'exploitation différents de Microsoft Windows.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Piètre disciple, qui ne surpasse pas son maitre !"   Léonard de Vinci