Techniques d'extraction de connaissances appliquées aux données du Web

( Télécharger le fichier original )
par Malika CHARRAD
Ecole Nationale des Sciences de l'Informatique, Université de la Manouba, Tunis - Mastère en informatique, Option : Génies Documentiel et Logiciel 2005

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Chapitre 1

Introduction

La caractérisation des internautes fréquentant un site Web et l'identification de leurs motifs de navigation est un problème incontournable pour les concepteurs de sites Web qui visent à assister l'internaute, prédire son comportement et personnaliser la consultation. Ces trois considérations ont motivé d'importants efforts dans l'analyse des traces des internautes sur les sites Web et l'adaptation des méthodes de classification aux données du Web durant ces dernières années. Le présent travail s'inscrit dans ce courant de recherche, en proposant une méthodologie de traitement des fichiers Logs permettant d'étudier le comportement des utilisateurs d'un site Web et ce en exploitant différentes méthodes de classification, en particulier les cartes topologiques de Kohonen.

1.1 Contexte

Au cours de ces dernières années, avec la croissance exponentielle du nombre des documents en ligne et des nouvelles pages chaque jour, le Web est devenu la principale source d'information. Ce développement a entraîné une croissance rapide de l'activité sur le Web, et une explosion des données résultant de cette activité. En effet, le nombre des utilisateurs d'Internet dans le monde a atteint 938.7 millions au mois de Juillet 2005¹, ce qui correspond à un taux de pénétration de 14.6% et le nombre de sites Web a atteint 70.39 millions au mois d'Août 2005, soit une augmentation de 2.8 millions par rapport au mois de juillet selon l'enquête de Netcraft². Pour analyser ce nouveau type de données, sont apparues de nouvelles méthodes d'analyse regroupées sous le terme »Web Mining» dont les trois axes de développement actuels sont le Web Content Mining (WCM) qui s'intéresse à l'analyse du contenu des pages Web, le Web Structure Mining (WSM), qui s'intéresse à l'étude des liens entre les sites Web et le Web Usage Mining (WUM) qui s'intéresse à l'étude de l'usage du Web.

¹www. Internetworldstats.com 2www.netcraft.com

Cette dernière branche du Web Mining, définie comme étant l'application du processus d'Extraction des Connaissances à partir de bases de Données (ECD) aux données issues des fichiers Logs HTTP est devenue une pratique de plus en plus courante et indispensable. En effet, les créateurs des sites Web intéressés par la fidélisation des internautes fréquentant leurs sites et cherchant à attirer de nouveaux visiteurs ont besoin d'analyser le comportement des internautes afin d'extraire des patrons d'accès au Web en vue d'une amélioration et une personnalisation des sites.

1.2 Description du problème

Récemment, de nombreux travaux en Web Usage Mining ont été menés. Certains de ces travaux se sont concentrés sur l'étude de la première phase du processus du WUM à savoir le prétraitement des données [Tan, 03], d'autres, se sont intéressés à la détermination des modèles comportementaux des internautes fréquentant les sites Web. Ce second axe est le centre d'intérêt de notre travail de recherche, objet du présent mémoire. En effet, en supposant qu'il existe une certaine corrélation entre les différentes pratiques des visiteurs sur un site donné et leurs caractéristiques personnelles, notre objectif consiste à construire des profils de navigation enrichis de traits d'utilisateurs. En d'autres termes, nous cherchons à identifier et à qualifier des groupes d'utilisateurs par rapport à leurs motifs de navigation sur un site donné ou des traits représentant des centres d'intérêts. Ce problème de classification a été traité dans de nombreux travaux en appliquant différentes méthodes : BIRCH³ dans [Fu, 00], CLIQUE dans [Per, 98], EM⁴ dans [Cad, 00], une classification non supervisée basée sur un réseau de neurones dans[Ben, 03]. Notre propos dans cette étude consiste à transformer les données présentes dans les fichiers Logs d'un site Web en des connaissances utiles en procédant à un prétraitement de ces fichiers et à une classification non supervisée des visites effectuées par les internautes, basée sur l'algorithme des cartes topologiques de Kohonen et ce afin d'identifier des typologies de visites explicatives du comportement des utilisateurs sur le site Web.

1.3 Contribution du mémoire

Nous proposons dans ce mémoire une méthodologie de traitement des fichiers Logs permettant de passer d'un ensemble de requêtes enregistrées dans les Logs à un modèle comportemental des utilisateurs du site Web en considération. L'apport de ce travail réside principalement dans trois points:

³Balanced Iterative Reducing and Clustering using Hierarchies ⁴Expectation-Maximization algorithm

- Proposer une méthodologie détaillée de prétraitement des fichiers Logs : proposer des heuristiques d'identification des robots Web, des algorithmes pour l'identification des sessions et des visites.

- Associer la classification des pages à la classification des usagers du site Web. En d'autres termes, exploiter les résultats de la classification des pages dans la classification des internautes.

- Intégrer et combiner différentes techniques de fouille des données pour la classification des utilisateurs.

1.4 Plan du mémoire

Ce mémoire est organisé en deux parties distinctes. La première partie présente une étude de l'art sur le Web Mining, le Web Usage Mining et les méthodes de classification, objets des trois premiers chapitres. La seconde partie composée des trois derniers chapitres est consacrée à la présentation de la méthodologie proposée pour l'extraction des connaissances à partir des fichiers Logs et les résultats de son application sur des données réelles. Plus précisément, le quatrième chapitre est dédié au prétraitement des fichiers Logs permettant d'aboutir à des données structurées et prêtes à l'application des méthodes de fouille des données. Le cinquième chapitre présente les résultats de l'application de ces méthodes sur les données des fichiers Logs du Centre de Calcul elKhawarizmi. Le dernier chapitre présente l'ensemble des outils utilisés pour le prétraitement et la classification.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Le don sans la technique n'est qu'une maladie"