REMERCIEMENTS
Nos sinceres remerciements s'adressent à Allah le
tout Puissant pour son aide et son guide qui nous a permis de réaliser
ce travail.
Ce travail a été réalisé sous
la direction du Mr. ZOUACHE Djaafer notre promoteur, que nous tenons à
lui adresser notre égard pendant la période de réalisation
de ce mémoire, et pour ses conseils judicieux qui nous ont servi de
guide tout au long de notre travail.
Nos remerciements vont également Mr. LAALAMI
Fatih,
Mr .BENAMEUR Ziani, tous les enseignants du
département d'informatique et aux membres de jury qui ont
acceptés de juger ce modeste travail.
Enfin, nos sinceres remerciements s'adressent à tous
ceux qui
nous ont aidés de prés ou de loin à
réaliser notre travail.
Depuis la création du Web, il a connu un accroissement
important d'une manière phénoménale grace à
l'augmentation colossale du nombre de documents mis en ligne et des nouvelles
informations ajoutées chaque jour. En réalité, les usagers
d'un site Web apprécieront davantage la manière dont cette
information est présentée au sein du site alors que les
créateurs des sites Web intéressés par la
fidélisation des internautes fréquentant leurs sites et cherchant
à attirer de nouveaux visiteurs, ont besoin d'analyser le comportement
des internautes afin d'extraire des patrons d'accès au Web en vue d'une
amélioration et une personnalisation des sites. En effet, une grande
quantité de données peut être
récupérée suite à la navigation d'un utilisateur
sur un site. La taille sans cesse croissante de celles-ci et leur
diversité ne permet toutefois pas à l'être humain de
traiter de manière manuelle cette information.
L'accumulation de données a motivé le
développement d'un nouveau champ de recherche : l'Extraction de
Connaissances dans les bases de Données (ECD). L'ECD est un processus
itératif et interactif d'analyse d'un grand ensemble de données
brutes afin d'en extraire des connaissances exploitables par un
utilisateur-analyste qui y joue un rôle central [24].
Ce processus est itératif car les résultats
d'une étape peuvent remettre en cause les traitements effectués
durant les étapes précédentes, et il est interactif car la
qualité des résultats obtenus dépend en grande partie de
l'intervention des utilisateurs finaux. Le processus d'ECD se déroule en
trois étapes [25] :
La première étape décrit le
prétraitement de données qui consiste à nettoyer et
à mettre en forme les données (sélection des
données, élimination des doublons, élimination des valeurs
aberrantes, gestion des valeurs manquantes, transformation des variables,
création de nouvelles variables, etc.).
La fouille de données (data mining) représente
la deuxième étape du processus, c'est l'étape motrice de
l'ECD qui consiste à identifier les motifs qui structurent les
données, ou produire des modèles explicatifs ou prédictifs
des données.
La dernière étape présente le
post-traitement qui met en forme et évalue les résultats obtenus
(appelés connaissances), et à les faire interpréter et
valider par l'utilisateur.
Description du problème
L'approche que nous présentons : est une étude
de cas en fouille de données d'usage de web qui consiste à
analyser les données (les fichiers log ou bien le journal des connexion)
enregistrer au niveau du serveur de site web de CUBBA1 afin de
transformer ces données en des connaissances utiles pour
l'identification d'éventuels comportements typiques d'internautes selon
leur profil, s'est déroulée en trois étapes :
Elle consiste dans un premier temps à un
prétraitement des données qui servent à la
récupération et la concaténation des fichiers log afin que
les requêtes soient organisées en navigations.
Des paramètres introduits à partir des
statistiques sur les accès aux pages sont utilisés pour la
catégorisation des pages Web afin de sauvegarder les pages de contenu et
d'éliminer les pages auxiliaires qui ne présentent aucun
intérét, c'est la classification des pages qui est basée
sur deux méthodes hybrides à savoir l'analyse en composante
principale et le clustering k_means.ces pages de contenu permettent
l'extraction des profils.
À partir des résultats obtenus des deux
étapes précédentes, un regroupement des utilisateurs
basés sur la classification ascendante hiérarchie sont
appliqués aux bases de navigations afin de valider l'existence de
comportements particuliers chez les utilisateurs selon leur profil.
L'une des motivations principales de ce travail est qu'il
n'existe pas, à notre connaissance, des travaux similaires
déjà réalisés dans les institutions universitaires
algériennes. Pour ce faire, Il nous faut récupérer et
analyser les données concernant les requêtes des utilisateurs
stockées dans les fichiers log du serveur.
1 Centre Universitaire de Bordj Bou Arreridj
Organisation de mémoire
Pour conclure cette introduction, le présent
mémoire est réparti en deux grandes parties.
La première partie défini un état de
l'art contenant les chapitres 1, 2 et 3. La deuxième partie contient les
deux derniers chapitres présentent une série de résultats
d'expérimentation. Les chapitres sont organisés de la
façon suivante :
Dans le premier chapitre, on présente les
différentes étapes du processus de la fouille de données
d'usage du Web et un ensemble de concept utilisés dans ce domaine ainsi
ces différentes applications.
Dans le deuxième chapitre, on parle sur le
prétraitement des données qui décrit la première
étape de processus de la fouille d'usage du web, en présentant
les différentes heuristiques de prétraitement afin d'obtenir des
données structurées et prétes à l'application des
méthodes de fouille des données.
Dans le troisième chapitre , on définie les
différentes techniques de la fouille d'usage du web,
précisément une méthode factorielle et deux autres de la
classification non supervisée exploitées dans le présent
mémoire, à savoir les méthodes hiérarchiques et les
méthodes de partitionnement.
Le quatrième chapitre décrit
l'implémentation de prétraitement de données
réelles (les fichiers log de centre universitaire de Bordj Bou Arreridj)
ainsi les différents outils utilisés.
Le dernier chapitre exprime l'application de l'ensemble des
techniques d'analyse de fouille d'usage du web sur les fichiers log
structurés et prétraités.
Enfin nous concluons le mémoire on posant quelques
perspectives pour continuer ce travail.
Première partie
|