Partie théorique :
Chapitre 1 : Web Mining
Introduction
Dans ce chapitre, nous présentons des techniques
pour extraire des connaissances comme le «Web Mining» et le
«web Usage Mining».
1- Le Web Mining :
Le Web Mining, défini comme l'application
des techniques du Data Mining aux données du Web (documents, structure
des pages, des liens...), Grâce à l'évolution constante des
technologies informatiques, s'est développé à la fin des
années 1990 afin d'extraire des informations pertinentes sur
l'activité des internautes sur le Web.
Le Web Mining sert à l'extraction d'informations
pertinentes et de connaissances réparties dans la volumineuse source de
données qu'est Internet.
L'optimisation des systèmes d'informations,
principalement dans le domaine du e-commerce, est aussi une tâche
importante réalisée à l'aide du Web Mining.
- Web Mining est un domaine de recherche pluridisciplinaire,
associant :
· Data Mining .
· Machine d'apprentissage.
· Récupération des informations.
· Traitement des langues naturelles.
· Multimédia.
· Statistiques.
Le Web Mining poursuit deux principaux objectifs:
1. L'amélioration et la valorisation des sites Web :
L'analyse et la compréhension du comportement des internautes sur les
sites Web permettent de valoriser le contenu des sites en améliorant
l'organisation et les performances des sites.
2. La personnalisation: Les techniques de Data Mining
appliquées aux données collectées sur le Web permettent
d'extraire des informations intéressantes relatives à
l'utilisation du site par les internautes. L'analyse de ces informations permet
de personnaliser le contenu proposé aux internautes en tenant compte de
leurs préférences et de leur profil.
1-1 Processus du Web Mining :
Le processus du Web Mining se déroule en trois
étapes :
1. Collecte des données sur l'utilisateur,
2. Utilisation de ces données à des fins de
personnalisation,
3. Présentation à l'utilisateur d'un contenu
ciblé.
Figure 1 : Processus du Web Mining
1-2 Données du Web et leurs sources :
Les données utilisées dans le Web Mining sont
classifiées en quatre types :
- Données relatives au contenu : données
contenues dans les pages Web (textes, graphiques),
- Données relatives à la structure :
données décrivant l'organisation du contenu (structure de la
page, structure inter-page),
- Données relatives à l'usage:
données fournissant des informations sur l'usage telles que les adresses
IP, la date et le temps des requêtes,
- Données relatives au profil de l'utilisateur :
données fournissant des informations démographiques sur les
utilisateurs du site Web.
Ces données sont généralement
stockées dans un Data-Warehouse, appelé data-Webhouse, dont
l'objectif de construction est de collecter des données propres à
la fréquentation des sites Web afin d'analyser les comportements de
navigation. Les principales sources des données permettant d'alimenter
les Data-Webhouses sont :
- Les fichiers Logs du serveur Web: il s'agit du journal des
connexions qui conserve une trace des requêtes et des
opérations traitées par le serveur.
- Les bases de données clients : ce sont les sources
des données des entreprises.
- Les cookies (ou Témoins) : ce sont des fichiers que
le serveur d'un site Web glisse au sein du disque dur de l'internaute le plus
souvent à son insu (fichiers temporaires ou dossier Cookies) afin de
stocker de l'information et mémoriser ses visites. Il permet, par
exemple de l'identifier lorsqu'il revient visiter un site
régulièrement.
|