WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Techniques d'extraction de connaissances appliquées aux données du Web

( Télécharger le fichier original )
par Malika CHARRAD
Ecole Nationale des Sciences de l'Informatique, Université de la Manouba, Tunis - Mastère en informatique, Option : Génies Documentiel et Logiciel 2005
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.4 Fouille de données

Une fois les fichiers Log retravaillés en sessions, les données sont analysées à l'aide de plusieurs outils statistiques appropriés regroupés dans une boîte à outils

5Les références avant-maximale sont des pages de contenu accessibles à travers les pages auxiliaires.

6Une référence en arrière est une page qui est déjà incluse dans l'épisode.

nommée »Data Mining».

Le Data Mining consiste à »utiliser un ensemble de techniques statistiques qui, en »fouillant» un grand nombre de données structurées, permettent de découvrir et de présenter des informations à valeur ajoutée dans une forme interprétable facilement par un individu». Dans le cadre du Web Mining, il s'agit d'extraire des informations à valeur ajoutée à partir des données collectées sur les internautes afin de mieux les connaître. Les méthodes appliquées au WUM se répartissent en quatre grandes familles [Mic, 02].

3.4.1 Méthodes statistiques unidimensionnelles

Ces méthodes permettent une analyse exploratoire des données à travers les indicateurs statistiques (moyenne, écart-type,...) et la représentation graphique (histogrammes, boîte de dispersion,...);

Les indicateurs d'audience éditoriale selon la terminologie du CRESP7 (Centre d'étude des supports de Publicité) sont :

- Le nombre de pages demandées ou vues (i.e. totalement téléchargées),

- Le nombre de pages provenant de mémoires caches ou de serveurs Proxy, - Le nombre de visiteurs,

- Le nombre de pages vues par visite,

- L'origine géographique des consultations,

- La durée de consultation par visite.

3.4.2 Méthodes statistiques multidimensionnelles

Ces méthodes (Factorisation, segmentation, classification, ) permettent, en réduisant l'espace et en fournissant des représentations graphiques, d'exploiter, de fouiller et de représenter des grands ensembles des données.

Méthodes factorielles

Les méthodes factorielles se proposent de fournir des représentations synthétiques, souvent sous forme graphique, de vastes ensembles de valeurs numériques. L'analyse en composantes principales (ACP) est une technique permettant de réduire un système complexe de corrélations en un nombre inférieur de dimensions. Elle s'applique sur des tableaux dont les lignes sont des individus et les colonnes des variables numériques. L'analyse factorielle des correspondances (AFC) traite des variables qualitatives. Elle s'applique sur des tableaux de contingence. Son extension, l'analyse factorielle des correspondances multiples (AFCM) s'applique sur des grands tableaux de variables nominales où les lignes sont les individus et les colonnes des variables descriptives [Leb, 00].

7http ://www.cesp.org/

Méthodes de classification automatique

La classification automatique, appelée aussi classification non supervisée, segmentation ou également clustérisat ion, consiste à rechercher des groupes homogènes inconnues au départ dans une population d'individus représentés par une ou plusieurs variables. Le Data Mining propose plusieurs méthodes de classification automatique telle que la classification ascendante hiérarchique, la classification descendante hiérarchique, la méthode des centres mobiles...etc. Cependant, l'adaptation des méthodes de segmentation au données du Web est difficile vu la taille des tableaux des données tant pour les sessions que pour les pages différentes [Lec, 03]. En effet, dans [Fu, 00], les données sont segmentées, après réduction de dimension, en utilisant un algorithme BIRCH de segmentation hiérarchique introduit par [Zha, 96]. Dans [Ben, 03], une classification non supervisée basée sur un réseau de neurones est utilisée pour grouper les sessions similaires en classes.

Dans le domaine du WUM, il existe deux types de classes à découvrir [Sri, 00] : classes d'usagers et classes de pages. La segmentation des utilisateurs a pour objectif d'établir des groupes d'internautes ayant des comportements de navigation similaires. L'examen de ces groupes permet d'associer un profil à chaque classe d'utilisateurs. La segmentation des pages Web consultées par les internautes permet de découvrir des groupes de pages ayant des contenus reliés ce qui facilite la tâche des navigateurs et des robots. Ces deux types de segmentation servent, dans le cadre d'anticipation de besoins, à créer des pages Web statiques ou dynamiques et proposer des hyperliens aux internautes suivant leurs profils ou leurs historiques de navigation.

Méthodes de classification supervisée

La classification8 supervisée cherche à déterminer l'appartenance d'un événement à des classes préalablement identifiées par segmentation. Dans le domaine du WUM, la classification consiste à affecter chaque internaute à une catégorie de comportement de navigation i.e. elle vise à relier les caractéristiques sociodémographiques d'un internaute à son comportement. Pour ce faire, de nombreuses méthodes de classification sont utilisées telles que les arbres de décision, les réseaux de neurones et le raisonnement à base de mémoire.

D'autres méthodes ne faisant pas partie des techniques du Data Mining ont été également utilisées. Une première méthode consiste à utiliser les algorithmes de filtrage collaboratif. Cette technique statistique effectue des comparaisons entre les données sur le nouveau visiteur et celles sur les internautes ayant visité le site avant lui afin de l'assigner à une catégorie d'internautes ayant des profils similaires, à l'aide d'un calcul de proximité suivi d'une fixation de seuil. Une deuxième méthode d'attribution du visiteur au segment consiste à impliquer l'utilisateur

qui devrait choisir sa catégorie. Cette méthode est utilisée en cas de collecte de données ponctuelle (l'utilisateur fournit les données lors de son enregistrement sur le site, au début de la session) avec un profil temporaire. Une autre façon de procéder à l'attribution d'un profil à un segment est de minimiser un indice multicritère. Cette technique est relativement similaire à celle employée par les algorithmes de filtrage collaboratif. En effet, un indice est calculé pour chaque profil et est comparé à ceux des segments prédéfinis. L'attribution se fait au segment présentant la distance minimale entre son indice et celui du profil du visiteur.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Entre deux mots il faut choisir le moindre"   Paul Valery