CHAPITRE 3
Techniques d'analyse de la fouille
d'usage du web
1. Introduction
Dans ce chapitre nous ne prétendons pas fournir une
liste exhaustive de l'ensemble des notions et méthodes existant dans le
cadre de l'analyse de la fouille d'usage de web. Il s'agit plutôt de
donner un aperçu général sur la notion d'une
méthode factorielle : l'analyse en composantes principales et deux
autres de classification non supervisé à savoir la classification
ascendante hiérarchique et la méthode de partitionnement
k-means.
2. Les méthodes factorielles
Les méthodes factorielles permettent de réduire
l'espace en fournissant des représentations graphiques, d'exploiter, de
fouiller, de représenter de grands ensembles de données.
2.1. / TQa3\111Q1FomSINQAW SLIQFISIXIITS
&3)
L'ACP est l'une des techniques des méthodes
factorielles qui est utile pour la compression et la classification des
données. Le problème consiste à réduire la
dimensionnalité d'un ensemble des données (échantillon) en
trouvant un nouvel ensemble de variables plus petit que l'ensemble original des
variables, qui néanmoins contient la plupart de l'information de
l'échantillon.
Etant donné un ensemble d'observations décrites
par des variables exclusivement numériques {x1, x2 , ..., xp}, l'ACP a
pour objectif de décrire ce même ensemble de données par de
nouvelles variables en nombre réduit. Ces nouvelles variables seront des
combinaisons linéaires des variables originales comme suit :
Ck == a1kx1 + a2k x2+ ... + apk xp, et porteront
le nom de Composantes Principales (CP). 2.1.1. Propriétés
des Composantes Principales
Nombre :
Bien que l'objectif soit en général de
n'utiliser qu'un petit nombre de Composantes Principales, l'ACP en construit
initialement p, autant que de variables originales. Ce n'est que par la suite
que l'analyste décidera du nombre de Composantes à retenir.
"Retenir k Composantes Principales" veut dire "Remplacer les observations
originales par leur projections orthogonales dans le sous-espace à k
dimensions défini par les k premières Composantes
Principales".
1' Orthogonalité :
Les Composantes Principales définissent des directions
de l'espace des observations qui sont deux à deux orthogonales.
Autrement dit, l'ACP procède à un changement de repère
orthogonal, les directions originales étant remplacées par les
Composantes Principales.
1' Décorrélation :
Les Composantes Principales sont des variables qui
s'avèrent être deux à deux
décorrélées.
1' Ordre et sous-espaces optimaux :
La propriété fondamentale des Composantes
Principales est de pouvoir être classée par ordre
décroissant d'importance dans le sens suivant : Si l'analyste
décide de décrire ses données avec seulement k (k < p)
combinaisons linéaires de ses variables originales tout en perdant le
moins possible d'information, alors ces k combinaisons linéaires sont
justement les k premières Composantes Principales.
2.1.2. Calcul matriciel
a. Matrice des covariances
+ La covariance
La covariance de deux variables v1 et v2 est un indicateur de
la variation simultanée. La covariance est positive quand v2 croît
chaque fois que v1 croit. Elle est négative quand v2
décroît chaque fois que v1 croit. Elle est nulle si v1 et v2 sont
indépendants.
Covariance et corrélation sont de même signe, la
covariance est fonction du coefficient de corrélation :
Cov (v1, v2) = écart-type (v1) * écart-type (v2) *
corrélation (v1, v2)
+ Choix de la matrice des covariances
Si on a des données homogènes avec des ordres de
grandeurs identiques (typiquement dans le cas de données physiques),
alors on a une métrique euclidienne et on travaille avec une matrice des
covariances.
A chaque couple de variables (v1, v2), la valeur de la case de la
matrice est celle de la covariance du couple (v1, v2).
b. Matrice des corrélations
+ La corrélation
A chaque couple de variables (v1, v2), la valeur de la case de la
matrice est celle du coefficient de corrélation entre v1 et v2.
+ Choix de la matrice des corrélations
Si on a des données hétérogènes
avec des ordres de grandeurs différents (typiquement dans le cas de
données économétriques), alors on a une métrique
« inverse des variances » et on travaille avec une matrice des
corrélations.
Corrélation (v1, v2) = cov (v1, v2) / (écart-type
(v1) * écart-type (v2))
2.1.3. Les composantes principales à
garder
Il y a 3 critères empiriques pour savoir combien de
composantes principales garder :
V' Le critère de Kaiser :
Si on a utilisé une matrice des corrélations (cas
le plus courant), on ne garde que les composantes principales dont la valeur
propre est > 1. Ce n'est pas un critère absolu.
V' Valeur du pourcentage :
La valeur propre est aussi donnée en pourcentage. On
peut garder les pourcentages significatifs. En regardant la courbe des
pourcentages cumulé, on peut faire apparaître un moment de flexion
significatif qui montre qu'à partir de là, il y a peu
d'information restituée.
V' Valeurs des coefficients de corrélation avec les
variables d'origine :
On peut aussi ne garder que les composantes principales qui ont
un coefficient de corrélation élevé avec au moins une
variable d'origine
2.1.4. Le cercle de corrélation
a. Présentation
On peut calculer le coefficient de corrélation de
chaque variable d'origine avec toutes les composantes principales. Le
coefficient de corrélation est une valeur comprise entre --1 et1.Le
cercle des corrélations ou bien l'espace des variables est le plan dont
les axes sont constitués par des composantes principales (la
première et la deuxième prioritairement). Chaque variable
d'origine a des coordonnées dans ce plan.
La projection des variables dans ce plan (nuage de points) permet
visuellement de : + Détecter les variables d'origine liées entre
elles.
+ Interpréter chaque composante principale d'après
ses corrélations avec les variables d'origine.
b. Interpretation
+ Des projections proches entre elles et proches du cercle des
corrélations correspondent à des variables
corrélées.
+ Des projections proches de l'horizontale montrent une
corrélation avec la composante principale horizontale.
+ Des projections proches de la verticale montrent une
corrélation avec la composante principale verticale.
3. La classification non supervisé
La classification non supervisé (classification
automatique, regroupement ou clustring, en anglais) a pour but de regrouper des
individus en classes homogènes en fonction de l'analyse des
caractéristiques qui décrivent les individus. Par classes
homogènes, on entend regrouper les individus qui se ressemblent et
séparer ceux qui sont dissemblables.
L'expression non supervisée fait
référence au fait qu'aucun superviseur ou label est
utilisé pour préciser à quelle classe appartient un
individu. En conséquence, le nombre de classes existant dans un ensemble
d'individus est a priori inconnu. De ce fait, l'un des problèmes les
plus délicats à propos des méthodes de classification non
supervisée concerne le choix du nombre de classes à retenir. Pour
palier cet écueil, il existe des artifices permettant d'approcher le bon
nombre de classes. Dans ce mémoire, nous nous intéressons
particulièrement à deux grandes familles de méthodes de
classification non supervisée : les méthodes hiérarchiques
et les méthodes de partitionnement.
3.1. Notion de similarité
Il s'agit de définir des groupes d'objets tels que la
similarité entre objets d'un méme groupe soit maximale et que la
similarité entre objets de groupes différents soit minimale.
La question est alors de définir cette similarité.
Pratiquement, la similarité entre objets est estimée par une
fonction calculant la distance entre ces objets.
Ainsi deux objets proches selon cette distance seront
considérés comme similaires, et au contraire, deux objets
séparés par une large distance seront considérés
comme différents.
Le choix de cette mesure de distance entre objets est alors
très important.
Très souvent il s'agit d'un choix arbitraire qui traite
tous les attributs de la méme manière [24].
|