Chapitre 7
Outils d'investigation
Afin de mettre en oeuvre la classification des utilisateurs du
site Web, sur la base de la méthodologie proposée dans les
chapitres 5 et 6, nous avons eu recours à l'utilisation d'un ensemble
d'outils logiciels que nous présentons dans ce chapitre.
7.1 Langage SQL
SQL (Structured Query Language) est un langage de manipulation
de bases de données mis au point dans les années 70 par IBM. Il
permet trois types de manipulations sur les bases de données:
- La maintenance des tables: création, suppression,
modification de la structure des tables.
- Les manipulations des bases de données :
Sélection, modification, suppression d'enregistrements.
- La gestion des droits d'accès aux tables :
Contrôle des données : droits d'accès, validation des
modifications.
L'intérêt de SQL est que c'est un langage de
manipulation de bases de données standard permettant de gérer une
base de données Access, Paradox, dBase, SQL Server, Oracle ou Informix.
Une requête SQL prend généralement le format suivant :
SELECT [DISTINCT] attribut(s)
FROM table(s)
[WHERE condition] [GROUP BY field(s)] [HAVING condition]
[ORDER BY attribute(s)]
Dans ce mémoire, nous avons recours au langage SQL pour le
nettoyage de la base, la création des sessions et des visites et le
filtrage de la base nettoyée.
Exemples
- Requête SQL de suppression des requêtes non
valides:
SELECT *
FROM DataLog
WHERE (DataLog.Status) >=200 and (DataLog.Status)<400;
- Requête SQL de suppression des images:
SELECT *
FROM DataLog
WHERE (DataLog Like '*gif') Or (DataLog Like '*jpg') Or (DataLog
Like '*jpeg');
- Requête SQL de création des sessions :
SELECT DataLog.ip, DataLog.User_Agent GROUP BY DataLog.ip,
DataLog.UA;
7.2 Logiciels d'analyse des données et de
classi...cation
Nombreux sont les logiciels utilisés pour l'application
des méthodes d'analyse des données et de classification.
Cependant, le choix de l'utilisateur cherchant à tirer le meilleur parti
des données dépend du type de la méthode à
appliquer (méthode d'association, méthode neuronale,
méthode factorielle), la taille des données et la forme des
résultats donnés par le logiciel. Dans notre cas, nous avons
opté pour les deux logiciels suivants:
- SPAD pour l'application de l'analyse en composantes
principales à la classification des pages. Ce logiciel présente
deux avantages. Le premier est sa capacité à exploiter des bases
des données à forte volumétrie (plusieurs millions de
lignes et plusieurs milliers de colonnes). Le second est la capacité de
visualiser les résultats par des graphiques illustratifs très
expressifs, en particulier les résultats des analyses factorielles.
FIG. 7.1 : Analyse en composantes principales à l'aide
de SPAD
- Tanagra 1.1 pour la combinaison des méthodes
factorielles avec les cartes topologiques de Kohonen. Ce logiciel Open Source
destiné à la recherche et l'enseignement présente
l'avantage de permettre l'hybridation des méthodes différentes de
manière à utiliser les variables de sortie d'une méthode
comme variables d'entrée pour la méthode suivante. La figure
suivante illustre un exemple d'hybridation de l'analyse des correspondances
multiples et des cartes de Kohonen avec le logiciel Tanagra.
FIG. 7.2 : Hybridation des méthodes à l'aide de
Tanagra
|