III.1 .2 SATATISTIQUE ET DATAMINING [14J
Nous pourrions croire que les techniques du datamining viennent
en remplacement des statistiques .En fait, il n'en est rien et elles sont
omniprésentes .On les utilise : Pour faire une analyse
préalable,
Pour estimer ou alimenter les valeurs manquantes,
Pendant le processus pour évaluer la qualité des
estimations,
Après le processus pour mesurer les actions entreprises et
faire un bilan.
[43]
Ainsi la statistique et datamining sont tout à fait
complémentaires.
III.1 .3 PROCESSUS DU DATAMINING (14J , (8J
Le datamining est un processus méthodique : une suite
ordonnée d'opérations aboutissant à un résultat.
Le data ming est décrit comme un processus itératif
complet constitué de quartes divisées en six phases.
PROCESSUS DU DATA MINING
|
Acteur
|
Etapes
|
Phases
|
Maitre d'oeuvre
|
Objectifs
|
1. Compréhension du métier :
|
|
2. Compréhension des données
|
|
|
Traitements
|
4 .Modélisation
|
5.Evaluation de la modélisation
|
Maître d'ouvrage
|
Déploiement
|
6. Déploiement des résultats de
l'étude
|
Tableau III 1:le processuce du datamining.
A. Compréhension du Métier :
Cette phase consisté à :
Enoncer clairement les objectifs globaux du projet et les
contraintes de l'entreprise.
Traduire ses objectifs et ses contraintes en un problème
de data mining
Préparer une stratégie initiale pour atteindre ces
objectifs.
B. Compréhension des données
Cette phase consiste à :
Recueillir les données
Utiliser l'analyse exploratoire pour se familiariser avec les
données, commencer à les comprendre et imaginer ce qu'on pourrait
en tirer comme connaissance. Evaluer la qualité des données
[44]
Eventuellement, sélectionner des sous ensembles
intéressants
C. Préparation des données
Cette phase aide à préparer, à partir
des données brutes, l'ensemble final des données qui va
être utilisé pour toutes les phases suivantes :
Sélectionner les cas et les variables à
analyser
Réaliser si nécessaire les transformations de
certaines données,
Réaliser si nécessaire la suppression de
certaines données.
D. Modélisation
La phase de la modélisation consiste à :
Sélectionner les techniques de modélisation
appropriées (pouvant être utilisées pour le même
problème)
Calibrer les paramètres des techniques de
modélisation choisies pour optimiser les résultats ;
Eventuellement revoir la préparation des données
pour l'adapter aux techniques utilisées.
E. Evaluation de la modélisation
Cette résume le rapport final :
Pour chaque technique de modélisation utilisée,
évaluer la qualité (la pertinence la signification) des
résultats obtenus ;
Déterminer si les résultats obtenus atteignent
les objectifs globaux identifiés pendant la phase de
compréhension du métier ;
Décider si on passe à la phase suivante (le
déploiement) ou si on souhaite reprendre l'étude en
complétant le jeu de données.
F. Déploiement des résultats obtenus
Cette phase est externe à l'analyse du datamining .Elle
concerne le maître d'ouvrage.
Prendre les décisions en conséquence des
résultats de l'étude de data mining
[45]
Préparer la collecte des informations futures pour
permettre de vérifier la pertinence des décisions effectivement
mis en oeuvre.
|