III.1 OBJECTIFS DU DATA MINING [8]
Les objectifs du Data Mining peuvent être regroupés
dans trois axes importants:
1. Prédiction (What-if) : consiste à
prédire les conséquences d'un événement (ou d'une
décision), se basant sur le passé.
2. Découverte de règles cachées :
découvrir des règles associatives, entre différents
événements (Exemple : corrélation entre les ventes de deux
produits).
3. Confirmation d'hypothèses : confirmer des
hypothèses proposées par les analystes et décideurs, et
les doter d'un degré de confiance.
Mémoire MANKAMBA YANKUMBA Jean Luc UKA 2015 - 2016
28
|
MISE EN PLACE D'UN SYSTEME DECISIONNEL BASE SUR LE DATA MART ET
L'ARBRE DE DECISION POUR LE RECRUTEMENT DU PERSONNEL A LA DGR KOC
|
En considérant le serveur de base données ou le
serveur d'entrepôt de données, le Data mining est
considéré comme un client riche de ces deux serveurs. Notons que
le client serveur est un mode de dialogue entre deux processus, l'un
appelé client qui sollicite des services auprès de l'autre
appelé serveur, par envoie des requêtes (send request en anglais).
Après avoir lancé une requête par rapport au fait à
analyser, le client data ming applique des méthodes ou procédures
sur les données obtenues, afin d'obtenir les informations
nécessaires pour la prise de décision. Ces procédures ou
méthodes, sont classées en deux catégories :
Apprentissage non supervisé et l'apprentissage
supervisé en dehors de ces deux s'ajoute l'autre qui est
l'apprentissage automatique.
a) Apprentissage non supervisé
:
Elle consiste à mettre en évidence les
informations cachées par le grand volume de données, en vue de
détecter dans ces données des tendances cachées. Les
techniques utilisées sont : La segmentation (Clustering en anglais),
L'analyse à composante principale, l'analyse factorielle de
correspondance.
b) Apprentissage supervisé :
L'apprentissage supervisé consiste à extrapoler
des nouvelles connaissances à partir de l'échantillon
représentatif issu de l'apprentissage non supervisé. Les
techniques utilisées sont : Les réseaux de neurones, le SVM,
l'arbre de décision, les réseaux de bayes, etc.
c) Apprentissage automatique :
L'apprentissage automatique (machine learning en
anglais), un des champs d'étude de l'intelligence artificielle, est la
discipline scientifique concernée par le développement, l'analyse
et l'implémentation de méthodes automatisables qui permettent
à une machine (au sens large) d'évoluer grâce à un
processus d'apprentissage, et ainsi de remplir des tâches qui sont
difficiles ou impossible d'être réalisées par des moyens
algorithmiques plus classiques.
Des systèmes complexes peuvent être
analysés, y compris pour des données associées à
des valeurs symboliques (ex: sur un attribut numérique, non pas
simplement une valeur numérique, juste un nombre, mais une valeur
probabilisée, c'est-à-dire un nombre assorti d'une
probabilité ou associé à un intervalle de confiance) ou un
ensemble de modalités possibles sur un attribut numérique ou
catégoriel.
L'analyse peut même concerner des données
présentées sous forme de graphes ou d'arbres, ou encore de
courbes (par exemple, la courbe d'évolution temporelle d'une mesure ; on
parle alors de données continues, par
opposition aux données discrètes
associées à des attributs-valeurs classiques).
Le premier stade de l'analyse est celui de la
classification, qui vise à « étiqueter »
chaque donnée en l'associant à une classe.
Mémoire MANKAMBA YANKUMBA Jean Luc UKA 2015 - 2016
29
|
MISE EN PLACE D'UN SYSTEME DECISIONNEL BASE SUR LE DATA MART ET
L'ARBRE DE DECISION POUR LE RECRUTEMENT DU PERSONNEL A LA DGR KOC
|
III.1 .2 PROCESSUS DU DATAMINING
Le datamining est un processus méthodique : une suite
ordonnée d'opérations aboutissant à un résultat.
Le data ming est décrit comme un processus
itératif complet constitué de quartes divisées en six
phases qui sont représenté dans le tableau suivant :
PROCESSUS DU DATA MINING
|
Acteur
|
Etapes
|
Phases
|
Maitre d'oeuvre
|
Objectifs
|
1. Compréhension du métier :
|
2. Compréhension des données
|
|
|
Traitements
|
4 .Modélisation
|
5.Evaluation de la modélisation
|
Maître d'ouvrage
|
Déploiement
|
6. Déploiement des résultats de l'étude
|
Tableau .III .1: le processus du datamining.
a) Compréhension du Métier :
Cette phase consisté à :
Enoncer clairement les objectifs globaux du projet et les
contraintes de l'entreprise.
Traduire ses objectifs et ses contraintes en un problème
de data mining
Préparer une stratégie initiale pour atteindre ces
objectifs.
b) Compréhension des données
Cette phase consiste à :
Recueillir les données, utiliser l'analyse
exploratoire pour se familiariser avec les données, commencé
à les comprendre et imaginer ce qu'on pourrait en tirer comme
connaissance. Evaluer la qualité des données, Eventuellement,
sélectionner des sous ensembles intéressants.
c) Préparation des données
Cette phase aide à préparer, à partir
des données brutes, l'ensemble final des données qui va
être utilisé pour toutes les phases suivantes :
Sélectionner les cas et les variables à analyser,
réaliser si nécessaire les
transformations de certaines données, réaliser si
nécessaire la suppression de certaines données.
d) Modélisation
La phase de la modélisation consiste à :
Sélectionner les techniques de modélisation
appropriées (pouvant être utilisées pour le même
problème) calibrer les paramètres des techniques de
modélisation choisies pour optimiser les résultats ;
Eventuellement revoir la préparation des données
pour l'adapter aux techniques utilisées.
Mémoire MANKAMBA YANKUMBA Jean Luc UKA 2015 - 2016
30
|
MISE EN PLACE D'UN SYSTEME DECISIONNEL BASE SUR LE DATA MART ET
L'ARBRE DE DECISION POUR LE RECRUTEMENT DU PERSONNEL A LA DGR KOC
|
e) Evaluation de la modélisation
? Pour chaque technique de modélisation
utilisée, évaluer la qualité (la pertinence) des
résultats obtenus ;
? Déterminer si les résultats obtenus
atteignent les objectifs globaux identifiés pendant la phase de
compréhension du métier ;
? Décider si on passe à la phase suivante (le
déploiement) ou si on souhaite reprendre l'étude en
complétant le jeu de données.
f) Déploiement des résultats obtenus
Cette phase est externe à l'analyse du datamining .Elle
concerne le maître d'ouvrage. Prendre les décisions en
conséquence des résultats de l'étude de data mining
Préparer la collecte des informations futures pour
permettre de vérifier la pertinence des décisions effectivement
mis en oeuvre.
|