II.1.1 Définition
La fouille de données consiste à rechercher et
extraire de l'information (utile et inconnue) de gros volumes de données
stockées dans des bases ou des entrepôts de données.
L'exploration se fait sur l'initiative du système, par
un utilisateur métier, et son but est de remplir l'une des tâches
suivantes : classification, estimation, prédiction, regroupement par
similitudes, segmentation (ou clustérisation), description et, dans une
moindre mesure, l'optimisation.
II.1.2 Triple objectif du data
mining
Ø Expliquer :le data mining
pourra tenter d'expliquer un événement ou un incident
indiscernable. Par la consultation des informations contenues dans
l'entrepôt de données de l'entreprise, on peut être en
mesure de formuler la question suivante :pour qu'elle raison perd-t-on des
clients pour tel produit spécifique dans telle région? tout en se
basant sur des données collectées ou des mises en signification
de paramètres liés, le data mining va essayer de trouver un
certain nombre d'explication à cette question. Le Data Mining va aider
à trouver des hypothèses d'explications.
Ø Confirmer : le data Mining
aidera à confirmer un comportement ou une hypothèse.
Dans le cas où le décideur aurait un doute concernant
une hypothèse, le data Mining pourra tenter de confirmer cette
hypothèse en la vérifiant en appliquant des méthodes
statistiques ou d'intelligence artificielle.
Ø Explorer :enfin, le data mining
peut explorer les données pour découvrir un lien "inconnu" jusque
là. Quand le décideur n'as pas d'hypothèse ou
d'idée sur un fait précis, il peut demander au système de
proposer des associations ou des corrélations qui pourront aboutir a une
explication. Il est utopique de croire que le data mining pourrait remplacer la
réflexion humaine. Le data mining ne doit être vu et utiliser
uniquement en tant qu'aide à la prise de décision. Par contre,
l'informatique décisionnelle dans son ensemble, et plus
particulièrement le data mining permet de suggérer des
hypothèses. La décision finale appartiendra toujours au
décideur.
II.2 LES DIFFERENTES ETAPES
D'EXTRATION DE CONNAISSANCES
a. Etape 1 : identification du (ou des)
problème(s) :les systèmes de Business
Intelligence ne se construisent sur des données techniques,
mais sur la compréhension des objectifs métiers de l'entreprise.
Cette recherche préliminaire aboutit à la définition de
problèmes auxquels la fouille de données tentera d'apporter une
réponse.
b. Etape 2 : rassemblement de
données :la plupart du temps, les projets data mining
assemblent une grande quantité de données en combinant plusieurs
sources de données hétérogènes. Lorsque la source
n'est pas directement un entrepôt de données, une première
phase consiste à repartir les données brutes et à les
stocker localement sous forme d'une base de données.
c. Etape 3 : préparation des
données : dans la réalité, les
données extraites doivent être filtrées, mise en forme,
traitées avant de pouvoir être exploitées par les
algorithmes de data mining. La préparation des données est donc
un point crucial, et les développeurs doivent pouvoir s'appuyer sur les
fonctionnalités d'une base de données pour effectuer les
traitements préliminaires tels que l'élimination des valeurs
erronées ou régénération de valeurs manquantes.
d. Etape 4 : modélisation des
données
e. Les fonctions de data mining se répartissent en deux
grandes catégories :
Ø Les fonctions supervisées :
elles travaillent avec une cible, permettent de prédire une
valeur. La modélisation et la décision se fondent sur
l'observation du passé. Les fonctions supervisées sont aussi
désignées par les termes fonctions distinctes ou fonctions
prédictives.
Ø Les fonctions non
supervisées : elles détectent des relations, des
analogies ou concordances entre les données. Ces fonctions n'utilisent
aucune cible. Ces fonctions s'appuient sur le clustering
hiérarchique, les centres mobiles, les règles
d'association, etc. pour extraire des similitudes dans les données. Les
fonctions non supervisées sont aussi désignées par les
termes fonctions indirectes ou fonctions descriptives.
Ø Etape 5 : évaluation des
modèles : l'évaluation du (ou des modèle(s)
est une étape importante qui permet de vérifier que les questions
posées lors de l'étape 1 ont bien trouvé une
réponse fiable. Une fois les modèles construits, il peut
s'avérer nécessaire de revoir les étapes 2 et 3 afin
d'affiner la collecte et la préparation des données. Le
succès de cette étape conditionne le déploiement.
Ø Etape 6 :
déploiement : après avoir été
validés, les modèle data mining sont déployés dans
leurs domaines d'application respectifs. Le déploiement couvre des
domaines aussi divers que la production de rapports ou l'automatisation de
l'acquisition de données dans l'entrepôt.
|