CHAPITRE II LE DATAMINING
[1][3][4][6][9][10][11[17]
II.1. PRESENTATION
Historiquement, cette approche apparut en 1989 sous un
premier nom de KDD (Knowledge Discovery in Databases, en français ECD
pour Extraction de Connaissances à partir des Données), avant
qu'en 1991 apparaisse pour la première fois le terme de « Data
Mining ».
Ainsi, le développement des moyens informatiques et
de calcul statistique permettent la conservation (bases de données ou
encore Entrepôt de donnés), le traitement et l'analyse d'ensembles
de données très volumineux. Plus récemment, le
perfectionnement des logiciels et de leurs interfaces offrent aux utilisateurs,
statisticiens ou non, des possibilités de mise en oeuvre très
simples de ces méthodes.
Cette évolution, ainsi que la popularisation de
nouvelles techniques algorithmiques (réseaux de neurones, machine
à vecteurs support, Arbres de décision, segmentation, etc.) et
outils graphiques, conduit au développement et à la
commercialisation de logiciels (tels que le SPAD, le WEKA, R) intégrant
un sous-ensemble de méthodes statistiques et algorithmiques
utilisées sous la terminologie de Data Mining
généralement traduit en français par fouille de
données.
Cette approche, dont la présentation est
principalement issue du marketing spécialisé dans la gestion de
la relation client (GRC), trouve également des développements et
applications industrielles en contrôle de qualité ou même
dans certaines disciplines scientifiques dès lors que les
ingénieurs et chercheurs que nous sommes, sont confrontés
à un volume de données important comme celui que nous retrouvons
aujourd'hui dans la téléphonie mobile.
L'accroche publicitaire souvent citée par les
éditeurs de logiciels est :
« Comment trouver un diamant dans un tas de
charbon sans se salir les mains ».
Le terme datamining est souvent employé pour
désigner l'ensemble des outils permettant à l'utilisateur
d'accéder aux données de l'entreprise, de les analyser.
Nous retiendrons ici le terme de data Mining aux outils
ayant pour objet de générer des informations riches à
partir des données de l'entreprise, notamment des données
historiques, de découvrir des modèles implicites dans les
données.
Ces outils peuvent permettre par exemple à un
magasin de dégager des profils de client et des achats types et de
prévoir ainsi les ventes futures. Ils permettent d'augmenter la valeur
des données contenues dans le Data Warehouse.
Les outils d'aides à la décision, qu'ils
soient relationnels ou OLAP, laissent l'initiative à l'utilisateur, de
choisir les éléments qu'il veut observer ou analyser .Au
contraire, dans le cas du datamining ,le système a l'initiative et
découvre lui-même les associations entre données ,sans
que l'utilisateur ait à lui dire de rechercher plutôt dans telle
ou telle direction ou à poser des hypothèses .
Il est alors possible de prédire l'avenir, par le
comportement d'un client, et de détecter, dans le passé, les
données inusuelles, exceptionnelles.
Ces outils ne sont plus destinés aux seuls experts
statisticiens mais doivent pouvoir être employés par des
utilisateurs connaissant leur métier et voulant l'analyser, l'explorer.
Seul un utilisateur connaissant le métier peut
déterminer si les modèles, les règles, les tendances
trouvées par l'outil sont pertinentes, intéressantes et utiles
à l'entreprise.
Ces utilisateurs n'ont donc pas obligatoirement un bagage
statistique important .L'outil doit être soit ergonomique, facile
à utiliser, soit permettre de construire une application clé en
main, pour la transparence de toutes les techniques utilisées par
l'utilisateur.
Nous pourrions définir le data mining comme une
démarche ayant pour objet de découvrir des relations et des
faits, à la fois nouveaux et significatifs, sur de grands ensembles de
données.
Le terme datamining signifie littéralement forage
de données dont le but est de pouvoir extraire un
élément : la connaissance.
Ces concepts s'appuient sur le constat qu'il existe au
sein de chaque entreprise des informations cachées dans le gisement de
données. Nous appellerons datamining l'ensemble des techniques qui
permettent de transformer les données en connaissances.
L'exploration se fait sur l'initiative du système,
par un utilisateur métier, et son but est de remplir l'une des
tâches suivantes : Classification, estimation, prédiction,
regroupement par similitudes, segmentation (cautérisation), description
et, dans une moindre mesure, l'optimisation.
|