CHAPITRE I. LA FOUILLE DE
DONNEES [2, 5, 6,10, 11,12]
I.1 Définitions et
historique
Le «data mining» que l'on peut traduire par
«fouille de données» apparaît au milieu des
années 1990 aux États-Unis comme une nouvelle discipline à
l'interface de la statistique et des technologies de l'information : bases de
données, intelligence artificielle, apprentissage automatique («
machine learning »).
David Hand (1998) en donne la definition suivante: « Data
Mining consists in the discovery of interesting, unexpected, or valuable
structures in large data sets».
La métaphore qui consiste à considérer
les grandes bases de données comme des gisements d'où l'on peut
extraire des pépites à l'aide d'outils spécifiques n'est
certes pas nouvelle. Dès les années 1970, Jean-Paul
Benzécri n'assignait-il pas le même objectif à l'analyse
des données ? : « L'analyse des données est un outil pour
dégager de la gangue des données le pur diamant de la
véridique nature ».
On a pu donc considérer que bien des praticiens
faisaient du data mining sans le savoir. On confondra ici le « data mining
», au sens étroit qui désigne la phase d'extraction des
connaissances, avec la découverte de connaissances dans les bases de
données (KDD ou Knowledge Discovery in Databases) .
La naissance du data mining est essentiellement due à
la conjonction des deux facteurs suivants :
Ø l'accroissement exponentiel dans les entreprises de
données liées à leur activité (données sur
la clientèle, les stocks, la fabrication, la comptabilité ...)
qu'il serait dommage de jeter car elles contiennent des informations-clé
sur leur fonctionnement stratégiques pour la prise de
décision.
Ø Les progrès très rapides des
matériels et des logiciels.
L'objectif poursuivi par le data mining est donc celui de la
valorisation des données contenues dans les systèmes
d'information des entreprises. »
Les premières applications se sont faites dans le
domaine de la gestion de la relation client qui consiste à analyser le
comportement de la clientèle pour mieux la fidéliser et lui
proposer des produits adaptés. Ce qui caractérise la fouille de
données (et choque souvent certains statisticiens) est qu'il s'agit
d'une analyse dite secondaire de données recueillies à d'autres
fins (souvent de gestion) sans qu'un protocole expérimental ou une
méthode de sondage ait été mis en oeuvre.
La fouille de données consiste à rechercher et
extraire de l'information (utile et inconnue) de gros volumes de données
stockées dans des bases ou des entrepôts de données. Le
développement récent de la fouille de données (depuis le
début des années 1990) est lié à plusieurs facteurs
:
Ø une puissance de calcul importante est disponible sur
les ordinateurs de bureau ou même à domicile ;
Ø le volume des bases de données augmente
énormément ;
Ø l'accès aux réseaux de taille mondiale,
ces réseaux ayant un débit sans cesse croissant, qui rendent le
calcul possible et la distribution d'information sur un réseau
d'échelle mondiale viable ;
Ø la prise de conscience de l'intérêt
commercial pour l'optimisation des processus de fabrication, vente, gestion,
logistique, ...
La fouille de données a aujourd'hui une grande
importance économique du fait qu'elle permet d'optimiser la gestion des
ressources (humaines et matérielles).
Quand elle est bien menée, la fouille de données
a apporté des succès certains, à tel point que
l'engouement qu'elle suscite a pu entraîner la transformation (au moins
nominale) de services statistiques de grandes entreprises en services de
data mining.
La recherche d'information dans les grandes bases de
données médicales ou de santé (enquêtes,
données hospitalières etc.) par des techniques de data mining est
encore relativement peu développée, mais devrait se
développer très vite à partir du moment où les
outils existent. Quels sont les outils du data mining et que peut-on trouver et
prouver ?
Le datamining peut aussi être défini comme un
processus inductif, itératif et interactif de découverte dans
les bases de données larges de modèles de données
valides, nouveaux, utiles et compréhensibles.
Ø Inductif: Généralisation d'une
observation ou d'un raisonnement établis à partir de cas
singuliers.
Ø Itératif : nécessite plusieurs
passes
Ø Interactif : l'utilisateur est dans la boucle du
processus
Ø Valides : valables dans le futur
Ø Nouveaux : non prévisibles
Ø Utiles : permettent à l'utilisateur de
prendre des décisions
Ø Compréhensibles : présentation
simple
|