Deuxième partie
39
Application de la méthode
40
Chapitre 4
Fouille de données et navigation dans
un treillis
L
'Exploration de données, connue aussi sous l'expression
de fouille de données, forage de données, prospection de
données ou encore data mining a pour objectif d'extraire
un savoir ou une connaissance à partir de grandes quantités de
données par des méthodes appropriées.
4.1 Bref aperçu sur les fouilles de
données
Le data mining, dans sa forme et comprehension
actuelle, à la fois comme champ scientifique et industriel, est apparu
au debut des années 90. Cette émergence n'est pas le fruit du
hasard mais le résultat de la combinaison de nombreux facteur à
la fois technologique mais aussi économiques. Cette discipline se
présente comme une nécessité imposée par le besoin
des entreprises de valoriser les données qu'elles accumulent dans leurs
bases de données.
En effet, le développement des capacités de
stockage et les vitesses de transmission des données ont conduit les
utilisateurs à accumuler d'enormes quantités d'informations dans
leurs bases de données. Alors, une question reste, cependant,
poseé : Que doit-on faire avec des données coûteuses
à collecter et à conserver? Dès lors est né
l'analyse de données ainsi que ses différentes méthodes
que l'on retrouve dans différents domaines sous des formulations
différentes et ayant une caractéristique commune à la fois
d'analyser des données qui s'organisent sous forme tabulaire (Objets
× attributs).[14]
Une confusion subsiste encore entre Data mining qui
signifie en anglais « fouille de données » et
Knowledge discovery in data bases (KDD) que nous appelons en
français « Extraction des connaissances à partir des
données(ECD) ». Le data mining est l'un des maillons
de la chaîne de traitement pour la découverte des connaissances
à partir des données. Sous forme imagée, nous pourrions
dire que l'ECD est un véhicule dont le data mining est le moteur.
Le data mining est l'art d'extraire des connaissances
à partir des données. Elles peuvent aussi être
stockées dans des entrepôts de données[1]. En effet, un
entrepot de données ou Data warehouse est une collection de
données provenant des sources differentes et groupées en un seul
endroit afin de rendre ses informations facilement accessible par
l'utilisateur[15]. Le data mining ne se limite pas seulement au
traitement des données mais vers les années 2010, ses
spécialisations techniques telles que
41
la fouille d'images ou image mining (section 4.1.1),
la fouille de textes ou text mining (section 4.1.2), la fouille du web
ou web data mining (section 4.1.3),... attirèrent l'attention
de plusieurs chercheurs.
4.1.1 La fouille d'images
Les données sous forme d'images peuvent être
traitées par les techniques de data mining en vue d'extraire des
connaissances. Celles-ci permettraient d'identifier, de reconnaître ou de
classer automatiquement des bases volumineuses d'images.
Pour être exploitées par des méthodes de
data mining, les images doivent subir une serie de pré-traitement en vue
d'obtenir des tabeaux numériques. Les principales étapes du
pré-traitement sont les suivantes :
1. Transformation, filtrage et mise en forme Les
usagers sont souvent conduits à modifier les images initiales pour faire
ressortir certaines caractéristiques qu'ils considèrent comme
importantes. Par exemple, accentuer le contraste sur l'ensemble des images.
2. Extraction de caractéristiques Pour
être traitées par des techniques de data mining, les images
doivent être representées sous forme tabulaire : Chaque ligne
étant une image et chaque colonne une caractéristique sur
l'image.
3. Mise en oeuvre des méthodes de data mining A
l'issue de l'étape précédente, le corpus d'image est
transformé en un tableau de données numériques sur
lesquelles les méthodes d'explorations de données peuvent
être appliquées.[1][14]
|