Chapitre V :
démarche Machine Learning pour la modélisation
Dans cette partie il est question de présenter les
deux processus d'extraction de données les plus populaires et largement
pratiqués pour construire des systèmes d'apprentissage
automatique. Ces processus sont les suivants : le processus «Knowledge
Discovery in Databases «(KDD), et le Processus «Cross Industry
Standard Process for Data Mining» (CRISP-DM)
12. Processus «Knowledge Discovery
in Databases «(KDD)
Le processus Knowledge Discovery in Databases (KDD) ou en
français « Bases de données de découverte de
connaissances » est un processus global de découverte de
connaissances utiles, à partir de données. Ce processus couvre
l'ensemble du cycle de vie des données, notamment la manière dont
les données sont stockées, la manière dont on y
accède, la manière dont les algorithmes peuvent être
adaptés efficacement à de base de données gigantesque, la
manière dont les résultats peuvent être
interprétés et visualisés. Le KDD comporte cinq
étapes, présentées dans le tableau 2.
Tableau 2: Etapes du
KDD
étape
|
Nom
|
Description
|
1
|
Sélection
|
Création des données sur lesquelles la
découverte va s'établir
|
2
|
Prétraitement
|
Nettoyage des données pour obtenir des données
consistantes
|
3
|
Transformation
|
Transformation des données en utilisant des
méthodes de transformations
|
4
|
Data Mining
|
Recherche de modèles en adéquation avec les
objectifs de Data Mining
|
5
|
Interprétation/
évaluation
|
Interprétation et évaluation des modèles
trouvés
|
Source: (Swamynathan, 2017)
Le cycle du processus KDD s'apparente à une progression
quasiment linéaire et séquentielle (figure 11).
Figure 10 : cycle de vie
du processus KDD, source :(Swamynathan, 2017)
13. Processus «Cross Industry
Standard Process for Data Mining» (CRISP-DM)
Le Processus CRISP-DM, ou Processus standard interindustriel
pour l'extraction de données, a été établi par le
programme stratégique européen de recherche en technologies de
l'information en 1998. Ceci dans le but de créer une
méthodologie universelle qui ne dépend pas d'un domaine
particulier. Il s'agit d'un processus itératif et
incrémentale, où de nombreuses tâches reviennent sur
celles précédentes et répètent certaines actions
pour apporter plus de clarté. Il y a six phases principales, comme
décrit dans le tableau 3 ci-dessous.
Tableau 3 :
récapitulatif des phases du processus CRISP-DM.
Phase
|
objectifs
|
Compréhension de l'activité
|
comprendre les objectifs généraux du projet et
les attentes du point de vue de l'entreprise.
|
Compréhension des données
|
comprendre les lacunes des données ou leur pertinence
par rapport à l'objectif visé
|
Préparation des données
|
Cette phase consiste à nettoyer les données afin
qu'elles soient prêtes à être utilisées pour la phase
de construction du modèle
|
Modélisation
|
Choix de l'algorithme en fonction de leur performance
|
Évaluation et validation
|
évaluation comparative des différents
modèles choisis et vérification résultats par rapport aux
besoins de l'entreprise identifiés.
|
Déploiement
|
L'objectif principal de cette phase est la facilité
d'utilisation des résultats du modèle
|
Source:(Swamynathan, 2017)
Le cycle de vie du processus CRISP-DM est itératif et
incrémentale comme l'indique la figure 10 ci-dessous.
Figure 11: méthode
CRISP-DM, adapté de (Shearer, 2000)
|