14. Méthodologie choisie : le
processus CRISP-DM
En général, la plupart des chercheurs et des
experts en exploration de données suivent le modèle le processus
CRISP-DM parce qu'il est plus complet et plus précis. CRISP-DM est plus
complet car le flux itératif des connaissances à travers et entre
les phases a été clairement défini. De plus, il couvre
tous les domaines de la construction de systèmes de Machine Learning
fiables. Les avantages de la méthode CRISP DM sont nombreux pour un
projet de Machine Learning. Cette méthode est agile et itérative,
c'est-à-dire que chaque itération apporte de la connaissance
métier supplémentaire qui permet de mieux aborder
l'itération suivante.
15. Mise en oeuvre de la démarche
CRISP-DM
Il s'agit d'appliquer les six étapes du processus CRISP
à notre projet.
a) Compréhension métier
Ici il est question de la définition du
problème. Puis de comprendre : à quoi serviront les
prédictions ? Qui a besoin des prédictions ? Et comment
elles s'intègrent dans l'organisation ? (voir tableau 4)
On commence par une description informelle du problème
dans le but de formuler en une phrase facilement compréhensible le
problème : comment concevoir un modèle de Machine Learning
capable de prédire le nombre des cas de l'épidémie de la
covid-19 ?
Pour la définition formelle du problème, l'on se
base sur la définition de Tom Mitchell en 1997 qui définissait
un programme de Machine Learning comme suit : «on dit qu'un programme
informatique apprend de l'expérience E en ce qui concerne une
tâche T et une mesure de performance P, si sa performance sur T,
mesurée par P, s'améliore avec l'expérience
E. ». En d'autres termes, il va falloir définir le triptyque T
(tâche), P (Performance) et E (Expérience).
· Tâche (T) : prédire le nombre des cas de
l'épidémie de la covid-19.
· Performance (P) : La précision de la
prédiction faite par l'algorithme et le temps d'exécution
raisonnable
· Expérience (E) : Les inventaires des
données réelles sur les cas de la covid-19 au Gabon.
Tableau 4 :
résumé des questionnements qui facilitent la compréhension
du métier
questionnement
|
Réponses attendues
|
Quelle est le problème à
résoudre ?
|
comment concevoir un modèle de Machine Learning
capable de prédire le nombre des cas de l'épidémie de la
covid-19 ?
|
À quoi serviront les prédictions ?
|
Prédire l'évolution de la dynamique
spatio-temporelle de la covid-19
|
Qui a besoin des prédictions?
|
les décideurs en santé publique et les
organismes engagés dans la lutte contre la pandémie de la
covid-19.
|
Comment sont intégrées les prédictions
dans l'organisation ?
|
Les prédictions seront exploitées sous la forme
d'outils d'aide à la décision
|
|