c) Préparation des données
Les tâches de préparation comprennent
principalement cinq étapes : l'extraction, le traitement des valeurs
manquantes, l'encodage, la normalisation et le partitionnement des
données
(1) Extraction
On extrait les lignes et les colonnes qui nous seront utiles
pour la suite. Dans notre c'est ligne correspondant au pays Gabon
(figure14).
Figure 13 extraction des
lignes et colonnes
(2) Traitement des valeurs manquantes
et les jours non-ouvrages
Il est a remarqué le comité de pilotage (COPIL)
ne publie pas de rapport sur la situation épidémiologique du
Gabon, les jours fériés et les weekends. Ce qui fait que durant
les jours non-ouvrages on enregistre automatiquement des valeurs manquantes.
Mais les analystes de l'Université John Hopkins, complètent les
jours non ouvrages du comité de pilotage (COPIL) par des zéro.
Ainsi se pose un problème d'interprétation entre les
données manquantes et les valeurs nulles. Les valeurs manquantes de
chaque base de données est résumé dans le tableau 6
ci-dessous.
Tableau 6 :
récapitulatif des proportions des valeurs manquantes dans les data
set
Fichier
|
Proportion de données manquantes en %
|
Prétraitement adoptée
|
covid19_confirmed_case_Gabon.csv
|
27,57
|
suppression
|
Chul.covid.xls
|
14,28
|
suppression
|
Pour les valeurs manquantes et les lignes correspondantes aux
jours non-ouvrables, l'imputation avec la moyenne, la médiane ou le mode
serait incorrecte car ces données représentent les cas
réelssignalés dans le monde entier. Par conséquent, ces
données ont été supprimées (figure 15).
|
|
Figure 15a les captures d'écran du dataset avant le
nettoyage
|
Figure 15b les captures d'écran du dataset
après le nettoyage
|
Figure 14 les captures
d'écran du dataset avant et après le nettoyage
(3) Encodage,normalisation et
partitionnement des données
Les données ont été transformé
suivant les formats date pour la colonne date et en forme numérique,
pour la colonne contenant les nombre de cas de la maladie de la covid-19.
Pour la normalisation, les données sur le nombre
cumules de cas confirme forme une série chronologique monotone et
croissante. Ainsi les termes consécutifs sont très proches. Et
par conséquentil n'y a pas des valeurs aberrantes. Donc la normalisation
ou la standardisation ne sont pas nécessaires dans ce cas.
Ensuite nous avons partitionné les données en
deux groupes (voir la figure 16) :
· Les données d'entrainement (75%) et,
· Les données de test (25%)
|
|
Figure16a données du test
|
Figure 16b données d'entrainement
|
Figure 15 : partitionnement
des données en données d'entrainement et données de
test
|