Evaluation de la dynamique spatio-temporelle de l'évolution de la covid a Libreville par une approche machine learning

par Bakari RAMADANE
Institut Africain d’Informatique - Diplôme d’Ingénieur Informaticien 0000

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

c) Préparation des données

Les tâches de préparation comprennent principalement cinq étapes : l'extraction, le traitement des valeurs manquantes, l'encodage, la normalisation et le partitionnement des données

(1) Extraction

On extrait les lignes et les colonnes qui nous seront utiles pour la suite. Dans notre c'est ligne correspondant au pays Gabon (figure14).

Figure 13 extraction des lignes et colonnes

(2) Traitement des valeurs manquantes et les jours non-ouvrages

Il est a remarqué le comité de pilotage (COPIL) ne publie pas de rapport sur la situation épidémiologique du Gabon, les jours fériés et les weekends. Ce qui fait que durant les jours non-ouvrages on enregistre automatiquement des valeurs manquantes. Mais les analystes de l'Université John Hopkins, complètent les jours non ouvrages du comité de pilotage (COPIL) par des zéro. Ainsi se pose un problème d'interprétation entre les données manquantes et les valeurs nulles. Les valeurs manquantes de chaque base de données est résumé dans le tableau 6 ci-dessous.

Tableau 6 : récapitulatif des proportions des valeurs manquantes dans les data set

Fichier	Proportion de données manquantes en %	Prétraitement adoptée
covid19_confirmed_case_Gabon.csv	27,57	suppression
Chul.covid.xls	14,28	suppression

Pour les valeurs manquantes et les lignes correspondantes aux jours non-ouvrables, l'imputation avec la moyenne, la médiane ou le mode serait incorrecte car ces données représentent les cas réelssignalés dans le monde entier. Par conséquent, ces données ont été supprimées (figure 15).


Figure 15a les captures d'écran du dataset avant le nettoyage	Figure 15b les captures d'écran du dataset après le nettoyage

Figure 14 les captures d'écran du dataset avant et après le nettoyage

(3) Encodage,normalisation et partitionnement des données

Les données ont été transformé suivant les formats date pour la colonne date et en forme numérique, pour la colonne contenant les nombre de cas de la maladie de la covid-19.

Pour la normalisation, les données sur le nombre cumules de cas confirme forme une série chronologique monotone et croissante. Ainsi les termes consécutifs sont très proches. Et par conséquentil n'y a pas des valeurs aberrantes. Donc la normalisation ou la standardisation ne sont pas nécessaires dans ce cas.

Ensuite nous avons partitionné les données en deux groupes (voir la figure 16) :

· Les données d'entrainement (75%) et,

· Les données de test (25%)


Figure16a données du test	Figure 16b données d'entrainement

Figure 15 : partitionnement des données en données d'entrainement et données de test

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Tu supportes des injustices; Consoles-toi, le vrai malheur est d'en faire" Démocrite