b) Compréhension des données
Dans cette phase, nous avons procéder à la
collecte des données initiales, à leur description et à
leur exploration.
(1) Collecte de données
Les données utilisées dans ce projet sont
fournies par :
· Le « Johns Hopkins University Center for Systems
Science and Engineering» (JHU CSSE),
· Le Centre hospitalier et Universitaire de Libreville
(CHUL).
(2) Description des données
Les données utilisées dans ce projet sont
décrits ainsi qu'il suit :
· une partie des données ont été
téléchargées à partir du référentiel
Github qui est géré par l'Université John Hopkins et
l'ensemble de données est public et mis à jour quotidiennement.
Il existe plusieurs fichiers CSV. Pour ce projet, nous extrayons les
données d'un seul fichier à savoir : confirmed_case.csv
· l'autre partie des données
collectéesauprès du CHUL de Libreville sont la forme de fichier
Excel : Chul.civid.xls.
Le tableau 5 ci-dessous récapitule les données
et leurs sources respectives
Tableau 5 : description
des données
Fichier
|
Source
|
Données à extraire
|
dimension de la data frame
|
confirmed_case.csv
|
JHU CSSE
|
Le nombre cumulé de cas confirmés
|
850 colonnes et 270 lignes
|
Chul.covid.xls
|
CHUL
|
Lieu de résidence des cas confirmés à
Libreville.
|
10 colonnes et 1026 lignes
|
(3) Exploration des données
L'inspection des différentesbases de données
nous ont permis de comprendre que :
Pour le fichier provenant l'Université John Hopkins
· Les lignes représentent différents pays
et,
· les colonnes incluent :
o le nom du pays/région et également de la
province/état si disponible,
o la latitude et la longitude du pays et,
o le nombre cumulé de cas du 22 janvier 2020 au 17 mai
2022 (figure13).
Pour les fichiers fournis par le Centre hospitalier et
Universitaire de Libreville
· Les lignes représentent les dates
d'enregistrement
· Les colonnes représentent
o le domicile du patient,
o Le statut épidémiologique,
o L'âge,
o le sexe ...
Figure 12 : Capture
d'écran des cas de guérison dans le monde (partiellement)
Après la phase de compréhension des
données, le prétraitement des données est
effectué, c'est ce qui est expliqué à l'étape
suivante.
|