b) Choix des outils de manipulation des données
Pour le choix des outils de stockage et de manipulation des
données nous nous sommes penchés vers des solutions qui ne
nécessitaient aucune configuration quelconque. Le langage R
utilisé dans le cadre de l'implémentation de cet outil nous offre
déjà des outils de stockage de données sous le format
*.RData et des packages très puissant de manipulation de ces
données (voir les tableaux17, 18,19 et 20):
(1) Le package « data.table
»
Le package data.table est un package développé
par Matthew Dowle, C'est un package qui permet de lire et de manipuler les
données. Il permet d'importer des données assez volumineuses avec
la fonction fread() et leur manipulation comme tout autre data.frame .
L'importation des données volumineuse avec ce package est très
rapide (par exemple 20Go, soit à peu près 200 millions
d'individus, en8mn alors qu'avec python ou d'autres simulateurs, ça
prendrait des heures).
(2) Les autres packages pour la
manipulation des données
Tableau 17 : outils de
stockage et de manipulation des données
bibliothèques
|
description
|
Dplyr(Davood, 2022)
|
Manipulation et analyse des données sous R
|
data.table
(Dowle, Srinivasan, & Gorecki, 2021)
|
L'importation des données volumineuses avec ce package
est très rapide. Il a servi à lire et manipuler les
entrées utilisateurs comme les données d'inventaires.
|
Tableau 18 : Les
bibliothèques spécialisées sur la covid-19
bibliothèques
|
description
|
covid19.analytics
(Ponce, 2021)
|
Charger et analyser les données de la pandémie
de COVID-19 en temps réel.
|
EpiEstim (Cori, 2013)
|
un package pour estimer les nombres de reproduction variant
dans le temps à partir de courbes épidémiques.
|
Tableau 19 : Les
bibliothèques spécialisées sur le Machine Learning
bibliothèques
|
description
|
Prophet
(Taylor, 2021)
|
Implémente une procédure de prévision des
données de séries chronologiques basée sur un
modèle additif dans lequel les tendances non linéaires sont
ajustées à la saisonnalité annuelle, hebdomadaire et
quotidienne, ainsi qu'aux effets des jours fériés.
|
Dbscan
(Hahsler, 2022)
|
Une réimplémentation de plusieurs algorithmes
basés sur la densité de la famille DBSCAN. Comprend les
algorithmes de clustering DBSCAN (clustering spatial basé sur la
densité d'applications avec bruit) et HDBSCAN (DBSCAN
hiérarchique)
|
Tableau 20 : Les
bibliothèques de manipulation des données geospatiale
bibliothèques
|
description
|
leaflet
(Cheng, 2022)
|
Production des cartes interactives avec peu de code. Ils
transforment R en un serveur cartographique complet. Ils sont facilement
intégrables avec un shiny.
|
Sf
(Pebesma, 2022)
|
En plus de couvrir plusieurs types de données spatiales
(fichiers csv, shapefile, base de données spatiales), il offre un grand
nombre de méthodes d'analyses spatiales.
|
Ggmap
(Kahle, 2019)
|
Une collection de fonctions pour visualiser des données
et des modèles spatiaux.sur des cartes statiques provenant de diverses
sources en ligne (par exemple, Google Maps et Stamen Plans)
|
tmap
(Tennekes, 2022)
|
Ce package offre une approche flexible, basée sur des
couches et facile à utiliser pour créer les cartes
thématiques, telles que les choroplèthes et les cartes à
bulles.
|
|