Administration d'un big data sous mongodb et extraction de connaissance par réseau de neurones.par Destin CUBAKA BENI Université Pédagogique Nationale (UPN) - Licence 2019 |
4) Outils MapReduce et Hadoopa) MapReduceMapReduce est un modèle de développement informatique, popularisé (et non inventé) par Google, dans lequel sont effectués des calculs parallèles, et souvent distribués, de très grandes volumes de données (généralement supérieures à un téraoctet). Il s'agit donc d'une technique de programmation distribuée largement utilisée dans l'environnement NoSQL et qui vise à produire des requêtes distribuées. C'est également un modèle de programmation permettant de gérer de grandes quantités de données qui ne sont pas nécessairement structurées. b) HadoopCréé par Doug Cutting en 2009 et employé par Yahoo, Hadoop est la plateforme de développement d'applications utilisant le modèle MapReduce. Hadoop est un framework13(*) Java libre pour les applications distribuées et la gestion intensive de données. Il permet aux applications de travailler avec des milliers de noeuds et de pétaoctets de données. Hadoop a été inspiré par la publication de Google MapReduce, GoogleFS et BigTable Il s'agit également d'un framework open source conçu pour traiter des volumes massifs de données. En d'autres termes, une technologie open source permettant d'effectuer des requêtes dans des puits de données distribués, dont les informations sont localisées sur des serveurs distants. Le framework Hadoop de base se compose des modules suivants : · Hadoop Common ; · Hadoop Distributed File System (HDFS) : le système de fichiers ; · Hadoop MapReduce ; Le terme Hadoop fait référence non seulement aux modules de base ci-dessus, mais également à son écosystème et à tous les logiciels qui y sont attachés, tels Apache Pig, Apache Hive, Apache HBase, Apache Phoenix, Apache Spark, Apache ZooKeeper, Cloudera Impala, Apache Flume, Apache Sqoop, Apache oozie, Apache Storm. I.12. SOLUTIONS LOGICIELLESI.12.1. Moteurs Sémantiques (Text Mining)Généralement associés à un moteur de recherche, ils permettent une analyse sémantique des documents afin de comprendre le contenu et permettent ainsi de retrouver, dans une base de données de documents, le ou les documents traitant d'un sujet, parlant d'une personne. Parmi les solutions les plus connues : Fise, Zemanta, iKnow (InterSystems), Noopsis, Luxid (Temis), LingWay. I.12.2. Solutions d'AnalytiquesCe sont des solutions qui permettent de gérer la variété des données exploitées par une visualisation nouvelle de celles-ci avec une première analyse qui les contextualise, compartimente, corrèle. Pour cela, ces nouvelles solutions cherchent à aller au-delà d'une analyse statistique des données pour aller vers une analyse prédictive et la prise en compte de la temporalité des données. Parmi les solutions les plus connues : QlickView, PowerPivot, Tableau. Ainsi que, pour la manipulation des données : Aster, Datameer, SPSS, SAS ou Kxen pour le DataMining. Il y a aussi moyen d'écrire ces propres programmes (scripts) pour exploiter les données d'un Big Data, nous pouvons citer ces langages par excellence comme : Python, Langage R, Java.... Mais on peut tout de même adaptée un autre langage dans certain cas. * 13Framework logiciel : est un ensemble méthodologique et d'outillage lié à un langage de programmation. Cf. http://fr.wikipedia.org/wiki/Framework |
|