Administration d'un big data sous mongodb et extraction de connaissance par réseau de neurones.

par Destin CUBAKA BENI
Université Pédagogique Nationale (UPN) - Licence 2019

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

4) Outils MapReduce et Hadoop

a) MapReduce

MapReduce est un modèle de développement informatique, popularisé (et non inventé) par Google, dans lequel sont effectués des calculs parallèles, et souvent distribués, de très grandes volumes de données (généralement supérieures à un téraoctet).

Il s'agit donc d'une technique de programmation distribuée largement utilisée dans l'environnement NoSQL et qui vise à produire des requêtes distribuées. C'est également un modèle de programmation permettant de gérer de grandes quantités de données qui ne sont pas nécessairement structurées.

b) Hadoop

Créé par Doug Cutting en 2009 et employé par Yahoo, Hadoop est la plateforme de développement d'applications utilisant le modèle MapReduce.

Hadoop est un framework^13(*) Java libre pour les applications distribuées et la gestion intensive de données. Il permet aux applications de travailler avec des milliers de noeuds et de pétaoctets de données. Hadoop a été inspiré par la publication de Google MapReduce, GoogleFS et BigTable

Il s'agit également d'un framework open source conçu pour traiter des volumes massifs de données. En d'autres termes, une technologie open source permettant d'effectuer des requêtes dans des puits de données distribués, dont les informations sont localisées sur des serveurs distants.

Le framework Hadoop de base se compose des modules suivants :

· Hadoop Common ;

· Hadoop Distributed File System (HDFS) : le système de fichiers ;

· Hadoop YARN ;

· Hadoop MapReduce ;

Le terme Hadoop fait référence non seulement aux modules de base ci-dessus, mais également à son écosystème et à tous les logiciels qui y sont attachés, tels Apache Pig, Apache Hive, Apache HBase, Apache Phoenix, Apache Spark, Apache ZooKeeper, Cloudera Impala, Apache Flume, Apache Sqoop, Apache oozie, Apache Storm.

I.12. SOLUTIONS LOGICIELLES

I.12.1. Moteurs Sémantiques (Text Mining)

Généralement associés à un moteur de recherche, ils permettent une analyse sémantique des documents afin de comprendre le contenu et permettent ainsi de retrouver, dans une base de données de documents, le ou les documents traitant d'un sujet, parlant d'une personne. Parmi les solutions les plus connues : Fise, Zemanta, iKnow (InterSystems), Noopsis, Luxid (Temis), LingWay.

I.12.2. Solutions d'Analytiques

Ce sont des solutions qui permettent de gérer la variété des données exploitées par une visualisation nouvelle de celles-ci avec une première analyse qui les contextualise, compartimente, corrèle. Pour cela, ces nouvelles solutions cherchent à aller au-delà d'une analyse statistique des données pour aller vers une analyse prédictive et la prise en compte de la temporalité des données.

Parmi les solutions les plus connues : QlickView, PowerPivot, Tableau. Ainsi que, pour la manipulation des données : Aster, Datameer, SPSS, SAS ou Kxen pour le DataMining.

Il y a aussi moyen d'écrire ces propres programmes (scripts) pour exploiter les données d'un Big Data, nous pouvons citer ces langages par excellence comme : Python, Langage R, Java.... Mais on peut tout de même adaptée un autre langage dans certain cas.

* ¹³Framework logiciel : est un ensemble méthodologique et d'outillage lié à un langage de programmation. Cf. http://fr.wikipedia.org/wiki/Framework

précédent sommaire suivant

"Nous voulons explorer la bonté contrée énorme où tout se tait" Appolinaire