VI. Solution mise
en place
VI.1 Choix de la solution et tests techniques
réalisés
La distribution Cloudera a été utilisée
pour plusieurs raisons. Tout d'abord le fait que Cloudera propose une version
open source qui utilise les principaux composants de Hadoop. Ensuite, la
distribution de Cloudera est la plus mature sur le marché avec
déjà la quatrième version nommée CDH4. Mais
surtout, la distribution de Cloudera est la plus utilisée en entreprise.
En effet, selon le livre blanc « Où en est l'adoption du Big
Data ? » publié par Talend en 2013, 12% des personnes ont
répondues qu'elles considéraient pour l'avenir ou utilisaient
déjà la distribution de Cloudera contre 4% pour la distribution
de MapR et 3% pour la distribution d'Hortonworks. Le reste des réponses
concernant d'autres solutions. (Talend, 2013)
Cloudera existe en trois versions : Free
Edition, Standard et Enterprise.
J'ai décidé d'utiliser la version Enterprise (car elle
était gratuite pour une période de 60 jours et passait en version
Standard si l'on arrivait au terme de la période d'essai sans
s'être procuré d'une licence) afin d'explorer les
fonctionnalités qu'elle offre vu que celles-ci sont adaptées pour
un contexte d'entreprise. Cloudera propose un outil pour superviser et
automatiser le déploiement des clusters Hadoop nommé Cloudera
Manager. C'est ce composant que j'ai utilisé pour installer le cluster
Hadoop.
Les fonctionnalités clés de Cloudera sont les
suivantes :
§ Gestion du cluster : elle permet de
déployer, configurer et exploiter facilement des clusters de
façon centralisée, avec une administration intuitive pour tous
les services, les hôtes et les workflows.
§ Monitoring du cluster : elle permet de maintenir
une vue centralisée de toutes les activités de la grappe (noeuds
du cluster), ses contrôles proactifs et des alertes.
§ Diagnostique du cluster : cette
fonctionnalité permet de diagnostiquer et résoudre facilement les
problèmes avec l'aide des rapports opérationnels et des tableaux
de bord, des événements, de l'affichage des journaux, des pistes
d'audit.
§ Intégration : cette fonctionnalité
permet d'intégrer les outils de surveillance existants (SNMP, SMTP) avec
Cloudera Manager.
Cloudera Manager permet de choisir entre la version 1.0 et 2.0
du framework Hadoop. J'ai opté pour la version 1.0 puisque la version
2.0 était en version alpha et n'était pas encore tout à
fait stable.
VI.1.1 Architecture
du cluster mise en place
Le schéma ci-dessous présente l'architecture du
cluster hadoop que j'ai mis en place dans le cadre de ce mon travail.
Figure 8 : Architecture du cluster Hadoop mis en
place
Ce cluster est constitué de postes standards
équipés de système d'exploitation Ubuntu (version 10.04).
Cette architecture est hébergée dans un environnement virtuel, ce
qui nous a permis de tester la virtualisation d'un cluster Hadoop, solution
incontournable pour faire du Big Data sur le cloud. Ce schéma
présente les différentes machines (maître et esclave) du
cluster et les rôles qui leurs sont associés dans le cadre d'une
architecture Hadoop.
|