Memoire Online - Big data (rapport de stage)

Le planning élaboré au début du stage a été adapté au fil de l'avance du stage, compte de la priorité de certains livrables, ce qui a donné lieu au planning de réalisation ci-dessous.

Activités	Tâches	Durée prévue (en jours)	Durée réalisée (en jour)	Ecart (en jour)
Activités	Tâches	Durée prévue (en jours)	Durée réalisée (en jour)	Ecart (en jour)
Contexte du stage, structure d'acceuil	Présentation CAPGEMINI, sujets de stages	1	1	0
Documentation (Support)	Présentation de la documentation	1	1	0
	Présentation des outils	0,25	0,25	0
	Installation des outils (Putty, virtual box, dropbox)	0,25	0,25	0
	Présentation de la vidéo (stockage, traitement, restitution des données)	0,25	0,25	0
	Récupération et importation des machines virtuelles	0,15	0,15	0
	Parcourir la documentation	5	5	0
	Récupération et exploitation de la documentation sur les "usages et apports des technologies Big Data"	2	4	2
	Identification des cas d'utilisation (permettant de définir les besoins fonctionnels)	0,15	0,2	0,05
	Recherche algorithme de recommandation	1	1	0
	Documentation installation du cluster (Cloudera installation manuelle)	1	1	0
	Documentation collecte des données via l'API Flume	1	1	0

	Documentation et compréhension fonctionnement de REST	0,5	0,5	0
Divers	Réunion avec Ameline (questionnaire)	0,1	0,1	0
	Relecture du powerpoint	1	1	0
	Récupération des codes sources	0,1	0,1	0
	Réunion avec Ameline (questionnaire)	1	1	0
	Test des VM (démarrage, connexion, configuration réseau)	1	1	0
	Faire une sauvegarde (image) des VM	0,25	0,25	0
	Mise à jour du powerpoint	5	3	-2
	Compréhension des langages utilisés par les différentes briques	2	3	1
Suivi de projet	Réalisation du planning	0,5	0,5	0
	Mise à jour du planning	0,5	0,5	0
	Réunion de suivi	1	0,5	-0,5
Installation du cluster (Production)	Installation et configuration des VMs	1	8	7
	Installation de Cloudera Manager et CDH4 (HDFS, Mapreduce, Hbase, Hive, Oozie, Zookeer, Hcatalog, Impala, Solr)	6	5	-1
	Test de l'installation et exploration de la console	0,5	1	0,5
Test des briques (Production)	Test des VM reçu de Itics / demande de réinstallation	0,5	0,5	0
	Récupération des données de test	1	1	0
	TT Flume : collecte des données (log) et stockage dans HDFS	3	0	-3
	TT MapReduce : traitement des données (développement et test)	2	0	-2
	TT Pig : traitement des données	2	0	-2
	TT Hive : traitement des données	2	0	-2
	TT Hcatalog : traitement des données	2	0	-2
	TT Impala : traitement en temps réel	2	0	-2
	TT Solr : recherche des données	2	0	-2
	TT Mahout (Data mining)	2	0	-2
	TT Ambari (gestionnaire de cluster)	2	0	-2
	Utilisation d'une source de données mongoDB	1	0	-1
	Utilisation d'une source de données cassandra	1	0	-1
	Test technique scalabilité et traitements distribués	2	2	0
Réalisation du démonstrateur(Production)	Définition de l'infrastructure matérielle	0,5	0,5	0
	Identification de Cas d'utilisation s (UC)	0,5	0,5	0
	Elaboration du scénario d'exécution des UC	2	1	-1
	Création et installation des machines virtuelles	1	0,3	-0,7
	Fabrication des données de test	5	5	0
	Installation des briques retenues (Acquisition, stockage, traitement, restitution)	0,5	1	0,5
	Test des briques retenues et réalisation des UC	3	10	7
	Finalisation de la documentation des tests techniques	1	3	2
	Restitution sur QlikView	2	2	0
	Réalisation de la vidéo (scénario d'exécution)	7	8	1
	Documentation des points importants en vu d'une préconisation	2	2	0
	Mise en forme des différents documents	1	1	0
Restitution	Rédaction de la présentation et du discours	1	1	0
	Rédaction du rapport de stage	10	10	0
Total		94,5	79,35	-5,15

Big data (rapport de stage)

VIII.2 Planning de réalisation