WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Big data (rapport de stage)

( Télécharger le fichier original )
par Angeline KONE
INSA Lyon - Mastère spécialisé SI 2013
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

VII. Futur du Big Data

Les technologies du Big Data s'inscrivent dans une évolution continue compte tenu du fait qu'elles sont jeunes et pas encore stables, ce qui leur vaut la réticence des certaines entreprises. Actuellement, le virage technologique est d'ores et déjà annoncé. Le Big Data s'impose tout doucement, mais certains aspects ne sont pas encore à la hauteur des attentes, certaines pistes sont à explorer profondément avant l'intégration dans les systèmes d'information :

§ La sécurité : elle est encore balbutiante malgré quelques initiatives comme Apache Knox (système qui fournit un point unique d'authentification et d'accès pour les services Apache Hadoop dans un cluster. Le but est de simplifier la sécurité Hadoop pour les utilisateurs (qui ont accès aux données du cluster et exécutent des jobs) et les opérateurs (qui contrôlent les accès et de gèrent le cluster).

§ L'intégration avec le système d'information (SI), une plate forme Hadoop isolée et non intégrée au système d'information ne sera plus possible dans le futur (en tout cas certains besoins exigeront une interaction plus grande). Cette intégration entraînera une modification des processus et par conséquent des besoins de formation des ressources humaines.

§ Les ressources compétentes : actuellement les compétences ne sont pas encore assez poussées dans le domaine

§ Protection de la vie privée : la manipulation à grande échelle de des données pose aussi le problème de la  vie privéeTrouver l'équilibre entre le respect de son intimité et les bénéfices tirés du big data n'est pas simple. Les utilisateurs des réseaux sociaux ignorent souvent que leurs données privées sont accessibles par un grand public, beaucoup reste à faire afin de garantir la protection des utilisateurs.

« L'avenir appartiendra à ceux qui seront capable d'analyser les vastes volumes de données qu'ils ont collectés ».

VIII. Bilan du stage

VIII.1 Planning prévisionnel

Au début du stage, j'ai élaboré un planning qui couvrait toute ma période de stage.

TT : test technique

VM : virtual machine

Activités

Tâches

Durée prévue (en jours)

Contexte du stage, structure d'accueil

Présentation CAPGEMINI, sujets de stages

1

Documentation (Support)

Présentation de la documentation

1

Présentation des outils

0,25

Installation des outils (Putty, virtual box, dropbox)

0,25

Présentation de la vidéo (stockage, traitement, restitution des données)

0,25

Récupération et importation des machines virtuelles

0,15

Parcourir la documentation

5

Récupération et exploitation de la documentation sur les "usages et apports des technologies Big Data"

2

Identification des cas d'utilisation (permettant de définir les besoins fonctionnels)

0,15

Recherche algorithme de recommandation

1

Documentation installation du cluster (Cloudera installation manuelle)

1

Documentation collecte des données via l'API Flume

1

Documentation et compréhension fonctionnement de REST

0,5

Divers

Réunion avec Ameline (questionnaire)

0,1

Relecture du powerpoint

1

Récupération des codes sources

0,1

Réunion avec Ameline (questionnaire)

1

Test des VM (démarrage, connexion, configuration réseau)

1

Faire une sauvegarde (image) des VM

0,25

Mise à jour du powerpoint

5

Compréhension des langages utilisés par les différentes briques

2

Suivi de projet

Réalisation du planning

0,5

Mise à jour du planning

0,5

Réunion de suivi

1

Installation du cluster (Production)

Installation et configuration des VMs

1

Installation de Cloudera Manager et CDH4 (HDFS, Mapreduce, Hbase, Hive, Oozie, Zookeer, Hcatalog)

2

Déploiement des services sur des VM

2

Installation d'Impala et Solr

2

Test des briques (Production)

Test des VM reçu de Itics / demande de réinstallation

0,5

Récupération des données de test

1

TF Flume : collecte des données (log) et stockage dans HDFS

3

TF MapReduce : traitement des données (développement et test)

2

TF Pig : traitement des données

2

TF Hive : traitement des données

2

TF Hcatalog : traitement des données

2

TF restitution : Réalisation d'une recherche de données sur HDFS (Cloudera Search Solr)

4

TF Impala : traitement en temps réel

2

TF Solr : recherche des données

2

TF Mahout (Data mining)

2

TF Ambari (gestionnaire de cluster)

2

Utilisation d'une source de données mongoDB

1

Utilisation d'une source de données cassandra

 

Réalisation du POC (Production)

Définition de l'infrastructure matérielle

0,5

Elaboration du scénario d'exécution du POC (enchainement des fonctionnalités)

2

Création et installation des machines virtuelles

1

Fabrication des données de test

5

Installation des briques retenues (Acquisition, stockage, traitement, restitution)

0,5

Test des briques retenues

5

Finalisation de la documentation du déploiement et du test de chaque brique

1

Finalisation de la documentation du POC

1

Réalisation de la vidéo (scénario d'exécution)

1

Documentation des points importants en vu d'une préconisation

2

Mise en forme des différents documents

1

Restitution

Rédaction de la présentation

1

Présentation du POC

1

 

Rédaction du rapport de stage

10

Total

90,5

Tableau 1 : Planning prévisionnel

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Qui vit sans folie n'est pas si sage qu'il croit."   La Rochefoucault