TABLE DES MATIERES
IN MEMORIAM
i
ÉPIGRAPHE
ii
DÉDICACE
iii
REMERCIEMENTS
iv
AVANT-PROPOS
vi
LISTE DES ABRÉVIATIONS
UTILISÉES
vii
LISTE DES FIGURES
viii
LISTE DES TABLEAUX
x
INTRODUCTION GENERALE
1
1. CONTEXTE
1
2. PROBLEMATIQUE
2
3. HYPOTHESE
3
4. CHOIX ET INTERET DU SUJET
3
4.1. Choix du sujet
3
4.2. Intérêt du
sujet
3
5. METHODES ET TECHNIQUES
UTILISEES
4
5.1. Méthodes
4
5.2. Techniques
4
6. SUBDIVISION DU TRAVAIL
4
CHAPITRE I: BIG DATA [1], [6], [12], [16],
[19]
5
I.1. INTRODUCTION
5
I.2. APERÇU HISTORIQUE
6
I.3. PRESENTATION DE L'ASPECTS BIG
DATA
7
I.4. OBJECTIFS
8
I.5. CARACTERISTIQUES
9
I.6. DEFINITION DU BIG DATA
10
I.6.1. Première définition de
Big Data
10
I.6.2. Deuxième définition de
Big Data
11
I.7. TYPES DES DONNEES DU BIG
DATA
11
I.7.1. Données
structurées
11
I.7.2. Données non
structurées
12
I.8. TECHNIQUES D'ANALYSE ET DE
VISUALISATION DU BIG DATA
12
I.8.1. Visualisation
13
I.9. DIFFERENCES AVEC L'INFORMATIQUE
TRADITIONNELLE OU DECISIONNELLE
13
I.10. BIG DATA ET SES
TECHNOLOGIES
14
I.10.1. Solutions de stockage
14
I.10.1.1. Bases des Données
NoSQL
15
1)
Théorème du CAP (d'Eric Brewer)
15
2) Principes ACID et
BASE
16
3) Critères
de Migration vers le principe CAP NoSQL
18
I.11. TYPES DE BASE DE DONNEES
NoSQL
19
I.11.1. Bases de données
orientées-document
19
I.11.2. Bases de données
orientées-colonne
20
I.11.3. Bases de données
orientées-graphe
20
I.11.4. Bases de données
orientées-clé-valeur
21
4) Outils MapReduce
et Hadoop
23
a) MapReduce
23
b) Hadoop
24
I.12. SOLUTIONS LOGICIELLES
24
I.12.1. Moteurs Sémantiques (Text
Mining)
24
I.12.2. Solutions
d'Analytiques
24
I.12.3. Solutions matérielles et/ou
architecturales
25
I.12.3.1. Cloud Computing
25
I.12.3.2. Super Calculateurs Hybrides (HPC :
High Performance Computing)
26
I.12.3.3. Stockage des Données en
Mémoire :
26
I.12.3.4. Serveurs des Traitements
Distribués :
26
I.13. CHOIX DU BIG DATA [1]
26
I.13.1. Big Data et recrutement
26
I.13.2. Métiers du Big
Data
27
CONCLUSION PARTIELLE
28
CHAPITRE II : SYSTÈME DE GESTION
DE BASE DE DONNEES ORIENTE DOCUMENT ET MONGODB [7],[9]
29
II.1. SGBD ORIENTE DOCUMENT
29
II.1.1. Introduction
29
II.1.2. Définition
29
II.1.3. Types de modèle de SGBD NoSQL
[7]
30
II.1.4. Comparaison des outils de gestion
des BD NoSQL
30
II. 2. MongoDB
31
II.2.1. Présentation
31
II.2.2. Schéma
32
II.2.2.1. Document
32
II.2.2.2. Collection
32
II.2.2.3. Documents
intégrés
33
II.2.3. Caractéristiques
33
II.2.4. Structure des
données
33
II.2.5. Stockage des objets
larges
34
II.2.6. Traitement des
données
35
II.2.7. Mise en oeuvre
35
II.2.7. Installation
35
II.2.7.2. Invite interactive
35
II.2.7.3. Programmation cliente
36
II.2.7.4. Administration
36
II.2.7.5.
Sécurité
37
II.2.7.6. Réplication
37
II.2.7.7. Répartition
(sharding)
37
CONCLUSION PARTIELLE
38
CHAPITRE III : FOUILLE DE DONNEES
ET RESEAUX DE NEURONES [13], [14], [18]
39
III. 1. FOUILLE DE DONNEES
39
III.1.1. Présentation
39
III.1.2. Objectifs de la Fouille de
données
39
III.1.3. Méthodes (Algorithmes) de
Fouille de données
40
III.1.4. Concepts de base de Fouille de
données
43
III.2. ALGORITHME DE -MEANS [2], [15]
45
III.2.1. Introduction
45
III.2.2. Théorème de
Hyugens
46
III.2.3. Principe général des
méthodes des centres mobiles
46
III.2.4. Déroulement de
l'algorithme
47
III.3. RESEAUX DE NEURONES
48
III.3.1. Historique
48
III.3.2. Présentation des
réseaux de neurones
49
III.3.3. Neurone biologique
50
III.2.4. Structure du réseau de
neurones
51
III.3.5. Réseaux de neurones
artificiels (RNA)
52
III.3.5.1. Quelques définitions sur
le RNA
52
III.3.5.2. Comportement du neurone
artificiel
54
III.3.6. Neurone formel
55
III.3.7. Sortes de réseau de
neurones
56
III.3.8. Topologie d'un réseau de
neurones
56
III.4. APPRENTISSAGE DES RESEAUX DE
NEURONES
59
III.4.1. Algorithmes
d'apprentissage
61
III.4.1.1. Algorithme de HEBB
62
III.4.1.2. Algorithme d'apprentissage du
perceptron
62
III.4.1.3. Algorithme de propagation de
gradient pour un perceptron
63
CONCLUSION PARTIELLE
64
CHAPITRE IV : IMPLEMENTATION ET
INTERPRETATION DE RESULTATS [3], [4], [5], [6]
65
IV.1. INTRODUCTION
65
IV.2. ANALYSE PREALABLE : PRESENTATION
DE LA BANQUE COMMERCIALE DU CONGO
66
IV.2.1. Brève aperçue
historique de la BCDC
66
IV.2.2. Objectifs & Missions de la
BCDC
68
IV.2.3. Quelques directions de la
BCDC
68
IV.2.4. Siège
69
IV.2.5. Organigramme de la BCDC
69
IV.3. LE CHURN [3], [17]
70
IV.3.1. Notions
70
IV.3.2. Définitions
71
IV.4. Présentation des Outils
utilisés [10], [11]
71
IV.4.1. Langages de programmation :
Python et R [10]
71
IV.4.2. Environnement de
développement intégré (EDI)
75
IV.4.2.1. Jupyter [10]
76
IV.4.2.2. RStudio [11]
77
IV.4.3. Système de gestion de base de
données : MongoDB [8], [9]
78
IV. 4.3.1. Administration de Big Data sous
le SGBD MongoDB
78
IV.5. Présentation des
données
81
IV.5.1. Présentation des
données existantes d'analyse
81
IV.6. Implémentation et Analyse des
résultats
85
1. Phase
d'apprentissage
85
2. Phase de
prédiction
86
CONCLUSION PARTIELLE
85
CONCLUSION GENERALE
86
BIBLIOGRAPHIE
87
TABLE DES MATIERES
89
|