Conclusion
Durant mon alternance au sein du groupe Renault j'ai pu
mettre en pratique mes connaissances théoriques dans des
problématiques d'entreprises réels en mettant en place un
système avec tout le cheminement de la donnée de la partie
récupé-ration/intégration de données jusqu'à
la partie pré-traitement/traitement et mise en place du système
et visualisation des résultats.
Certains aspects et certaines pratiques ont
particulièrement attiré mon attention dans le mode de l'industrie
automobile notamment.
· La difficulté pour avoir accès aux
données.
· Le passage d'anciennes pratiques à des
pratiques plus modernes prend plus ou moins longtemps à se mettre en
place.
· Difficulté pour déployer et valider un
outil.
· Difficulté de communication entre les
directions.
En effet savoir interpréter les besoins clients les
mettre en place et les adapter à des systèmes d'informations
modernes n'est pas une tache simple et nécessite une bonne
expérience et une forte connaissance de certains aspects
métier.
Au-delà de l'aspect humain où j'avais toute la
confiance et le respect de mes collègues; J'ai énormément
appris avec les équipes métiers et je sais à
présent que pour concevoir un véhicule il faut tout un
savoir-faire que des grands constructeurs comme Renault ont.
Mais j'ai également remarqué l'apport que
peuvent avoir les évolutions modernes que ça soit en informatique
en intelligence artificielle ou bien d'autres domaines à des
savoir-faire qui existent déjà.
j'ai eu le change d'avoir participé à une partie
de cette transition et cette révolution numérique. Cette
alternance chez Renault a été pour moi une expérience
très importante.
Bibliographie
[1] BOWLEY A.L. . « Elements of Statistics ». In
: Londres, King and Son 2-3 (1901).
[2] Shipra Saraswat APOORVA SRIVASTAVA Sukriti Bhardwaj. In :
SCRUM model for agile methodology (6 May 2017), p. 1.75.
[3] M.Szufel B.JAKUBCZYK . «A framework for sensitivity
analysis of decision trees. » In : Central European Journal of
Operations Research (2017).
[4] Frank BENFORD . « The law of anomalous numbers
». In : Proceedings of the American Philosophical Society
(1938).
[5] Alan Delgado da Silva BRENO LISI ROMANO . In :
Project Management Using the Scrum Agile Method : A Case Study within a
Small Enterprise (15 April 2015), p. 1.2.3.
[6] Ue DBD . « Confusion Matrix ». In : http
://www2.cs.uregina.ca/ dbd/cs831/notes/confusionmatri
(2022).
[7] H.F. ELLENBERGER . « Développement historique
de la notion de processus psychothérapique Psychotherapy and
Psychosomatics ». In : ISSN (2020).
[8] YULE G.U . « Les applications de la méthode
de corrélation aux statistiques sociales et économiques ».
In : compte rendu de la 12e session de Paris 2-3 (1909), p.
265-277.
[9] David GALIANA . In : Qu'est-ce que la
méthodologie Scrum ? (20 juillet 2017), p. 1.
[10] Yoav GOLDBERG et Omer LEVY . « word2vec Explained :
deriving Mikolov et al.'s negative-sampling word-embedding method ». In :
CoRR abs/1402.3722 (2014). URL :
http://arxiv.org/abs/1402.3722.
[11] Bickel Peter J . « Mathematical Statistics : Basic
and selected topics ». In : (2007).
[12] Michel Lejeune et Gilbert Saporta JEAN-JACQUES DROESBEKE
. « Modèles statistiques pour données qualitatives ».
In : (2005).
[13]
80 BIBLIOGRAPHIE
Amassin NACERDDINE Université Paris 8 Vincennes
Karen Spärck JONES . « A statistical interpretation
of term specificity and its application in retrieval ». In : Journal
of Documentation, vol. 28 28 (1972).
[14] Pirmin LEMBERGER . « BIG DATA ET MAACHINE LEARNING les
concepts et les outils de la data science ». In : DUNOD
(2022).
[15] Gerard Salton et M. J. MCGILL . « Introduction to
Modern Information Retrieval ». In : (1983).
[16] Benoît MANDELBROT . « Logique, langage et
théorie de l'information Étude de la loi d'Estoup et de Zipf :
fréquences des mots dans le discours ». In : Paris, Presses
universitaires de France (1957), p. 22-53.
[17] T. MITCHELL . « Generative and Discriminative
Classifiers : Naive Bayes and Logistic Regression ». In : (2005).
[18] Mohamed MOULOUZI . In : Scrum pour les nuls (5
fev 2014), p. 1.
[19] Mohammed OURIEMCHI . « Résolution de
problèmes non linéaires par les méthodes de points
intérieurs. Théorie et algorithmes.. Mathématiques ».
In : Université du Havre Français (2005).
[20] Micheline PETRUSZEWYCZ . « L'histoire de la loi
d'Estoup-Zipf ». In : documents » [archive du 5 juin 2011]
(1973), p. 41-56.
[21] Johann PFANZAGL . « Parametric Statistical Theory
». In : (1994).
[22] F. ROSENBLATT . « The perceptron : A probabilistic
model for information storage and organization in the brain. » In :
Psychological Review 65.6 (1958), p. 386-408. ISSN : 0033-295X. DOI :
10.1037/h0042519. URL :
http://dx.
doi.org/10.1037/h0042519.
[23] Tamer E. El-Diraby S. MADEH PIRYONESI . « Role of
Data Analytics in Infrastructure Asset Management : Overcoming Data Size and
Quality Problems. » In : Journal of Transportation Engineering
146 (2009).
[24] M. SAKAROVITCH . Optimisation combinatoire, graphes
et programmation linéaire. Paris : Hermann, 1984.
[25] Ken SCHWABE . In : SCRUM Development Process
(2016), p. 1..40.
[26] Ian STEWART . « 1 est plus probable que 9 ».
In : in Pour la science 2-3 (2000), p. 59-96.
[27] J.Friedman T.HASTIE R.Tibshirani. «The Elements of
Statistical Learning : Data Mining, Inference, and Prediction ». In :
(2009).
Table des figures
1
|
V3P4
|
15
|
2
|
Semaines/jalon
|
16
|
3
|
Indicateurs
|
17
|
4
|
Schéma de données
|
22
|
5
|
Règles de nommage
|
23
|
6
|
Zone Archi
|
24
|
7
|
Visualisation des valeurs aberrantes
|
26
|
8
|
Loi de Benford appliquée aux Ki
|
27
|
9
|
Loi zipf appliquée a la frequence des mots
|
28
|
10
|
Loi normale sur les K1/K2
|
29
|
11
|
Corr matrix
|
30
|
12
|
Langues dans le dataset
|
31
|
13
|
Fréquence des mots
|
32
|
14
|
LabelEncoder
|
33
|
15
|
KNN
|
43
|
16
|
Arbres de décision
|
44
|
17
|
SVM
|
45
|
18
|
mlp
|
45
|
19
|
neurone-artificiel
|
46
|
20
|
Fonctions d'activation les plus utilisées
|
46
|
21
|
Matrice de confusion
|
51
|
22
|
Matrice de confusion RF
|
54
|
23
|
Matrice de confusion XGBOOST
|
55
|
24
|
Matrice de confusion KNN
|
56
|
25
|
RMSE/RMSLE RF
|
58
|
26
|
RMSE/RMSLE KNN
|
58
|
27
|
Logo Python
|
70
|
28
|
Logo jira
|
71
|
29
|
Logo Pandas
|
71
|
30
|
Logo D3.js
|
71
|
31
|
Logo TensorFlow
|
72
|
|
82
|
TABLE DES FIGURES
|
32
|
logo Scikit-Learn
|
72
|
33
|
logo keras
|
72
|
34
|
Briques GCP
|
73
|
35
|
Flask
|
74
|
36
|
Logo HTML CSS JS
|
74
|
37
|
Logo Git & GitHub
|
74
|
38
|
visualisation des projets
|
75
|
39
|
Kairos vs GPS
|
75
|
|
Amassin NACERDDINE
|
Université Paris 8 Vincennes
|
Liste des tableaux
Table des matières
Remerciements 3
Introduction 7
I Problématique 9
I Le contexte de résolution du problème
13
I.1 Introduction 14
I.2 Contexte 14
I.3 Contexte Logiciel 14
I.4 Jalonnement adopté 15
I.5 Semaines entre chaque jalon 16
I.6 Indicateurs 17
I.7 Conclusion 17
II Le problème à résoudre
19
II.1 Objectif 20
II.1.1 Métier 20
II.1.2 Technique 20
II.1.3 Stratégique 20
II.2 Règle 20
II.3 Données 21
II.3.1 Composition de données 21
II.3.2 Schéma de données 21
II.3.3 Nommage des projets 22
II.3.4 Zone architecture 23
II.4 Difficultés rencontrées 24
II.5 Décomposition du problème 24
II.6 Data pre-processing 24
II.6.1 Nettoyage des données 25
86 TABLE DES MATIÈRES
Amassin NACERDDINE Université Paris 8 Vincennes
II.6.2 Chercher les valeurs aberrantes 25
II.6.3 Application des lois statistiques 26
II.6.4 Sélection des caractéristiques
intéressantes 30
II.6.5 Transformer les données 31
II.6.6 Augmentation de données 33
II.7 Conclusion 33
II État de l'art 35
III Techniques de traitement 39
III.1 Introduction 40
III.2 Machine Learning 40
III.3 Apprentissage supervisé 40
III.4 Régression ou classification 40
III.4.1 Problème de classification 40
III.4.2 Problème de régression 41
III.5 Algorithmes linéaires ou non linéaires
41
III.6 Modèles paramétriques ou non
paramétriques 41
III.7 Apprentissage hors ligne ou incremental 41
III.8 Modèles géométriques ou probabilistes
42
III.9 Les principaux algorithmes 42
III.9.1 La régression linéaire 42
III.9.2 Les K plus proches voisins 43
III.9.3 Les arbres de décision 43
III.9.4 Les forêts aléatoire 44
III.9.5 Les machines à vecteurs de support 44
III.9.6 MLP 45
IV Techniques d'évaluation 49
IV.1 Performance d'un modèle et sur-apprentissage 50
IV.2 Évaluation de la classification 51
IV.2.1 La matrice de confusion 51
IV.3 Évaluation de la régression 52
IV.3.1 RSS 52
IV.3.2 MSE 52
IV.3.3 RMSE 52
IV.3.4 RMSLE 52
V Résultats obtenus 53
V.1 Classification 54
TABLE DES MATIÈRES 87
PRévIsoN DE DATE DE PAssAGE DEs JALoNs 2022
V.1.1 Sur l'ensemble du jeux de données 54
V.1.2 Sur un jeux de test aléatoire 57
V.1.3 Temps d'entraînement des algorithmes 57
V.2 Régression 58
V.2.1 Sur l'ensemble du jeux de données 58
V.2.2 Sur sur un jeux de test aléatoire 58
V.2.3 Temps d'entraînement des algorithmes 59
III Système réalisé 61
VI Méthodologie d'analyse et de conception
65
VI.1 Introduction 66
VI.2 Méthode SCRUM 66
VI.3 Diviser pour régner 66
VI.3.1 Diviser l'équipe et attribution des rôles
66
VI.3.2 Diviser notre problème 66
VI.3.3 Diviser le temps 67
VII Outils utilisés 69
VII.1Introduction 69
VII.2 Logiciels et outils utilisé 70
VII.2.1 Python3 70
VII.2.2 Jira 71
VII.2.3 Pandas 71
VII.2.4 D3.js 71
VII.2.5 TensorFlow 72
VII.2.6 Scikit-Learn 72
VII.2.7 Keras 72
VII.2.8 Google Cloud Plate forme 73
VII.2.9 Flask 74
VII.2.10HTML/CSS/JS 74
VII.2.11Git & GitHub 74
VII.3 Aperçu de l'outil 75
Conclusion 77
Table des figures 81
Liste des tableaux 83
Amassin NACERDDINE Université Paris 8
Vincennes
88 TABLE DES MATIÈRES
|