WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Prévison de date de passage des jalons avec les méthodes de machine learning


par Amassin NACERDDINE
Université Paris VIII Vincennes St-Denis - Master Big Data et fouille de données 2021
  

précédent sommaire

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Conclusion

Durant mon alternance au sein du groupe Renault j'ai pu mettre en pratique mes connaissances théoriques dans des problématiques d'entreprises réels en mettant en place un système avec tout le cheminement de la donnée de la partie récupé-ration/intégration de données jusqu'à la partie pré-traitement/traitement et mise en place du système et visualisation des résultats.

Certains aspects et certaines pratiques ont particulièrement attiré mon attention dans le mode de l'industrie automobile notamment.

· La difficulté pour avoir accès aux données.

· Le passage d'anciennes pratiques à des pratiques plus modernes prend plus ou moins longtemps à se mettre en place.

· Difficulté pour déployer et valider un outil.

· Difficulté de communication entre les directions.

En effet savoir interpréter les besoins clients les mettre en place et les adapter à des systèmes d'informations modernes n'est pas une tache simple et nécessite une bonne expérience et une forte connaissance de certains aspects métier.

Au-delà de l'aspect humain où j'avais toute la confiance et le respect de mes collègues; J'ai énormément appris avec les équipes métiers et je sais à présent que pour concevoir un véhicule il faut tout un savoir-faire que des grands constructeurs comme Renault ont.

Mais j'ai également remarqué l'apport que peuvent avoir les évolutions modernes que ça soit en informatique en intelligence artificielle ou bien d'autres domaines à des savoir-faire qui existent déjà.

j'ai eu le change d'avoir participé à une partie de cette transition et cette révolution numérique. Cette alternance chez Renault a été pour moi une expérience très importante.

Bibliographie

[1] BOWLEY A.L. . « Elements of Statistics ». In : Londres, King and Son 2-3 (1901).

[2] Shipra Saraswat APOORVA SRIVASTAVA Sukriti Bhardwaj. In : SCRUM model for agile methodology (6 May 2017), p. 1.75.

[3] M.Szufel B.JAKUBCZYK . «A framework for sensitivity analysis of decision trees. » In : Central European Journal of Operations Research (2017).

[4] Frank BENFORD . « The law of anomalous numbers ». In : Proceedings of the American Philosophical Society (1938).

[5] Alan Delgado da Silva BRENO LISI ROMANO . In : Project Management Using the Scrum Agile Method : A Case Study within a Small Enterprise (15 April 2015), p. 1.2.3.

[6] Ue DBD . « Confusion Matrix ». In : http ://www2.cs.uregina.ca/ dbd/cs831/notes/confusionmatri (2022).

[7] H.F. ELLENBERGER . « Développement historique de la notion de processus psychothérapique Psychotherapy and Psychosomatics ». In : ISSN (2020).

[8] YULE G.U . « Les applications de la méthode de corrélation aux statistiques sociales et économiques ». In : compte rendu de la 12e session de Paris 2-3 (1909), p. 265-277.

[9] David GALIANA . In : Qu'est-ce que la méthodologie Scrum ? (20 juillet 2017), p. 1.

[10] Yoav GOLDBERG et Omer LEVY . « word2vec Explained : deriving Mikolov et al.'s negative-sampling word-embedding method ». In : CoRR abs/1402.3722 (2014). URL : http://arxiv.org/abs/1402.3722.

[11] Bickel Peter J . « Mathematical Statistics : Basic and selected topics ». In : (2007).

[12] Michel Lejeune et Gilbert Saporta JEAN-JACQUES DROESBEKE . « Modèles statistiques pour données qualitatives ». In : (2005).

[13]

80 BIBLIOGRAPHIE

Amassin NACERDDINE Université Paris 8 Vincennes

Karen Spärck JONES . « A statistical interpretation of term specificity and its application in retrieval ». In : Journal of Documentation, vol. 28 28 (1972).

[14] Pirmin LEMBERGER . « BIG DATA ET MAACHINE LEARNING les concepts et les outils de la data science ». In : DUNOD (2022).

[15] Gerard Salton et M. J. MCGILL . « Introduction to Modern Information Retrieval ». In : (1983).

[16] Benoît MANDELBROT . « Logique, langage et théorie de l'information Étude de la loi d'Estoup et de Zipf : fréquences des mots dans le discours ». In : Paris, Presses universitaires de France (1957), p. 22-53.

[17] T. MITCHELL . « Generative and Discriminative Classifiers : Naive Bayes and Logistic Regression ». In : (2005).

[18] Mohamed MOULOUZI . In : Scrum pour les nuls (5 fev 2014), p. 1.

[19] Mohammed OURIEMCHI . « Résolution de problèmes non linéaires par les méthodes de points intérieurs. Théorie et algorithmes.. Mathématiques ». In : Université du Havre Français (2005).

[20] Micheline PETRUSZEWYCZ . « L'histoire de la loi d'Estoup-Zipf ». In : documents » [archive du 5 juin 2011] (1973), p. 41-56.

[21] Johann PFANZAGL . « Parametric Statistical Theory ». In : (1994).

[22] F. ROSENBLATT . « The perceptron : A probabilistic model for information storage and organization in the brain. » In : Psychological Review 65.6 (1958), p. 386-408. ISSN : 0033-295X. DOI : 10.1037/h0042519. URL : http://dx. doi.org/10.1037/h0042519.

[23] Tamer E. El-Diraby S. MADEH PIRYONESI . « Role of Data Analytics in Infrastructure Asset Management : Overcoming Data Size and Quality Problems. » In : Journal of Transportation Engineering 146 (2009).

[24] M. SAKAROVITCH . Optimisation combinatoire, graphes et programmation linéaire. Paris : Hermann, 1984.

[25] Ken SCHWABE . In : SCRUM Development Process (2016), p. 1..40.

[26] Ian STEWART . « 1 est plus probable que 9 ». In : in Pour la science 2-3 (2000), p. 59-96.

[27] J.Friedman T.HASTIE R.Tibshirani. «The Elements of Statistical Learning : Data Mining, Inference, and Prediction ». In : (2009).

Table des figures

1

V3P4

15

2

Semaines/jalon

16

3

Indicateurs

17

4

Schéma de données

22

5

Règles de nommage

23

6

Zone Archi

24

7

Visualisation des valeurs aberrantes

26

8

Loi de Benford appliquée aux Ki

27

9

Loi zipf appliquée a la frequence des mots

28

10

Loi normale sur les K1/K2

29

11

Corr matrix

30

12

Langues dans le dataset

31

13

Fréquence des mots

32

14

LabelEncoder

33

15

KNN

43

16

Arbres de décision

44

17

SVM

45

18

mlp

45

19

neurone-artificiel

46

20

Fonctions d'activation les plus utilisées

46

21

Matrice de confusion

51

22

Matrice de confusion RF

54

23

Matrice de confusion XGBOOST

55

24

Matrice de confusion KNN

56

25

RMSE/RMSLE RF

58

26

RMSE/RMSLE KNN

58

27

Logo Python

70

28

Logo jira

71

29

Logo Pandas

71

30

Logo D3.js

71

31

Logo TensorFlow

72

 

82

TABLE DES FIGURES

32

logo Scikit-Learn

72

33

logo keras

72

34

Briques GCP

73

35

Flask

74

36

Logo HTML CSS JS

74

37

Logo Git & GitHub

74

38

visualisation des projets

75

39

Kairos vs GPS

75

 

Amassin NACERDDINE

Université Paris 8 Vincennes

Liste des tableaux

Table des matières

Remerciements 3

Introduction 7

I Problématique 9

I Le contexte de résolution du problème 13

I.1 Introduction 14

I.2 Contexte 14

I.3 Contexte Logiciel 14

I.4 Jalonnement adopté 15

I.5 Semaines entre chaque jalon 16

I.6 Indicateurs 17

I.7 Conclusion 17

II Le problème à résoudre 19

II.1 Objectif 20

II.1.1 Métier 20

II.1.2 Technique 20

II.1.3 Stratégique 20

II.2 Règle 20

II.3 Données 21

II.3.1 Composition de données 21

II.3.2 Schéma de données 21

II.3.3 Nommage des projets 22

II.3.4 Zone architecture 23

II.4 Difficultés rencontrées 24

II.5 Décomposition du problème 24

II.6 Data pre-processing 24

II.6.1 Nettoyage des données 25

86 TABLE DES MATIÈRES

Amassin NACERDDINE Université Paris 8 Vincennes

II.6.2 Chercher les valeurs aberrantes 25

II.6.3 Application des lois statistiques 26

II.6.4 Sélection des caractéristiques intéressantes 30

II.6.5 Transformer les données 31

II.6.6 Augmentation de données 33

II.7 Conclusion 33

II État de l'art 35

III Techniques de traitement 39

III.1 Introduction 40

III.2 Machine Learning 40

III.3 Apprentissage supervisé 40

III.4 Régression ou classification 40

III.4.1 Problème de classification 40

III.4.2 Problème de régression 41

III.5 Algorithmes linéaires ou non linéaires 41

III.6 Modèles paramétriques ou non paramétriques 41

III.7 Apprentissage hors ligne ou incremental 41

III.8 Modèles géométriques ou probabilistes 42

III.9 Les principaux algorithmes 42

III.9.1 La régression linéaire 42

III.9.2 Les K plus proches voisins 43

III.9.3 Les arbres de décision 43

III.9.4 Les forêts aléatoire 44

III.9.5 Les machines à vecteurs de support 44

III.9.6 MLP 45

IV Techniques d'évaluation 49

IV.1 Performance d'un modèle et sur-apprentissage 50

IV.2 Évaluation de la classification 51

IV.2.1 La matrice de confusion 51

IV.3 Évaluation de la régression 52

IV.3.1 RSS 52

IV.3.2 MSE 52

IV.3.3 RMSE 52

IV.3.4 RMSLE 52

V Résultats obtenus 53

V.1 Classification 54

TABLE DES MATIÈRES 87

PRévIsoN DE DATE DE PAssAGE DEs JALoNs 2022

V.1.1 Sur l'ensemble du jeux de données 54

V.1.2 Sur un jeux de test aléatoire 57

V.1.3 Temps d'entraînement des algorithmes 57

V.2 Régression 58

V.2.1 Sur l'ensemble du jeux de données 58

V.2.2 Sur sur un jeux de test aléatoire 58

V.2.3 Temps d'entraînement des algorithmes 59

III Système réalisé 61

VI Méthodologie d'analyse et de conception 65

VI.1 Introduction 66

VI.2 Méthode SCRUM 66

VI.3 Diviser pour régner 66

VI.3.1 Diviser l'équipe et attribution des rôles 66

VI.3.2 Diviser notre problème 66

VI.3.3 Diviser le temps 67

VII Outils utilisés 69

VII.1Introduction 69

VII.2 Logiciels et outils utilisé 70

VII.2.1 Python3 70

VII.2.2 Jira 71

VII.2.3 Pandas 71

VII.2.4 D3.js 71

VII.2.5 TensorFlow 72

VII.2.6 Scikit-Learn 72

VII.2.7 Keras 72

VII.2.8 Google Cloud Plate forme 73

VII.2.9 Flask 74

VII.2.10HTML/CSS/JS 74

VII.2.11Git & GitHub 74

VII.3 Aperçu de l'outil 75

Conclusion 77

Table des figures 81

Liste des tableaux 83

Amassin NACERDDINE Université Paris 8 Vincennes

88 TABLE DES MATIÈRES

précédent sommaire






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"I don't believe we shall ever have a good money again before we take the thing out of the hand of governments. We can't take it violently, out of the hands of governments, all we can do is by some sly roundabout way introduce something that they can't stop ..."   Friedrich Hayek (1899-1992) en 1984