WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp

Home | Publier un mémoire | Une page au hasard

Memoire Online >

Informatique et Télécommunications >

Intelligence artificielle

Prévison de date de passage des jalons avec les méthodes de machine learning

par Amassin NACERDDINE
Université Paris VIII Vincennes St-Denis - Master Big Data et fouille de données 2021

Disponible en mode multipage

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

MÉMOIRE

pour obtenir le grade de Master délivré par

Université Paris 8 Vincennes à Saint Denis

Mention Informatique

Parcours Big data et Fouille de données

présenté et soutenu publiquement par

Amassin NACERDDINE

le 12 septembre 2022

Prévison de date de passage des jalons avec les

méthodes de machine learning

Directeur de mémoire: Guille BERNARD

Maître d'apprentissage : Céline PREL

Alternance effectué à : Groupe Renault
1 Av. du Golf,

78280 Guyancourt

COMUE Paris Lumières

Laboratoire d'Informatique Avancée de Saint Denis
Laboratoire Paragraphe

Remerciements

Je tiens à apporter toute ma gratitude à mon encadrant universitaire Monsieur Gilles BERNARD pour ses précieux conseils son encadrement irréprochable ainsi que son écoute et sa disponibilité.

Mes professeurs qui m'ont suivi durant tout mon parcours académique Monsieur Sofian Aissani Monsieur Youcef TOUATI Monsieur Jean-Jacques MARIAGE Madame Rakia JAZIRI.

Un grand merci à Madame Ana FERNANDEZ pour son management et ses motivations. Madame Marie-Claire FEYEL pour ses avis toujours très affûtés. Mais aussi Monsieur Abdel-Djalil OURABAH pour son aide.

Enfin, merci aux membres de ma promo avec qui j'ai passé des moments inoubliables, Ainsi que ma famille et mes amis qui sont constamment restés à l'écoute Rayan Iness Maman et ma mamie.

Sommaire

Remerciements 3

Introduction 7

I Problématique 9

I Le contexte de résolution du problème 13

II Le problème à résoudre 19

II État de l'art 35

III Techniques de traitement 39

IV Techniques d'évaluation 49

V Résultats obtenus 53

III Système réalisé 61

VI Méthodologie d'analyse et de conception 65

VII Outils utilisés 69

Conclusion 77

6 SOMMAIRE

Amassin NACERDDINE Université Paris 8 Vincennes

Table des figures 81

Liste des tableaux 83

Introduction

En cette ère moderne, on a de plus en plus besoin de prédire ce qui va se passer dans un futur proche.

Dans le cadre de mon alternance que j'effectue au sein du groupe Renault à la direction de la DEAGOM où nous sommes en charge du suivi et du monitoring des projets véhicules nous devons respecter un jalonnement bien spécifique pour les projets.

Néanmoins il s'avère que ces date prévisionnelles qui sont saisies dans nos outils d'entreprise ne s'avère pas toujours fiables et ne sont pas toujours respectées.

Pour se faire j'ai réalisé deux outils dans le cadre de ce travail qui permettent de faire,la prédiction de ces dates en utilisant des méthodes de machine learning,et de la visualisation pour faciliter la prise de décision.

En effet avoir une meilleure visibilité des dates permet une meilleure planification ainsi qu'une meilleure répartition des tâches des ressources, mais aussi directement impacter la satisfaction client,car un client qui reçois sa voiture dans les temps sera plus satisfait.

Par conséquent,des méthodes plus modernes et plus performantes afin de déterminer toutes les caractéristiques d'entrée des données que nous avons a notre disposition doivent être proposées.

Cette étude se concentre sur une approche de Machine Learning car elle a un potentiel élevé dans ce domaine,ces méthodes de ML peuvent apprendre à partir de grands ensembles de données.

Ce rapport est structuré comme suite :

· Chapitre 1 :Le contexte de résolution du problème

· Chapitre 2 :Je présenterai la problématique auquel nous faisons face en entreprise.

·

8 Introduction

Amassin NACERDDINE Université Paris 8 Vincennes

Chapitre 3 :Je dresserai un état de l'art de ce qui est fait dans la littérature.

· Chapitre 4 :Je montrerai ensuite la méthode de conception que nous adoptons.

· Chapitre 5 :Je vais lister les outils et technologies utilisé durant le projet ainsi qu'un aperçu du résultat final.

· Quant à la conclusion, elle dressera les perspectives et la vue d'ensemble du projet.

9

partie I

Problématique

Table des matières

I Le contexte de résolution du problème 13

I.1 Introduction 14

I.2 Contexte 14

I.3 Contexte Logiciel 14

I.4 Jalonnement adopté 15

I.5 Semaines entre chaque jalon 16

I.6 Indicateurs 17

I.7 Conclusion 17

II Le problème à résoudre 19

II.1 Objectif 20

II.2 Règle 20

II.3 Données 21

II.4 Difficultés rencontrées 24

II.5 Décomposition du problème 24

II.6 Data pre-processing 24

II.7 Conclusion 33

Chapitre I

Le contexte de résolution du

problème

Sommaire

I.1 Introduction 14

I.2 Contexte 14

I.3 Contexte Logiciel 14

I.4 Jalonnement adopté 15

I.5 Semaines entre chaque jalon 16

I.6 Indicateurs 17

I.7 Conclusion 17

14 CHAPITRE I. CONTEXTE

Amassin NACERDDINE Université Paris 8 Vincennes

I.1 Introduction

Dans cette section je vais définir certaines notions essentielles a la présentation de notre problème.

Le groupe Renault fait partie de l'alliance entre les trois grands constructeurs automobiles Renault-Nissan-Mitsubishi. C'est le premier constructeur mondial et compte plus de 100 000 collaborateurs à travers 37 pays dans le monde.

I.2 Contexte

Nous adoptons chez Renault une logique de développement spécifique que nous appelons V3P (Value-up Product Process Program).

Cette logique divise la phase de développement d'un véhicule en plusieurs jalons (milestones).

Nous suivons le véhicule de la phase amont où sont proposés le concept et le design du véhicule.

Viennent alors les deux phases de développement et d'industrialisation qui sont au coeur de l'ingénierie ce sont les deux phases qui nous intéressent le plus et pour lesquelles j'ai consacré ce travail.

I.3 Contexte Logiciel

Ces dates sont introduites et modifiées au fur et à mesure de l'avancement des projets dans notre outil d'entreprise GPS (Global Planning System).

Les accès à cet outil ainsi qu'aux données sont restreints de par la nature confidentielle de celles-ci.

I.4 Jalonnement adopté 15

I.4 Jalonnement adopté

Voici un schéma qui présente le jalonnement adopté ainsi que les différents milestones.

PRéVISON DE DATE DE PASSAGE DES JALONS 2022

FIG. 1 : V3P4

Amassin NACERDDINE Université Paris 8 Vincennes

16 CHAPITRE I. CONTEXTE

I.5 Semaines entre chaque jalon

Les semaines des projets véhicules sont divisées au préalable au lancement des projets, il différent selon si on parle d'un véhicule utilitaire ou d'un véhicule pour particuliers. Bien entendu plus de pièces à développer, impliquent des validations plus longues.

On distingue également 5 typologies différentes, en fonction de la complexité du projet.

FIG. 2 : Semaines/jalon

I.6 Indicateurs 17

PRéVISON DE DATE DE PASSAGE DES JALONS 2022

I.6 Indicateurs

Nous suivons tout au long de cette logique de développement des indicateurs qui sont parfois spécifiques à chaque jalon.

FIG. 3 : Indicateurs

I.7 Conclusion

Les dates prévisionnelles de passage de ces jalons sont planifiées et saisies dans nos outils d'entreprises. Toutefois ces dates ne sont pas toujours respectées et dans la major partie des projets décalées au fur et à mesure.

Chapitre II

Le problème à résoudre

Sommaire				II.1
Objectif	20
II.1.1	Métier	20
II.1.2	Technique	20
II.1.3	Stratégique	20	II.2
	Règle	20	II.3
Données	21
II.3.1	Composition de données	21
II.3.2	Schéma de données	21
II.3.3	Nommage des projets	22
II.3.4	Zone architecture	23	II.4
Difficultés rencontrées	24		II.5
Décomposition du problème	24		II.6
Data pre-processing	24
II.6.1	Nettoyage des données	25
II.6.2	Chercher les valeurs aberrantes	25
II.6.3	Application des lois statistiques	26
II.6.4	Sélection des caractéristiques intéressantes	30
II.6.5	Transformer les données	31
II.6.6	Augmentation de données	33	II.7
Conclusion	33

20 CHAPITRE II. LE PROBLÈME

Amassin NACERDDINE

Université Paris 8 Vincennes

II.1 Objectif

On distingue ici l'objectif métier, défini en fonction du point de vue de l'utilisateur, l'objectif technique, défini en fonction du point de vue du développeur informatique, et enfin un objectif stratégique plus général à accomplir durant ce travail.

II.1.1 Métier

D'un point de vue métier, on veut pouvoir donner une meilleure estimation des dates de passage des jalons.

Les collaborateurs doivent être en mesure de visualiser les dates des jalons et les décideurs doivent être alertés et doivent être en mesure de prendre des décisions selon le décalage plus ou moins important de ces dates.

II.1.2 Technique

Le problème d'un point de vue technique peut être vu de deux façons différentes, à savoir un problème de classification,ou un problème de régression.

La classification et la régression sont des cas d'apprentissage supervisé,où on entraîne des algorithmes afin d'avoir une fonction de prédiction qui se rapproche le plus de la réalité.

II.1.3 Stratégique

Ce projet est avant tout une preuve de concept (POC) afin de montrer que les données peuvent être mieux exploitées et afin d'adopter de nouvelles stratégies plus modernes au sein du groupe.

Une fois ce types d'outils déployés ils permettront aux décideurs d'adopter des choix selon les contraintes et la complexité de la situation.

L'objectif final est bien entendu une meilleure satisfaction clients,car un client auquel on promet une date de sortie fiable se tournera rarement vers un constructeur concurrent.

II.2 Règle

Les indicateurs que nous suivons au sein de la DAGOM sont parfois issue de différentes directions et ont des schémas de données différents.

Les indicateurs auxquels je me suis particulièrement intéressé sont les LUP (Liste unique de problème) et les tickets Jira.

II.3 Données 21

PRévIsoN DE DATE DE PAssAGE DEs JALoNs 2022

En effet ces indicateurs recensent les problèmes qui surviennent durant toute la phase de réalisation d'un véhicule.

Il faut savoir que ces problèmes sont classés selon leurs degrés de criticité qui va de K1 jusqu'à K4 (1 pour très critique).

Et si des tickets de criticité K1 (& ou) K2 sont encore ouverts et pas encore traités le jalon ne passera pas et la date de son passage systématiquement reportée et modifiée dans nos outils d'entreprise.

Une fois que nous connaissons cette règle il est plus simple d'appréhender le problème de base.

II.3 Données

II.3.1 Composition de données

Nous allons nous intéresser plus en détail sur la composition et la structure de notre jeux de données.

Nous disposons en tout de 500 000 lignes soit 1/2 million de tickets et LUP des projets entre 2018 et 2022.

En moyenne un projet peut avoir jusqu'à 4000 tickets toute au long de son développement.

Les tickets sont saisies par les pilotes qui répertorient les problèmes. La fréquence d'ouverture des tickets dépend fortement de l'avancement du projet.

II.3.2 Schéma de données

Un ticket Jira ou une LUP c'est :

· Le projet véhicule qui est concerné par le ticket : String

· la zone du véhicule qui est impactée :String

· les dates de création et de fermeture (dans le cas ou le problème est résolu) du ticket : Date

· La criticité du ticket qui représente le degré d'importance du ticket (1..4) :Int

· Nom du pilote qui répertorie le problème :String

· La direction en charge de régler le problème : String

22 CHAPITRE II. LE PROBLÈME

· La description du problème : champs de type texte en saisie libre pour le pilote afin de détailler au maximum le problème : String

FIG. 4 : Schéma de données

II.3.3 Nommage des projets

Les règles de nommages sont définies chez Renault de tel sorte qu'a partir de l'enco-dage d'un projet connaître le modèle du véhicule la famille ainsi que le constructeur (Renault Nissan Dacia ...).

Amassin NACERDDINE Université Paris 8 Vincennes

II.3 Données 23

PRéVISON DE DATE DE PASSAGE DES JALONS 2022

FIG. 5 : Règles de nommage

II.3.4 Zone architecture

Les zones d'architecture d'un véhicule sont les suivantes :

· FAV : Face avant du véhicule.

· FAR : Face arrière du véhicule.

· LAT : Face latérale.

· SCA: Sous-caisse du véhicule.

· CMO : Compartiment moteur

· PDC : Poste de conduite

· INP : Intérieur et plancher

24 CHAPITRE II. LE PROBLÈME

Amassin NACERDDINE Université Paris 8 Vincennes

FIG. 6 : Zone Archi

II.4 Difficultés rencontrées

Les difficultés rencontrées sont : d'abord,les difficultés liées à la réunion et la collecte des données et l'intégration de celle-ci sur le cloud a partir de l'outil d'en-treprise qui est Jira de façon automatique; ensuite, les difficultés liées aux données (informations erronées,inexactes,Données aberrantes,vides) ainsi qu'a la transformation et l'anonymisation de certaines informations.

II.5 Décomposition du problème

Comme tout problème de machine learning celui-ci peut être séparé en différent modules :

· Data pré-processing & intégration de données.

· Application des modèles & optimisation interprétation des résultats.

· et enfin post-processing & présentation/visualisation

II.6 Data pre-processing

Cette étape consiste en l'extraction de caractéristiques intéressantes des données et le nettoyage de celle-ci.

II.6 Data pre-processing 25

PRévIsoN DE DATE DE PAssAGE DEs JALoNs 2022

En effet cette étape est importante dans l'élaboration d'un projet de ML plus particulièrement pour l'étape suivante qui consiste a appliquer les modèles,car le modèle choisit est plus susceptible de retourner de meilleurs résultat dans le cas ou les données sont bien nettoyées.

II.6.1 Nettoyage des données

Cette étape consiste a éliminer toute les informations que l'on ne souhaite pas conserver.

· informations erronées ,inexactes.

· informations vides ou non renseignés.

· informations redondantes

· informations sans intérêt pour l'analyse.

II.6.2 Chercher les valeurs aberrantes

L'un des moyens les plus efficace pour trouver les valeurs aberrantes reste la visualisation.

En effet les valeurs qui sortent de l'ordinaire seront facilement repérables.

26 CHAPITRE II. LE PROBLÈME

Amassin NACERDDINE Université Paris 8 Vincennes

FIG. 7 : Visualisation des valeurs aberrantes

II.6.3 Application des lois statistiques

Voir si les données obéissent a une certaine loi de probabilité

· loi de poisson

· loi exponentielle

· loi normale

· loi de Zipf

· Loi de Benford

On peut utiliser ces lois pour éliminer les valeurs peut représentatives au vu de leur faible probabilité.(STEwART , 2000)

II.6.3.1 Loi de Benford

: Une série de nombres réels en écriture décimale suit la loi de Benford si la fréquence d'apparition du premier chiffre significatif c vaut approximativement pour

II.6 Data pre-processing 27

tout c entre 1 et 9 où log désigne le logarithme décimal(BENFORD , 1938) f_c= log(c + 1) - log(c) = log(1 + ¹c)

PRéVISON DE DATE DE PASSAGE DES JALONS 2022

FIG. 8 : Loi de Benford appliquée aux Ki

Amassin NACERDDINE Université Paris 8 Vincennes

28 CHAPITRE II. LE PROBLÈME

II.6.3.2 Loi de Zipf

: La loi de Zipf est une observation empirique concernant la fréquence des mots dans un texte(PETRUSZEWYCZ , 1973)

La fréquence d'occurrence f(n) d'un mot est liée à son rang n dans l'ordre des fréquences par une loi de la forme où K est une constante :(MANDELBROT , 1957) f_c = Kn

FIG. 9 : Loi zipf appliquée a la frequence des mots

II.6 Data pre-processing 29

II.6.3.3 Loi normale

Une variable aléatoire continue X suit une distribution normale si elle a la fonction de densité de probabilité suivante (JEAN-JACQUES DROESBEKE , 2005)

PRéVISON DE DATE DE PASSAGE DES JALONS 2022

FIG. 10 : Loi normale sur les K1/K2

30 CHAPITRE II. LE PROBLÈME

Amassin NACERDDINE Université Paris 8 Vincennes

II.6.4 Sélection des caractéristiques intéressantes

Il existe des algorithmes d'apprentissage automatique tel que : ACP,LDA... qui permettent de sélectionner les caractéristiques les plus représentatives.

Mais aussi utiliser une matrice de corrélation et en interpréter les résultats.(A.L. , 1901)

Ou encore demander l'avis des experts métier.

voici un aperçu de la matrice de corrélation appliqué a nos features.(G.U , 1909)

FIG. 11 : Corr matrix

II.6 Data pre-processing 31

PRéVISON DE DATE DE PASSAGE DES JALONS 2022

II.6.5 Transformer les données

La phase de préparation des données consiste également a manipuler,modifier,voir encore créer de nouvelle informations a partir d'information disponible.

-Dans mon cas un calcule sur le temps de traitement des tickets fermés a dû être fait(différence entre deux dates)Mais aussi dans certain cas et certain ticket le changement du fuseau horaire.

-Une transformation sur le champ description a dû être faite.

En effet ce champ représente du texte écrit en différentes langues (Français,Anglais,Russe ,Allemand,Espagnol...) J'ai dû donc dans un premier temps traduire ce texte en une langue commune (ici l'anglais).

FIG. 12 : Langues dans le dataset

32 CHAPITRE II. LE PROBLÈME

Amassin NACERDDINE Université Paris 8 Vincennes

II.6.5.1 TF-IDF

Après cela une transformation de ce champs de vecteur,pour ce faire j'ai appliqué la méthode de pondération TF-IDF (M. J. McGILL , 1983) afin de déterminer l'importance d'un mot ainsi que sa fréquence dans un corpus.(JONES , 1972)

II.6.5.2 Word2Vec

Une fois notre vocabulaire déterminer nous pouvons passer a l'étape de vectorisa-tion Word2Vec.(GOLDBERG et LEvy , 2014)

FIG. 13 : Fréquence des mots

II.7 Conclusion 33

II.6.5.3 LabelEncoder

-L'encodage des caractéristiques catégorielles a aussi été effectué sur certain champs(LabelEncoder).

FIG. 14 : LabelEncoder

II.6.5.4 Normalisation

-Une normalisation des données a dû être effectué avant la passage a certain modèle.

II.6.6 Augmentation de données

On parle d'enrichissement de données lorsque on croise les données existantes avec de nouvelle informations.

Dans notre cas on peut penser a ajouter plus de caractéristiques liées au projet a savoir type de moteur,Batterie,pays de fabrication...

Néanmoins et après réflexion ces informations ne sont pas nécessaire a notre problématique de base.

II.7 Conclusion

Cette étape représente une partie importante de notre travail (60% du temps du projet) car elle inclus également une bonne compréhension de l'aspect métier au préalable.

PRéVISON DE DATE DE PASSAGE DES JALONS 2022

35

partie II

État de l'art

Table des matières

III Techniques de traitement 39

III.1 Introduction 40

III.2 Machine Learning 40

III.3 Apprentissage supervisé 40

III.4 Régression ou classification 40

III.5 Algorithmes linéaires ou non linéaires 41

III.6 Modèles paramétriques ou non paramétriques 41

III.7 Apprentissage hors ligne ou incremental 41

III.8 Modèles géométriques ou probabilistes 42

III.9 Les principaux algorithmes 42

IV Techniques d'évaluation 49

IV.1 Performance d'un modèle et sur-apprentissage 50

IV.2 Évaluation de la classification 51

IV.3 Évaluation de la régression 52

V Résultats obtenus 53

V.1 Classification 54

V.2 Régression 58

Chapitre III

Techniques de traitement

Sommaire

III.1 Introduction 40

III.2 Machine Learning 40

III.3 Apprentissage supervisé 40

III.4 Régression ou classification 40

III.4.1 Problème de classification 40

III.4.2 Problème de régression 41

III.5 Algorithmes linéaires ou non linéaires 41

III.6 Modèles paramétriques ou non paramétriques 41

III.7 Apprentissage hors ligne ou incremental 41

III.8 Modèles géométriques ou probabilistes 42

III.9 Les principaux algorithmes 42

III.9.1 La régression linéaire 42

III.9.2 Les K plus proches voisins 43

III.9.3 Les arbres de décision 43

III.9.4 Les forêts aléatoire 44

III.9.5 Les machines à vecteurs de support 44

III.9.6 MLP 45

40 CHAPITRE III. TRAITEMENT

Amassin NACERDDINE Université Paris 8 Vincennes

III.1 Introduction

Dans cette section je vais présenter une étude bibliographique sur les travaux connexes au notre ainsi que les modèles de machine learning notamment les deux approches dont le problème peut être traité.

III.2 Machine Learning

Le machine learning (ML) est un ensemble d'outils statistiques et d'algorithmes informatiques qui permettent d'automatiser la construction d'une fonction de prédiction f à partir d'un ensemble d'observation que l'on appelle ensemble d'appren-tissage.

On peut donc considérer le ML comme étant une discipline hybride entre plusieurs sciences et techniques qui sont l'analyse statistique,l'intelligence artifi-cielle(IA) et l'IT.(LEMBERGER , 2022)

III.3 Apprentissage supervisé

L'apprentissage supervisé est la forme la plus courante du ML.

Elle présuppose que l'on dispose pour un ensemble de variables prédictives x1...x_n les valeurs de variables cibles y1...y_n

Comme indiqué dans le chapitre précédant nous disposons d'un jeux de données avec 500 000 tickets dont nous connaissons le temps de traitement.

III.4 Régression ou classification III.4.1 Problème de classification

Nous pouvons voir le problème comme étant un problème de classification,ou nous devons classer les tickets selon leur temps de traitement.

Les variables cibles sont ici qualitatives.Elles définissent une catégorie ou des classes. (Dans notre cas la catégorie du ticket T.long,long,moyen,court).

III.5 Algorithmes linéaires ou non linéaires 41

III.4.2 Problème de régression

Le problème peut également être vu comme un problème de régression.

Les variables cibles sont alors quantitative.Ce sont des variables numériques qui correspondent a des quantités.(Dans notre cas une durée en jours)

III.5 Algorithmes linéaires ou non linéaires

Un algorithme linéaire est par définition un algorithme dont la fonction de prédiction f est une fonction de combinaison linéaire des variables prédictives _a1x1+ ... + _anxn(MITCHELL , 2005). Considérée comme étant la technique la plus célèbre de la recherche opérationnelle.(SAKAROvITCH , 1984)

Quant aux algorithmes non linéaires ils visent a trouver l'optimum d'une fonction non linéaire sur un sous ensemble convexe ou non d'un espace de donnée.(OuRIEMCHI , 2005)

Les problèmes d'optimisation s'écrivent souvent sous la forme suivante:

? ?

? Min f(x)

??

?????

sous contraintes

_??h(x) = 0 ?

_????? g(x) ? 0

f : Rⁿ? R h : Rⁿ? Rp g : Rⁿ? R^mx ? Rn

III.6 Modèles paramétriques ou non paramétriques

On pale de modèles paramétriques lorsque la fonction de prédiction f prend une forme particulière comme exemple on peut voir la régression non linéaire ou on a une relation de forme y = a1x1 + a x + ... + anxn _n+ c.(J , 2007)

Un tel modèle qui présuppose pour f une forme particulière,avec un nombre de de paramètres ajustables déjà spécifié est un modèle paramétrique.(PFANzAGL , 1994)

Lorsque aucune forme particulière n'est postulée pour la fonction de prédiction,on parle de modèle non paramétrique.

III.7 Apprentissage hors ligne ou incremental

Dans le cas ou l'on connaît l'intégralité des données d'apprentissage,on parle d'une méthode d'apprentissage hors ligne ou statique.(ref26)

Dans la situation ou il existe un flot continu d'informations auxquels l'algorithme

PRévISON DE DATE DE PASSAGE DES JALONS 2022

42 CHAPITRE III. TRAITEMENT

Amassin NACERDDINE Université Paris 8 Vincennes

doit s'adapter et ajuster la fonction de prédiction f au fur et à mesure que les données lui parviennent sont dits online ou incrémentaux.

III.8 Modèles géométriques ou probabilistes

On parle de modèles géométrique lorsque il est question de distance ou de proximité entre les valeurs,à titre d'exemple on peut citer l'algorithme KNN qui vas chercher lors de la classification la classe la plus représentatif des K valeurs les plus proches. On parle de modèles probabilistes lorsque les valeurs des variables prédicatives et des variables cibles sont liées et obéissent a une certaines loi de probabilité.

III.9 Les principaux algorithmes

Nous allons présenter dans cette section les différents algorithmes utilisés

III.9.1 La régression linéaire

La régression linéaire est l'un des modèles de ML supervisé et non paramétrique les plus simple. il suppose que la fonction de prédiction f qui lie les variables prédictives _a1x1 + ... + _anxn a la variable cible a la forme f(x) = a1x1 + ... + _anxn + c. L'apprentissage du modèle consiste a calculer les coefficients de tel sorte a minimiser les erreurs de prédiction sur le jeux de données d'apprentissage.(cette erreur est définie par la somme des carrés des écarts entre les valeurs prédites et les valeurs observées.)(T.HASTIE , 2009)

· Avantages : Peu être représenté sous forme d'une expression mathématique,ce qui rend le modèle simple a interpréter.

· Inconvénients :La relation que l'on souhaite mettre en évidence doit être linéaire. et le jeux de données ne doit pas contenir de valeurs aberrantes.

III.9 Les principaux algorithmes 43

III.9.2 Les K plus proches voisins

L'algorithme des K plus proche voisins (KNN pour K Nearest Neighbors) est un algorithme de classification supervisé et non paramétrique.

On suppose qu'une observation est similaire a celle de ses voisins,de par les distance qui les sépare.on cherche par ailleurs les K points les plus proches de celui que l'on souhaite classer la classe ce la variable cible est alors la majorité parmi les classes des k plus proches.(S. MADEH PIRYONESI , 2009)

FIG. 15 : KNN

· Avantages : Simple à interpréter

· Inconvénients :Sensible au bruit

III.9.3 Les arbres de décision

Les arbres de décision sont des modèles de ML supervisés et non paramétriques connu pour leurs flexibilité.

Ils sont utilisables aussi bien pour la classification que pour la régression.

L'idée consiste a classer (ou attribuer une valeur dans le cas de la régression) à une observation a l'aide d'une succession de questions,ou chaque question est représentée par un noeud et chaque réponse correspond à une branche de l'arbre,la classe (ou valeur)de la variable cible est alors déterminer par le noeud terminal dans lequel parvient l'observation a l'issue des questions.(B.JAKuBczYK , 2017) pour la phase d'apprentissage,elle consiste a trouver les bonnes questions et de bien les ranger.

PRéVISON DE DATE DE PASSAGE DES JALONS 2022

44 CHAPITRE III. TRAITEMENT

Amassin NACERDDINE Université Paris 8 Vincennes

FIG. 16 : Arbres de décision

· Avantages: Phase de préparation de données simple

· Inconvénients : Risque de sur-apprentissage dans le cas d'un mauvais élagage

III.9.4 Les forêts aléatoire

C'est un algorithme de classification et de régression supervisé et non paramétrique.

Le but de l'algorithme des forêts aléatoires est de tirer partie des avantages des arbres de décision tout en éliminant leurs inconvénients a savoir la vulnérabilité au sur-apprentissage.

· Avantages: En plus de regrouper tout les avantages des arbres cité précédemment ces dernier ne souffrent pas du problème du sur-apprentissage.

· Inconvénients: La complexité de ce type d'algorithme rend leur implémentation délicate.

III.9.5 Les machines à vecteurs de support

Les SVM sont des algorithmes de classification binaire non supervisé et non li-néaire(mais qui peuvent s'adapter au multi-classe).Leurs principe est simple il consiste à construire une séparation non linéaire entre les groupes d'observations,et utiliser cette séparation comme repaire pour faire la prédiction.

· Avantages : Traite des problèmes avec un grand nombre de dimensions.

· Inconvénients: Le choix de la fonction noyau k est délicate.

III.9 Les principaux algorithmes 45

PRéVISON DE DATE DE PASSAGE DES JALONS 2022

FIG. 17 : SVM

III.9.6 MLP

Cette architecture consiste à organiser les neurones en couches successives avec des interconnexion avec les couches adjacentes.Ou chaque neurone est porteur d'une valeur comprise en générale entre 0 et 1 (d'où une normalisation préalable).

Comme pour les autres algorithmes supervisés on cherche a optimiser la transformation f afin que pour les observations xⁿ d'un ensemble d'entraînement les prédictions f(x) soit aussi proche que possible des valeurs yⁿ observées. pour se faire on ajuste durant la phase d'apprentissage des poids wⁿ qui sont associé a chaque lien du réseau.(ROSENBLATT , 1958)

FIG. 18 : mlp

46 CHAPITRE III. TRAITEMENT

Amassin NACERDDINE Université Paris 8 Vincennes

Pour calculer la sortie du MLP en fonction des entrées xⁿ et des poids wn on procède récursivement,couche par couche en combinant les deux opérations d'addition et de multiplication passé a une fonction d'activation.

FIG. 19 : neurone-artificiel

FIG. 20 : Fonctions d'activation les plus utilisées

III.9 Les principaux algorithmes 47

PRévIsoN DE DATE DE PAssAGE DEs JALoNs 2022

III.9.6.1 rétropropagation

Pour expliquer le principe de rétropropagation on doit comprendre le principe de l'erreur,la plus commune est l'erreur de la somme des carrés des écarts.

E(w) = ?N n=1[f(xn; w) - Y n]2

Cette erreur E(w) s'exprime comme une somme de contributions E_n(w) associé a chaque observation(xⁿ, yⁿ).Ainsi pour trouver les paramètres w_nou l'erreur E(w) atteint son minimum,on calcule le gradient de ?E_n(w).

III.9.6.2 Initialisation judicieuse

Les expériences précédentes ont montré qu'il est excrément utile d'initialiser judicieusement les couches basses(la plus proche de l'entrée) pour améliorer les performances d'un RN.

III.9.6.3 Utiliser le bon nombre de couches et de neurones par couche

Les expériences précédentes en Deep learning montrent qu'il est toujours intéressant d'avoir une couche d'entrée qui a au moins la taille de vecteur d'entrer et les couches suivantes qui représentent des puissances de deux.

Chapitre IV

Techniques d'évaluation

Sommaire

IV.1 Performance d'un modèle et sur-apprentissage 50

IV.2 Évaluation de la classification 51

IV.2.1 La matrice de confusion 51

IV.3 Évaluation de la régression 52

IV.3.1 RSS 52

IV.3.2 MSE 52

IV.3.3 RMSE 52

IV.3.4 RMSLE 52

Amassin NACERDDINE Université Paris 8 Vincennes

50 CHAPITRE IV. TRAITEMENT

IV.1 Performance d'un modèle et sur-apprentissage

La performance d'un algorithmes de ML est bien entendu la proportion de prédictions correctes(ou acceptable dans un certain sens) faites sur le jeux de données utilisé pour l'entraînement.

Néanmoins l'objectif du ML n'est pas de reproduire avec une précision optimal les valeurs des variables cibles connues mais bien de prédire les valeurs de celles qui n'ont pas encore été observées et dont on ne connaît pas la réponse.

En d'autres termes, il nous faut juger de la qualité d'un algorithme de par sa capacité à généraliser les associations apprises durant la phase d'entraînement à des nouvelles observations.

IV.2 Évaluation de la classification 51

IV.2 Évaluation de la classification IV.2.1 La matrice de confusion

la matrice de confusion est une matrice qui mesure la qualité d'un système de classification. Chaque ligne correspond à une classe réelle et chaque colonne correspond à la classe estimée.

La cellule ligne L, colonne C contient le nombre d'éléments de la classe réelle L qui ont été estimés comme appartenant à la classe C DBD , 2022

PRéVISON DE DATE DE PASSAGE DES JALONS 2022

FIG. 21 : Matrice de confusion

52 CHAPITRE IV. TRAITEMENT

Amassin NACERDDINE Université Paris 8 Vincennes

IV.3 Évaluation de la régression

Lorsque on parle d'évaluation de régression on parle d'erreur, Celle-ci doit tendre vers 0.

IV.3.1 RSS

La somme des carrés des résidus, On calcule pour chaque point xi du jeu de test la distance entre son étiquette et la valeur prédite et en faire la somme.

RSS = ?n i=1(f(xi) - yi)²

IV.3.2 MSE

Erreur quadratique moyenne, On garde les mêmes notion que pour le RSS en

ajoutant la normalisation sur n nombre de points dans le jeu de données.

_?n

MSE = 1 i=1(f(xi) - yi)²

n

IV.3.3 RMSE

Pour se ramener à l'unité de y , on peut prendre la racine de la MSE. On obtient

v 1 ?n

ainsi la RMSE, ou Root Mean Squared Error. RMSE = i=1(f(xi) - yi)²

n

IV.3.4 RMSLE

Le Root Mean Squared Log Errorr,pallie le problème des étiquettes qui peuvent

prendre des valeurs qui s'étalent sur plusieurs ordres de grandeur. v 1 ?n

RMSLE = i=1(log(f(xi) + 1) - log(yi + 1))²

n

Chapitre V

Résultats obtenus

Sommaire				V.1
Classification	54
V.1.1	Sur l'ensemble du jeux de données	54
V.1.2	Sur un jeux de test aléatoire	57
V.1.3	Temps d'entraînement des algorithmes	57	V.2
Régression	58
V.2.1	Sur l'ensemble du jeux de données	58
V.2.2	Sur sur un jeux de test aléatoire	58
V.2.3	Temps d'entraînement des algorithmes	59

54 CHAPITRE V. TESTS

V.1 Classification

V.1.1 Sur l'ensemble du jeux de données

V.1.1.1 Random forest

Amassin NACERDDINE Université Paris 8 Vincennes

FIG. 22 : Matrice de confusion RF

V.1 Classification 55

V.1.1.2 XGBOOST

PRéVISON DE DATE DE PASSAGE DES JALONS 2022

FIG. 23 : Matrice de confusion XGBOOST

56 CHAPITRE V. TESTS

V.1.1.3 KNN

Amassin NACERDDINE Université Paris 8 Vincennes

FIG. 24 : Matrice de confusion KNN

V.1 Classification 57

PRévIsoN DE DATE DE PAssAGE DEs JALoNs 2022

V.1.2 Sur un jeux de test aléatoire

Algo Accuracy

Random Forest 84% XGBOOST 77%

MLP 75% KNN
73%

SVM 43%

V.1.3 Temps d'entraînement des algorithmes

Algo Temps d'entraînement

Random Forest 181 s

XGBOOST 656 s

MLP 365 s

KNN 14 s

SVM 2 h

58 CHAPITRE V. TESTS

Amassin NACERDDINE Université Paris 8 Vincennes

V.2 Régression

V.2.1 Sur l'ensemble du jeux de données

V.2.1.1 Random forest

FIG. 25 : RMSE/RMSLE RF

V.2.1.2 KNN

V.2.1.3 RMSE & RMSLE

FIG. 26 : RMSE/RMSLE KNN

V.2.2 Sur sur un jeux de test aléatoire		Algo
RMSE	Régression Linéaire
0.095	Random Forest
59.63	KNN
76.2	XGBOOST
89.5	MLP
90.06

V.2 Régression 59

PRévIsoN DE DATE DE PAssAGE DEs JALoNs 2022

V.2.3 Temps d'entraînement des algorithmes

Algo Temps d'entraînement

Régression Linéaire 1.72 s

Random Forest 3597 s

KNN 14 s

XGBOOST 107 s

MLP 354 s

61

partie III

Système réalisé

Table des matières

VI Méthodologie d'analyse et de conception 65

VI.1 Introduction 66

VI.2 Méthode SCRUM 66

VI.3 Diviser pour régner 66

VII Outils utilisés 69

VII.1Introduction 69

VII.2 Logiciels et outils utilisé 70

VII.3 Aperçu de l'outil 75

Conclusion 77

Table des figures 81

Liste des tableaux 83

Chapitre VI

Méthodologie d'analyse et de

conception

Sommaire

VI.1 Introduction 66

VI.2 Méthode SCRUM 66

VI.3 Diviser pour régner 66

VI.3.1 Diviser l'équipe et attribution des rôles 66

VI.3.2 Diviser notre problème 66

VI.3.3 Diviser le temps 67

66 CHAPITRE VI. SYSTÈME

Amassin NACERDDINE Université Paris 8 Vincennes

VI.1 Introduction

Dans cette section je vais présenter la méthode de conception adoptée pour la réalisation de ce projet. Il faut savoir que chez Renault les méthodes qui sont adoptées sont les méthodes agiles.

En effet elles sont favorisés par rapport au méthodes plus classique car c'est relativement de gros projets et car celle-ci permettent une meilleure adaptabilité, visibilité et gestion des risques. On privilégie également les méthode Agile pour nos projets car les besoins clients sont versatiles et évolutifs.

VI.2 Méthode SCRUM

Pour la réalisation de notre projet nous avons adopté la méthode agile SCRUM qui est parfaitement adapté pour un développement rapide flexible et efficace de logiciels.ScHwABE , 2016

Cette méthode tire son nom de la mêlée du rugby,elle sous entend donc un grand travail d'équipe.GALiANA , 20 juillet 2017

L'approche SCRUM suit les principes de la méthodologie Agile, c'est-à-dire l'im-plication et la participation active du client tout au long du projet.APooRvA SRivAsTAvA , 6 May 2017

Ainsi notre équipe a du se réunit quotidiennement lors d'une réunion de synchronisation, appelée mêlée quotidienne, afin de suivre l'avancement du projet et la répartition des taches quotidienne.BRENo Lisi RoMANo , 15 April 2015

VI.3 Diviser pour régner

VI.3.1 Diviser l'équipe et attribution des rôles

Les projets qui utilisent la méthode SCRUM se forment autour d'une équipe auto-organisée et multifonctionnelle.MouLouzi , 5 fev 2014 il n'y a pas de chef d'équipe qui décide des rôles de chacun, ou de la manière dont un problème est résolu, puisque ces problématiques sont traitées par l'équipe dans son ensemble.ref7

VI.3.2 Diviser notre problème

Notre problème étant complexe il nous a donc fallu le diviser en plusieurs sous problèmes qui étaient plus faciles a appréhender.

VI.3 Diviser pour régner 67

VI.3.2.1 Les IHM

Les interfaces homme machine sont très importantes car elles représentent le premier contact avec les utilisateurs on se doit donc de les optimiser pour une meilleure ergonomie.

VI.3.2.2 Les données

Les données étant la partie la plus importante de notre application nous ne devions en aucun cas négliger cette aspect la.

Par ailleurs la méthode pour la sauvegarde de données qui est adoptée chez Renault est le cloud qui répond parfaitement au besoin des utilisateurs (les 3 v du big data).GALIANA , 20 juillet 2017

VI.3.2.3 Les APIs et les Frameworks

Les APIs et les Frameworks étant nombreuses nous avions l'obligation d'en apprendre le plus possible grâce a la documentation et en maîtriser un maximum.Pour pouvoir passer au codage de l'application.MouLouzI , 5 fev 2014

VI.3.3 Diviser le temps

La méthodologie SCRUM est basée sur le découpage du projet en Sprint,qui peuvent durer entre quelques heures et un mois.

VI.3.3.1 Sprint 1

Durant notre premier Sprint nous avons établie un premier contacte avec le client afin de mieux comprendre ses besoins,nous nous somme ensuit mis d'accord sur le fonctionnement du système et avons émis les différents cas d'utilisations.

VI.3.3.2 Sprint 2

Durant notre second sprint nous avons schématisé les interfaces de notre applica-tions.et les avons classé selon leur ordre de priorité.

VI.3.3.3 Sprint 3

Durant le 3ème Sprint nous avons validé les technologies et plat formes a utiliser.Et avons synchronisé notre travail dans un service web d'hébergement et de gestion

PRévIsoN DE DATE DE PAssAGE DEs JALoNs 2022

68 CHAPITRE VI. SYSTÈME

Amassin NACERDDINE Université Paris 8 Vincennes

de développement de logiciels.

VI.3.3.4 Sprint 4

Lors du 4eme sprint nous avons émis des propositions aux clients et lui avons fournis un premier livrable afin qu'ils puissent valider les technologies outils et interfaces.

Chapitre VII

Outils utilisés

Sommaire

VII.1 Introduction 69

VII.2 Logiciels et outils utilisé 70

VII.2.1 Python3 70

VII.2.2 Jira 71

VII.2.3 Pandas 71

VII.2.4 D3.js 71

VII.2.5 TensorFlow 72

VII.2.6 Scikit-Learn 72

VII.2.7 Keras 72

VII.2.8 Google Cloud Plate forme 73

VII.2.9 Flask 74

VII.2.10 HTML/CSS/JS 74

VII.2.11 Git & GitHub 74

VII.3 Aperçu de l'outil 75

VII.1 Introduction

Dans cette section je vais présenter les outils utilisés pour la réalisation de application ainsi qu'un aperçu du résultat de celle-ci.

J'ai choisi pour nom d'application Kairos.

Le kairos ( ) est un concept qui, adjoint à l'aiôn et au chronos, permet, sinon

70 CHAPITRE VII. OUTIL

Amassin NACERDDINE Université Paris 8 Vincennes

de définir le temps, du moins de situer les événements selon cette dimension. Faire le bon acte au bon moment participe au Kaïros. Pour ce qui est de la pensée occidentale, le concept de Kaïros apparaît chez les Grecs sous les traits d'un petit dieu ailé de l'opportunité, qu'il faut attraper quand il passe (saisir une opportuni-té).ELLENBERGER , 2020

VII.2 Logiciels et outils utilisé

VII.2.1 Python3

Le langage de programmation interprété, multi-paradigme et multiplateformes python a était utilisé et choisi pour ça productivité ainsi que pour ses outils de haut niveau et une syntaxe simple à utiliser. En effet la récolte des données a partir de Jira se fait en utilisant l'API python qui est proposée par cette dernière.

FIG. 27 : Logo Python

VII.2 Logiciels et outils utilisé 71

PRéVISON DE DATE DE PASSAGE DES JALONS 2022

VII.2.2 Jira

Le système de suivi de bugs, de gestion des incidents et de gestion de projets développé par Atlassiann est utilisé au sein de notre entreprise afin de répertorier tout les ticket d'incidents qui surviennent durant les projets véhicules.

FIG. 28 : Logo jira

VII.2.3 Pandas

La bibliothèque écrite pour le langage de programmation Python permettant la manipulation et l'analyse des données a été utilisée afin de pré traiter les données avant leur intégration sur le cloud.

FIG. 29 : Logo Pandas

VII.2.4 D3.js

La bibliothèque graphique JavaScript qui permet l'affichage de données numériques sous une forme graphique et dynamique a été utilisé afin d'afficher les graphes de façon intuitive et interactive.

FIG. 30 : Logo D3.js

72 CHAPITRE VII. OUTIL

Amassin NACERDDINE Université Paris 8 Vincennes

VII.2.5 TensorFlow

L'outil open source d'apprentissage automatique développé par Google a été utilisé.

FIG. 31 : Logo TensorFlow

VII.2.6 Scikit-Learn

la bibliothèque libre Python destinée à l'apprentissage automatique a également été utilisé.

FIG. 32 : logo Scikit-Learn

VII.2.7 Keras

La bibliothèque Keras permet d'interagir avec les algorithmes de réseaux de neurones profonds et d'apprentissage automatique

FIG. 33 : logo keras

VII.2 Logiciels et outils utilisé 73

PRéVISON DE DATE DE PASSAGE DES JALONS 2022

VII.2.8 Google Cloud Plate forme

La plateforme de cloud computing qui est proposée par Google est ce que nous utilisons au sein de notre entreprise.

En effet différentes briques qui sont proposées par la plate forme on été utilisé lors de ce projet.

Entre autre la brique BigQuery qui permet l'analyse interactive massive de grands ensembles de données et qui se relie facilement a l'espace de stockage de Cloud storage.

Mais aussi des briques comme App Engine pour le déploiement de notre outil et API translate pour la traduction de nos tickets.

FIG. 34 : Briques GCP

74 CHAPITRE VII. OUTIL

VII.2.9 Flask

Le micro framework open-source de développement web en Python a été utilisé pour sa simplicité et sa légerté.

FIG. 35 : Flask

VII.2.10 HTML/CSS/JS

L'application que je propose est une application web de par la facilité de déploiement de celle-ci ainsi que le grand nombre de consultation/ jours,mois.

FIG. 36 : Logo HTML CSS JS

VII.2.11 Git & GitHub

Le service d'hébergement basé sur le Web GitHub ainsi que le logiciel de gestion de versions Git on aussi étaient très utiles pour le traitement des différentes versions de l'application.

Amassin NACERDDINE Université Paris 8 Vincennes

FIG. 37 : Logo Git & GitHub

VII.3 Aperçu de l'outil 75

PRéVISON DE DATE DE PASSAGE DES JALONS 2022

VII.3 Aperçu de l'outil

Je propose dans un premier temps de choisir le projet véhicule dont nous souhaitons visualiser les prédictions.

FIG. 38 : visualisation des projets

Ensuit un comparatif entre les dates qui sont sur l'outil d'entreprise et les prédictions faites par l'outil Kairos.

FIG. 39 : Kairos vs GPS

Conclusion

Durant mon alternance au sein du groupe Renault j'ai pu mettre en pratique mes connaissances théoriques dans des problématiques d'entreprises réels en mettant en place un système avec tout le cheminement de la donnée de la partie récupé-ration/intégration de données jusqu'à la partie pré-traitement/traitement et mise en place du système et visualisation des résultats.

Certains aspects et certaines pratiques ont particulièrement attiré mon attention dans le mode de l'industrie automobile notamment.

· La difficulté pour avoir accès aux données.

· Le passage d'anciennes pratiques à des pratiques plus modernes prend plus ou moins longtemps à se mettre en place.

· Difficulté pour déployer et valider un outil.

· Difficulté de communication entre les directions.

En effet savoir interpréter les besoins clients les mettre en place et les adapter à des systèmes d'informations modernes n'est pas une tache simple et nécessite une bonne expérience et une forte connaissance de certains aspects métier.

Au-delà de l'aspect humain où j'avais toute la confiance et le respect de mes collègues; J'ai énormément appris avec les équipes métiers et je sais à présent que pour concevoir un véhicule il faut tout un savoir-faire que des grands constructeurs comme Renault ont.

Mais j'ai également remarqué l'apport que peuvent avoir les évolutions modernes que ça soit en informatique en intelligence artificielle ou bien d'autres domaines à des savoir-faire qui existent déjà.

j'ai eu le change d'avoir participé à une partie de cette transition et cette révolution numérique. Cette alternance chez Renault a été pour moi une expérience très importante.

Bibliographie

[1] BOWLEY A.L. . « Elements of Statistics ». In : Londres, King and Son 2-3 (1901).

[2] Shipra Saraswat APOORVA SRIVASTAVA Sukriti Bhardwaj. In : SCRUM model for agile methodology (6 May 2017), p. 1.75.

[3] M.Szufel B.JAKUBCZYK . «A framework for sensitivity analysis of decision trees. » In : Central European Journal of Operations Research (2017).

[4] Frank BENFORD . « The law of anomalous numbers ». In : Proceedings of the American Philosophical Society (1938).

[5] Alan Delgado da Silva BRENO LISI ROMANO . In : Project Management Using the Scrum Agile Method : A Case Study within a Small Enterprise (15 April 2015), p. 1.2.3.

[6] Ue DBD . « Confusion Matrix ». In : http ://www2.cs.uregina.ca/ dbd/cs831/notes/confusion_matri (2022).

[7] H.F. ELLENBERGER . « Développement historique de la notion de processus psychothérapique Psychotherapy and Psychosomatics ». In : ISSN (2020).

[8] YULE G.U . « Les applications de la méthode de corrélation aux statistiques sociales et économiques ». In : compte rendu de la 12e session de Paris 2-3 (1909), p. 265-277.

[9] David GALIANA . In : Qu'est-ce que la méthodologie Scrum ? (20 juillet 2017), p. 1.

[10] Yoav GOLDBERG et Omer LEVY . « word2vec Explained : deriving Mikolov et al.'s negative-sampling word-embedding method ». In : CoRR abs/1402.3722 (2014). URL : http://arxiv.org/abs/1402.3722.

[11] Bickel Peter J . « Mathematical Statistics : Basic and selected topics ». In : (2007).

[12] Michel Lejeune et Gilbert Saporta JEAN-JACQUES DROESBEKE . « Modèles statistiques pour données qualitatives ». In : (2005).

[13]

80 BIBLIOGRAPHIE

Amassin NACERDDINE Université Paris 8 Vincennes

Karen Spärck JONES . « A statistical interpretation of term specificity and its application in retrieval ». In : Journal of Documentation, vol. 28 28 (1972).

[14] Pirmin LEMBERGER . « BIG DATA ET MAACHINE LEARNING les concepts et les outils de la data science ». In : DUNOD (2022).

[15] Gerard Salton et M. J. MCGILL . « Introduction to Modern Information Retrieval ». In : (1983).

[16] Benoît MANDELBROT . « Logique, langage et théorie de l'information Étude de la loi d'Estoup et de Zipf : fréquences des mots dans le discours ». In : Paris, Presses universitaires de France (1957), p. 22-53.

[17] T. MITCHELL . « Generative and Discriminative Classifiers : Naive Bayes and Logistic Regression ». In : (2005).

[18] Mohamed MOULOUZI . In : Scrum pour les nuls (5 fev 2014), p. 1.

[19] Mohammed OURIEMCHI . « Résolution de problèmes non linéaires par les méthodes de points intérieurs. Théorie et algorithmes.. Mathématiques ». In : Université du Havre Français (2005).

[20] Micheline PETRUSZEWYCZ . « L'histoire de la loi d'Estoup-Zipf ». In : documents » [archive du 5 juin 2011] (1973), p. 41-56.

[21] Johann PFANZAGL . « Parametric Statistical Theory ». In : (1994).

[22] F. ROSENBLATT . « The perceptron : A probabilistic model for information storage and organization in the brain. » In : Psychological Review 65.6 (1958), p. 386-408. ISSN : 0033-295X. DOI : 10.1037/h0042519. URL : http://dx. doi.org/10.1037/h0042519.

[23] Tamer E. El-Diraby S. MADEH PIRYONESI . « Role of Data Analytics in Infrastructure Asset Management : Overcoming Data Size and Quality Problems. » In : Journal of Transportation Engineering 146 (2009).

[24] M. SAKAROVITCH . Optimisation combinatoire, graphes et programmation linéaire. Paris : Hermann, 1984.

[25] Ken SCHWABE . In : SCRUM Development Process (2016), p. 1..40.

[26] Ian STEWART . « 1 est plus probable que 9 ». In : in Pour la science 2-3 (2000), p. 59-96.

[27] J.Friedman T.HASTIE R.Tibshirani. «The Elements of Statistical Learning : Data Mining, Inference, and Prediction ». In : (2009).

Table des figures

1		V3P4		15
2		Semaines/jalon		16
3		Indicateurs		17
4		Schéma de données		22
5		Règles de nommage		23
6		Zone Archi		24
7		Visualisation des valeurs aberrantes		26
8		Loi de Benford appliquée aux Ki		27
9		Loi zipf appliquée a la frequence des mots		28
10		Loi normale sur les K1/K2		29
11		Corr matrix		30
12		Langues dans le dataset		31
13		Fréquence des mots		32
14		LabelEncoder		33
15		KNN		43
16		Arbres de décision		44
17		SVM		45
18		mlp		45
19		neurone-artificiel		46
20		Fonctions d'activation les plus utilisées		46
21		Matrice de confusion		51
22		Matrice de confusion RF		54
23		Matrice de confusion XGBOOST		55
24		Matrice de confusion KNN		56
25		RMSE/RMSLE RF		58
26		RMSE/RMSLE KNN		58
27		Logo Python		70
28		Logo jira		71
29		Logo Pandas		71
30		Logo D3.js		71
31		Logo TensorFlow		72
	82		TABLE DES FIGURES
32	logo Scikit-Learn		72
33	logo keras		72
34	Briques GCP		73
35	Flask		74
36	Logo HTML CSS JS		74
37	Logo Git & GitHub		74
38	visualisation des projets		75
39	Kairos vs GPS		75
	Amassin NACERDDINE		Université Paris 8 Vincennes

Liste des tableaux

Table des matières

Remerciements 3

Introduction 7

I Problématique 9

I Le contexte de résolution du problème 13

I.1 Introduction 14

I.2 Contexte 14

I.3 Contexte Logiciel 14

I.4 Jalonnement adopté 15

I.5 Semaines entre chaque jalon 16

I.6 Indicateurs 17

I.7 Conclusion 17

II Le problème à résoudre 19

II.1 Objectif 20

II.1.1 Métier 20

II.1.2 Technique 20

II.1.3 Stratégique 20

II.2 Règle 20

II.3 Données 21

II.3.1 Composition de données 21

II.3.2 Schéma de données 21

II.3.3 Nommage des projets 22

II.3.4 Zone architecture 23

II.4 Difficultés rencontrées 24

II.5 Décomposition du problème 24

II.6 Data pre-processing 24

II.6.1 Nettoyage des données 25

86 TABLE DES MATIÈRES

Amassin NACERDDINE Université Paris 8 Vincennes

II.6.2 Chercher les valeurs aberrantes 25

II.6.3 Application des lois statistiques 26

II.6.4 Sélection des caractéristiques intéressantes 30

II.6.5 Transformer les données 31

II.6.6 Augmentation de données 33

II.7 Conclusion 33

II État de l'art 35

III Techniques de traitement 39

III.1 Introduction 40

III.2 Machine Learning 40

III.3 Apprentissage supervisé 40

III.4 Régression ou classification 40

III.4.1 Problème de classification 40

III.4.2 Problème de régression 41

III.5 Algorithmes linéaires ou non linéaires 41

III.6 Modèles paramétriques ou non paramétriques 41

III.7 Apprentissage hors ligne ou incremental 41

III.8 Modèles géométriques ou probabilistes 42

III.9 Les principaux algorithmes 42

III.9.1 La régression linéaire 42

III.9.2 Les K plus proches voisins 43

III.9.3 Les arbres de décision 43

III.9.4 Les forêts aléatoire 44

III.9.5 Les machines à vecteurs de support 44

III.9.6 MLP 45

IV Techniques d'évaluation 49

IV.1 Performance d'un modèle et sur-apprentissage 50

IV.2 Évaluation de la classification 51

IV.2.1 La matrice de confusion 51

IV.3 Évaluation de la régression 52

IV.3.1 RSS 52

IV.3.2 MSE 52

IV.3.3 RMSE 52

IV.3.4 RMSLE 52

V Résultats obtenus 53

V.1 Classification 54

TABLE DES MATIÈRES 87

PRévIsoN DE DATE DE PAssAGE DEs JALoNs 2022

V.1.1 Sur l'ensemble du jeux de données 54

V.1.2 Sur un jeux de test aléatoire 57

V.1.3 Temps d'entraînement des algorithmes 57

V.2 Régression 58

V.2.1 Sur l'ensemble du jeux de données 58

V.2.2 Sur sur un jeux de test aléatoire 58

V.2.3 Temps d'entraînement des algorithmes 59

III Système réalisé 61

VI Méthodologie d'analyse et de conception 65

VI.1 Introduction 66

VI.2 Méthode SCRUM 66

VI.3 Diviser pour régner 66

VI.3.1 Diviser l'équipe et attribution des rôles 66

VI.3.2 Diviser notre problème 66

VI.3.3 Diviser le temps 67

VII Outils utilisés 69

VII.1Introduction 69

VII.2 Logiciels et outils utilisé 70

VII.2.1 Python3 70

VII.2.2 Jira 71

VII.2.3 Pandas 71

VII.2.4 D3.js 71

VII.2.5 TensorFlow 72

VII.2.6 Scikit-Learn 72

VII.2.7 Keras 72

VII.2.8 Google Cloud Plate forme 73

VII.2.9 Flask 74

VII.2.10HTML/CSS/JS 74

VII.2.11Git & GitHub 74

VII.3 Aperçu de l'outil 75

Conclusion 77

Table des figures 81

Liste des tableaux 83

Amassin NACERDDINE Université Paris 8 Vincennes

88 TABLE DES MATIÈRES

Changeons ce systeme injuste, Soyez votre propre syndic

"Il ne faut pas de tout pour faire un monde. Il faut du bonheur et rien d'autre" Paul Eluard