WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Prévison de date de passage des jalons avec les méthodes de machine learning


par Amassin NACERDDINE
Université Paris VIII Vincennes St-Denis - Master Big Data et fouille de données 2021
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

II.6.3.2 Loi de Zipf

: La loi de Zipf est une observation empirique concernant la fréquence des mots dans un texte(PETRUSZEWYCZ , 1973)

La fréquence d'occurrence f(n) d'un mot est liée à son rang n dans l'ordre des fréquences par une loi de la forme où K est une constante :(MANDELBROT , 1957) fc = Kn

FIG. 9 : Loi zipf appliquée a la frequence des mots

II.6 Data pre-processing 29

II.6.3.3 Loi normale

Une variable aléatoire continue X suit une distribution normale si elle a la fonction de densité de probabilité suivante (JEAN-JACQUES DROESBEKE , 2005)

PRéVISON DE DATE DE PASSAGE DES JALONS 2022

FIG. 10 : Loi normale sur les K1/K2

30 CHAPITRE II. LE PROBLÈME

Amassin NACERDDINE Université Paris 8 Vincennes

II.6.4 Sélection des caractéristiques intéressantes

Il existe des algorithmes d'apprentissage automatique tel que : ACP,LDA... qui permettent de sélectionner les caractéristiques les plus représentatives.

Mais aussi utiliser une matrice de corrélation et en interpréter les résultats.(A.L. , 1901)

Ou encore demander l'avis des experts métier.

voici un aperçu de la matrice de corrélation appliqué a nos features.(G.U , 1909)

FIG. 11 : Corr matrix

II.6 Data pre-processing 31

PRéVISON DE DATE DE PASSAGE DES JALONS 2022

II.6.5 Transformer les données

La phase de préparation des données consiste également a manipuler,modifier,voir encore créer de nouvelle informations a partir d'information disponible.

-Dans mon cas un calcule sur le temps de traitement des tickets fermés a dû être fait(différence entre deux dates)Mais aussi dans certain cas et certain ticket le changement du fuseau horaire.

-Une transformation sur le champ description a dû être faite.

En effet ce champ représente du texte écrit en différentes langues (Français,Anglais,Russe ,Allemand,Espagnol...) J'ai dû donc dans un premier temps traduire ce texte en une langue commune (ici l'anglais).

FIG. 12 : Langues dans le dataset

32 CHAPITRE II. LE PROBLÈME

Amassin NACERDDINE Université Paris 8 Vincennes

II.6.5.1 TF-IDF

Après cela une transformation de ce champs de vecteur,pour ce faire j'ai appliqué la méthode de pondération TF-IDF (M. J. McGILL , 1983) afin de déterminer l'importance d'un mot ainsi que sa fréquence dans un corpus.(JONES , 1972)

II.6.5.2 Word2Vec

Une fois notre vocabulaire déterminer nous pouvons passer a l'étape de vectorisa-tion Word2Vec.(GOLDBERG et LEvy , 2014)

FIG. 13 : Fréquence des mots

II.7 Conclusion 33

II.6.5.3 LabelEncoder

-L'encodage des caractéristiques catégorielles a aussi été effectué sur certain champs(LabelEncoder).

FIG. 14 : LabelEncoder

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Il existe une chose plus puissante que toutes les armées du monde, c'est une idée dont l'heure est venue"   Victor Hugo