Chapitre III
Techniques de traitement
Sommaire
III.1 Introduction 40
III.2 Machine Learning 40
III.3 Apprentissage supervisé 40
III.4 Régression ou classification
40
III.4.1 Problème de classification 40
III.4.2 Problème de régression 41
III.5 Algorithmes linéaires ou non linéaires
41
III.6 Modèles paramétriques ou non
paramétriques 41
III.7 Apprentissage hors ligne ou incremental
41
III.8 Modèles géométriques ou
probabilistes 42
III.9 Les principaux algorithmes 42
III.9.1 La régression linéaire 42
III.9.2 Les K plus proches voisins 43
III.9.3 Les arbres de décision 43
III.9.4 Les forêts aléatoire 44
III.9.5 Les machines à vecteurs de support 44
III.9.6 MLP 45
40 CHAPITRE III. TRAITEMENT
Amassin NACERDDINE Université Paris 8 Vincennes
III.1 Introduction
Dans cette section je vais présenter une étude
bibliographique sur les travaux connexes au notre ainsi que les modèles
de machine learning notamment les deux approches dont le problème peut
être traité.
III.2 Machine Learning
Le machine learning (ML) est un ensemble d'outils
statistiques et d'algorithmes informatiques qui permettent d'automatiser la
construction d'une fonction de prédiction f à partir d'un
ensemble d'observation que l'on appelle ensemble d'appren-tissage.
On peut donc considérer le ML comme étant une
discipline hybride entre plusieurs sciences et techniques qui sont l'analyse
statistique,l'intelligence artifi-cielle(IA) et l'IT.(LEMBERGER , 2022)
III.3 Apprentissage supervisé
L'apprentissage supervisé est la forme la plus courante
du ML.
Elle présuppose que l'on dispose pour un ensemble de
variables prédictives x1...xn les valeurs
de variables cibles y1...yn
Comme indiqué dans le chapitre précédent
nous disposons d'un jeux de données avec 500 000 tickets dont nous
connaissons le temps de traitement.
III.4 Régression ou classification III.4.1
Problème de classification
Nous pouvons voir le problème comme étant un
problème de classification,ou nous devons classer les tickets selon leur
temps de traitement.
Les variables cibles sont ici qualitatives.Elles
définissent une catégorie ou des classes. (Dans notre
cas la catégorie du ticket T.long,long,moyen,court).
III.5 Algorithmes linéaires ou non linéaires
41
III.4.2 Problème de régression
Le problème peut également être vu comme un
problème de régression.
Les variables cibles sont alors
quantitative.Ce sont des variables
numériques qui correspondent a des quantités.(Dans notre cas une
durée en jours)
III.5 Algorithmes linéaires ou non
linéaires
Un algorithme linéaire est par définition un
algorithme dont la fonction de prédiction f est une fonction de
combinaison linéaire des variables prédictives
a1x1 + ... + anxn (MITCHELL ,
2005). Considérée comme étant la technique la plus
célèbre de la recherche opérationnelle.(SAKAROvITCH ,
1984)
Quant aux algorithmes non linéaires ils visent a trouver
l'optimum d'une fonction non linéaire sur un sous ensemble convexe ou
non d'un espace de donnée.(OuRIEMCHI , 2005)
Les problèmes d'optimisation s'écrivent souvent
sous la forme suivante:
? ?
? Min f(x)
??
?????
sous contraintes
??h(x) = 0 ?
????? g(x) ? 0
|
f : Rn ? R h : Rn ? Rp g : Rn
? Rm x ? Rn
|
|
|