L’intelligence artificielle. Outil de la gestion des connaissances.

par Jamal ELMAHDALI
Ecole de Management de Grenoble - Mastère spécialisé en management des systèmes d'information 2018

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

27

3.5.2 Les étapes du Machine Learning supervisé

28

La résolution d'un problème par l'apprentissage machine peut se résumer en trois étapes, voir quatre si on estime que la compréhension de la problématique posée entre dans le processus d'apprentissage (Chaouche, 2018) :

· La tâche spécifique : comprendre le problème à résoudre

· Les données : préparer les données

· L'algorithme d'apprentissage : choisir et paramétrer un algorithme

· La mesure des performances du modèle : évaluer le modèle pour ajuster au mieux ses paramètres.

Avant de démarrer un projet de Machine Learning il est nécessaire de comprendre la problématique afin de sélectionner les bonnes données, le bon algorithme et les bons paramétrages.

Figure 12 - Etapes de modélisation d'un classifieur

Comme toute démarche empirique, le processus d'apprentissage est itératif, il est peu probable d'arriver au meilleur résultat possible du premier coup. Il sera donc nécessaire de revenir sur certaines étapes pour améliorer le résultat. L'évaluation permet de cibler les paramètres à optimiser tant au niveau de l'algorithme que du pré-traitement des données (figure 12).

Figure 13 - Importance des données par rapport aux algorithmes (Banko et Brill - 2001)

3.5.3 Les données

Le traitement des données est une étape cruciale dans le processus de construction du modèle.

3.5.3.1 Quantité suffisante

Sans les données, il ne peut y avoir d'apprentissage, c'est donc la première étape dans ce genre de projet : vérifier que l'on dispose d'assez de données pour que le projet soit viable.

29

D'ailleurs, il est prouvé que la performance de l'apprentissage machine s'améliore avec la quantité de données en entrée. Comme on peut le constater dans la figure 13,

l'augmentation des performances résultant de l'utilisation de plus de données dépasse toute différence de choix d'algorithmes. Un algorithme médiocre avec cent millions de mots d'apprentissage dépasse le meilleur algorithme connu avec un million de mots indépendamment de la technique choisie (Banko & Brill, 2001).

Peter Norvig avance même que les données sont plus importantes que les algorithmes notamment dans le cas de résolution de problèmes complexes (Halevy, et al., 2009).

3.5.3.2 Donnée représentative

Les résultats seront bons si, et seulement si, les données sont représentatives du corpus à traiter en production. La sélection des données pour l'entrainement aura donc un impact important sur la performance du modèle construit (Géron, 2017).

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Il existe une chose plus puissante que toutes les armées du monde, c'est une idée dont l'heure est venue" Victor Hugo