L’intelligence artificielle. Outil de la gestion des connaissances.

par Jamal ELMAHDALI
Ecole de Management de Grenoble - Mastère spécialisé en management des systèmes d'information 2018

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.5.3.3 Structure exploitable

Toutes sortes de données peuvent être exploitées, bases de données, images, documents textuels, à condition de les préparer, car les algorithmes ne traitent les données que sous forme matricielle. En effet, elles sont rarement stockées dans un fichier csv prêt à l'emploi, on parle alors de nettoyage et de pré-traitement des données.

Ce traitement ne sera pas le même en fonction de la structuration des données :

· Données structurées : ce sont des données qui peuvent être organisées sous forme de tableaux. Ces données peuvent être affichées par un tableur et contiennent des lignes et des colonnes de variables, variables dont l'ensemble des valeurs possibles peuvent être déterminées. C'est le cas d'une base de données ou d'un fichier csv.

· Données non structurées : ce sont principalement des documents textuels, audios ou graphiques.

Seules les données structurées peuvent être directement représentées dans un tableau. Quant aux données non-structurées, elles doivent subir un pré-traitement pour les convertir en chiffres. Nous verrons que les données textuelles doivent subir un traitement spécifique pour être exploitées par les algorithmes de Machine Learning.

3.5.3.4 Représentation des données

Tout objet est décrit par un ensemble de variables. L'objectif du Machine Learning est de rechercher des régularités dans ces données grâce à l'observation d'un grand nombre d'objets. On représente ces objets caractérisés par leur variable de façon matricielle, chaque ligne est un objet (un document dans notre contexte) et chaque colonne, une variable (attribut, ou feature en anglais), qui peut être représenté comme ceci :

Variables

v 1

v n

...

Objets

o 1

o

x1,1

x1,n

...

xm,1

o m

xm,n

Tableau 1 - Représentation des données sous forme d'une matrice (Biernat & Lutz, 2015)

Ce n'est en fait qu'un tableau composé de n variable(s) et m objet(s) ! On obtient donc un ensemble de données de M vecteurs à N dimensions. Dans le cas de la classification supervisée, chaque vecteur sera labelisé, c'est-à-dire qu'on associera à chaque vecteur, du jeu de données d'entrainement, une catégorie.

3.5.3.5 Répartition des données

Le jeu de données doit être découpé en deux parties, la première servira à l'entrainement et la seconde est réservée aux tests pour la mise en production (Géron, 2017). Le jeu d'entrainement est lui-même scindé en deux, un pour l'entrainement et l'autre pour l'évaluation du modèle (Ibekwe-Sanjuan, 2007). Pour résumer, les données qui permettent de construire et valider un modèle de classification sont réparties de la manière suivante :

· Le jeu d'entrainement : 80%

o Dont 80% pour le jeu d'apprentissage

o Dont 20% pour le jeu de validation (20%)

· Le jeu de test : 20%

Ce découpage n'est nécessaire que lorsque le problème est complexe, en effet, dans les cas les plus simples, on pourra n'utiliser que le jeu d'entrainement, c'est-à-dire 80% pour l'apprentissage et 20% pour la validation.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Il ne faut pas de tout pour faire un monde. Il faut du bonheur et rien d'autre" Paul Eluard