3.5.3.3 Structure exploitable
Toutes sortes de données peuvent être
exploitées, bases de données, images, documents textuels,
à condition de les préparer, car les algorithmes ne traitent les
données que sous forme matricielle. En effet, elles sont rarement
stockées dans un fichier csv prêt à l'emploi, on parle
alors de nettoyage et de pré-traitement des données.
Ce traitement ne sera pas le même en fonction de la
structuration des données :
· Données structurées : ce sont des
données qui peuvent être organisées sous forme de tableaux.
Ces données peuvent être affichées par un tableur et
contiennent des lignes et des colonnes de variables, variables dont l'ensemble
des valeurs possibles peuvent être déterminées. C'est le
cas d'une base de données ou d'un fichier csv.
· Données non structurées : ce sont
principalement des documents textuels, audios ou graphiques.
30
Seules les données structurées peuvent
être directement représentées dans un tableau. Quant aux
données non-structurées, elles doivent subir un
pré-traitement pour les convertir en chiffres. Nous verrons que les
données textuelles doivent subir un traitement spécifique pour
être exploitées par les algorithmes de Machine Learning.
3.5.3.4 Représentation des données
Tout objet est décrit par un ensemble de variables.
L'objectif du Machine Learning est de rechercher des régularités
dans ces données grâce à l'observation d'un grand nombre
d'objets. On représente ces objets caractérisés par leur
variable de façon matricielle, chaque ligne est un objet (un document
dans notre contexte) et chaque colonne, une variable (attribut, ou feature en
anglais), qui peut être représenté comme ceci :
Variables
|
|
|
|
|
v 1
|
|
|
|
|
|
|
|
|
v n
|
|
|
...
|
|
Objets
|
o 1
|
o
|
o
|
x1,1
|
|
|
x1,n
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
...
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xm,1
|
|
|
|
|
o m
|
|
|
xm,n
|
|
|
|
|
|
|
Tableau 1 - Représentation des données sous
forme d'une matrice (Biernat & Lutz, 2015)
Ce n'est en fait qu'un tableau composé de n variable(s)
et m objet(s) ! On obtient donc un ensemble de données de M vecteurs
à N dimensions. Dans le cas de la classification supervisée,
chaque vecteur sera labelisé, c'est-à-dire qu'on associera
à chaque vecteur, du jeu de données d'entrainement, une
catégorie.
3.5.3.5 Répartition des données
Le jeu de données doit être découpé
en deux parties, la première servira à l'entrainement et la
seconde est réservée aux tests pour la mise en production
(Géron, 2017). Le jeu d'entrainement est lui-même scindé en
deux, un pour l'entrainement et l'autre pour l'évaluation du
modèle (Ibekwe-Sanjuan, 2007). Pour résumer, les données
qui permettent de construire et valider un modèle de classification sont
réparties de la manière suivante :
· Le jeu d'entrainement : 80%
o Dont 80% pour le jeu d'apprentissage
o Dont 20% pour le jeu de validation (20%)
· Le jeu de test : 20%
Ce découpage n'est nécessaire que lorsque le
problème est complexe, en effet, dans les cas les plus simples, on
pourra n'utiliser que le jeu d'entrainement, c'est-à-dire 80% pour
l'apprentissage et 20% pour la validation.
|