3.5.6 La mesure des performances du modèle
La troisième étape de l'apprentissage consiste
à évaluer la performance du modèle construit en
prédiction. Un bon classifieur est un classifieur qui
généralise bien, c-à-d qu'il aura appris suffisamment de
situations pour prédire correctement. C'est ce critère de
performance qu'il faut mesurer. Les métriques les plus utilisées
sont le taux de succès, la précision, le rappel et la F-mesure
(ou f1-score), (Tellier, 2010). Ces mesures serviront à vérifier
la capacité d'un classifieur à bien généraliser.
3.5.6.1 La matrice de confusion
La matrice de confusion indique le niveau de performance du
classifieur, les résultats serviront de base aux calculs des
différents types de métriques.
Dans le cas d'un problème à deux classes
(catégories), considérons les classes A et B d'un jeu de
données composé de documents. Après la phase
d'apprentissage, la phase de test consiste à soumettre au classifieur le
jeu de données de test durant lequel il classera les documents soit en
catégorie A soit en catégorie B. Il en résultera 4 cas
:
· Nombre de documents A classé A : Vrai positif
noté VP
· Nombre de documents A classé B : Faux
négatif noté FN
· Nombre de documents B classé A : Faux positif
noté FP
· Nombre de documents B classé B : Vrai
négatif noté VN
La matrice est complétée avec ces 4
résultats :
34
Classes Prédites
|
|
Classe B
|
Classes Réelles
|
Classe A
|
VP
|
FN
|
|
FP
|
VN
|
|
Tableau 3 - Matrice de confusion
Même si cette matrice fournit beaucoup d'informations,
elle n'est pas utilisable en production, on utilisera pour cela les
métriques suivantes.
3.5.6.2 Le taux de succès
Le taux de succès ou exactitude s'obtient avec le calcul
suivant :
Cette métrique désigne simplement la proportion
de classes qui ont été bien classées. En
général, on l'utilise pour avoir une première vue de
l'apprentissage. Si la répartition des classes est
déséquilibrée, cette métrique ne sera pas
pertinente. Pour valider le classifieur on utilisera plutôt les
métriques précision/rappel et F-mesure.
3.5.6.3 La précision
La précision s'obtient avec le calcul suivant :
Cette métrique permet de connaitre les
prédictions de type vrai (positive, c-à-d la classe A), mais elle
n'est pas complète car avec cette seule valeur, nous ne pouvons pas
connaitre le nombre de documents de classe A mal classés, c'est pourquoi
il faut l'associer au rappel.
|