CHAPITRE 2. GÉNÉRALITÉS
ment [Robertson and Zaragoza, 2009]. Le score BM-25 est
calculécomme suit:
ScoreBM-25(d,Q) =
|
||Q||
?
i=1
|
IDFqi
|
TFqi,d (k1 + 1)
( ) (2.2)
TFqi,d + k1 1 - b + b
||d||
avgdl
|
Où:
-- Q : La requête Q.
-- ||Q|| : La taille de la requête Q.
-- qi : Le mot qi ? Q.
-- d : Le document d.
-- ||d|| : Le nombre total de mots du document
d.
-- avgdl : La longueur moyenne des documents dans la
collection considérée.
-- k1 et b : Des paramètres libres
pouvant être optimisés selon les cas d'usage (ils sont
généralement fixés
àk1 ? [1.2,2.0] et
b = 0.75).
2.1.2 Les métriques
d'évaluation
Cette section est en partie un résumédu chapitre
4 du livre Modern Information Retrieval [Baeza-Yates and Ribeiro-Neto, 2011].
Une définition correcte est donnée concernant l'évaluation
des algorithmes et des systèmes de recherche d'information.
Définition : L'évaluation de la
recherche est un processus qui consiste à associer
systématiquement une mesure quantitative aux résultats produits
par un système de IR en réponse à un ensemble de demandes
de l'utilisateur. Cette mesure doit être directement associée
à la pertinence des résultats pour l'utilisateur. Une approche
commune pour calculer une telle mesure consiste à comparer les
résultats produits par le système avec les résultats
suggérés par les humains pour ce même ensemble de
requêtes. Notez que l'évaluation de l'extraction signifie ici
l'évaluation de la qualitédes résultats, et non des
performances du système en termes de vitesse de traitement des
requêtes.
De nombreuses mesures différentes ont
étéproposées pour évaluer la qualitéde
l'extraction des systèmes et des algorithmes de IR, c'est-à-dire
la qualitédes résultats. Ces mesures nécessitent un
ensemble de documents et de requêtes. Toutes les mesures courantes
décrites ici reposent sur une notion de pertinence: chaque document est
connu pour être pertinent ou non pertinent par rapport à une
requête particulière. En pratique, les requêtes peuvent
être mal posées et il peut y avoir différentes nuances de
pertinence. Dans ce qui suit, nous définissons six métriques
d'évaluation qui seront utilisées tout au long de cette
thèse.
16
CHAPITRE 2. GÉNÉRALITÉS
- Matrice de confusion: Il s'agit d'une
matrice décrivant les performances globales du modèle. Supposons
que nous avons un problème de classification binaire. Nous avons
quelques échantillons qui se répartissent en deux
catégories : oui ou non.
|
Predicted Negative
|
Predicted Positive
|
Actual Negative
|
True Negative
|
False Positive
|
Actual Positive
|
False Negative
|
True Positive
|
TABLE 2.1: Matrice de confusion.
La matrice de confusion permet d'extraire et de lire quatre
informations importantes qui sont:
-- TP : Nombre d'échantillons
correctement prédit appartenant à la catégorie
«Positive».
-- FP : Nombre d'échantillons dans la
catégorie »Positive» qui n'ont pas
étécorrectement prédits. -- TN : Nombre
d'échantillons de la catégorie «Négative»
correctement prédits.
-- FN : Nombre d'échantillons de la
catégorie «Négative» qui n'ont pas
étécorrectement prédits.
- Précision et Rappel: La
précision est la proportion d'instances pertinentes dans les instances
récupérées, le rappel est la proportion du nombre total
d'instances pertinentes qui sont réellement
récupérées. Par conséquent, la précision et
le rappel reposent sur la compréhension et la mesure de la pertinence
[Ting, 2010]. En d'autres termes, la précision représente le
pourcentage de documents prédits correctement par rapport au nombre de
documents erronés retournés, le rappel quant à lui, donne
le pourcentage des documents corrects qui sont donnés sans se
préoccuper du nombre de documents erronés retournés.
TP
Précision = (2.3) TP+FP
TP
Rappel = (2.4) TP+FN
- R-précision: La R-précision
représente le nombre de documents qui sont pertinents pour une
requête qi donnée [Craswell, 2009b]. En d'autres termes,
s'il y a R documents pertinents parmi les documents les plus
recherchés, alors la R-précision pour qi examine les
r premiers documents renvoyés, compte le nombre de documents
pertinents et transforme ce nombre en fraction de pertinence:
R - precision =
|
r (2.5)
R
|
- Mean Average Precision: MAP (Mean Average
Precision) est une mesure populaire utilisée pour calculer la
performance des modèles de recherche d'information. L'idée
principale de cette métrique est de générer
|