CHAPITRE 2. GÉNÉRALITÉS
documents entre eux. Pour chaque document
récupéré, un traitement est appliquéconsistant
principalement à réduire son ensemble de mots à un
ensemble de termes d'index.
-- Un processus en ligne illustrédans la partie gauche
de la Figure 2.1 qui prend en charge la requête de l'utilisateur. La
requête est envoyée généralement sous forme de mots
clés et est réduite par le moteur de traitement des
requêtes suivant la même stratégie que celle du traitement
et l'indexation des documents. L'ensemble des termes de la requête
utilisateur qui en résulte est souvent affinépar la suppression
de certains termes [Kumaran and Carvalho, 2009]. Ensuite, la requête est
traitée pour obtenir un ensemble de documents en utilisant la structure
d'index précédemment construite. Cette liste est composée
de documents qui sont liés aux termes de la requête. Après
cela, les documents récupérés sont classés selon
leur pertinence par rapport à la requête et par l'utilisateur, du
plus pertinent au moins pertinent. Il s'agit de l'étape la plus critique
car la qualitédes résultats, telle que perçue par les
utilisateurs, dépend fondamentalement du classement. Enfin, les
documents les mieux classés sont ensuite formatés pour être
présentés à l'utilisateur.
13
FIGURE 2.1: Processus de recherche d'information [Baeza-Yates
and Ribeiro-Neto, 2011].
14
CHAPITRE 2. GÉNÉRALITÉS
2.1.1 Les modèles RI
La modélisation en RI consiste à définir
un modèle conceptuel pour la représentation des documents et des
requêtes. De nombreux modèles de RI ont
étéproposés parmi lesquels : le modèle
booléen, le modèle vectoriel spatial (VSM) et le modèle
BM25. Ces modèles de RI sont bien décrits par la suite. Dans
cette thèse, nous nous appuyons principalement sur le modèle BM25
pour son large usage et ses hautes performances [Baeza-Yates and Ribeiro-Neto,
2011].
- Modèle vectoriel VSM (Pondération
TF-IDF) : Nous avons choisi d'utiliser la mesure TF - IDF
pour calculer ce poids et la similaritéen cosinus pour calculer la
similaritéentre ces vecteurs. TF - IDF est
égale à la multiplication des deux mesures
TFt,d.IDFt tel que TFt,d ou la
Fréquence du Terme représente le nombre d'occurrences d'un terme
t dans le document d. Tandis que IDFt ou la
Fréquence Inverse de Document mesure l'importance du terme t
dans l'ensemble des documents D.
TFt,d · IDFt =>
|
{ TFt,d = log(1+ ft,d) IDF = log (
||D||)
|
Où:
t : Le terme t.
d : Le document d.
ft,d : Le nombre d'occurrences du terme t
dans le document d.
||D|| : Le nombre total de documents.
||Dt|| : Le nombre de documents contenant le terme
t.
Où:
q : La requête q.
dj : Le document j.
|
sim(q,~dj) =
|
44 (2.1)
||4||·||~dj||
|
En notant que la similaritécosinus est
particulièrement utilisée dans l'espace positif, oùle
résultat est clairement délimitédans [0, 1]. Ainsi, si
deux vecteurs ont la même orientation et sont égaux, nous avons
une similaritéen cosinus de 1, mais si les deux vecteurs sont
diamétralement opposés, nous avons une similaritéde 0
[Baeza-Yates and Ribeiro-Neto, 2011].
- BM-25 : BM25 est une fonction de recherche
de mots qui peut classer un groupe de documents en fonction des termes de
recherche qui apparaissent dans chaque document, quelle que soit leur
proximitéavec le docu-
15
|