WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Youtaqa : système de questions-réponses intelligent basé sur le deep learning et la recherche d’information


par Rayane Younes & Asma AGABI & TIDAFI
Université d'Alger 1 Benyoucef BENKHEDDA - Master  2020
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE 2. GÉNÉRALITÉS

documents entre eux. Pour chaque document récupéré, un traitement est appliquéconsistant principalement à réduire son ensemble de mots à un ensemble de termes d'index.

-- Un processus en ligne illustrédans la partie gauche de la Figure 2.1 qui prend en charge la requête de l'utilisateur. La requête est envoyée généralement sous forme de mots clés et est réduite par le moteur de traitement des requêtes suivant la même stratégie que celle du traitement et l'indexation des documents. L'ensemble des termes de la requête utilisateur qui en résulte est souvent affinépar la suppression de certains termes [Kumaran and Carvalho, 2009]. Ensuite, la requête est traitée pour obtenir un ensemble de documents en utilisant la structure d'index précédemment construite. Cette liste est composée de documents qui sont liés aux termes de la requête. Après cela, les documents récupérés sont classés selon leur pertinence par rapport à la requête et par l'utilisateur, du plus pertinent au moins pertinent. Il s'agit de l'étape la plus critique car la qualitédes résultats, telle que perçue par les utilisateurs, dépend fondamentalement du classement. Enfin, les documents les mieux classés sont ensuite formatés pour être présentés à l'utilisateur.

13

FIGURE 2.1: Processus de recherche d'information [Baeza-Yates and Ribeiro-Neto, 2011].

14

CHAPITRE 2. GÉNÉRALITÉS

2.1.1 Les modèles RI

La modélisation en RI consiste à définir un modèle conceptuel pour la représentation des documents et des requêtes. De nombreux modèles de RI ont étéproposés parmi lesquels : le modèle booléen, le modèle vectoriel spatial (VSM) et le modèle BM25. Ces modèles de RI sont bien décrits par la suite. Dans cette thèse, nous nous appuyons principalement sur le modèle BM25 pour son large usage et ses hautes performances [Baeza-Yates and Ribeiro-Neto, 2011].

- Modèle vectoriel VSM (Pondération TF-IDF) : Nous avons choisi d'utiliser la mesure TF - IDF pour calculer ce poids et la similaritéen cosinus pour calculer la similaritéentre ces vecteurs. TF - IDF est égale à la multiplication des deux mesures TFt,d.IDFt tel que TFt,d ou la Fréquence du Terme représente le nombre d'occurrences d'un terme t dans le document d. Tandis que IDFt ou la Fréquence Inverse de Document mesure l'importance du terme t dans l'ensemble des documents D.

TFt,d · IDFt =>

{ TFt,d = log(1+ ft,d) IDF = log ( ||D||)

Où:

t : Le terme t.

d : Le document d.

ft,d : Le nombre d'occurrences du terme t dans le document d.

||D|| : Le nombre total de documents.

||Dt|| : Le nombre de documents contenant le terme t.

Où:

q : La requête q.

dj : Le document j.

sim(q,~dj) =

44 (2.1)

||4||·||~dj||

En notant que la similaritécosinus est particulièrement utilisée dans l'espace positif, oùle résultat est clairement délimitédans [0, 1]. Ainsi, si deux vecteurs ont la même orientation et sont égaux, nous avons une similaritéen cosinus de 1, mais si les deux vecteurs sont diamétralement opposés, nous avons une similaritéde 0 [Baeza-Yates and Ribeiro-Neto, 2011].

- BM-25 : BM25 est une fonction de recherche de mots qui peut classer un groupe de documents en fonction des termes de recherche qui apparaissent dans chaque document, quelle que soit leur proximitéavec le docu-

15

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Soit réservé sans ostentation pour éviter de t'attirer l'incompréhension haineuse des ignorants"   Pythagore