CHAPITRE 1. LES SYSTÈMES DE
QUESTIONS-RÉPONSES
Dans cette thèse nous allons concevoir et réaliser
une architecture de QAS de domaine ouvert utilisant la base de connaissances
fermée Wikipedia et entraînésur l'ensemble de
données SQuAD.
1.5 Conclusion
L'objectif de ce chapitre était de donner un
aperçu global sur les systèmes réalisés
jusqu'àprésent dans le domaine du QA. De plus, nous avons fait
une classification de ces systèmes selon différents axes :
Domaine d'application, type de questions et source de données. Nous
avons également présentéun comparatif entre les ensemble
de données utilisés pour l'entraàýnement des
QAS.
12
Chapitre2
Généralités
2.1 Recherche d'information
La recherche d'information est un processus qui consiste
à récupérer des informations stockées dans de
grands ensembles de données pour répondre aux besoins
d'information des utilisateurs. Baeza et ses collègues [Baeza-Yates and
Ribeiro-Neto, 2011] ont défini la recherche d'information comme suit:
Définition: La Recherche d'Information
(RI) est la science qui traite la représentation, le stockage,
l'orga-nisation et de l'accès aux éléments d'information
afin de satisfaire les besoins des utilisateurs concernant ces informations.
Bien que la caractérisation des besoins de
l'utilisateur ne soit pas une tâche simple, les utilisateurs
précisent généralement leurs exigences sous la forme de
requêtes que le système de RI doit traiter pour déterminer
et présenter les documents qui correspondent à leurs besoins.
Google, Bing et Yahoo! sont certainement les systèmes RI les plus
connus. Dans ces systèmes, les utilisateurs expriment leurs besoins sous
forme de mots-clés, qui sont généralement
considérés comme un résumédes besoins d'information
de l'utilisateur. En réponse à une requête, le
système de RI tente, en suivant un ensemble de processus, de
récupérer des informations qui peuvent être pertinentes
pour les utilisateurs.
Un système de RI est évaluéen fonction de
sa précision et de sa capacitéà récupérer
des informations et des documents de haute qualité, qui maximisent la
satisfaction des utilisateurs, c'est-à-dire que plus le les
réponses correspondent aux attentes des utilisateurs, plus le
système est performant.
D'un point de vue architectural, le processus de RI se compose
principalement de deux sous-processus complémentaires suivants :
-- Un processus hors ligne illustrédans la partie droite
de la Figure 2.1. La collection de documents est
explorée et parcourue afin de retrouver tous les documents
grâce aux liens potentiels qui relient ces
|