CHAPITRE 1. LES SYSTÈMES DE
QUESTIONS-RÉPONSES
Nous remarquons que les systèmes du domaine
fermése basant sur une source de données sociales permettent de
fournir un moyen pour répondre à plusieurs types de questions
(Aardvark, Yahoo! Answers). Nous remarquons aussi qu'aucun des systèmes
de domaine fermécités ne se base sur le web pour la recherche des
réponses, et ceci pour que l'information soit correcte, exacte et venant
d'une source de données fiable.
1.4 Les jeux de données disponibles
Nombreux sont les jeux de données destinés au
développement des systèmes QA. Par conséquent, dans le
tableau 1.2 nous présentons ceux fréquemment utilisés pour
le développement et l'évaluation des QAS.
Nom du Dataset
|
Source des questions
|
Taille du dataset
|
SQuAD
[Rajpurkar et al., 2016]
|
Production participative1 (crowdsourced)
|
100.000 questions avec réponses + 50.000 questions
sans réponses
|
CNN/DailyMail [Chen et al., 2016]
|
Génération automatique des questions (Query
logs)
|
879.000 questions
|
WikiQA
[Yang et al., 2015]
|
Historique des requêtes des utilisateurs
|
3047 questions
|
TREC-QA
[Voorhees and Tice, 2000]
|
Historique des requêtes des utilisateurs (Query
logs)
|
1479 questions
|
MCTest
[Richardson et al., 2013]
|
Production participative
|
2640 questions
|
TABLE 1.2: Les différents jeux de données
disponibles.
Les performances de la lecture automatique, en particulier,
ont étéconsidérablement améliorées ces
dernières années avec l'introduction des ensembles de
données de compréhension de la lecture à grande
échelle tels que CNN / DailyMail et SQuAD. Les systèmes utilisant
ces ensembles de données se concentrent uniquement sur l'étape
d'extraction des réponses, en supposant en fait que le passage pertinent
du texte est déjàconnu. WikiQA a étéintroduit comme
un ensemble de données qui utilise les journaux de requêtes Bing
comme source de questions. Il est utiliséprincipalement dans les
systèmes qui répondent aux questions factuelles. Les
réponses candidates ont étéextraites à partir de la
section de résumédes articles de Wikipédia. TREC est un
ensemble de données pour la classification des questions consistant en
des questions ouvertes, basées sur des faits et divisées en
grandes catégories sémantiques. MCTest est un ensemble
d'histoires et de questions associées librement disponibles
destinées à la recherche sur la compréhension automatique
des textes. Cet ensemble de données exige des machines qu'elles
répondent à des questions à choix multiples sur la
compréhension de la lecture d'histoires fictives, s'attaquant ainsi
directement à l'objectif de haut niveau de la compréhension
machine en domaine ouvert.
11
|