Introduction générale
Contexte générale
L'un des principaux défis de l'informatique est de
construire des systèmes plus intelligents et capables de comprendre les
êtres humains sans qu'on leur dise explicitement ce qu'ils doivent faire.
Depuis les années 60, une percée majeure dans ce domaine se
présente sous la forme de systèmes Questions-Réponses
(Question-Answering Systems ou QAS). Un QAS est, comme son nom l'indique, un
système qui peut répondre à des questions au lieu
d'encombrer l'utilisateur avec des documents ou même des passages
correspondants, comme le fait la plupart des systèmes de recherche
d'information basiques [Ojokoh and Adebisi, 2019].
Dès leur début, les majeurs défis des QAS
sont la précision, l'habiletéà répondre à
toutes les questions complexes correctement avec une performance semblable
à celle des humains. Pour avoir une vision plus claire sur les
systèmes questions-réponses actuels, prenons d'abord un moment
pour comprendre la structure du problème et pourquoi les solutions
existantes ne sont pas tout à fait suffisantes pour répondre
à des questions complexes. Les QAS sont généralement
classés en deux grandes catégories : les QAS pour le domaine
ouvert ODQAS et les QAS pour le domaine ferméCDQAS (voir la Section
1.3).
En ce qui concerne la source de connaissances 1 des
QAS et la façon avec laquelle ces derniers s'en servent, plusieurs
approches ont vu le jour durant l'évolution des techniques et des
sources de données. Parmi ces approches, nous trouvons les QAS
basés sur le texte, les faits, le Web et la recherche d'information
(Information Retrieval ou IR) [Mervin, 2013]. Pour notre modèle, nous
allons opter pour l'approche de la recherche d'informations dans une collection
de données basée sur les articles de Wikipedia2
seulement. La recherche d'information, contrairement aux autres approches,
utilise des sources de données qui ne sont pas forcément
structurées ce qui permet une meilleure flexibilitédans le cas
d'ajout et d'extension des sources de recherche.
1. Source de connaissances (»Knowledge
source» en anglais) : C'est la source dans laquelle les QAS fouinent
à la
recherche d'une réponse à une question
donnée
2. https://www.wikipedia.org/
2
INTRODUCTION GÉNÉRALE
Problématique et motivation
De nos jours, suite à l'utilisation croissante des
appareils mobiles, tels que les smartphones, pour accéder
àl'information et recevoir des réponses directes
à des questions pour laquelle les requêtes traditionnelles
consis-
tant à spécifier des mots-clés ne sont
pas très conviviales; la tâche de réponse aux questions de
manière précise est devenue l'une des fonctions les plus
désirables pour les consommateurs d'information.
La majoritédes connaissances humaines qui
représentent les besoins d'informations détaillées d'un
utilisateur sont uniquement représentées par le langage naturel.
Ils sont accessibles aux humains, qui peuvent comprendre les textes en langage
naturel et répondre à des questions relatives à leur
contenu, mais ne sont pas accessibles et compréhensibles par les
machines. Ces dernières ne peuvent donc pas comprendre et
interpréter les énoncés des requêtes en langage
naturel.
La tâche de l'extraction automatisée
d'informations spécifiques à partir d'une source de
connaissances, en tant que réponse à une question en langage
naturel, n'est pas simple, même pour des ressources d'informa-tions
relativement réduites. La question doit être
représentée comme une requête et la réponse doit
être courte et précise. Nous pouvons extraire des informations
factuelles explicites à partir d'un texte, mais l'extraction
d'informations conceptuelles qui nécessitent également une
compréhension du discours reste un objectif complexe. Pour obtenir des
réponses précises, il faut formuler le besoin d'informations
d'une manière exacte et bien exprimée [Kolomiyets and Moens,
2011a], au-delàd'un petit ensemble de termes vagues, comme c'est
généralement le cas pour la recherche de documents. Cette
dernière fait d'une part la réduction des requêtes en
langage naturel à des recherches basées sur des mots-clés.
D'autre part, les bases de connaissances sont interrogées avec des
requêtes claires obtenues à partir des questions en langage
naturel, et les réponses sont obtenues par raisonnement.
Le langage naturel est ambigu (une phrase peut avoir un ou
plusieurs sens) et syntaxiquement riche car un seul et même sens peut
être véhiculépar de nombreuses expressions du langage
naturel. La tàache de trouver une réponse à une question,
lorsque les deux sont en langage naturel repose d'abord sur l'utilisation des
techniques de recherche d'information pour sélectionner les passages
pertinents. Ensuite extraire des passages courts (contextes) suite à une
classification par rapport à la probabilitéde leur pertinence et
de l'existence de l'information recherchée. Le système doit
retourner uniquement les informations qui ont
étéspécifiquement demandées. Or, les demandes
peuvent être complexes et narratives, ce qui signifie qu'il sera plus
difficile pour le QAS d'y répondre avec précision. De plus, les
passages peuvent provenir de différents documents, nous devons donc les
combiner pour fournir des réponses pertinentes, il se peut alors que
nous ayons besoin d'un raisonnement complexe. Il sera donc difficile de
formuler des réponses en langage naturel.
3
|