Youtaqa : système de questions-réponses intelligent basé sur le deep learning et la recherche d’information

par Rayane Younes & Asma AGABI & TIDAFI
Université d'Alger 1 Benyoucef BENKHEDDA - Master 2020

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Chapitre3

Conception et implémentation de YouTaQA

3.1 Introduction

Dans ce présent chapitre, nous allons présenter la conception de la solution proposée. Nous décrivons les différentes opérations de prétraitement effectuées sur l'ensemble de données de Wikipédia, nous présentons aussi la structure de notre index. De plus, nous détaillons dans ce chapitre l'architecture et les paramètres utilisés pour notre classifieur des passages et de notre module d'extraction des réponses.

3.2 Architecture globale du système YouTaQA

Notre système est basésur le Deep Learning et de la recherche d'information. Son but principal est de permettre aux utilisateurs d'avoir des réponses exactes à leurs questions uniquement en se basant sur un moteur de recherche qui dispenserait l'utilisateur de fournir des documents ou autre chose mis à part la question. Afin d'atteindre l'objectif de notre système, comme illustrédans la Figure 3.1, nous avons conçu une architecture composée de trois modules de base et une interface pour interagir avec l'utilisateur:

(i) Un Moteur de Recherche d'Information (MRI) qui sert à fournir les 5 passages les plus pertinents à une question donnée.

(ii) Un module de classification (MC) des passages basésur le Deep Learning pour choisir et identifier parmi les 5 résultats du moteur de recherche le meilleur passage susceptible de contenir la bonne réponse à la question.

(iii) Un module d'extraction des réponses (MER) basésur le Deep Learning qui permet d'extraire la réponse exacte à partir du passage choisi par le classifieur dans l'étape précédente.

CHAPITRE 3. CONCEPTION ET IMPLÉMENTATION DE YOUTAQA

FIGURE 3.1: Schéma global du systeme YouTaQA

3.3 Le choix des jeux de données

Il existe plusieurs jeux de données utilisés pour l'apprentissage des QAS (Section 1.4). Durant notre projet, pour l'entraînement du système proposé, nous allons utiliser SQuAD (Stanford Question Answering Dataset).

3.3.1 SQUAD

SQUAD a étéproposépar l'universitéde Stanford. Il contient un nombre impressionnant de questions (100.000 questions posées par des gens sur plus de 500 articles de différents domaines sur Wikipedia). Les passages dans SQuAD ont étéextraits des articles de Wikipédia et couvrent un large éventail de sujets dans des domaines variés, allant des célébrités de la musique aux concepts abstraits. De plus, les questions sans réponses étaient le talon d'achille des jeux de données des systèmes questions-réponses, làencore, SQuAD fournit 50.000 questions sans réponses posées aléatoirement par la foule qui ont pour but de ressembler à des questions qui n'ont pas de réponses.

Un passage est un paragraphe d'un article d'une longueur variable. Chaque passage de SQuAD est accompagnéde plusieurs questions. Ces questions sont basées sur le contenu du passage et qui peuvent avoir des réponses en

lisant le passage. Enfin, pour chaque question, il existe une ou plusieurs réponses. Etant donnéque les réponses sont des segments des passages, cela permettra au système d'apprendre d'une manière optimale la façon dont

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Je ne pense pas qu'un écrivain puisse avoir de profondes assises s'il n'a pas ressenti avec amertume les injustices de la société ou il vit" Thomas Lanier dit Tennessie Williams