![]() |
Youtaqa : système de questions-réponses intelligent basé sur le deep learning et la recherche d’informationpar Rayane Younes & Asma AGABI & TIDAFI Université d'Alger 1 Benyoucef BENKHEDDA - Master 2020 |
CHAPITRE 3. CONCEPTION ET IMPLÉMENTATION DE YOUTAQAil doit extraire les réponses de ces passages. De plus, dans SQuAD, les mots des questions sont souvent des synonymes de mots dans le passage, il s'agit d'une variation lexicale en raison de la synonymie. Pour avoir une vision plus claire sur la structure de SQuAD, nous présentons ci-dessous un exemple d'une question extraite du jeu de données: »question»: »When did Beyonce start becoming popular?», »id» : »56be85543aeaaa14008c9063», »answer»: »in the late 1990s», »answer start»: 269, »is impossible» : false, »context»: »Beyonce Giselle Knowles-Carter is an American singer, songwriter, record producer and actress. Born and raised in Houston, Texas, she performed in various singing and dancing com- petitions as a child, and rose to fame in the late 1990s». L'exemple ci-dessus est un exemple d'une question sur SQuAD à partir d'un passage «context» d'un article de Wikipédia. Comme nous pouvons le voir, chaque question est identifiée par un «id». De plus, nous avons une variable booléenne «is impossible» qui permet de préciser si le passage contient une réponse à la question ou non. Dans le cas oùle passage contient une réponse à la question, la variable «answer start» indique l'index du début de la réponse dans le champs «context». 3.3.2 Wikipedia Puisque les questions proposées dans le jeu de données SQUAD sont basées sur des articles de Wikipedia, en vue d'établir un moteur de recherche, nous avons utiliséWikipédia comme base de documents. Cette dernière offre l'intégralitéde ses articles en plusieurs langues, parmi elles l'anglais. Wikipedia est disponible en ligne gratuitement en format XML1 et comprend plus de 6.1 millions d'articles [Wik, 2020]. Comme nous pouvons le voir dans la Figure 3.2, notre base de documents a une structure XML qui permet de pourvoir des informations telles que le titre de l'article, la date de création, l'identifiant unique de l'article et le plus important qui est le contenu de l'article fractionnéen sections. 3.4 Moteur de recherche MRI Un moteur de recherche est un programme basésur la recherche d'information et qui collecte et organise un ensemble de documents afin de faciliter la quête d'un ou plusieurs documents. De base, les utilisateurs saisissent une requête sur ce qu'elles aimeraient trouver et le moteur fournit le contenu qui correspond à ce 1. https://dumps.wikimedia.org/enwiki/latest/ 28 CHAPITRE 3. CONCEPTION ET IMPLÉMENTATION DE YOUTAQAFIGURE 3.2: Structure XML d'un article Wikipédia qu'elles veulent. Pour notre moteur de recherche, nous avons suivi la même philosophie. Nous nous sommes basés sur la collection exhaustive d'articles fournie par Wikipédia. 3.4.1 Pré-traitement de la base Wikipédia Fractionnement des articles Après avoir choisi la base de wikipédia, et afin de simplifier la manipulation de la grande quantitédes données de notre base de données, nous avons procédéà une répartition des articles de wikipédia sur trois niveaux d'arborescence de dossiers. Pour cela, chaque article sera répertoriésuivant son id unique (eg. L'article avec l'id = 00020201 sera placédans le répertoire 00/02/02/ sous le nom 00020201.xml) comme le montre la Figure 3.3. Interprétation de la syntaxe de Wikipédia Dans ses articles, Wikipédia utilise souvent une syntaxe spéciale nommée «WikiText»2 qui sert à maquiller ses articles (par exemple, appliquer du gras sur le mot «Bonjour» revient à écrire «»'Bonjour»'» dans ses articles en format brut), ce qui nous a causés une certaine difficulté. Afin de remédier à ce problème, nous avons 2. WikiText : Langage de balisage qui permet la mise en forme du contenu des articles de Wikipédia. 29 |
|