Soutenu le 11/11/2020
Tyb`Kt TyVtrqm§dt
T§rtz~t T§Cwhm~t
·ml`t b ·A`t
oeyl`ttCtE
People's Democratic Republic of Algeria Ministry of
Higher Education and Scientific Research University of Algiers 1 Benyoucef
BENKHEDDA
Facultédes Sciences Département de
Mathématiques et Informatique Mémoire de fin d'étude
pour l'obtention du diplôme de Master en
informatique Spécialité: Ingénierie des Systèmes
Informatiques Intelligents Présentépar: M. AGABI Rayane
Younes Melle. TIDAFI Asma
Thème
YouTaQA : Système de Questions-Réponses
Intelligent basésur le Deep Learning et la Recherche
d'Information
Devant le jury composéde :
Mme. HALFAOUI Pr. UniversitéAlger 1
Président
Mme. AIT AOUDIA Professeur.
UniversitéAlger 1 Examinateur
Dr. ZIANI Amel MCB. UniversitéAlger 1
Encadrant
Dr. BOUADJENEK Mohamed Reda Pr. Deakin
University Co-Encadrant
ii
Remerciements
Nous remercions tout d'abord le tout puissant ALLAH qui nous a
toujours comblés de ses bienfaits et à qui nous adressons nos
remerciements pour sa grâce infinie pour nous avoir
éclairés et aidés dans la préparation et la
réalisation de cette thèse.
En second lieu, nos reconnaissances et nos vifs remerciements
vont particulièrement à nos encadrants M. Mohamed reda Bouadjenek
et Mme. Amel Ziani qui ont bien voulu accepter de diriger et d'encadrer ce
travail, également pour leur patience, leurs sacrifices, leurs conseils
et l'aide qu'ils nous ont fournis tout au long de notre stage qui nous a
étéd'une grande utilité.
Nous remercions l'universitéde Deakin pour nous avoir
donnél'opportunitéd'effectuer un stage au cours de notre
dernière année Master, ainsi que tout le personnel qui nous ont
apportéaide et assistance et donnétoutes les informations dont
nous avions besoin pour la réalisation de cette thèse.
Nous présentons notre gratitude aux membres du jury qui
ont bien voulu examiner et évaluer notre travail et qui nous font
l'honneur de participer à la soutenance.
Nos remerciements s'adressent aussi à tous les
enseignants de l'universitéd'Alger 1 Ben Youcef Ben Khedda qui nous ont
formédurant ces cinq dernières années.
Dédicaces
Ce travail est dédiéà ma très
chère maman et au meilleur des pères. Grâce à leurs
tendres encouragements et leurs grands sacrifices, ils ont pu créer le
climat affectueux et propice à la poursuite de mes études. Aucune
dédicace ne pourrait exprimer mon respect, ma considération et
mes profonds sentiments envers eux. Je prie le bon Dieu de les bénir, de
veiller sur eux, en espérant qu'ils seront toujours fiers de moi.
A mes soeurs et mes frères qui m'ont soutenu durant tout
mon cursus.
A mon encadrant Dr.BOUADJENEK Mohamed Reda qui a toujours
étéprésent et m'a donnée les meilleurs conseils
pour pouvoir compléter le travail comme je l'ai toujours
souhaité, je le remercie pour sa patience, son aide et la confiance
qu'il nous a témoignée.
iii
TIDAFI Asma.
Dédicaces
A ma chère maman, qui a oeuvrépour ma
réussite, par son amour, son soutien, ses précieux conseils; je
ne pourrai jamais la remercier assez pour toute sa présence dans ma vie.
Reçois à travers ce travail aussi modeste soit-il, l'expression
de mes sentiments et de mon éternelle gratitude, je t'aime ma
meilleure.
À mon cher père, qui n'a jamais cesséde
m'encourager ni de me guider tout au long de mes études; je le remercie
infiniment pour ses sacrifices consentis et pour les valeurs nobles qu'il m'a
apprises, l'éducation et le soutient permanent venant de sa part, je
t'aime mon meilleur.
À ma grande soeur Asmaa, tu as
étéà mes côtés pendant toutes les
étapes de ce travail, je t'en suis très reconnaissant. Je te
dédie ce travail en témoignage de ma profonde affection en
souvenirs de notre indéfectible union qui s'est tissée au fil des
jours.
À ma petite soeur Maroua, une soeur comme on ne peut
trouver nulle part ailleurs, puisse Allah te protéger, garder et
renforcer notre fraternité. Je te souhaite tout le bonheur du monde.
À ma tante Djamila, celle qui a toujours jouéle
rôle d'une deuxième maman pour moi, et qui m'a toujours soutenu,
ainsi que mes tantes Noria, Dehbia et Radia et à mon oncle Mohamed.
Votre soutien, votre gentillesse sans égal, vos
profonds attachements, vos conseils et encouragements m'ont motivédans
les moments les plus difficiles. À mon cher oncle Karim AGABI et Tata
Evelyne.
À mon cousin Iheb Tekkour qui est un grand frère
pour moi, ma tante Nassira , papa Ahmed, Saliha, Soumia et Islem Boulacheb que
j'aime beaucoup ainsi que toute ma grande famille que j'aime.
À mes professeurs du primaire, CEM, Lycée et de
l'universitéparticulièrement Mme. Bassai, Mme. Aoudia, M. Krouri,
M. Guernah, Mme. Louati, Mme. Touil, Mme. Taibouni, M. Zemali, M. Derias, M.
Abbas, M. Tali et M.Boutaleb, je vous remercie d'avoir enrichi mes
connaissances et de m'avoir guidédurant tout mon parcours
estudiantin.
La passion pour votre travail est contagieuse! C'est avec un
réel plaisir que j'ai travailléavec vous et que je vous ai eu
comme encadrant. Ce travail est dediéà Bouadjenek Mohamed
Reda.
iv
À mon binôme TIDAFI Asma et à toute sa
famille pour tout ce qu'on a partagédurant notre stage.
À tous mes amis : Mehdi Belhoucine, Akram Arar, Mounir
Grar, Yazid AitAlala, Fares Aliliche, Oussama Hamada, Rayane Krimi, farid
belmareg, Khaled Chenouf, Islem Krim, Chakib Kessai, Rami Naidji, Amine
Yahouni, Anis Amirouche, Abdelfetah fetouhi ainsi que tous mes amis que je n'ai
pas pu citer, je vous remercie d'avoir toujours étélàpour
moi.
À la toute première promo MI de la fac centrale
2015/2016, elle a étésans aucun doute la meilleure promo, pleine
d'énergie et de collaboration, je vous souhaite du bonheur et de la
réussite dans vos vies.
v
AGABI Rayane Younes.
vi
Résumé
Le besoin des utilisateurs du confort et la
demande d'avoir des réponses exactes à leurs questions sont
présents de nos jours, ce qui a donnéun nouvel objectif à
l'intelligence artificielle. Les moteurs de recherches les plus connus comme
Google tendent à offrir une brève réponse aux questions
dites «factoid~. Cette tâche est considérée difficile
en terme de complexitédes requêtes voire leurs réponses qui
peuvent être la combinaison de plusieurs passages.
Pour ceci, dans cette thèse, notre objectif repose sur
la conception et la réalisation d'un système de
questions-réponses pouvant surpasser les difficultés
citées et qui est apte à répondre aux questions dans
plusieurs domaines d'une façon exacte et précise en utilisant la
base de connaissances de Wikipédia. Le système
réalisédurant ce travail nomméYouTAQA commence par la
collecte des passages qui peuvent répondre à la requête
entrée par l'utilisateur et termine par faire l'extraction du
début et la fin de la réponse exacte en utilisant l'apprentissage
approfondi (Deep Learning). Ceci dit, notre système représente un
pipeline complet, à partir de la collecte des passages pertinents,
jusqu'àl'extraction de la réponse finale en prenant la question
comme entrée. Les modules d'apprentissage approfondi du système
proposéont étéimplémentés en utilisant le
modèle pré-entrainéBERT qui a
étéconçu pour réaliser différentes
tâches de traitement du langage naturel (Natural Language Processing).
Les expérimentations sur l'ensemble de données
proposédémontrent l'efficacitéde la méthode
proposée, et les résultats de la comparaison montrent que
l'architecture du système donne un plus au domaine du
Question-Answering.
Mots clés : Recherche d'Information,
Apprentissage Approfondi, Traitement de langage naturel, Bidirectional Encoder
Representations from Transformers, Apprentissage par transfert.
vii
Table des matières
Introduction générale 1
Contexte générale 1
Problématique et motivation 2
Contribution 3
Plan du mémoire 4
1 Les Systèmes de Questions-Réponses
5
1.1 Introduction 5
1.2 Les systèmes de Questions-Réponses 5
1.3 État de l'art des systèmes de
Questions-Réponses 5
1.3.1 Classification par domaine d'application 6
1.3.2 Classification par source de données 8
1.3.3 Classification par type de questions 8
1.4 Les jeux de données disponibles 10
1.5 Conclusion 11
2 Généralités 12
2.1 Recherche d'information 12
2.1.1 Les modèles RI 14
2.1.2 Les métriques d'évaluation 15
2.1.3 Outil de développement 18
2.2 Deep Learning en Traitement du Langage Naturel 18
2.2.1 Le mécanisme d'attention 19
2.2.2 Les Transformateurs 19
2.2.3 BERT (Bidirectional Encoder Representations from
Transformers) 22
TABLE DES MATIÈRES
2.2.4 Keras 23
2.2.5 Les métriques d'évaluation 23
2.3 Conclusion 24
3 Conception et implémentation de YouTaQA
25
3.1 Introduction 25
3.2 Architecture globale du système YouTaQA 25
3.3 Le choix des jeux de données 26
3.3.1 SQUAD 26
3.3.2 Wikipedia 27
3.4 Moteur de recherche MRI 27
3.4.1 Pré-traitement de la base Wikipédia 28
3.4.2 Indexation des articles 29
3.4.3 Méthodes de recherche adoptées 30
3.5 Module de classification MC 31
3.6 Module d'extraction de réponses MER 32
3.7 Déploiement du système YouTaQA 34
3.8 Conclusion 34
4 Analyse et discussion des résultats
35
4.1 Introduction 35
4.2 Prétraitement et fractionnement des données
35
4.3 Résultats du module de recherche d'information MRI
35
4.3.1 Méthodes de recherche employées 36
4.3.2 Discussion des performances des méthodes de
recherche 36
4.4 Résultats du module de classification MC 39
4.5 Résultats du module d'extraction des réponses
MER 40
4.6 Déploiement et test du système 42
4.7 Conclusion 42
Conclusion Générale 43
Perspectives 44
viii
Bibliographie 45
ix
Table des figures
0.1
|
Schéma global du systeme YouTaQA
|
3
|
1.1
|
La taxonomie de l'état de l'art des QAS
|
7
|
2.1
|
Processus de recherche d'information [Baeza-Yates and
Ribeiro-Neto, 2011].
|
13
|
2.2
|
Architecture de base des transformateurs [Tra, 2018]
|
20
|
2.3
|
Architecture de l'encodeur du transformateur [Tra, 2018].
|
21
|
2.4
|
Principe de self-attention [Sel, 2020].
|
21
|
2.5
|
Représentation des entrées et sorties du
modèle BERT [Devlin et al., 2018].
|
22
|
3.1
|
Schéma global du systeme YouTaQA
|
26
|
3.2
|
Structure XML d'un article Wikipédia
|
28
|
3.3
|
Arborescence des fichiers XML.
29
|
|
3.4
|
Schéma représentatif des sections d'un article
Wikipédia
|
30
|
3.5
|
La phase de tokenisation des entrées
|
31
|
3.6
|
La classification du texte avec BERT.
32
|
|
3.7
|
Extraction du début et fin de la réponse avec BERT
|
33
|
3.8
|
Capture d'écran de l'application web YouTaQA
|
34
|
4.1
|
Histogrammes d'évaluation du Module de Recherche
d'Information
|
37
|
4.2
|
Graphes d'évaluation du Module de Recherche
d'Information.
|
38
|
4.3
|
Graphes d'évaluation du Module de Classification.
|
39
|
4.3
|
Matrices de confusion du MC.
40
|
|
4.4
|
Graphes d'évaluation du Module d'Extraction de
Réponse (Start).
|
40
|
4.5
|
Graphes d'évaluation du Module d'Extraction de
Réponse (End).
|
41
|
4.6
|
Exemple d'utilisation du système YouTaQA
|
42
|
x
Liste des tableaux
1.1 Classification des QAS selon plusieurs axes 9
1.2 Les différents jeux de données disponibles.
10
2.1 Matrice de confusion 16
xi
Liste des abréviations
API Application Programming Interface.
BERT Bidirectional Encoder Representations from
Transformers.
BOW Bag Of Words.
CDQAS Closed-Domain Question-Answering
Systems.
DL Deep Learning.
EM Exact Match.
GPT Generative Pre-trained Transformer.
IR Information Retrieval.
KB Knowledge Bases.
LSTM Long Short-Term Memory.
MAP Mean Average Precision.
MC Module de Classification.
MER Module d'Extraction des Réponses.
MRI Module de Recherche d'Informations.
MRR Mean Reciprocal Rank.
NLIDB Natural Language Interface to
DataBases.
NLP Natural Language processing.
ODQAS Open-Domain Question-Answering
Systems.
QAS Question-Answering System.
QNLI Question Natural Language Inference.
RI Recherche d'Information.
RNN Recurrent Neural Network.
SPA Single Page Application.
SQAS Social Question-Answering Systems.
SQuAD Stanford Question Answering Dataset.
TF-IDF Term Frequency - Inverse Document
Frequency.
TREC Text REtrieval Conference.
UI User Interface.
VSM Vector Space Model.
XML eXtensible Markup Language.
1
|