WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Youtaqa : système de questions-réponses intelligent basé sur le deep learning et la recherche d’information


par Rayane Younes & Asma AGABI & TIDAFI
Université d'Alger 1 Benyoucef BENKHEDDA - Master  2020
  

sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Soutenu le 11/11/2020

Tyb`Kt TyVtrqm§dt T§rtz~t T§Cwhm~t

·ml`t b ·A`t oeyl`ttCtE

People's Democratic Republic of Algeria
Ministry of Higher Education and Scientific Research
University of Algiers 1 Benyoucef BENKHEDDA

Facultédes Sciences
Département de Mathématiques et Informatique
Mémoire de fin d'étude pour l'obtention du diplôme de Master en informatique
Spécialité: Ingénierie des Systèmes Informatiques Intelligents
Présentépar:
M. AGABI Rayane Younes
Melle. TIDAFI Asma

Thème

YouTaQA : Système de Questions-Réponses Intelligent basésur le Deep Learning et la Recherche d'Information

Devant le jury composéde :

Mme. HALFAOUI Pr. UniversitéAlger 1 Président

Mme. AIT AOUDIA Professeur. UniversitéAlger 1 Examinateur

Dr. ZIANI Amel MCB. UniversitéAlger 1 Encadrant

Dr. BOUADJENEK Mohamed Reda Pr. Deakin University Co-Encadrant

ii

Remerciements

Nous remercions tout d'abord le tout puissant ALLAH qui nous a toujours comblés de ses bienfaits et à qui nous adressons nos remerciements pour sa grâce infinie pour nous avoir éclairés et aidés dans la préparation et la réalisation de cette thèse.

En second lieu, nos reconnaissances et nos vifs remerciements vont particulièrement à nos encadrants M. Mohamed reda Bouadjenek et Mme. Amel Ziani qui ont bien voulu accepter de diriger et d'encadrer ce travail, également pour leur patience, leurs sacrifices, leurs conseils et l'aide qu'ils nous ont fournis tout au long de notre stage qui nous a étéd'une grande utilité.

Nous remercions l'universitéde Deakin pour nous avoir donnél'opportunitéd'effectuer un stage au cours de notre dernière année Master, ainsi que tout le personnel qui nous ont apportéaide et assistance et donnétoutes les informations dont nous avions besoin pour la réalisation de cette thèse.

Nous présentons notre gratitude aux membres du jury qui ont bien voulu examiner et évaluer notre travail et qui nous font l'honneur de participer à la soutenance.

Nos remerciements s'adressent aussi à tous les enseignants de l'universitéd'Alger 1 Ben Youcef Ben Khedda qui nous ont formédurant ces cinq dernières années.

Dédicaces

Ce travail est dédiéà ma très chère maman et au meilleur des pères. Grâce à leurs tendres encouragements et leurs grands sacrifices, ils ont pu créer le climat affectueux et propice à la poursuite de mes études. Aucune dédicace ne pourrait exprimer mon respect, ma considération et mes profonds sentiments envers eux. Je prie le bon Dieu de les bénir, de veiller sur eux, en espérant qu'ils seront toujours fiers de moi.

A mes soeurs et mes frères qui m'ont soutenu durant tout mon cursus.

A mon encadrant Dr.BOUADJENEK Mohamed Reda qui a toujours étéprésent et m'a donnée les meilleurs conseils pour pouvoir compléter le travail comme je l'ai toujours souhaité, je le remercie pour sa patience, son aide et la confiance qu'il nous a témoignée.

iii

TIDAFI Asma.

Dédicaces

A ma chère maman, qui a oeuvrépour ma réussite, par son amour, son soutien, ses précieux conseils; je ne pourrai jamais la remercier assez pour toute sa présence dans ma vie. Reçois à travers ce travail aussi modeste soit-il, l'expression de mes sentiments et de mon éternelle gratitude, je t'aime ma meilleure.

À mon cher père, qui n'a jamais cesséde m'encourager ni de me guider tout au long de mes études; je le remercie infiniment pour ses sacrifices consentis et pour les valeurs nobles qu'il m'a apprises, l'éducation et le soutient permanent venant de sa part, je t'aime mon meilleur.

À ma grande soeur Asmaa, tu as étéà mes côtés pendant toutes les étapes de ce travail, je t'en suis très reconnaissant. Je te dédie ce travail en témoignage de ma profonde affection en souvenirs de notre indéfectible union qui s'est tissée au fil des jours.

À ma petite soeur Maroua, une soeur comme on ne peut trouver nulle part ailleurs, puisse Allah te protéger, garder et renforcer notre fraternité. Je te souhaite tout le bonheur du monde.

À ma tante Djamila, celle qui a toujours jouéle rôle d'une deuxième maman pour moi, et qui m'a toujours soutenu, ainsi que mes tantes Noria, Dehbia et Radia et à mon oncle Mohamed.

Votre soutien, votre gentillesse sans égal, vos profonds attachements, vos conseils et encouragements m'ont motivédans les moments les plus difficiles. À mon cher oncle Karim AGABI et Tata Evelyne.

À mon cousin Iheb Tekkour qui est un grand frère pour moi, ma tante Nassira , papa Ahmed, Saliha, Soumia et Islem Boulacheb que j'aime beaucoup ainsi que toute ma grande famille que j'aime.

À mes professeurs du primaire, CEM, Lycée et de l'universitéparticulièrement Mme. Bassai, Mme. Aoudia, M. Krouri, M. Guernah, Mme. Louati, Mme. Touil, Mme. Taibouni, M. Zemali, M. Derias, M. Abbas, M. Tali et M.Boutaleb, je vous remercie d'avoir enrichi mes connaissances et de m'avoir guidédurant tout mon parcours estudiantin.

La passion pour votre travail est contagieuse! C'est avec un réel plaisir que j'ai travailléavec vous et que je vous ai eu comme encadrant. Ce travail est dediéà Bouadjenek Mohamed Reda.

iv

À mon binôme TIDAFI Asma et à toute sa famille pour tout ce qu'on a partagédurant notre stage.

À tous mes amis : Mehdi Belhoucine, Akram Arar, Mounir Grar, Yazid AitAlala, Fares Aliliche, Oussama Hamada, Rayane Krimi, farid belmareg, Khaled Chenouf, Islem Krim, Chakib Kessai, Rami Naidji, Amine Yahouni, Anis Amirouche, Abdelfetah fetouhi ainsi que tous mes amis que je n'ai pas pu citer, je vous remercie d'avoir toujours étélàpour moi.

À la toute première promo MI de la fac centrale 2015/2016, elle a étésans aucun doute la meilleure promo, pleine d'énergie et de collaboration, je vous souhaite du bonheur et de la réussite dans vos vies.

v

AGABI Rayane Younes.

vi

Résumé

Le besoin des utilisateurs du confort et la demande d'avoir des réponses exactes à leurs questions sont présents de nos jours, ce qui a donnéun nouvel objectif à l'intelligence artificielle. Les moteurs de recherches les plus connus comme Google tendent à offrir une brève réponse aux questions dites «factoid~. Cette tâche est considérée difficile en terme de complexitédes requêtes voire leurs réponses qui peuvent être la combinaison de plusieurs passages.

Pour ceci, dans cette thèse, notre objectif repose sur la conception et la réalisation d'un système de questions-réponses pouvant surpasser les difficultés citées et qui est apte à répondre aux questions dans plusieurs domaines d'une façon exacte et précise en utilisant la base de connaissances de Wikipédia. Le système réalisédurant ce travail nomméYouTAQA commence par la collecte des passages qui peuvent répondre à la requête entrée par l'utilisateur et termine par faire l'extraction du début et la fin de la réponse exacte en utilisant l'apprentissage approfondi (Deep Learning). Ceci dit, notre système représente un pipeline complet, à partir de la collecte des passages pertinents, jusqu'àl'extraction de la réponse finale en prenant la question comme entrée. Les modules d'apprentissage approfondi du système proposéont étéimplémentés en utilisant le modèle pré-entrainéBERT qui a étéconçu pour réaliser différentes tâches de traitement du langage naturel (Natural Language Processing).

Les expérimentations sur l'ensemble de données proposédémontrent l'efficacitéde la méthode proposée, et les résultats de la comparaison montrent que l'architecture du système donne un plus au domaine du Question-Answering.

Mots clés : Recherche d'Information, Apprentissage Approfondi, Traitement de langage naturel, Bidirectional Encoder Representations from Transformers, Apprentissage par transfert.

vii

Table des matières

Introduction générale 1

Contexte générale 1

Problématique et motivation 2

Contribution 3

Plan du mémoire 4

1 Les Systèmes de Questions-Réponses 5

1.1 Introduction 5

1.2 Les systèmes de Questions-Réponses 5

1.3 État de l'art des systèmes de Questions-Réponses 5

1.3.1 Classification par domaine d'application 6

1.3.2 Classification par source de données 8

1.3.3 Classification par type de questions 8

1.4 Les jeux de données disponibles 10

1.5 Conclusion 11

2 Généralités 12

2.1 Recherche d'information 12

2.1.1 Les modèles RI 14

2.1.2 Les métriques d'évaluation 15

2.1.3 Outil de développement 18

2.2 Deep Learning en Traitement du Langage Naturel 18

2.2.1 Le mécanisme d'attention 19

2.2.2 Les Transformateurs 19

2.2.3 BERT (Bidirectional Encoder Representations from Transformers) 22

TABLE DES MATIÈRES

2.2.4 Keras 23

2.2.5 Les métriques d'évaluation 23

2.3 Conclusion 24

3 Conception et implémentation de YouTaQA 25

3.1 Introduction 25

3.2 Architecture globale du système YouTaQA 25

3.3 Le choix des jeux de données 26

3.3.1 SQUAD 26

3.3.2 Wikipedia 27

3.4 Moteur de recherche MRI 27

3.4.1 Pré-traitement de la base Wikipédia 28

3.4.2 Indexation des articles 29

3.4.3 Méthodes de recherche adoptées 30

3.5 Module de classification MC 31

3.6 Module d'extraction de réponses MER 32

3.7 Déploiement du système YouTaQA 34

3.8 Conclusion 34

4 Analyse et discussion des résultats 35

4.1 Introduction 35

4.2 Prétraitement et fractionnement des données 35

4.3 Résultats du module de recherche d'information MRI 35

4.3.1 Méthodes de recherche employées 36

4.3.2 Discussion des performances des méthodes de recherche 36

4.4 Résultats du module de classification MC 39

4.5 Résultats du module d'extraction des réponses MER 40

4.6 Déploiement et test du système 42

4.7 Conclusion 42

Conclusion Générale 43

Perspectives 44

viii

Bibliographie 45

ix

Table des figures

0.1

Schéma global du systeme YouTaQA

3

1.1

La taxonomie de l'état de l'art des QAS

7

2.1

Processus de recherche d'information [Baeza-Yates and Ribeiro-Neto, 2011].

13

2.2

Architecture de base des transformateurs [Tra, 2018]

20

2.3

Architecture de l'encodeur du transformateur [Tra, 2018].

21

2.4

Principe de self-attention [Sel, 2020].

21

2.5

Représentation des entrées et sorties du modèle BERT [Devlin et al., 2018].

22

3.1

Schéma global du systeme YouTaQA

26

3.2

Structure XML d'un article Wikipédia

28

3.3

Arborescence des fichiers XML.

29

 

3.4

Schéma représentatif des sections d'un article Wikipédia

30

3.5

La phase de tokenisation des entrées

31

3.6

La classification du texte avec BERT.

32

 

3.7

Extraction du début et fin de la réponse avec BERT

33

3.8

Capture d'écran de l'application web YouTaQA

34

4.1

Histogrammes d'évaluation du Module de Recherche d'Information

37

4.2

Graphes d'évaluation du Module de Recherche d'Information.

38

4.3

Graphes d'évaluation du Module de Classification.

39

4.3

Matrices de confusion du MC.

40

 

4.4

Graphes d'évaluation du Module d'Extraction de Réponse (Start).

40

4.5

Graphes d'évaluation du Module d'Extraction de Réponse (End).

41

4.6

Exemple d'utilisation du système YouTaQA

42

x

Liste des tableaux

1.1 Classification des QAS selon plusieurs axes 9

1.2 Les différents jeux de données disponibles. 10

2.1 Matrice de confusion 16

xi

Liste des abréviations

API Application Programming Interface.

BERT Bidirectional Encoder Representations from Transformers.

BOW Bag Of Words.

CDQAS Closed-Domain Question-Answering Systems.

DL Deep Learning.

EM Exact Match.

GPT Generative Pre-trained Transformer.

IR Information Retrieval.

KB Knowledge Bases.

LSTM Long Short-Term Memory.

MAP Mean Average Precision.

MC Module de Classification.

MER Module d'Extraction des Réponses.

MRI Module de Recherche d'Informations.

MRR Mean Reciprocal Rank.

NLIDB Natural Language Interface to DataBases.

NLP Natural Language processing.

ODQAS Open-Domain Question-Answering Systems.

QAS Question-Answering System.

QNLI Question Natural Language Inference.

RI Recherche d'Information.

RNN Recurrent Neural Network.

SPA Single Page Application.

SQAS Social Question-Answering Systems.

SQuAD Stanford Question Answering Dataset.

TF-IDF Term Frequency - Inverse Document Frequency.

TREC Text REtrieval Conference.

UI User Interface.

VSM Vector Space Model.

XML eXtensible Markup Language.

1

sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"L'imagination est plus importante que le savoir"   Albert Einstein