CHAPITRE 2. GÉNÉRALITÉS
BERT est un modèle de compréhension linguistique
à usage général sur un grand corpus de textes (comme
Wikipédia) utilisédans les tâches NLP. BERT surpasse les
méthodes précédentes parce qu'il s'agit du premier
système de préformation en NLP non superviséet
profondément bidirectionnel.
La représentation d'entrée utilisée par BERT
est capable de représenter une ou plusieurs phrases dans une seule
séquence de jetons ( Figure 2.5). Le token [CLS] désigne le
début de la séquence. Chaque phrase est représentée
sous forme de tokens. Les différentes phrases de la séquence sont
séparées par le token [SEP].
Le vocabulaire de BERT contient 30,522 tokens. Afin de traiter
les mots inconnus, BERT utilise la décomposition en sous-mots.
2.2.4 Keras
Pour le développement de nos modèles de DL nous
avons utiliséla librairie de python appelée Keras [Chol-let et
al., 2015]. C'est une API open-source de Deep Learning écrite,
fonctionnant sur la plate-forme d'appren-tissage automatique TensorFlow. Elle a
étédéveloppée dans le but de permettre un
apprentissage rapide.
2.2.5 Les métriques
d'évaluation
Tout comme les systèmes de recherche d'information, les
modèles réalisés en Deep Learning doivent être
évalués afin de mesurer leur efficacitéet leur performance
ainsi que pour la sélection des bons hyper-paramètres. Dans cette
section, nous présentons les principales métriques
utilisées pour l'évaluation des modèles intelligents
composants le système YouTaQA.
- Accuracy : Représente le nombre
d'enregistrements correctement prédits parmi tous les points de
l'en-semble de données N. Plus formellement, elle est
définie comme suit:
- Loss: Désigne la moyenne des
différences au carréentre les valeurs prédites et les
valeurs réelles. Représente le taux d'erreur que le modèle
a commis lors de la prédictions des résultats.
- F1 score : Le score F, également
appeléscore F1, est une mesure de la précision d'un
test. Il est défini comme la moyenne harmonique pondérée
de la précision et du rappel. Cette métrique est
nécessaire pour trouver un équilibre entre la précision et
le rappel.
Précision · Rappel
F1 = 2 · (2.10) Précision + Rappel
24
CHAPITRE 2. GÉNÉRALITÉS
- Exact Match EM : La métrique de
correspondance exacte est une valeur binaire qui prend la valeur 1 si la
réponse prédite et la réponse vraie sont exactement
égales sans compter la ponctuation et les articles, zéro sinon.
Cette métrique étant inconnue pour le grand public, elle est
utilisée spécifiquement dans le domaine des QAS [Rajpurkar et
al., 2016].
2.3 Conclusion
Dans ce chapitre, nous avons abordéla théorie de
base du domaine de recherche d'information telle que le processus d'indexation
et requêtage d'informations suivie des techniques d'évaluation des
moteurs de recherche. De plus, nous avons procédéà une
explication claire du traitement du langage naturel et du Deep Learning afin
d'introduire le lecteur pour le prochain chapitre qui présentera la
conception et l'implémentation du système YouTaQA.
25
|