Approche exploratoire de la relation de conséquence : description et implémentation( Télécharger le fichier original )par Sébastien Druon Université Toulouse 2 - DEA de Sciences du Langage 2001 |
5.2 Préalables à l'analyse automatique de la relation de conséquence: étiquetage morpho-syntaxique et lemmatisation5.2.1 Nécessité d'un étiquetage morpho-syntaxiqueAvant de pouvoir réaliser l'analyse de la relation de conséquence proprement dite, le texte d'entrée du système doit être étiqueté et lemmatisé. Cet étiquetage est nécessaire pour plusieurs raisons: - Éviter une grande partie de la tâche de segmentation - Pouvoir éliminer facilement certains cas. Par exemple, dans les cas où alors fait partie d'une conjonction de subordination, il est étiqueté en tant que tel: alors CON sub part1 (5.10) que CON sub part2 - Repérer la présence d'un verbe pour délimiter une proposition 5.2.2 Choix du système d'étiquetageAfin de réaliser l'opération d'étiquetage morpho-syntaxique, nous avons choisi d'utiliser TreeTagger, un étiqueteur réalisé à l'IMS de Stuttgart1 Il est disponible en plusieurs langues, notamment le français. Cet étiqueteur est libre de droits et parmi les plus efficaces des étiqueteurs non-commerciaux. Il est disponible gratuitement au téléchargement à l'adresse suivante: http://www.ims.uni-stuttgart.de/projekte/TreeTagger/ DecisionTreeTagger . html 'Voir SCHMID (1994) pour le principe.
De plus, nous utilisons un lemmatiseur qui reconnaît le jeu d'étiquettes de TreeTagger, ce qui fait que l'association des deux est intéressante. Ce lemmatiseur, Flemm, est un programme PERL développé à l'université de Nancy 2 par Fiammetta Namer, et il permet de lemmatiser les mots d'un textes à partir du jeu d'étiquettes de TreeTagger. Une page de présentation avec une courte présentation de son fonctionnement est disponible à: http://www.univ-nancy2.fr/pers/namer/Telecharger_Flemm.htm 5.3 Choix du langage de programmation: PERLPour implémenter notre système, il nous fallait choisir un langage de programmation. Nous avons opté pour PERL, qui nous semblait le plus adapté: - C'est un langage qui permet d'obtenir rapidement un illustrateur; - La tâche de traitement textuel que nous avons à réaliser est gran- dement facilitée et simplifiée en utilisant ce langage qui permet une gestion des chaînes de caractères sans obstacle et implémente les expressions régulières; - Il est simple de créer une interface graphique conviviale et de faire une démonstration sur Internet à l'aide des extensions CGI du langage et d'un navigateur. 5.4 Présentation du systèmeLe repérage d'une relation de conséquence ne se passera pas de la même manière selon qu'elle est introduite par un connecteur ou que d'autres indices sont utilisés. Néanmoins, la délimitation des arguments de la relation passe souvent par le repérage d'une proposition. Nous présentons dans cette section les algorithmes qui sont à la base de notre système. Il faut préciser que nous avons essayé de les simplifier au maximum afin d'en faciliter la compréhension, ce qui fait que la cohérence n'est pas toujours respectée. De plus, l'implémentation des algorithmes est souvent plus complexe que les algorithmes en question2. signification Nous présentons dans le tableau suivant les fonctions de base de l'illustrateur que nous utiliserons dans les algorithmes présentés par la suite : fonction prop_G prop_G (argument) prop_D prop_D (argument) rel_csq(a, b) la proposition à gauche de l'indice la proposition à gauche de l'argument la proposition à droite de l'indice la proposition à droite de l'argument affichage de la relation de conséquence entre a et b TAB. 5.2 - Fonctions de base de l'illustrateur |
|