Projet de taxinomie des connecteurs du français pour le traitement automatique : l'exemple des consécutifs

( Télécharger le fichier original )
par Sébastien Druon
Université Bordeaux 3 - Maîtrise de Sciences du Langage 2000

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Chapitre 3

Étude de quelques connecteurs de

conséquence

3.1 Méthodologie

3.1.1 L'analyse de corpus

Nous avons décidé de choisir un corpus pour faire l'analyse des connecteurs consécutifs que nous voulons étudier. Ce choix a été fait pour plusieurs raisons : un corpus (a fortiori un corpus électronique) permet de faire des recherches rapides et ainsi de vérifier comment un connecteur est employé dans son contexte. Le corpus permet d'éviter d'avoir recours à sa propre intuition, car en inventant des exemples soi-même, on ne cerne pas tous les cas : le corpus nous donne des emplois plus variés, auxquels nous n'aurions pas pensé.

Mais cependant, un corpus est limité par le genre auquel il appartient, et ne rend pas lui non plus compte de tous les emplois. Il faut alors utiliser un corpus plus large et de styles différents pour avoir une vue aussi complète que possible sur la question que l'on étudie'.

'Nous reparlerons de la nécessité d'avoir un corpus varié dans la conclusion.

3.1.2 Le corpus Linux-Howto

Pour étudier les connecteurs de conséquence, nous avons utilisé un corpus de textes d'un genre bien particulier, puisqu'il s'agit de manuels d'utilisation pour Linux (appelé les « Howto », utiles pour savoir comment faire telle ou telle opération sous ce système d'exploitation), trouvables à l'URL suivante:

ftp.lip6.fr/pub/linux/french/docs/HOWTO/ .

Nous avons choisi ce type de document pour deux raisons: la première est qu'il sont facilement accessibles sous forme électronique, ce qui facilite grandement la recherche (en termes de gain de temps). La seconde est que les manuels techniques comptent un nombre important de connecteurs (en comparaison avec les textes journalistiques par exemple), en particulier de connecteurs de conséquence; en effet, ils ont un but didactique, ce qui oblige à l'emploi de termes indiquant un raisonnement, dont font partie les connecteurs consécutifs. Il se trouve de plus que les documents que nous avons choisis sont assez riches en connecteurs et qu'ils sont assez variés, ce qui n'est pas toujours le cas des manuels techniques (les auteurs emploient en général rarement autre chose que « donc »).

Pour étudier ce corpus, nous avons récupéré les différents fichiers « Howto » au format texte et nous les avons réunis en un grand fichier dans lequel il est plus facile de faire des recherches.

3.1.3 Construire une taxinomie

Nous nous sommes donné comme but de construire une taxinomie

delà d'un travail de mémoire de maîtrise. Nous avons donc décidé de nous limiter à un sous-ensemble des connecteurs consécutifs, à partir duquel nous essaierons de dresser une taxinomie. Afin de la construire, il faut tout d'abord poser des bases méthodologiques sur lesquelles nous nous appuierons. Mais il nous faut donner une structure à cette taxinomie, et pour cela, nous emprunterons à KNOTT (1996) son test de substituabilité, et nous essaierons ensuite de trouver une structure de traits permettant de décrire le plus précisément possible les caractéristiques des connecteurs consécutifs que nous aurons étudiés.

Hyperonymie, hyponymie et héritage : le test de substituabilité de Knott

Hyperonymie, hyponymie, synonymie

Knott propose dans sa thèse (KNOTT (1996)) un test de substituabilité très simple, basé sur les notions d'hyponymie et d'hyperonymie, permettant de construire rapidement une taxinomie. La démarche à adopter est la suivante: on sélectionne le connecteur que l'on désire analyser accompagné de son contexte et on le remplace par d'autres connecteurs de la même catégorie dans le même contexte. On doit ensuite voir si la substitution est possible, c'est-à-dire qu'il ne doit pas y avoir de changement de sens notable si les connecteurs choisis partagent la même classe.

A partir de ce test de substituabilité, on pourra déduire quelques propriétés sur les paires de connecteurs envisagées:

- deux connecteurs sont synonymes s'ils sont interchangeables dans tous les contextes.

- deux connecteurs sont exclusifs s'ils ne sont jamais permutables.

- deux connecteurs sont partiellement synonymes (contingently sub-

tituable) s'ils sont synonymes dans certains contextes, mais pas

dans d'autres.

- un connecteur est hyperonyme d'un autre connecteur s'il peut le remplacer dans tous les contextes, mais pas le contraire. Dans ce cas on dit que le deuxième est l'hyponyme du premier.

L'héritage

Une autre notion très importante pour notre taxinomie est la notion d'héritage. On dira en effet qu'un élément de la taxinomie hérite des propriétés des éléments supérieurs dans la hiérarchie. Cette notion d'héritage est d'ailleurs très intimement liée à celles hyponymie et d'hyperonymie, un hyponyme héritant des propriétés de son hyperonyme.

Prenons par exemple le cas d'une taxinomie (très) partielle de quelques mammifères : « chat », « matou », « félin » et « tigre ». « Félin » est dans notre exemple l'hyperonyme de « chat », « matou », et « tigre » (qui sont ses hyponymes). L'héritage d'hyperonyme à hyponyme est ici bien clair: le chat et le tigre ont en effet les propriétés d'un félin, comme par exemple le fait d'avoir des griffes ou des moustaches. « Chat » et « matou » sont quant à eux synonymes.

Présentation graphique de la taxinomie

D'après les substitutions que nous avons faites à l'aide du corpus

une première approche d'une taxinomie des connecteurs consécutifs du français, qui est pour l'instant très partielle (elle ne tient compte que des quatre connecteurs que nous étudierons), et qui devra évidemment être améliorée, enrichie, et probablement, dans une certaine mesure, modifiée par la suite.

donc

alors par conséquent

de sorte que

FIG. 3.1 - Première approche de taxinomie des connecteurs consécutifs

Construction de tests de substituabilité pour les connecteurs étudiés

Pour pouvoir faire les tests de substituabilité sur les connecteurs que nous envisageons d'étudier, il faut extraire du corpus un ensemble de phrases qui contiennent ces connecteurs. Pour ce faire, nous avons extrait aléatoirement à l'aide d'un programme Perl dix occurrences de chaque connecteur -- accompagné de son contexte -- en début de phrase et vingt en milieu ou fin de phrase dans le corpus Linux-Howto. Ce petit sous-corpus nous permet ensuite de faire simplement les tests de substituabilité entre les connecteurs que nous voulons étudier.

Problèmes

Cependant, quelques problèmes se posent quand à ce test de substituabilité, problèmes soulignés par ASLANIDES (1995). En premier lieu, ce test est grandement soumis aux intuitions de l'analyste -- il faudrait

peut-être donc soumettre les substitutions à un grand nombre de personnes afin d'avoir un point de vue le plus complet possible sur la question.

De plus, la taxinomie obtenue à l'aide des notions d'hyponymie et d'hyperonymie ne peut constituer qu'un début. En effet, elle ne permet que d'avoir une idée de la façon dont les connecteurs peuvent être employés dans un contexte donné (tel connecteur peut par exemple toujours être employé à la place de tel autre dans ce contexte) sans pour autant donner une quelconque information sur les conditions d'emploi ni sur le sens des connecteurs.

Utilité des tests de substituabilité

Les tests de substituabilité, bien qu'ils ne donnent qu'une idée très vague de l'emploi des connecteurs, permettent néanmoins de voir quand un connecteur peut en remplacer un autre. Dans un contexte donné, on peut alors observer ce qui permet ou bloque l'emploi d'un connecteur. Il est donc à partir de ce moment possible d'essayer de voir les traits distinctifs de deux connecteurs selon le rapport qu'ils entretiennent (hyponymie, exclusivité, synonymie .. .).

Pour cela, on aura donc recours à un autre type de données afin de différencier les connecteurs les uns des autres: on fera appel à une structure de traits caractérisant chaque connecteur.

Obtenir une structure de traits

Afin d'avoir une description suffisamment précise des différents connecteurs que nous avons choisi d'analyser et de les distinguer les uns des autres, nous avons décidé d'utiliser une structure de traits. Ces traits décrivent des propriétés des connecteurs de différentes natures (syntaxique, sémantique, pragmatique), mais ces différents niveaux sont indispensables pour rendre compte assez finement du sens des connecteurs dans leurs différents emplois. Nous déterminerons quels sont les traits dont nous avons besoin dans la section 3.4, après avoir analysé de plus près les différents connecteurs de conséquence choisis. Mais nous allons d'abord nous pencher sur la notion de conséquence et les notions auxquelles elle est liée.

précédent sommaire suivant

"Piètre disciple, qui ne surpasse pas son maitre !" Léonard de Vinci