5.2.2 Traitement automatique de la langue
Les Traitements Automatique des Langues(TAL) est une
discipline qui associe étroitement linguistes et informaticiens. Il
repose sur la linguistique, les
forma-lismes(représentation de l'information et des
connaissances dans des formats interprétables par la machine) et
l'informatique. Le TAL a pour objectif de développer des
logiciels ou des programmes informatiques capables de traiter de façon
automatique des données linguistiques. [48]
61
Ainsi le traitement automatique de la langue peut se
définir comme étant l'en-semble des méthodes et des
programmes qui permettent un traitement par ordinateur du materiau linguistique
: analyse de textes, génération de textes, traduction
automatique, correction orthographique et grammaticale,...
Nous présentons ici les grands domaines du TAL, en
s'appuyant sur un découpage méthodologique classique dans le
domaine de la linguistique tel que présenté dans. Les
différents domaines qui seront présentés ici sont [49]
:
La morphologie
D'un point de vue informatique, un texte est une chaîne
de caractère. La première étape de l'analyse d'un texte
est la reconnaissance, dans cette chaîne de caractères,
d'unités linguistique de base, les mots, ainsi que des informations
associées puisées dans un lexique.
Pour commencer, la chaîne de caractères
d'entrée doit utiliser un encodage dé-terminer(pour le
français, l'encodage ISO-latin-1), les caractères de
contrôle(fin de ligne,...) étant eux aussi normalisés. On
élimine généralement les caractères non
répectoriés.
Ensuite il s'agira de segmenter la chaîne
d'entrée en unité élémentaires. Différents
choix peuvent être effectués à ce stade, selon les
séparateurs choisis : tous les caractères non
alphabétiques(espaces, apostrophes, tirets...) ou les espaces seulement;
et selon que l'on prend en considération les « mots composés
»« pomme de terre » en le considérant comme
« une » unité.
La lexique quant à lui est définie comme
étant une liste des mots de la langue, et associé à chaque
mot les informations linguistiques corréspondantes : catégorie
syntaxique, traits morphosyntaxiques(genre, nombre, etc), etc. Il faut
cependant bien préciser la définition du lexique compte tenue de
plusieurs phénomènes qui surgissent.
- Un mot peut avoir plusieurs sens( polysème )
: « avocat », « coup », « livre »en sont des
exemples.
- Plusieurs mots peuvent se trouver partager une forme
commune( homographes ) : « montre »est une forme du nom
« montre »aussi bien que du verbe « montrer ». « pu
»est un autre exemple d'homographes qui est en même temps le
participe passé du verbe « pouvoir »mais aussi de «
paître ».
- Un mot peu être construit à partir d'un autre :
par dérivation (« penser » -+ « pensable
» -+ « impensable ») ou par composition
(« compter » + « gouttes » -+ «
compte-gouttes »; « un » + « jambe » -+
« unijambiste »; « sclérose » + «
artère » -+ « artériosclérose »
)
Syntaxe
Pour repérer quels mots fonctionnent ensemble dans une
phrase, un premier niveau de modélisation consiste à constituer
des classes de mots(catégories syntaxiques, parties du discours)
possédant un fonctionnement similaire : Nom(N), Verbe(V), Adjectif(A),
etc
Les relations syntaxiques entre les mots d'une phrase peuvent
se représenter de plusieurs façons. Le modèle en
constituants considère des groupes de mots, ou syntagmes,
généralement centrés sur un mot de tête(Nom, Verbe,
Pronom etc), et les modélises par des catégories
spécifiques(Syntagme nominal ou SN, Syntagme
62
FIGURE 5.4 - Représentation syntaxiques d'une phrase
verbal ou SV, Syntagme adjectival ou SA, etc). Ces syntagmes
peuvent eux-même être éléments d'autres syntagmes, et
la structure d'une phrase est alors un arbre de constituants(figure
5.4(a)). Le modèle en dépendance considère directement les
mots de tête(recteurs ou régissants), et leur attache les mots qui
en dépendent. La structure d'une phrase est alors un arbre de
dépendance(figure 5.4(b)). Une phrase peut donner lieu à
plusieurs structures syntaxiques(ambiguïté structurelle). En voici
un exemple: « je vois un homme avec un téléscope
», dans laquel « avec un téléscope »
peut designer la manière dont je vois l'homme (attachement au verbe
« vois » qui est un complément circonstanciel de
manière) ou au contraire une caractéristique de l'homme
(attachement au nom « homme », complément du nom.)
Sémantique
La sémantique, à la manière de la
syntaxe, comprend un premier niveau de modélisation qui consiste
à former des classes des mots(catégories sémantiques).
Ces classes regroupent des mots dont le sens est proche, ou au minimum des
mots qui possèdent certaines propriétés sémantiques
proches.
Un mot, même syntaxiquement non ambigu, peut
posséder plusieurs sens. Par exemple, on pourra distinguer l'«
artère » qui veut dire vaisseau sanguin de l'«
artère » avenue, même si le second est
étymologiquement un sens figuré du premier. Le contexte permet en
général de déterminer quel sens est à l'oeuvre dans
un énoncé.
Les mots d'une langue entretiennent un réseau riche de
relations sémantiques : hyperonymie/hyponymie(«
vaisseau »/« artère »), métonymie(partie d'un
tout: « vaisseau »/« système cardiovasculaire
»), antonymie(« benin »/« malin
»),etc
Pragmatique
L'interprétation d'un énoncé depend de
son contexte. Dès que l'on veut traiter plusieurs phrases (et même
pour une seule phrase), cette dimension intervient.
Le co-texte désigne le texte qui
précède(et suit) la phrase courante. Deux facteurs concourent
à faire qu'une phrase s'insère bien dans un texte.
- La cohésion régit la
continuité du texte. Elle est assuré par l'emploi
d'ana-phore(figure de rhétorique qui consiste à
répéter le même mot au commencement de plusieurs
phrases), l'homogéneité du thème, un emploi judicieux
d'el-lipses(figure par laquelle on retranche un ou plusieurs mot dans une
phrase), etc
63
- La cohérence détermine
l'intelligibilité du texte. Elle s'appuie sur des structures de
discours(direct ou indirect).[49]
|