La désambiguà¯sation des toponymes

( Télécharger le fichier original )
par Imene BENSALEM
Université Mentouri de Constantine, Algérie - magistère en informatique 2009

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Chapitre 3

État de l'art

3.1 Introduction

Les chapitre précédent ont permis d'avoir une vue globale sur la désambiguïsation des toponymes, ils ont donc donné des réponses à deux questions principales dans la recherche qui sont le « quoi » et le « pourquoi » mais ils n'ont pas répondu à une troisième question de la même importance qui est le « comment ».

« Comment désambiguïser les toponymes ? » c'est donc l'objet de ce chapitre qui répond à cette question en présentant l'état de l'art des méthode de désambiguïsation.

Malgré le fait que les méthodes de désambigüisation des toponymes sont très différentes dans l'esprit (Leidner 2007)(dû à la nature multidisciplinaire), mais ils ont des éléments en commun que leur présence est incontournable et indispensable dans toute méthode de DT. Ce chapitre s'articule selon ces éléments qui sont le contexte, les heuristiques, les connaissances et les ressources.

Nous commençons d'abord dans la section suivante par une brève comparaison de notre point de vue avec celui de Leidner (2007) qui fût le premier à présenter un état de l'art élargie de la désambiguïsation des toponymes autant qu'une tâche indépendante de la DSM et de la REN. En suite nous présentons une synthèse des différents travaux dans la DT en faisant des comparaisons et des classifications des méthodes selon la présentation du contexte, les heuristiques, les connaissances et les ressources.

3.2 Les méthodes

Les méthodes de désambiguïsation des toponymes comprennent deux phases principales qui sont : l'obtention des référents candidats d'un toponyme, et le choix du référent correct (voir Section 2.32) mais elles se distinguent principalement par la deuxième phase.

Étant donné que la littérature de la désambiguïsation des toponymes est dispersées à travers plusieurs disciplines (RI, TALN (DSM, IE), SIG) Un simple examen des méthodes peut donner l'impression qu'elles sont complètement différentes les unes des autres, notamment, dans la deuxième phase. Cependant, un examen plus approfondi permettra d'en tirer des facteurs en commun.

Leidner (2007) -dans le cadre de sa thèse¹ - a analysé une dizaine de méthodes de l'état de l'art de DT² et il a remarqué que plusieurs moyens d'évidence et sources de connaissances (ressources) se reproduisent dans des méthodes différentes. En outre, il a résumé les moyens d'évidence en dix-sept heuristiques et connaissances de base qu'il a ensuite regroupé dans une taxonomie distinguant entre les connaissances (ou les heuristiques) linguistiques et les connaissances (ou les heuristiques) du monde.

Après avoir analysé les méthodes de DT présentées dans l'état de l'art élaboré par Leidner (2007) et aussi d'autres méthodes plus récentes, nous avons reformulé les moyens d'évidence de Leidner (2007) mais selon notre point de vue et avec notre propre classification. Contrairement à Leidner, nous distinguons entre les heuristiques et les connaissances³, et sur la base de cette distinction nous considérons la majorité des moyens d'évidence que Leidner a tiré comme des heuristiques ; nous élaborons donc deux taxonomies différentes pour les heuristiques et les connaissances.

Ainsi, les méthodes de DT peuvent être vues comme des heuristiques (des algorithmes) qui servent à désambiguïser les toponymes ambigus apparaissant dans un certain contexte textuel, en manipulant des connaissances extraites de ce contexte et des ressources externes. La Figure 3-1 illustre le rôle de ces différents éléments.

¹ La thèse de Leidner (2007) est la première thèse qui a adressé la désambiguïsation des toponymes autant que tâche indépendante. Cette thèse est une référence de base dans ce domaine et elle est publiée aussi comme livre.

² Les travaux analysés dans (Leidner 2007) sont publiés entre 1999 et 2006.

³ Cette distinction n'est pas parfois évidente car il existe des connaissances qui sont inhérentes à certaines heuristiques.

Texte avec
toponymes résolus

Liste de référents
candidats pour chaque
toponyme ambigu

Connaissances qui
aident à la
désambiguïsation

Toponymes

---------------
---------------
---------------

Ressources

Heuristiques de
désambiguïsation

Texte qui contient des
toponymes ambigus :
Le contexte

Figure 3-1.Les éléments principaux des méthodes de désambiguïsation des toponymes

Il est donc clair que les méthodes de désambiguïsation des toponymes sont toutes composées de quatre éléments principaux qui sont : le contexte, les heuristiques, les connaissances, et les ressources. Dans les sections suivantes nous présentons un état de l'art des méthodes de DT organisé selon ces quatre composants. En lisant les sections de ces éléments le lecteur (selon ces besoins) ne se trouverait pas contraint de suivre leur ordre de rédaction.

précédent sommaire suivant

"Aux âmes bien nées, la valeur n'attend point le nombre des années" Corneille