2.3 La désambiguïsation des toponymes
2.3.1 Définition
La Désambiguïsation des Toponymes (DT) a
plusieurs appellations dans la littérature : Résolution des
Toponymes (Leidner 2007), Normalisation des Locations (Li, et al.
2003), Grounding ou Localisation (Amitay, et al. 2004). La DT
est une tâche qui adresse l'ambiguïté des toponymes de type
géo/géo et elle est définie dans la littérature
avec plusieurs points de vue. Nous avons choisi de présenter les trois
définitions ci-dessous.
La désambiguïsation des toponymes est :
« La tâche de déterminer quelle place l'on
entend par une occurrence d'un nom de lieu » (Amitay, et al.
2004).
« La tâche d'attribuer un emplacement à un
nom de lieu ambigu » (Li, et al. 2006).
« Un cas particulier de la désambiguïsation
des sens des mots (DSM)4, qui est une tâche du traitement
automatique des langues naturelles, elle s'agit de déterminer le sens
d'un mot ambigu dans un contexte donné » (Stokes, et al.
2008).
2.3.2 Étapes
La plupart des méthodes de DT comprennent 2 phases
principales : (1) l'extraction des référents candidats et (2) le
choix du référent correct (voir Figure 2-2).
4 Voir section 2.4.3 pour plus d'informations sur la
DSM
La désambiguïsation des toponymes : notions de
base
ristiques de désambiguïsions
Heu
des toponymes
Ressources de connaissances
géographiques
Texte avec toponymes ambigus
Extraction des référents candidats de
chaque toponyme
-------------- ---------------
-------------- ---------------
--------------- ---------------
--------------- --------------- --------------- ---------------
---------------
Choix du référent correct pour
chaque toponyme
Figure 2-2. Les étapes de la
désambiguïsation des toponymes
La première phase consiste à
déterminer les référents possibles de chaque toponyme dans
le texte à main. L'obtention de ces différents
référents (ce qu'on appelle les référents
candidats) s'appuie habituellement sur des ressources
structurées qui contiennent des listes prédéfinies de
sens pour chaque toponyme. Les gazetteers et les ontologies sont des exemples
de ces ressources.
La deuxième phase consiste à
l'application d'un ensemble d'heuristiques en vue de déterminer parmi
l'ensemble des candidats le référent le plus susceptible
d'être le sens voulu par le toponyme ambigu. Ces heuristiques utilisent
principalement les connaissances fournies par le contexte et
des ressources externes comme sources d'évidence.
2.3.3 Terminologie
Dans cette section nous définition des termes
intrinsèques à la désambiguïsation des toponymes qui
sont : contexte, connaissances, ressources. Plus de détails sur ces
éléments se trouvent au chapitre suivant.
|