Chapitre 4
Une nouvelle Heuristique de
Désambiguïsation des
Toponymes
|
Une partie de ce chapitre se trouve dans les articles
(Bensalem et Kholladi 2009b)et (Bensalem et Kholladi 2009c)
|
|
![](La-desambigusation-des-toponymes120.png)
4.1 Introduction
Nous présentons dans ce chapitre notre contribution
principale dans ce mémoire qui est une nouvelle heuristique de
désambiguïsation des toponymes basée sur le calcul de la
plus forte relation arborescente entre les référents des
toponymes du même contexte. Notre heuristique exploite la connaissance
« relation arborescente » qui n'est pas exploitée d'une
manière explicite dans les méthodes de l'état de l'art.
Nous commençons d'abord par présenter notre
motivation, puis nous présentons notre méthode, en introduisant
la mesure de la Densité Géographique que son calcul se
base principalement sur les chemins hiérarchiques. Nous fournissons dans
la section 04.3 les résultats d'évaluation de notre heuristique
en la comparant avec une autre. Enfin, nous terminons par une conclusion qui
résume les différents points discutés dans ce chapitre.
4.1.1 Aperçu sur les travaux antérieurs
Nous avons proposé dans le chapitre
précédent (Section 3.4.2) une classification des heuristiques
existantes de la désambiguïsation des toponymes. Cette
classification a engendré deux catégories
principales1: les heuristiques de désambiguïsation
par le contexte, et les heuristiques de désambiguïsation
par les règles de préférence.
Nous rappelons que les heuristiques de la première
catégorie dépendent principalement des toponymes qui existent
dans le même contexte dans lequel le toponyme à
désambiguïser apparaît. Cela rend la tâche de
désambiguïsation des toponymes similaire à la
désambiguïsation des sens des mots (DSM) (Navigli 2009) qui est
parmi les tâches connues du traitement automatique des langues naturelles
(TALN). On veut dire par contexte (Section 3.3), le texte en langue naturelle
qui contient le(s) toponyme(s) à désambiguïser. La taille de
ce dernier
1 Une troisième catégorie décrite
dans le chapitre précédent contient des heuristiques
complémentaires.
![](La-desambigusation-des-toponymes121.png)
dans les méthodes de DT varie de quelques toponymes autour
du toponyme ambigu jusqu'à tous les toponymes du texte du document.
Toutefois, les heuristiques de la deuxième
catégorie désambiguïsent les toponymes en se basant sur des
préférences et des intuitions de l'être humain. Par
exemple, désambiguïser par les référents à
plus grande population (Pouliquen, et al. 2004) (Amitay, et al. 2004) (Rauch,
Bukatin and Baker 2003) ou par les référents les plus
fréquents (Stokes, et al. 2008).
A titre d'exemple, si le toponyme à résoudre est
`Alexandrie', les deux heuristiques de la deuxième catégorie lui
associent le référent `Alexandrie>Égypte' au lieu de
`Alexandrie>Piémont>Italie' par exemple, car le premier lieu est
le plus connu et le plus peuplé2. Tandis que le
référent choisi par les heuristiques de la première
catégorie peut être `Alexandrie>Égypte' ou
`Alexandrie>Piémont>Italie' selon les toponymes qui apparaissent
avec `Alexandrie' dans le même contexte.
Dans le but de facilité la lecture de ce chapitre, le
Tableau 4-1 (voir p. 90) rappelle la liste des heuristiques
présentée dans le chapitre 3.
|