4.1.3 Une nouvelle perspective au problème de la
désambiguïsation des toponymes
Nous avons remarqué que la plupart des méthodes
existantes fondées sur la proximité arborescente sont capables de
résoudre les toponymes en recherchant ses holonymes dans le contexte
c.-à-d. en cherchant ses relations de méronymie4.
Clough (2005) quantifie l'existence des holonymes par le calcul du score du
chevauchement (SC) entre le contexte et le chemin hiérarchique du
référent (voir l'explication de H2 dans le chapitre 3). Le SC
permet évidement d'identifier dans le contexte tous les holonymes d'un
toponyme, qu'ils soient directes ou indirectes. L'heuristique de Pouliquen et
al. (2004) cherche seulement la mention dans le contexte d'un holonyme du
toponyme à résoudre sans le calcul du score du chevauchement.
4 Étant donné que la relation de
méronymie est la relation «est-partie-de », alors, chercher
des relations de méronymie pour un toponyme consiste à trouver
ses racine c.-à-d. ses holonymes.
Cependant, au meilleur de nos connaissances, les seules
heuristiques qui essayent de chercher d'autres types de relations arborescentes
entre les toponymes (c.-à-d. non seulement la relation de la
méronymie) sont l'heuristique du plus court chemin (H7) de (Stokes, et
al. 2008), et celle basée sur la densité conceptuelle (DC) de
Buscaldi, et Rosso (2008a) (H9)5.
Exemple
Si les toponymes : `Alger', `Constantine' sont
mentionnés dans un texte, et Constantine est résous à
`Constantine >Algérie', il est possible en utilisant les heuristiques
H7 et H9 de résoudre le toponyme ambigu `Alger' par
`Alger>Algérie' car ce référent partage une racine
commune avec `Constantine' (donc une relation non hiérarchique avec
`Constantine') qui est l'Algérie (voir la Figure 4-1 p.91). Cependant,
en utilisant les heuristiques basées sur le score du chevauchement avec
le contexte on ne peut pas découvrir que le référent
`Alger>Algérie' est le plus relier à `Constantine' par rapport
aux autres référents de `Alger'.
Stokes, et al. (2008) ont utilisé l'heuristique du plus
court chemin (H7) comme une heuristique secondaire qui résout les
toponymes ambigus par rapport aux ceux déjà résous par
d'autres heuristiques. D'ailleurs, ils n'ont pas fourni des détails sur
son principe.
L'heuristique de (Buscaldi et Rosso 2008a) quantifie des
relations arborescentes entre les toponymes par le calcul de la densité
conceptuelle, mais le principe de cette quantification n'est pas suffisament
claire6. En outre la DC a été introduite pour la
prmiere fois pour la désambiguisation des sens des mots (Agirre et Rigau
1996) (Rosso, et al. 2003) puis adaptée à la
désambiguisation des toponymes (Buscaldi et Rosso 2008a), donc elle
n'est pas conçue directement pour adresser le problème de DT.
5 Sachant que cela reste notre point de vue sur leurs
méthodes et ce n'est pas déclaré explicitement par les
auteurs.
6 Les auteurs n'ont pas déclaré que la
DC est une mesure des relations arborescentes et n'ont pas expliqué sa
formule dans ce sens.
En bref, contrairement aux relations spatiales, les relations
arborescentes ne sont pas exploitées explicitement dans les
méthodes de DT. En effet, à nos jours il n'y pas d'auteurs qui
ont déclaré que leur méthode est basée sur la
quantification des relations arborescentes de tous types entre les toponymes du
même contexte. Ainsi, nous croyons que nous somme les premiers à
voir le problème de désambiguïsation des toponymes dans
cette perspective.
Nous proposons dans le reste de ce chapitre une nouvelle
heuristique de désambiguïsation des toponymes basée sur le
contexte. À la différence des autres heuristiques de cette
catégorie, notre heuristique est conçue explicitement sur
l'idée de chercher des relations arborescentes (hiérarchiques et
non hiérarchiques) entre les toponymes du même contexte, et elle
est basée sur une nouvelle mesure de corrélations arborescentes
entre les toponymes que nous appelons la Densité
Géographique.
4.2 Notre heuristique de désambiguïsation
des
toponymes
|