4.2.1 Notation
Tableau 4-2. Conventions de notation de l'heuristique de
densité géographique
T l'ensemble des toponymes qui apparaissent dans
T = {t i D / i =
1...n} un document D
Chaque toponyme apparait une seule fois dans T. n
est le nombre de toponymes.
G: un gazetteer.
Chaque rid est représenté par
un ensemble de caractéristiques qui diffèrent selon le gazetteer
utilisé. Dans cette heuristique nous avons besoin pour chaque lieu de :
son identifiant, son nom et son chemin hiérarchique. On dit que le lieu
rid est un référent de ti si
ti est le nom de rid.
|
G = { rid/ r id est un lieu
géographique dans la Terre }
|
La suite du tableau est dans la page suivante
hid est le chemin hiérarchique de rid
dans l'arbre d'hiérarchie de G.
Chaque noeud de hid est un
référent rid.k, tel que le premier
noeud rid.1 est l'extrême holonyme de rid et
le dernier noeud rid.l est rid. tel que l est la
longueur du chemin hiérarchique.
|
hid =»
rid1>rid2>...>ridl»
|
Comp(hid) sont les référents qui compose
un Comp(hid) ={ ridk, k=1..l}
chemin hiérarchique hid.
R i : l'ensemble des référents du toponyme
ti. R i = { rid G / ti est le nom
de rid }
Hi un ensemble composé des chemins H i =
{ hid / rid Ri }
hiérarchiques des référents de
Ri
R est l'ensemble de tous les ensembles
Ri, c.-à-d. R = { R i ,
i = 0..n }
l'ensemble des référents de tous les toponymes
d'un document D.
H est l'ensemble de tous les ensembles Hi. H =
{ Hi , i = 0..n }
Comp(Hi): les composants de tous les hid
Hi sans Comp(Hi)= U Comp(hid)/ hid Hi
duplication des éléments
Comp(H): l'ensemble des ensembles Hi.
Comp(H)= U Comp(Hi)/ Hi H
4.2.2 Principe et méthode
Notre heuristique est basée sur l'hypothèse que
les toponymes qui apparaissent ensembles dans le même document sont
reliés géographiquement par des relations arborescentes qu'ils
soient hiérarchiques ou non hiérarchiques.
L'heuristique proposée résout un toponyme par le
référent qui est :
n Le plus relié géographiquement aux
référents des autres toponymes, c.-à-d. celui qui
possède relativement beaucoup de relations arborescentes avec les
référents des autres toponymes (on peut dire que c'est une
relation indirecte avec le contexte), et ;
n Le plus relié au contexte, c.-à-d. son chemin
hiérarchique et le contexte contiennent relativement beaucoup de
toponymes en commun (le même
principe de l'heuristique H2).
Ces deux caractéristiques sont quantifiées par
le calcul de ce que nous appelons la Densité Géographique
(Bensalem et Kholladi 2009a). Nous définissons donc la
Densité Géographique (DG) comme une mesure de corrélation
(directe ou indirecte) entre un référent d'un toponyme et le
contexte de ce dernier.
La désambiguïsation des toponymes par le calcul de la
densité géographique suit les étapes suivantes :
1. Extraire tous les toponymes du document D (taille du
contexte = tous les toponymes du document).
2. Éliminer les duplications en appliquant
l'hypothèse de « un sens par discours » (voir H18).
3. Déterminer la liste des référents
candidats Ri pour chaque toponyme ti. Chaque
référent candidat rid doit être
représenté par son chemin hiérarchique hid.
4. Calculer la densité géographique pour chaque
référent candidat dans Ri de chaque toponyme
ti.
5. Attribuer à chaque toponyme ti le
référent rid qui possède la plus grande
densité géographique DG(rid) parmi l'ensemble
de ses référents candidats.
|