![]() |
La désambiguà¯sation des toponymes( Télécharger le fichier original )par Imene BENSALEM Université Mentouri de Constantine, Algérie - magistère en informatique 2009 |
4.2.3 La densité géographiqueLes connaissances principales sur lesquelles se base le calcul de la densité géographique sont les chemins hiérarchiques des référents candidats de tous les toponymes du contexte (c.-à-d. les éléments de l'ensemble H). Le chemin hiérarchique d'un référent est composé du référent lui-même, est ces holonymes7 c.-à-d. sa racine directe, et ces racines indirectes. La DG d'un référent rid d'un toponyme ambigu ti augmente lorsque : 7 Dans l'intention de brièveté, désormais, le mot « holonnyme » seul suffira pour dire « holonymes directs et indirects » qui compose nt le chemin hiérarchique d'un toponyme.
Les caractéristiques (a), (b) et (d) signifient la présence d'une relation hiérarchique entre le référent cible rid et certains référents des autres toponymes, et (c) signifie la présence d'une relation non hiérarchique. Les caractéristiques (a), (b) et (c) sont quantifiées par le calcul des fréquences du référent rid et ses holonymes (c.-à-d. de rid.1,..rid.2, ...rid.l) dans les chemins hiérarchiques des référents de l'ensemble R. La fréquence d'un référent rid.k est la somme de ses poids dans chaque Ri (l'équation (2)). Le poids P est une fonction booléenne qui indique l'existence ou l'absence d'un référent rid.k dans les chemins hiérarchiques d'un ensemble Ri (l'équation (3)). Par conséquent, La plus grande valeur que peut prendre une fréquence est égale à n : le nombre des ensembles Ri dans R, et ce qui représente aussi le nombre de toponymes dans le texte. La caractéristique (d) est quantifiée par le calcul du score du chevauchement du chemin hiérarchique du référent rid avec le contexte D, cela est représenté par la valeur SC(hid, D). La densité géographique DG (rid, R) d'un référent candidat rid est la somme de ces deux valeurs décrites ci-dessus (la fréquence des référents qui compose son chemin hiérarchique hid et le score du chevauchement de ce dernier avec le contexte) (l'équation (1)). DG (rid, R) = (Fréquence ( ~~d.k , R) ) + SC(h~~ ,D) (1) k=1 n Fréquence ( r.k ,R) = >P(r~d.k,RL) (2) t=1 P(gd.k, R1) = (0, si le nombre de rgd.k dans Comp(H1) = 0 (3) 1, si le nombre de rgd.k dans Comp(H1) ? 0 |
|