La désambiguà¯sation des toponymes( Télécharger le fichier original )par Imene BENSALEM Université Mentouri de Constantine, Algérie - magistère en informatique 2009 |
3.5.1.1 Connaissances à propos des toponymesLes toponymes sans `grounding' ne sont que des mots c.à.d. des unités lexicales, tant qu'ils sont ambigus, ils ne possèdent aucune relation avec le monde physique. Cela explique le fait que la quasi-totalité des connaissances pouvant être obtenues à propos des toponymes sont linguistiques. La seule connaissance géographique qui peut être obtenu à propos d'un toponyme est parfois le type de lieu à lequel il se réfère. En fait, le texte peut contenir une phrase qui indique que le toponyme mentionné est une ville ou une capitale...etc. Ce type de connaissance est obtenu par les patterns de type (Voir l'heuristique H3.2). À partir du contexte on peut calculer des valeurs comme la fréquence d'occurrence d'un toponyme et la distance textuelle entre les toponymes comme dans la méthode de (Li, Srihari, et al. 2003), ou extraire les cooccurrences. Les cooccurrences dans le domaine de la DT sont les toponymes qui apparaissent avec le toponyme à résoudre dans le même contexte. La récupération des cooccurrences depuis le contexte est une procédure incontournable dans toutes les méthodes de DT basées sur le contexte (Section 3.4.2.1). 3.5.1.2 Connaissances à propos des référentsUn référent représente une entité physique dans le monde (un lieu), par conséquent beaucoup de connaissances géographiques peuvent lui être associées. Figure 3-7. Taxonomie des connaissances utilisees pour la desambiguIsation des toponymes Par exemple une fois le toponyme `Constantine' est résous à `Constantine> Algérie' on peut obtenir ses caractéristiques comme sa population, ses coordonnées spatiale,..., etc. et encore ses relations avec d'autres référents. Un exemple de relations est les distances spatiales entre les référents des toponymes du même contexte. Cette relation est exploitée dans (Smith and Crane 2001), (Leidner, Sinclair et Webber 2003), (Rauch, Bukatin and Baker 2003), et (Amitay, et al. 2004). Un autre type de relations qui peut être exploité comme connaissance dans les méthodes de DT sont les relations arborescentes c.-à-d. les relations qui existent entre les référents dans l'arbre hiérarchique des lieux du monde (Bensalem et Kholladi 2009b). La relation arborescente la plus connue est `est-partie-de' (appelée aussi méronymie) à plusieurs niveaux, qui est généralement représentée sous forme d'un chemin hiérarchique. Par exemples le chemin hiérarchique : `Jérusalem>Palestine>Asie' indique que Jérusalem est-partie-de Palestine, et Palestine est-partie-de l'Asie, et par conséquence Jérusalem est-partie-de l'Asie. Contrairement aux relations basées sur la distance spatiale, les relations arborescentes ne sont pas exploitées explicitement dans les méthodes de DT (voir le chapitre 4 pour une ample discutions sur cette lacune). Les connaissances linguistiques qui peuvent être obtenues à propos des référents sont généralement des valeurs statistiques, entre autre, la fréquence d'occurrence dans un corpus, et les cooccurrences c.à.d. les toponymes qui apparaissent fréquemment avec le référent cible (Voir l'heuristique H4 pour plus d'informations sur l'utilité des cooccurrences). |
|