La désambiguà¯sation des toponymes( Télécharger le fichier original )par Imene BENSALEM Université Mentouri de Constantine, Algérie - magistère en informatique 2009 |
3.3 Le contexteLe contexte est le texte en langue naturelle qui contient le(s) toponyme(s) à désambiguïser. Il est donc naturelle que l'opération de manipuler le contexte soit présente dans toute méthode de DT. Deux types d'informations qui peuvent être tirées du contexte :
L'utilisation du contexte pour associer les mots à leurs sens est une idée intuitive dont l'origine est dans le domaine de désambiguïsation des sens des mots. Cependant, le contexte dans les méthodes de désambiguïsation des toponymes est représenté généralement par les toponymes qu'il contient et non pas par tous les mots du texte. La taille du contexte dans les méthodes de DT varie de quelques toponymes autour du toponyme ambigu jusqu'à tous les toponymes du texte d'un document. Supposons qu'un document contient le texte ci-dessous4 (Les toponymes sont soulignés). « La ville de La Mecque, se situe à l'ouest de l'Arabie saoudite, sur les pentes de la chaîne d'Al-Sarawat, entre les massifs du Hedjaz et de l'Asir, plus précisément dans la vallée de l'Oued Ibrahim au pied de collines de 60 m à plus de 500 m de hauteur. Le port de Djeddah n'est distant que de 65 kilomètres. La partie est de la ville se situe entre 194 et 310 m au-dessus du niveau de la mer. La partie ouest à 400 m, se caractérise par la présence de certains monts qui peuvent atteindre jusqu'à 900 m d'altitude comme le mont Jabal Tarki (qui est la plus haute montagne de La Mecque) et le Jabal Khandama qui culmine à 914 m. » Le Tableau 3-1 illustre les différentes tailles du contexte, en supposons que le toponyme « Asir » (dans le texte ci-dessus) est le toponyme à désambiguïser. Tableau 3-1. Les différentes tailles du contexte Taille du contexte Explication Exemple
La suite du tableau est dans la page suivante 4 Ce texte est un extrait de : La Mecque. (2009, août 25). Wikipédia, l'encyclopédie libre. Page consultée le 10:21, septembre 6, 2009 à partir de http://fr.wikipedia.org/w/index.php?title=LaMecque&oldid=44178292. Tous les toponymes de la La Mecque, Arabie saoudite, Al- Phrase phrase qui contient le Sarawat, Hedjaz, Asir, Oued toponyme cible. Ibrahim. Tous les toponymes du La Mecque, Arabie saoudite, Al- Paragraphe paragraphe qui contient le Sarawat, Hedjaz, Asir, Oued toponyme cible. Ibrahim, Djeddah, Djeddah.
Buscaldi et Rosso (2008c) ont comparé la précision et le recall5 de deux heuristiques de DT en utilisant des tailles différentes de contexte. DC représente l'heuristique de la densité conceptuelle (Buscaldi et Rosso 2008a) (Voir H9 H6cidessous), et MAP représente l'heuristique de (Smith and Crane 2001) (Voir H6 cidessous). Les graphes de la Figure 3-2 (Construit à partir des
données fournies par (Buscaldi 94,70% 94,00% 92,20% 87,90% 83,20% 84,00% Phrase Paragraphe Document Précision_DC Précision_MAP Recall_DC Recall_MAP 74,20% 70,20% 63,90% 56,70% 41,60% 27,80% Figure 3-2. L'effet de la taille du contexte sur la performance de désambiguïsation des toponymes 5 La précision et le recall sont des mesures de performance des méthodes de désambiguïsation des toponymes. Voir le chapitre suivant pour plus d'informations sur ces mesures. correctement par rapport à tous les toponymes) augmente avec des valeurs significatives en augmentant la taille du contexte. Tandis que la précision diminue dans une méthode et augmente dans une autre mais avec des valeurs non importantes. |
|