![]() |
La désambiguà¯sation des toponymes( Télécharger le fichier original )par Imene BENSALEM Université Mentouri de Constantine, Algérie - magistère en informatique 2009 |
1.6.3.5 Discussion
1.7 La relation entre le data mining spatiales et ladésambiguïsation des toponymes Nous avons montré dans la section précédente que les documents textuels peuvent servir comme une source de données géographiques. En plus, dans certains travaux comme (Morimoto, et al. 2003) le data mining spatial a été utilisé pour tirer des connaissances à partir des informations géographiques provenant du texte. La question qui se pose maintenant est : quel est la relation de tout ça avec la désambiguïsation des toponymes qui est le sujet principal de ce mémoire ? 9 D'après une communication personnelle avec Dmitri V. Kalashnikov, le premier auteur des deux articles cités ci-dessus. Tableau 1-3. Comparaison entre les toponymes et les coordonnées géographiques Toponymes Cordonnées géographiques Données attributaires Données spatiales Non formels (nominales) Formelles Ne peuvent pas subir les calculs géométriques Manipulés beaucoup plus par l'Homme dans le texte et la parole Permettent les calculs géométriques Manipulées beaucoup plus par la machine, notamment par les SIG En effet, l'utilisation du texte comme source de données (géographiques et non géographiques) pâti d`un grand problème qui est l'ambiguïté des sens des noms propres. Généralement, cette ambiguïté consiste à l'utilisation d'un seul nom pour représenter des entités différentes. Les toponymes c.-à-d. les noms des lieux sont parmi les noms propres qui peuvent être extraits du texte, notamment pour construire une base de données géographiques. À l'instar des autres types de noms propres, les toponymes sont des noms très ambigus (voir le chapitre suivant). Constantine, par exemples, est le nom de 17 lieux dans le monde10. L'ambiguïté des toponymes est un problème pour le data mining spatial pour deux raisons, d'un coté, elle réduit la qualité de données, qui est un facteur important pour la réussite du data mining11, et d'un autre côté c'est un obstacle à l'intégration de données de plusieurs sources, qui est une étape importante pour la préparation des données du DMS. En outre, les toponymes sont des données attributaire
non formelles. Il est donc 10 D'après Getty Thesaurus of Geographic names online http://www.getty.edu/research/conductingresearch/vocabularies/tgn (consulté le 6 mai 2009) Le groupe pétrolier public algérien Sonatrach annonce la découverte de pétrole dans le bassin de Ghadamès, à 230 km au sud de Tripoli. Cette découverte a été effectuée "suite au forage du puits d'exploration A1-65/02", attribué en mars 2005 par la National Oil Corporation (NOC), la compagnie Extraction d'information Tripoli a 10 référents : 1 en Lybie, 1 en Lebon ? et 8 en USA. Le toponyme La donnée spatiale de toponymes Lybie Désambiguïsation Tripoli de Figure 1-6. Le rôle de la
désambiguïsation des toponymes dans la construction d'une base
de une base de données qui contient des données spatiales (voir Section 1.6.2.1). Contrairement aux toponymes, Ces dernières, peuvent d'un côté, subir des calculs géométriques, qui sont les opérations de base des tâches du DMS et d'un autre coté, elles sont précises, ce qui est une caractéristique centrale pour la réussite du data mining spatial. Le Tableau 1-3 (voir Page 29) résume les différences qui existent entre les coordonnées géographiques qui sont des données spatiales et les toponymes qui sont donnée attributaire. La désambigüisation des toponymes peut être considérée comme une étape de prétraitement de données dans le processus du DMS permettant de déterminer le lieu à lequel il se réfère chaque toponyme ambigu extrait de la source textuelle. Autrement dit, la désambiguïsation des toponymes permet d'attribuer à un toponyme, qui est une donnée ambiguë non formelle, une position unique dans la Terre, qui est une donnée précise. Cette dernière peut être convertie en une représentation formelle (spatiale) qui est indispensable pour les traitements spatiaux notamment le data mining spatial. La Figure 1-6 est une illustration de ce point. 11 L'application du data mining (spatial ou autre) sur des données ambiguës va sûrement engendrer des résultats erronés. Figure 1-7. La position de la désambiguisation des toponymes dans le processus du data mining spatial Brièvement, la relation du data mining spatial et la désambiguïsation des toponymes se résume dans la phrase suivante : la désambiguïsation des toponymes est une technique indispensable dans la phase de préparation des données du data mining spatial dans le cas où le texte en langue naturelle est utilisé comme une source des données géographiques. La Figure 1-7 montre la position de la DT dans le processus du DMS. |
|