La désambiguà¯sation des toponymes( Télécharger le fichier original )par Imene BENSALEM Université Mentouri de Constantine, Algérie - magistère en informatique 2009 |
AbstractThe geographical space is an ubiquitous dimension. Referring to locations in this space can be formal, based on the spatial coordinates, or informal, that we use in natural language using toponyms (place names). The formal presentation is the basis of all special processing that can make the machine. These processing are not possible using toponyms. Geographic information can be extracted from the text using natural languages processing techniques, but unfortunately it cannot be exploited unless the geographical locations are represented in a formal way, which is often not the case in textual documents. The conversion between the formal and the informal representations of geographical locations is a necessity to benefit from geographic informations extracted from the text. Toponym Disambiguation associates occurrences of place names in the text with their formal representations. This task is problematic because of the ambiguity of place names. In fact a toponym may be the name of several places in the world. Toponym Disambiguation is an essential task in a variety of applications among other spatial data mining. This thesis addresses the problem of toponym disambiguation by presenting a new algorithm that uses a source of evidence that has not yet been exploited in the state of the art methods. Keywords: Toponym Disambiguation, geographic information, arborescent relationships, Spatial Data Mining. Tout d'abord, Louange et Remerciement éternel et immense à Allah, Seigneur de l'univers, pour sa charité et sa générosité infinie envers moi. Je tiens à remercier infiniment mes parents pour leurs encouragements et leur soutien aux moments de joie et de détresse. Mes remerciements particuliers à ma mère qui n'a jamais cessé de prier pour moi, et je ne suis arrivée ici qu'avec la « baraka » de sa prière. Je remercie mon encadreur Dr. Mohammed Khireddine Kholladi d'avoir accepté l'encadrement de ce travail, et je tiens à remercier les membres du jury Dr. Alloua Chaoui, Dr. Saidouni Djamel Eddine, et Dr. Salim Chikhi d'avoir pris la peine de l'évaluer. Je suis énormément reconnaissante à Abdelhamid Baha (BAAZ entreprise), Khawla Chaib (ingénieur en informatique) pour les discussions précieuses à propos des données géographiques qui ont permis d'enrichir mes connaissances pour rédiger ce mémoire. De même que je suis reconnaissante à Saloua Chettibi (magister en informatique) et les ingénieurs (par ordre alphabétique) Amina Moualkia, Hanène Zitouni, Meriem Kemmouch de m'avoir annoté le corpus CSTR que j'allais utiliser avant de m'opter pour le sujet de désambiguïsation des toponymes. Je tiens à remercier les chercheurs Simon Overell (Imperial collage London), Davide Busaldi (Universidad Politécnica de Valencia, Espagne) et Nicola Stokes (University College Dublin, Ireland), d'avoir répondu à mes questions et fournir plus d'explications sur leurs travaux. Des remerciements particuliers à Simon Overell qui m'a proposé d'évaluer ma méthode en utilisant le corpus GeoSemCor, et à Davide Buscaldi de m'avoir envoyé une version originale de son article (Buscaldi et Rosso 2008) et aussi d'avoir partagé le corpus GeoSemCor gratuitement sur le Web. Je remercie énormément le chercheur Andras Csomai (Google) pour ses conseils précieux et pour sa suggestion de programmer avec le langage Perl qui m'a fait gagner beaucoup de temps. Je suis très reconnaissante à mes collègues et amies (par ordre alphabétique) Khouloud Meskaldji et Sara Boutamina de m'avoir corrigé la langue de l'article (Bensalem et Kholladi 2009c). Je remercie mes amies (par ordre alphabétique) Hanène Zitouni, Khouloud Meskaldji, Naouel Ouafek pour leur soutien moral, et aussi tous mes amis(es) dans l'association des Ouléma Musulmans pour leurs encouragements. Un remerciement particulier à mon oncle Khalil qui m'a soutenu matériellement lors des journées scientifiques en informatique à Oran; afin de présenter mon article. Ainsi qu'à ma soeur Abir et mon frère Walid qui m'ont cédé constamment leurs tours à utiliser le PC. Mes remerciements aussi aux Dr. Mourad Bouznada et Dr. Allaoua Chaoui de m'avoir aidé à surmonter certaines contraintes administratives. Et finalement, je remercie tous ceux qui ont contribué de près ou de loin à la réalisation de ce travail. Imene Figure 1-1. Exemple de collocations spatiales. Le pattern
{, Figure 1-2. Arbre de decision pour la classification des regions en riches vs pauvres 14 Figure 1-3. La relation entre le data mining et le KDD 18 Figure 1-4. Les types geometriques elementaires d'une donnee spatiale 22 Figure 1-5. Exemple d'une table d'informations geographiques 23 Figure 1-6. Le rôle de la desambiguïsation des toponymes dans la construction d'une base de donnees geographiques à partir du texte 30 Figure 1-7. La position de la desambiguisation des toponymes dans le processus du data mining spatial 31 Figure 2-1. Les referents de Constantine dans le monde 35 Figure 2-2. Les etapes de la desambiguïsation des toponymes 37 Figure 2-3. La page web GeoSearch News de MetaCarta: Recherche geo-spatiale dans l'actualite du monde 40 Figure 2-5. AuthorMapper: navigation geo-spatiale dans la bibliothèque Springer 41 Figure 2-4. Naviguer dans les articles de Wikipedia à travers Google Maps 41 Figure 2-6. Biocaster: suivie des eclosions des maladies dans le monde 42 Figure 2-7. La page du service MedISys : Système d'analyse des informations medicales 43 Figure 2-8. Position de la DT par rapport à d'autres domaines 44 Figure 2-9. Les differents types de chevauchements entre l'empreinte spatiale d'une requête et les empreintes spatiales des documents 46 Figure 2-10. Pipeline spatial dans la procedure d'indexation dans un système de recherche d'information geographique 47 Figure 2-11. Le processus d'extraction d'information avec la tache de desambiguïsation des toponymes 50 Figure 3-1.Les elements principaux des methodes de desambiguïsation des toponymes 59 Figure 3-2. L'effet de la taille du contexte sur la performance de desambiguïsation des toponymes 61 Figure 3-3. Chemins entre le toponyme ambigu Mecca et Saudi Arabia dans l'arbre hierarchique du monde selon le gazetteer Getty : le chemin numero 1 est le plus court car il contient 3 arc seulement. 68 Figure 3-4. Le graphe des lieux et l'arbre couvrant maximum
d'après (Li, Srihari, et al. 2003) . 69 Figure 3-6. Classification des heuristiques de désambiguïsation des toponymes 76 Figure 3-7. Taxonomie des connaissances utilisées pour la
désambiguïsation des toponymes 80 Figure 4-2. Les différents types de relations géographiques qui peuvent exister entre les lieux mentionnés dans le même contexte 92 Figure 4-3. Les toponymes du fichier br-a01 du corpus GeoSemCor annotés avec leurs sens dans WordNet. La combinaison de lemma et lexsn permet de relier le toponyme avec son sens 99 Figure 4-4. Rapport entre le nombre de toponymes et les performances de la DT : pas de corrélation significative 104 piste des tableaux Tableau 1-1. Classification des ressources d'informations geographiques selon le type de donnees 25 Tableau 1-2. Quelques travaux qui utilisent les documents textuels comme une source d'informations geographiques 27 Tableau 1-3. Comparaison entre les toponymes et les coordonnees geographiques 29 Tableau 2-1. Les types de toponymes 34 Tableau 2-2. Exemples des ressources utilisees dans les methodes de DT et les connaissances qu'ils fournissent 38 Tableau 2-4. Categories des entites nommees selon (Chinchor 1998) 48 Tableau 2-5. Comparaison entre la Desambiguïsation des Sens des Mots et la Desambiguïsation des Toponymes 52 Tableau 2-6. Quelques systèmes de geo-referencement couramment utilises 54 Tableau 2-7. Comparaison entre le geo-referencement, le geocodage et la desambiguïsation des toponymes 54 Tableau 3-1. Les differentes tailles du contexte 60 Tableau 3-2. Exemple sur l'application de l'heuristique H2 64 Tableau 3-3. Distribution des heuristiques de desambiguïsation des toponymes utilisees dans la litterature 77 Tableau 3-4. Critères de classification des connaissances utilisees pour la desambiguïsation des toponymes 78 Tableau 3-5. Les connaissances fournies par les gazetteers et les Heuristiques qui les manipulent 83 Tableau 3-6. Exemple de gazetteers utilises dans les methodes de desambigüisation des toponymes 84 Tableau 4-1. Rappel des heuristiques de l'etat de l'art de desambiguïsation des toponymes 90 Tableau 4-2. Conventions de notation de l'heuristique de densite geographique 94 Tableau 4-3. Informations à propos le corpus GeoSemCor 100 Tableau 4-4. Comparaison du nombre de referents pour certains toponymes dans WordNet et le Gaztteer Getty 101 Tableau 4-5. Resultats d'evaluation en utilisant WordNet et GeoSemCor 102 Table des matières RESUME I ~~~~~ II ABSTRACT III REMERCIEMENT IV LISTE DES FIGURES VI LISTE DES TABLEAUX VIII INTRODUCTION GENERALE 1 CONTEXTE DE LA RECHERCHE 1 MOTIVATION 3 CONTRIBUTION 4 POSITON DE LA DESAMBIGUÏSATION DES TOPONYMES PAR RAPPORT A D'AUTRES DOMAINES 5 PLAN DU MEMOIRE 6 CHAPITRE 1 DU DATA MINING SPATIAL A LA DESAMBIGUÏSATION DES TOPONYMES 8 1.1 INTRODUCTION 9 1.2 DEFINITION ET OBJECTIFS DU DATA MINING SPATIAL 9 1.3 EXEMPLES HISTORIQUES FAMEUX DE L'EXPLORATION DES DONNEES SPATIALES 10 1.4 LES TACHES DU DATA MINING SPATIAL 11 1.4.1 Les règles associatives spatiales 11 1.4.2 Les collocations spatiales 12 1.4.3 Le clustering spatial 12 1.4.4 La classification spatiale 13 1.4.5 L'analyse des tendances spatiales 15 1.4.6 L'analyse des cas singuliers 15 1.5 LE PROCESSUS DE DECOUVERTE DE CONNAISSANCE 16 1.5.1 Définition et étapes 16 1.5.2 Le sens large et le sens étroit du data mining 17 1.6 LES DONNEES GEOGRAPHIQUES 19 1.6.1 Spatiale ou géographique : quelle est la différence ? 19 1.6.2 Caractéristiques des données géographiques 20 1.6.2.1 Les composants d'une information géographique 21 1.6.2.1.1 Les données spatiales 21 1.6.2.1.2 Les données temporelles 23 1.6.2.1.3 Les attributs 23 1.6.2.2 Sources de données géographiques
24 géographiques 25 1.6.3.1 Extraction des descriptions des villes pour la mise à jour d'un SIG urbain 25 1.6.3.2 Data mining spatial sur des données géographiques extraites des pages web 26 Table des matières 1.6.3.3 L'extraction et la visualisation des événements 26 1.6.3.4 Base de données géographique pour la conscience de la situation 26 1.6.3.5 Discussion 27 1.7 LA RELATION ENTRE LE DATA MINING SPATIALES ET LA DESAMBIGUÏSATION DES TOPONYMES 28 1.8 Conclusion 31 CHAPITRE 2 LA DESAMBIGÜISATION DES TOPONYMES : NOTIONS DE BASE 33 2.1 INTRODUCTION 34 2.2 LES TOPONYMES 34 2.2.1 Définition 34 2.2.2 L'ambiguïté des toponymes 35 2.3 LA DESAMBIGUÏSATION DES TOPONYMES 36 2.3.1 Définition 36 2.3.2 Étapes 36 2.3.3 Terminologie 37 2.3.3.1 Le contexte 38 2.3.3.2 Connaissances 38 2.3.3.3 Ressources 38 2.3.4 Applications 38 2.3.4.1 Indexation géo-spatiale des documents textuels 39 2.3.4.2 Navigation géo-spatiale 40 2.3.4.3 Analyse visuelle des évènements 42 2.4 DOMAINES EN RELATION AVEC LA DESAMBIGUÏSATION DES TOPONYMES 43 2.4.1 Recherche d'information géographique 44 2.4.1.1 La Recherche d'information 44 2.4.1.2 La recherche d'information avec une dimension géographique 45 2.4.2 Extraction d'information 46 2.4.2.1 Reconnaissance des entités nommées 48 2.4.2.2 Désambiguïsation des entités nommées 48 2.4.2.3 Extraction de relations 49 2.4.2.4 Relation entre l'extraction d'information et la désambiguïsation des toponymes 51 2.4.3 Désambiguïsation des sens des mots 51 2.4.3.1 Description du problème 51 2.4.3.2 Relation de la DSM avec la désambiguïsation de toponymes 51 2.4.4 Géocodage 53 2.4.5 Géo-référencement 53 2.5 CONCLUSION 55 CHAPITRE 3 ÉTAT DE L'ART 56 3.1 INTRODUCTION 57 3.2 LES METHODES 57 3.3 LE CONTEXTE 59 3.4 LES HEURISTIQUES 62 3.4.1 Qu'est ce qu'une heuristiques de désambiguïsation de toponymes 62 3.4.2 Classification des heuristiques de désambiguïsation de toponymes 62 3.4.2.1 Désambiguïsation par le contexte 62 3.4.2.2 Désambiguïsation par les règles de préférences 71 3.4.2.3 Heuristiques complémentaires 75 Table des matières 3.5 LES CONNAISSANCES 77 3.5.1 Classification des connaissances 78 3.5.1.1 Connaissances à propos des toponymes 79 3.5.1.2 Connaissances à propos des référents 79 3.6 LES RESSOURCES 81 3.6.1 Les gazetteers 82 3.6.2 Les corpus 84 3.6.3 Les ontologies 85 3.7 CONCLUSION 86 CHAPITRE 4 UNE NOUVELLE HEURISTIQUE DE DESAMBIGUÏSATION DES TOPONYMES 87 4.1 INTRODUCTION 88 4.1.1 Aperçu sur les travaux antérieurs 88 4.1.2 Les types de relations entre les toponymes du même contexte 89 4.1.3 Une nouvelle perspective au problème de la désambiguïsation des toponymes 92 4.2 NOTRE HEURISTIQUE DE DESAMBIGUÏSATION DES TOPONYMES 94 4.2.1 Notation 94 4.2.2 Principe et méthode 95 4.2.3 La densité géographique 96 4.3 ÉVALUATION 98 4.3.1 Description des ressources 98 4.3.2 Expérimentations 101 4.3.2.1 Objectifs et métriques d'évaluation 101 4.3.2.2 Résultats et analyse 102 4.4 RAPPORT ENTRE LE NOMBRE DE TOPONYMES DANS LE CONTEXTE ET LES PERFORMANCES DE LA DT 104 4.5 CONCLUSION 104 CONCLUSION GENERALE 106 RESUME DE 24 MOIS DE RECHERCHE 106 PERSPECTIVES 109 ANNEXE A : REFERENCES DE BASE 110 ANNEXE B : FONCTION DE CALCUL DE LA DENSITE GEOGRAPHIQUE ECRITE EN PERL 111 ANNEXE C : LE TOPONYME AMBIGU `GEORGIA' DANS LES FICHIERS DE WORDNET ET LE CORPUS GEOSEMCOR 112 Presque tout ce qui se passe, se passe quelque part (Longley, et al. 2005) Contexte de la recherche L'espace géographique est une dimension omniprésente. Chacun d'entre nous connaît au moins son lieu de naissance, lieu de résidence, lieu de travail, lieux où habitent les parents et les amis, les lieux qu'il a visité et d'autres dont il a entendu parler,..., etc. En plus, généralement, il n'est pas suffisant pour nous de connaître les lieux mais nous voulons toujours plus d'information sur ces lieux. Quotidiennement on se renseigne sur la météo de notre ville ; si on veut voyager on s'informe plus sur la destination ; nous lisons les journaux pour s'informer sur les évènements d'actualité de certains lieux,..., etc. Brièvement, nous vivons sur la surface de Terre, il est donc naturel que l'ensemble de nos activités, nos expériences, nos connaissances et, nos décisions soient liées à des lieux sur l'espace géographique. La façon de se référer à un lieu, peut être formelle, basée sur les coordonnées spatiales comme la longitude et la latitude ou d'autres systèmes de géoréférencement, ou informelle, employée dans la langue naturelle en utilisant les toponymes (les noms des lieux) et les adresses postales (Hill 2006). La représentation formelle est comprise par la machine car est elle précise et peut subir des calcules mathématiques. Le fait de connaître les coordonnées spatiales permet à un système d'informations géographiques de calculer les distances, les surfaces, et les directions, et d'effectuer des analyses comme la détection des relations spatiales (ex. le chevauchement et l'inclusion), ce qui n'est pas possible en utilisant les toponymes (Hill 2006). écrite. Chacun de nous connaît son adresse postale, et peut identifier les lieux des évènements par les toponymes, mais peu sont en mesure de préciser les coordonnées spatiales des endroits qu'ils connaissent (Longley, et al. 2005). Le traitement automatique de la langue naturelle (TALN) est devenu un besoin indispensable pour bénéficier des grandes quantités de données textuelles stockées dans les pages web, les bibliothèques numériques, les rapports officielles, etc. Les informations géographiques sont parmi les informations qui peuvent être extraites du texte, mais malheureusement, elles ne peuvent être exploitées efficacement par la machine sauf si les lieux géographiques sont représentées d'une manière formelle, ce qui n'est pas souvent le cas dans les documents textuels. En fait, il a été estimé qu'au moins 70% des documents textuels contiennent des références aux lieux géographiques sous forme de toponymes (MetaCarta, Inc.). La conversion entre la représentation formelle et la représentation informelle des lieux géographiques est donc une nécessité pour pouvoir bénéficier des informations extraites d'un texte où la mention des lieux géographiques est considérée importante, comme dans les textes d'actualité, de l'histoire, les biographies, et les rapports de voyage, etc. À l'instar de plusieurs mots de la langue naturelle, les toponymes sont des mots ambigus, c.à.d. un seul toponyme peut être le nom de plusieurs lieux dans le monde (plusieurs référents). Si l'Homme ne pense même pas cette ambiguïté, celle-ci est considérée une problématique pour la machine. La Désambiguïsation des Toponyme (DT) --aussi appelée la Résolution des Toponymes-- est la tâche d'attribuer un emplacement géographique unique à un nom de lieu ambigu qui apparaît dans un contexte donné. Une fois un toponyme est désambiguïsé il sera possible de le présenter d'une manière formelle, par exemple, par la latitude et la longitude. Motivation Les méthodes de la désambiguïsation des toponymes utilisent le contexte comme source d'évidence principale. Les éléments du contexte les plus exploités pour résoudre un toponyme sont les toponymes qui apparaissent avec lui dans le même texte. Une analyse de l'état de l'art de la DT nous a permis de remarquer que beaucoup de méthodes supposent une certaine proximité géographique entre les référents des toponymes du même contexte, et les résolvent ainsi sur cette base. Certaine méthodes comme (Leidner, Sinclair et Webber 2003) et (Smith et Crane 2001) supposent une proximité spatiale entre les référents des toponymes, donc elles résolvent les toponymes par les référents les plus proches entre eux en terme de distance géométrique. D'autres méthodes comme (Buscaldi et Rosso 2008) supposent une proximité dans l'arbre hiérarchique des lieux du monde que nous appelons une proximité arborescente. Ces méthodes résolvent les toponymes par les référents les plus proches entre eux dans l'arbre hiérarchique des lieux. La relation arborescente la plus exploitée dans les méthodes de DT de la littérature est la méronymie ( c.-à-d. la relation est-partie-de). En fait, La quasi-totalité des méthodes basées sur la proximité arborescente sont basées sur la découverte de ce type de relations entre les référents des toponymes du même contexte. Par exemple, si les toponymes du contexte sont {Constantine, Algérie} les méthodes basées sur la méronymie résolvent ces toponymes ambigus respectivement en {Constantine>Algérie, Algérie>Afrique} au lieu par exemple de {Constantine>Michigan>USA, Algérie>Massachusetts>USA}1, car il y a une relation de méronymie entre les référents du premier ensemble (Constantine est méronyme de Algérie 2), et ce n'est pas le cas dans le deuxième ensemble. 1 Ces référents sont obtenus du glossaire géographique Getty disponible en ligne dans l'adresse : http://www.getty.edu/research/conductingresearch/vocabularies/tgn. 2 C'est-à-dire Constantine est partie de l'Algérie. Cependant, d'autres relations arborescentes comme l'holonymie (l'inverse de la méronymie) et les relations non hiérarchique n'ont pas été -jusqu'à présent- bien exploitées comme sources d'évidence. Par ailleurs, le rôle de la détection des relations arborescentes dans la désambiguïsation des toponymes n'a pas été encore étudié. Contribution Notre contribution se résume en 4 points :
En plus, nous avons réalisé un état de l'art des méthodes de désambiguïsation des toponymes selon notre propre point de vue. Position de la désambiguïsation des toponymes par rapport à d'autres domaines Une fois les toponymes qui existent dans un texte sont identifiés puis désambiguïsés, ils peuvent être utiles dans une multitude d'applications. Par exemple, dans un moteur de recherche, les réponses aux requêtes contenant des toponymes deviennent grâce à la DT plus précises, car le système de recherche d'information devient capable de distinguer les lieux qui portent le même nom, et donc définir la pertinence d'un document pour une requête sur cette base. La visualisation des collections de documents sur des cartes géographiques pour des fins d'analyse ou de navigation devient aussi possible grâce à l'étiquetage de chaque document par les coordonnées géographiques des toponymes qu'il renferme. La DT permet aussi d'intégrer sans ambiguïté des données géographiques en provenance du texte dans des bases de données géographiques. Ces dernières peuvent en suite subir une analyse en utilisant entre autre le data mining spatial. Le data mining spatial (DMS) est une analyse approfondie qui sert à découvrir des relations et des modèles implicites dans les grandes quantités de données spatiales. L'intégration de données de plusieurs sources est une opération de préparation des données pratiquement présente dans tout projet du data mining (spatial ou autre). La désambiguïsation des toponymes se situe donc dans la phase de prétraitement des données dans le processus du data mininig spatial, notamment, si les sources des données à intégrer sont des documents textuels. La désambiguïsation des toponymes se situe dans l'intersection de deux disciplines qui sont le traitement automatique de la langue naturelle (TALN) et les systèmes d'information géographique (SIG). Chacune de ses deux disciplines lui offrent un éventail de techniques. Plan du mémoire Notre mémoire s'articule de la manière suivante : Notre départ dans le monde de la recherche pour réaliser ce mémoire était dans le domaine du data mining spatial, mais nous somme arrivée à une contribution dans la désambiguïsation des toponymes. Le chapitre 1 explique en détail la position de la DT par rapport au DMS en passant par la définition des données géographiques qui sont le point central qui relie les deux domaines. Le 2èm chapitre présente les différents types de l'ambiguïté des toponymes et positionne notre recherche par rapport à ces types. En outre, en raison de la nature multidisciplinaire de ce mémoire, nous présentons dans ce même chapitre des notions de base dans tous les domaines qui possède une relation avec la désambiguïsation des toponymes comme le traitement automatique de la langue naturelle, les systèmes d'informations géographique et la recherche d'information afin de préparer le terrain pour la suite du mémoire. Dans le chapitre 3 nous discutons l'état de l'art des différents travaux sur la désambiguïsation des toponymes en distinguons 4 composants intrinsèques pratiquement à toute méthode qui sont : le contexte, les heuristiques, les connaissances, et les ressources. En plus, nous proposons des critères de classification des heuristiques et des connaissances, et nous pensons que cette classification pourrait réduire la grande diversité entre les méthodes de sorte qu'elle les organise dans des catégories génériques, et par conséquent elle aide à leur comparaison et assimilation. Dans le chapitre 4 nous discutons certaines lacunes dans les heuristiques de la DT, notamment la non exploitation des différentes relations possibles entre les toponymes du même contexte, et nous proposons une heuristique qui remédie à cette lacune. Les performances de notre méthode sont ensuite comparées à celles d'autres méthodes est des conclusions sont tirées en analysant les résultats de comparaison. Finalement, nous terminons par une conclusion générale qui présente un résumé de notre recherche et un ensemble de perspectives. |
|