WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La désambiguà¯sation des toponymes

( Télécharger le fichier original )
par Imene BENSALEM
Université Mentouri de Constantine, Algérie - magistère en informatique 2009
  

Disponible en mode multipage

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE
Ministère de l'enseignement supérieur et de la recherche scientifique
Université Mentouri de Constantine
Faculté des sciences de l'ingénieur
Département d'Informatique

Mémoire en vue de l'obtention du diplôme Magistère en informatique

Numéro d'ordre : 356/mag/2009 Numéro de série : 013/inf/2009

La Désambiguïsation des Toponymes

Présenté par : Imene Bensalem

Encadrée par: Dr. Mohamed Kireddine Kholladi Le jury est composé de :

Président: Dr. Alloua Chaoui

Rapporteur: Dr. Mohammed Kireddine Kholladi

Examinateur : Dr. Saidouni Djamel Eddine Examinateur : Dr. Salim Chikhi

Résumé

L'espace géographique est une dimension omniprésente. La façon de se référer à un lieu dans cet espace, peut être formelle basée sur les coordonnées spatiales, ou informelle, que nous employons dans la langue naturelle en utilisant les toponymes (les noms des lieux). La présentation formelle est la base de tous les traitements spatiaux que peut effectuer la machine. Ces traitements ne sont pas possible en utilisant les toponymes. Les informations géographiques sont parmi les informations qui peuvent être extraites du texte en utilisant les techniques du traitement automatique des langues naturelles, mais malheureusement, elles ne peuvent être exploitées que si les lieux géographiques sont représentés d'une manière formelle, ce qui n'est pas souvent le cas dans les documents textuels. La conversion entre la représentation formelle et la représentation informelles des lieux géographiques est donc une nécessité pour pouvoir bénéficier des informations géographiques extraites du texte. La désambiguïsation de toponyme associe aux occurrences de toponymes dans le texte leurs représentations formelles. Cette tâche est problématique à cause de l'ambiguïté des toponymes. En effet un toponyme peut être le nom de plusieurs lieux dans le monde. La désambiguïsation des toponymes est une tâche primordiale dans une multitude d'application entre autre le data mining spatial. Ce mémoire traite le problème de la désambiguïsation de toponymes en présentant une nouvelle heuristique qui utilise une source d'évidence qui n'a pas encore été exploité dans les méthodes le l'état de l'art.

Mots clé : désambiguïsation de toponymes, informations géographiques, relations arborescentes.

???????? íÖÇíÑ ???? ??? ÁÇÖáÇ ??? ?? ????

???

??????

???

. ???? ?? ?? ?????? ??? ?? ???????? ÁÇÖáÇ

??

????? ?????

?? ?????

??? ?

??

??? . ??? 14?

??51.1 ????

????

ÉíÇÑÛÌáÇ ??????? ÁÇãÓ ?? ? ?? ????? ??? ???? ?? ÉíäÇßãáÇ ?????????

???????? ? ????????? ?? ???? ?? ??????? ????? . ???????? ?????

????????

??????? ???????? ???????? ?????? ?????? ?????? ???? . ?????? ÁÇãÓ ???????? ????? ???? ?? ??????? ??? ??????? ???? ??? ?? ???? ???????? ? ? ????????? ??? ?????? ???? ? ???? ???? ?????? ?? ??????? ??????? ?? . ???????? ?????? ?????? ????? ?????? ?? ???????? ???? ??? ??? ? íÖÇíÑ ???? ???? ? ????????? ????????? ?? ???????? ?????? ???? ??? ????????? ??????? ?????? ??????? ???? ??????? ????? ???

?? ???????? ????????? ÁÇãÓ?Ç ??? ????? ? ? ?????? ÁÇãÓ ????? . ?????? ?? ????????? ?????????

?? . ?????? ÁÇãÓ ???? ???? ??? ? ???? ??????? ??????? ?????? ??? ????? . ??????? ???????? ??????

?????? ??????? ??? ÁÇÑÌÅ

?? ?????? ÁÇãÓ ????? .?????? ?? ????? ???

???? ??

??????

???? ????

?? ??????

??? ? ?????? ÁÇãÓ

?????

?????

??????? ??? ??????

. ???????? ????????

?? ??????? ????? ??

?????????

??

. ???????? ???????? ?? ???????

??????? ??????? ÉíÇÑÛÌáÇ ????????? äßÇã?Ç ÁÇãÓ ?????

 

????????

???????

. ????? ???????? ??????? ?? ??? ?? ????????? ??? ?? ?????? ????? ?????? ?????? ????? ???????? ???????

Abstract

The geographical space is an ubiquitous dimension. Referring to locations in this space can be formal, based on the spatial coordinates, or informal, that we use in natural language using toponyms (place names). The formal presentation is the basis of all special processing that can make the machine. These processing are not possible using toponyms. Geographic information can be extracted from the text using natural languages processing techniques, but unfortunately it cannot be exploited unless the geographical locations are represented in a formal way, which is often not the case in textual documents. The conversion between the formal and the informal representations of geographical locations is a necessity to benefit from geographic informations extracted from the text. Toponym Disambiguation associates occurrences of place names in the text with their formal representations. This task is problematic because of the ambiguity of place names. In fact a toponym may be the name of several places in the world. Toponym Disambiguation is an essential task in a variety of applications among other spatial data mining. This thesis addresses the problem of toponym disambiguation by presenting a new algorithm that uses a source of evidence that has not yet been exploited in the state of the art methods.

Keywords: Toponym Disambiguation, geographic information, arborescent relationships, Spatial Data Mining.

Tout d'abord, Louange et Remerciement éternel et immense à Allah, Seigneur de l'univers, pour sa charité et sa générosité infinie envers moi.

Je tiens à remercier infiniment mes parents pour leurs encouragements et leur soutien aux moments de joie et de détresse. Mes remerciements particuliers à ma mère qui n'a jamais cessé de prier pour moi, et je ne suis arrivée ici qu'avec la « baraka » de sa prière.

Je remercie mon encadreur Dr. Mohammed Khireddine Kholladi d'avoir accepté l'encadrement de ce travail, et je tiens à remercier les membres du jury Dr. Alloua Chaoui, Dr. Saidouni Djamel Eddine, et Dr. Salim Chikhi d'avoir pris la peine de l'évaluer.

Je suis énormément reconnaissante à Abdelhamid Baha (BAAZ entreprise), Khawla Chaib (ingénieur en informatique) pour les discussions précieuses à propos des données géographiques qui ont permis d'enrichir mes connaissances pour rédiger ce mémoire.

De même que je suis reconnaissante à Saloua Chettibi (magister en informatique) et les ingénieurs (par ordre alphabétique) Amina Moualkia, Hanène Zitouni, Meriem Kemmouch de m'avoir annoté le corpus CSTR que j'allais utiliser avant de m'opter pour le sujet de désambiguïsation des toponymes.

Je tiens à remercier les chercheurs Simon Overell (Imperial collage London), Davide Busaldi (Universidad Politécnica de Valencia, Espagne) et Nicola Stokes (University College Dublin, Ireland), d'avoir répondu à mes questions et fournir plus d'explications sur leurs travaux. Des remerciements particuliers à Simon Overell qui m'a proposé d'évaluer ma méthode en utilisant le corpus GeoSemCor, et à Davide Buscaldi de m'avoir envoyé une version originale de son article (Buscaldi et Rosso 2008) et aussi d'avoir partagé le corpus GeoSemCor gratuitement sur le Web.

Je remercie énormément le chercheur Andras Csomai (Google) pour ses conseils précieux et pour sa suggestion de programmer avec le langage Perl qui m'a fait gagner beaucoup de temps.

Je suis très reconnaissante à mes collègues et amies (par ordre alphabétique) Khouloud Meskaldji et Sara Boutamina de m'avoir corrigé la langue de l'article (Bensalem et Kholladi 2009c).

Je remercie mes amies (par ordre alphabétique) Hanène Zitouni, Khouloud Meskaldji, Naouel Ouafek pour leur soutien moral, et aussi tous mes amis(es) dans l'association des Ouléma Musulmans pour leurs encouragements.

Un remerciement particulier à mon oncle Khalil qui m'a soutenu matériellement lors des journées scientifiques en informatique à Oran; afin de présenter mon article. Ainsi qu'à ma soeur Abir et mon frère Walid qui m'ont cédé constamment leurs tours à utiliser le PC.

Mes remerciements aussi aux Dr. Mourad Bouznada et Dr. Allaoua Chaoui de m'avoir aidé à surmonter certaines contraintes administratives.

Et finalement, je remercie tous ceux qui ont contribué de près ou de loin à la réalisation de ce travail.

Imene

Figure 1-1. Exemple de collocations spatiales. Le pattern {,
·
} est une collocation spatiale 13

Figure 1-2. Arbre de decision pour la classification des regions en riches vs pauvres 14

Figure 1-3. La relation entre le data mining et le KDD 18

Figure 1-4. Les types geometriques elementaires d'une donnee spatiale 22

Figure 1-5. Exemple d'une table d'informations geographiques 23

Figure 1-6. Le rôle de la desambiguïsation des toponymes dans la construction d'une base de donnees geographiques à partir du texte 30

Figure 1-7. La position de la desambiguisation des toponymes dans le processus du data

mining spatial 31

Figure 2-1. Les referents de Constantine dans le monde 35

Figure 2-2. Les etapes de la desambiguïsation des toponymes 37

Figure 2-3. La page web GeoSearch News de MetaCarta: Recherche geo-spatiale dans l'actualite du monde 40

Figure 2-5. AuthorMapper: navigation geo-spatiale dans la bibliothèque Springer 41

Figure 2-4. Naviguer dans les articles de Wikipedia à travers Google Maps 41

Figure 2-6. Biocaster: suivie des eclosions des maladies dans le monde 42

Figure 2-7. La page du service MedISys : Système d'analyse des informations medicales 43

Figure 2-8. Position de la DT par rapport à d'autres domaines 44

Figure 2-9. Les differents types de chevauchements entre l'empreinte spatiale d'une requête et les empreintes spatiales des documents 46

Figure 2-10. Pipeline spatial dans la procedure d'indexation dans un système de recherche d'information geographique 47

Figure 2-11. Le processus d'extraction d'information avec la tache de desambiguïsation des toponymes 50

Figure 3-1.Les elements principaux des methodes de desambiguïsation des toponymes 59

Figure 3-2. L'effet de la taille du contexte sur la performance de desambiguïsation des toponymes 61

Figure 3-3. Chemins entre le toponyme ambigu Mecca et Saudi Arabia dans l'arbre hierarchique du monde selon le gazetteer Getty : le chemin numero 1 est le plus court car il contient 3 arc seulement. 68

Figure 3-4. Le graphe des lieux et l'arbre couvrant maximum d'après (Li, Srihari, et al. 2003) . 69
Figure 3-5. Les resultats de la requête "cairo" dans le moteur de recherche Yahoo! 73

Figure 3-6. Classification des heuristiques de désambiguïsation des toponymes 76

Figure 3-7. Taxonomie des connaissances utilisées pour la désambiguïsation des toponymes 80
Figure 4-1. Une partie de l'arbre hiérarchique du monde (Alger est un toponyme ambigu) 91

Figure 4-2. Les différents types de relations géographiques qui peuvent exister entre les lieux mentionnés dans le même contexte 92

Figure 4-3. Les toponymes du fichier br-a01 du corpus GeoSemCor annotés avec leurs sens dans WordNet. La combinaison de lemma et lexsn permet de relier le toponyme avec son sens 99

Figure 4-4. Rapport entre le nombre de toponymes et les performances de la DT : pas de corrélation significative 104

piste des tableaux

Tableau 1-1. Classification des ressources d'informations geographiques selon le type de donnees 25

Tableau 1-2. Quelques travaux qui utilisent les documents textuels comme une source d'informations geographiques 27

Tableau 1-3. Comparaison entre les toponymes et les coordonnees geographiques 29

Tableau 2-1. Les types de toponymes 34

Tableau 2-2. Exemples des ressources utilisees dans les methodes de DT et les connaissances qu'ils fournissent 38

Tableau 2-4. Categories des entites nommees selon (Chinchor 1998) 48

Tableau 2-5. Comparaison entre la Desambiguïsation des Sens des Mots et la Desambiguïsation des Toponymes 52

Tableau 2-6. Quelques systèmes de geo-referencement couramment utilises 54

Tableau 2-7. Comparaison entre le geo-referencement, le geocodage et la desambiguïsation des toponymes 54

Tableau 3-1. Les differentes tailles du contexte 60

Tableau 3-2. Exemple sur l'application de l'heuristique H2 64

Tableau 3-3. Distribution des heuristiques de desambiguïsation des toponymes utilisees dans

la litterature 77

Tableau 3-4. Critères de classification des connaissances utilisees pour la desambiguïsation des toponymes 78

Tableau 3-5. Les connaissances fournies par les gazetteers et les Heuristiques qui les manipulent 83

Tableau 3-6. Exemple de gazetteers utilises dans les methodes de desambigüisation des toponymes 84

Tableau 4-1. Rappel des heuristiques de l'etat de l'art de desambiguïsation des toponymes 90

Tableau 4-2. Conventions de notation de l'heuristique de densite geographique 94

Tableau 4-3. Informations à propos le corpus GeoSemCor 100

Tableau 4-4. Comparaison du nombre de referents pour certains toponymes dans WordNet et le Gaztteer Getty 101

Tableau 4-5. Resultats d'evaluation en utilisant WordNet et GeoSemCor 102

Table des matières

RESUME I

~~~~~ II

ABSTRACT III

REMERCIEMENT IV

LISTE DES FIGURES VI

LISTE DES TABLEAUX VIII

INTRODUCTION GENERALE 1

CONTEXTE DE LA RECHERCHE 1

MOTIVATION 3

CONTRIBUTION 4

POSITON DE LA DESAMBIGUÏSATION DES TOPONYMES PAR RAPPORT A D'AUTRES DOMAINES 5

PLAN DU MEMOIRE 6

CHAPITRE 1 DU DATA MINING SPATIAL A LA DESAMBIGUÏSATION DES TOPONYMES 8

1.1 INTRODUCTION 9

1.2 DEFINITION ET OBJECTIFS DU DATA MINING SPATIAL 9

1.3 EXEMPLES HISTORIQUES FAMEUX DE L'EXPLORATION DES DONNEES SPATIALES 10

1.4 LES TACHES DU DATA MINING SPATIAL 11

1.4.1 Les règles associatives spatiales 11

1.4.2 Les collocations spatiales 12

1.4.3 Le clustering spatial 12

1.4.4 La classification spatiale 13

1.4.5 L'analyse des tendances spatiales 15

1.4.6 L'analyse des cas singuliers 15

1.5 LE PROCESSUS DE DECOUVERTE DE CONNAISSANCE 16

1.5.1 Définition et étapes 16

1.5.2 Le sens large et le sens étroit du data mining 17

1.6 LES DONNEES GEOGRAPHIQUES 19

1.6.1 Spatiale ou géographique : quelle est la différence ? 19

1.6.2 Caractéristiques des données géographiques 20

1.6.2.1 Les composants d'une information géographique 21

1.6.2.1.1 Les données spatiales 21

1.6.2.1.2 Les données temporelles 23

1.6.2.1.3 Les attributs 23

1.6.2.2 Sources de données géographiques 24
1.6.3 Des exemples de travaux sur l'utilisation du texte comme une source de données

géographiques 25

1.6.3.1 Extraction des descriptions des villes pour la mise à jour d'un SIG urbain 25

1.6.3.2 Data mining spatial sur des données géographiques extraites des pages web 26

Table des matières

1.6.3.3 L'extraction et la visualisation des événements 26

1.6.3.4 Base de données géographique pour la conscience de la situation 26

1.6.3.5 Discussion 27

1.7 LA RELATION ENTRE LE DATA MINING SPATIALES ET LA DESAMBIGUÏSATION DES TOPONYMES 28

1.8 Conclusion 31

CHAPITRE 2 LA DESAMBIGÜISATION DES TOPONYMES : NOTIONS DE BASE 33

2.1 INTRODUCTION 34

2.2 LES TOPONYMES 34

2.2.1 Définition 34

2.2.2 L'ambiguïté des toponymes 35

2.3 LA DESAMBIGUÏSATION DES TOPONYMES 36

2.3.1 Définition 36

2.3.2 Étapes 36

2.3.3 Terminologie 37

2.3.3.1 Le contexte 38

2.3.3.2 Connaissances 38

2.3.3.3 Ressources 38

2.3.4 Applications 38

2.3.4.1 Indexation géo-spatiale des documents textuels 39

2.3.4.2 Navigation géo-spatiale 40

2.3.4.3 Analyse visuelle des évènements 42

2.4 DOMAINES EN RELATION AVEC LA DESAMBIGUÏSATION DES TOPONYMES 43

2.4.1 Recherche d'information géographique 44

2.4.1.1 La Recherche d'information 44

2.4.1.2 La recherche d'information avec une dimension géographique 45

2.4.2 Extraction d'information 46

2.4.2.1 Reconnaissance des entités nommées 48

2.4.2.2 Désambiguïsation des entités nommées 48

2.4.2.3 Extraction de relations 49

2.4.2.4 Relation entre l'extraction d'information et la désambiguïsation des toponymes 51

2.4.3 Désambiguïsation des sens des mots 51

2.4.3.1 Description du problème 51

2.4.3.2 Relation de la DSM avec la désambiguïsation de toponymes 51

2.4.4 Géocodage 53

2.4.5 Géo-référencement 53

2.5 CONCLUSION 55

CHAPITRE 3 ÉTAT DE L'ART 56

3.1 INTRODUCTION 57

3.2 LES METHODES 57

3.3 LE CONTEXTE 59

3.4 LES HEURISTIQUES 62

3.4.1 Qu'est ce qu'une heuristiques de désambiguïsation de toponymes 62

3.4.2 Classification des heuristiques de désambiguïsation de toponymes 62

3.4.2.1 Désambiguïsation par le contexte 62

3.4.2.2 Désambiguïsation par les règles de préférences 71

3.4.2.3 Heuristiques complémentaires 75

Table des matières

3.5 LES CONNAISSANCES 77

3.5.1 Classification des connaissances 78

3.5.1.1 Connaissances à propos des toponymes 79

3.5.1.2 Connaissances à propos des référents 79

3.6 LES RESSOURCES 81

3.6.1 Les gazetteers 82

3.6.2 Les corpus 84

3.6.3 Les ontologies 85

3.7 CONCLUSION 86

CHAPITRE 4 UNE NOUVELLE HEURISTIQUE DE DESAMBIGUÏSATION DES TOPONYMES 87

4.1 INTRODUCTION 88

4.1.1 Aperçu sur les travaux antérieurs 88

4.1.2 Les types de relations entre les toponymes du même contexte 89

4.1.3 Une nouvelle perspective au problème de la désambiguïsation des toponymes 92

4.2 NOTRE HEURISTIQUE DE DESAMBIGUÏSATION DES TOPONYMES 94

4.2.1 Notation 94

4.2.2 Principe et méthode 95

4.2.3 La densité géographique 96

4.3 ÉVALUATION 98

4.3.1 Description des ressources 98

4.3.2 Expérimentations 101

4.3.2.1 Objectifs et métriques d'évaluation 101

4.3.2.2 Résultats et analyse 102

4.4 RAPPORT ENTRE LE NOMBRE DE TOPONYMES DANS LE CONTEXTE ET LES PERFORMANCES DE LA DT 104

4.5 CONCLUSION 104

CONCLUSION GENERALE 106

RESUME DE 24 MOIS DE RECHERCHE 106

PERSPECTIVES 109

ANNEXE A : REFERENCES DE BASE 110

ANNEXE B : FONCTION DE CALCUL DE LA DENSITE GEOGRAPHIQUE ECRITE EN PERL 111

ANNEXE C : LE TOPONYME AMBIGU `GEORGIA' DANS LES FICHIERS DE WORDNET ET LE CORPUS GEOSEMCOR 112

Presque tout ce qui se passe, se passe quelque part

(Longley, et al. 2005)

Contexte de la recherche

L'espace géographique est une dimension omniprésente. Chacun d'entre nous connaît au moins son lieu de naissance, lieu de résidence, lieu de travail, lieux où habitent les parents et les amis, les lieux qu'il a visité et d'autres dont il a entendu parler,..., etc. En plus, généralement, il n'est pas suffisant pour nous de connaître les lieux mais nous voulons toujours plus d'information sur ces lieux. Quotidiennement on se renseigne sur la météo de notre ville ; si on veut voyager on s'informe plus sur la destination ; nous lisons les journaux pour s'informer sur les évènements d'actualité de certains lieux,..., etc. Brièvement, nous vivons sur la surface de Terre, il est donc naturel que l'ensemble de nos activités, nos expériences, nos connaissances et, nos décisions soient liées à des lieux sur l'espace géographique.

La façon de se référer à un lieu, peut être formelle, basée sur les coordonnées spatiales comme la longitude et la latitude ou d'autres systèmes de géoréférencement, ou informelle, employée dans la langue naturelle en utilisant les toponymes (les noms des lieux) et les adresses postales (Hill 2006).

La représentation formelle est comprise par la machine car est elle précise et peut subir des calcules mathématiques. Le fait de connaître les coordonnées spatiales permet à un système d'informations géographiques de calculer les distances, les surfaces, et les directions, et d'effectuer des analyses comme la détection des relations spatiales (ex. le chevauchement et l'inclusion), ce qui n'est pas possible en utilisant les toponymes (Hill 2006).

écrite. Chacun de nous connaît son adresse postale, et peut identifier les lieux des évènements par les toponymes, mais peu sont en mesure de préciser les coordonnées spatiales des endroits qu'ils connaissent (Longley, et al. 2005).

Le traitement automatique de la langue naturelle (TALN) est devenu un besoin indispensable pour bénéficier des grandes quantités de données textuelles stockées dans les pages web, les bibliothèques numériques, les rapports officielles, etc. Les informations géographiques sont parmi les informations qui peuvent être extraites du texte, mais malheureusement, elles ne peuvent être exploitées efficacement par la machine sauf si les lieux géographiques sont représentées d'une manière formelle, ce qui n'est pas souvent le cas dans les documents textuels. En fait, il a été estimé qu'au moins 70% des documents textuels contiennent des références aux lieux géographiques sous forme de toponymes (MetaCarta, Inc.).

La conversion entre la représentation formelle et la représentation informelle des lieux géographiques est donc une nécessité pour pouvoir bénéficier des informations extraites d'un texte où la mention des lieux géographiques est considérée importante, comme dans les textes d'actualité, de l'histoire, les biographies, et les rapports de voyage, etc.

À l'instar de plusieurs mots de la langue naturelle, les toponymes sont des mots ambigus, c.à.d. un seul toponyme peut être le nom de plusieurs lieux dans le monde (plusieurs référents). Si l'Homme ne pense même pas cette ambiguïté, celle-ci est considérée une problématique pour la machine.

La Désambiguïsation des Toponyme (DT) --aussi appelée la Résolution des Toponymes-- est la tâche d'attribuer un emplacement géographique unique à un nom de lieu ambigu qui apparaît dans un contexte donné. Une fois un toponyme est désambiguïsé il sera possible de le présenter d'une manière formelle, par exemple, par la latitude et la longitude.

Motivation

Les méthodes de la désambiguïsation des toponymes utilisent le contexte comme source d'évidence principale. Les éléments du contexte les plus exploités pour résoudre un toponyme sont les toponymes qui apparaissent avec lui dans le même texte.

Une analyse de l'état de l'art de la DT nous a permis de remarquer que beaucoup de méthodes supposent une certaine proximité géographique entre les référents des toponymes du même contexte, et les résolvent ainsi sur cette base. Certaine méthodes comme (Leidner, Sinclair et Webber 2003) et (Smith et Crane 2001) supposent une proximité spatiale entre les référents des toponymes, donc elles résolvent les toponymes par les référents les plus proches entre eux en terme de distance géométrique. D'autres méthodes comme (Buscaldi et Rosso 2008) supposent une proximité dans l'arbre hiérarchique des lieux du monde que nous appelons une proximité arborescente. Ces méthodes résolvent les toponymes par les référents les plus proches entre eux dans l'arbre hiérarchique des lieux.

La relation arborescente la plus exploitée dans les méthodes de DT de la littérature est la méronymie ( c.-à-d. la relation est-partie-de). En fait, La quasi-totalité des méthodes basées sur la proximité arborescente sont basées sur la découverte de ce type de relations entre les référents des toponymes du même contexte. Par exemple, si les toponymes du contexte sont {Constantine, Algérie} les méthodes basées sur la méronymie résolvent ces toponymes ambigus respectivement en {Constantine>Algérie, Algérie>Afrique} au lieu par exemple de {Constantine>Michigan>USA, Algérie>Massachusetts>USA}1, car il y a une relation de méronymie entre les référents du premier ensemble (Constantine est méronyme de Algérie 2), et ce n'est pas le cas dans le deuxième ensemble.

1 Ces référents sont obtenus du glossaire géographique Getty disponible en ligne dans l'adresse : http://www.getty.edu/research/conductingresearch/vocabularies/tgn.

2 C'est-à-dire Constantine est partie de l'Algérie.

Cependant, d'autres relations arborescentes comme l'holonymie (l'inverse de la méronymie) et les relations non hiérarchique n'ont pas été -jusqu'à présent- bien exploitées comme sources d'évidence. Par ailleurs, le rôle de la détection des relations arborescentes dans la désambiguïsation des toponymes n'a pas été encore étudié.

Contribution

Notre contribution se résume en 4 points :

1. Classifier les relations géographiques qui peuvent contribuer à la désambiguïsation des toponymes en relations arborescentes et relations spatiales, et proposer une nouvelle vue du problème de la désambiguïsation des toponymes en considérant les relations arborescentes (avec touts leurs types) comme sources d'évidence.

2. Introduire la métrique de la Densité Géographique qui quantifie le degré des relations arborescentes entre les référents des toponymes.

3. Proposer une heuristique capable de résoudre les toponymes ambigus dans un texte en se basant sur la découverte de toutes les relations arborescentes qui existent éventuellement entre eux.

4. Étudier l'effet de la découverte des relations arborescentes dans la désambiguïsation des toponymes en comparant les performances de notre méthode à celles de quelques autres méthodes, entre autre une méthode basée sur la découverte des relations spatiales.

En plus, nous avons réalisé un état de l'art des méthodes de désambiguïsation des toponymes selon notre propre point de vue.

Position de la désambiguïsation des toponymes par

rapport à d'autres domaines

Une fois les toponymes qui existent dans un texte sont identifiés puis désambiguïsés, ils peuvent être utiles dans une multitude d'applications. Par exemple, dans un moteur de recherche, les réponses aux requêtes contenant des toponymes deviennent grâce à la DT plus précises, car le système de recherche d'information devient capable de distinguer les lieux qui portent le même nom, et donc définir la pertinence d'un document pour une requête sur cette base. La visualisation des collections de documents sur des cartes géographiques pour des fins d'analyse ou de navigation devient aussi possible grâce à l'étiquetage de chaque document par les coordonnées géographiques des toponymes qu'il renferme. La DT permet aussi d'intégrer sans ambiguïté des données géographiques en provenance du texte dans des bases de données géographiques. Ces dernières peuvent en suite subir une analyse en utilisant entre autre le data mining spatial.

Le data mining spatial (DMS) est une analyse approfondie qui sert à découvrir des relations et des modèles implicites dans les grandes quantités de données spatiales. L'intégration de données de plusieurs sources est une opération de préparation des données pratiquement présente dans tout projet du data mining (spatial ou autre). La désambiguïsation des toponymes se situe donc dans la phase de prétraitement des données dans le processus du data mininig spatial, notamment, si les sources des données à intégrer sont des documents textuels.

La désambiguïsation des toponymes se situe dans l'intersection de deux disciplines qui sont le traitement automatique de la langue naturelle (TALN) et les systèmes d'information géographique (SIG). Chacune de ses deux disciplines lui offrent un éventail de techniques.

Plan du mémoire

Notre mémoire s'articule de la manière suivante :

Notre départ dans le monde de la recherche pour réaliser ce mémoire était dans le domaine du data mining spatial, mais nous somme arrivée à une contribution dans la désambiguïsation des toponymes. Le chapitre 1 explique en détail la position de la DT par rapport au DMS en passant par la définition des données géographiques qui sont le point central qui relie les deux domaines.

Le 2èm chapitre présente les différents types de l'ambiguïté des toponymes et positionne notre recherche par rapport à ces types. En outre, en raison de la nature multidisciplinaire de ce mémoire, nous présentons dans ce même chapitre des notions de base dans tous les domaines qui possède une relation avec la désambiguïsation des toponymes comme le traitement automatique de la langue naturelle, les systèmes d'informations géographique et la recherche d'information afin de préparer le terrain pour la suite du mémoire.

Dans le chapitre 3 nous discutons l'état de l'art des différents travaux sur la désambiguïsation des toponymes en distinguons 4 composants intrinsèques pratiquement à toute méthode qui sont : le contexte, les heuristiques, les connaissances, et les ressources. En plus, nous proposons des critères de classification des heuristiques et des connaissances, et nous pensons que cette classification pourrait réduire la grande diversité entre les méthodes de sorte qu'elle les organise dans des catégories génériques, et par conséquent elle aide à leur comparaison et assimilation.

Dans le chapitre 4 nous discutons certaines lacunes dans les heuristiques de la DT, notamment la non exploitation des différentes relations possibles entre les toponymes du même contexte, et nous proposons une heuristique qui remédie à cette lacune. Les performances de notre méthode sont ensuite comparées à celles

d'autres méthodes est des conclusions sont tirées en analysant les résultats de comparaison.

Finalement, nous terminons par une conclusion générale qui présente un résumé de notre recherche et un ensemble de perspectives.

Chapitre 1

Du Data Mining Spatial à

la Désambiguïsation des

Toponymes

1.1 Introduction

Notre recherche -afin de réaliser ce mémoire- a commencé par l'exploration d'un large domaine qui est le data mining spatial (DMS), or elle a abouti à une contribution dans un domaine spécifique qui est la désambiguïsation des toponymes.

En effet, la désambiguïsation des toponymes est une tâche indépendante en ellemême mais elle peut être considérée comme une étape d'une importance primordiale dans plusieurs domaines. Le fait que le DMS fût le domaine de notre départ, il aurait constitué une forte raison de consacrer ce chapitre à la démonstration de sa relation avec la contribution principale du présent mémoire.

Ce chapitre s'articule comme suit : les sections 1.2 jusqu'à 1.5 présentent un aperçu sur le data mining spatial. Les données géographiques -qui sont le point commun entre le DMS et la DT- sont en suite l'objet de la section 1.6. La section 1.7 explique la relation entre le DMS et la DT et on termine par une conclusion qui récapitule brièvement les principaux points discutés.

1.2 Définition et objectifs du data mining spatial

En raison de la grande quantité (habituellement, téraoctets) de données spatiales, il est coûteux et souvent irréalistes pour les utilisateurs de les examiner en détail. Le data mining spatial (fouille de données spatiales en français) vise à automatiser un tel processus de découverte de connaissances (Ng et Han 1994).

Le data mining spatial implique l'application d'outils informatiques pour révéler des patterns intéressants dans des objets et des événements répartis dans l'espace géographique et dans le temps (Miller et Han 2001). Il est défini aussi comme l'extraction de connaissances, de relations spatiales, ou d'autres patterns intéressants qui ne sont pas explicitement stockées dans les bases de données spatiales (Han et Kamber 2006). Son objectif est d'automatiser le processus de compréhension des données spatiales par des représentations concises qui font

apparaitre la sémantique des données. Ces représentations sont appelées : connaissances, et elles sont sous forme de relations spatiales, ou relations entre les données spatiales et non spatiales.

Une fois les connaissances sont découvertes par le DMS, elles peuvent être utilisées pour la construction des bases de connaissances spatiales, la réorganisation des bases de données spatiales, et l'optimisation de requêtes spatiales (Han et Kamber 2006).

1.3 Exemples historiques fameux de l'exploration

des données spatiales

Shekhar & Chawla(2003) ont cité quelques exemples bien connus qu'ils ont eu lieu avant l'invention de l'ordinateur, mais ils bien illustrent le type de connaissances découvertes par le data mining spatial :

1. En 1855, lorsque le choléra asiatique soufflait à Londres, un épidémiologiste a marqué tous les lieux où la maladie a frappé (ce sont les données spatiales) sur une carte, et a découvert que les lieux forment un cluster (cela est la connaissance découverte) dont le centre s'est avéré être une pompe à eau. Lorsque les autorités gouvernementales éteignaient la pompe à eau, le choléra a commencé à s'estomper. Plus tard, les scientifiques ont confirmé la nature des eaux d'origine de la maladie.

2. En 1909, un groupe de dentistes ont découvert que les habitants de Colorado Springs ont exceptionnellement des dents saines, et ils ont attribué ça au niveau élevé de fluor naturel dans l'eau potable locale. Les chercheurs ont ensuite confirmé le rôle positif du fluor dans la lutte contre la carie dentaire. Maintenant, toutes les municipalités dans les États-Unis assurent que l'eau potable est fortifié avec du fluorure.

Dans ces exemples les scientifiques ont découvert des corrélations entre les
données : le choléra et l'eau d'une pompe, et le fluor et la santé des dents. Sans

inspection minutieuse et approfondie d'un grand nombre de données, il est impossible de découvrir ces connaissances. Le rôle du data mining spatiales est d'automatiser la découverte de telles corrélations (Shekhar and Chawla 2003).

1.4 Les tâches du data mining spatial

Les tâches du DMS sont généralement une extension des tâches du Data mining (DM) en intégrant les données et les relations spatiaux. On trouve ainsi les règles associatives spatiales, le clustring spatial, la classification spatiale, l'analyse des tendances spatiales, et l'analyse des cas singuliers. Une brève description de ces tâches est présentée ci-dessous.

1.4.1 Les règles associatives spatiales

Une règle associative est une implication de la forme « si A alors B » (Gardarin 1999) ou plus formellement notée : AB, [s%; c%] où A et B sont des ensembles de prédicats spatiaux et non spatiaux, s% est le support de la règle, et c% est sa confiance (Han et Kamber 2006). Les règles associatives servent à trouver des associations entre des propriétés des objets et celles de leur voisinage (Aufaure, Yeh et Zeitouni 2000).

Exemple

La règle suivante est une règle associative spatiale :

Est-un(X, «école») ? proche-de(X, «station de bus») proche-de (X, «marché») [20%; 80%].

Cette règle stipule que 80% des écoles qui sont proches des stations de bus sont également à proximité des marchés, et que 20% des données appartenant à un tel cas.

1.4.2 Les collocations spatiales

Ce sont un type spécifique des règles d'association. Elles représentent des sous-ensembles d'objets géographiques qui apparaissent fréquemment proches les uns des autres dans une carte géo-spatiale (Han et Kamber 2006, Miller 2007). Ces objets géographiques sont représentés par des attributs booléens qui indiquent leur présence ou leur absence dans un endroit dans la surface de la Terre. Des exemples des objets géographiques booléens incluent les espèces végétales, les espèces animales, les types de routes, les cancers, la criminalité, et les types d'activités économiques (Shekhar, Zhang, et al. 2004).

La Figure 1-1 (voir Page 13) montre un ensemble de données qui consistent à des instances des objets spatiaux booléens, chacun d'eux est représenté par une forme distincte. Un examen attentif révèle le pattern de collocation {, }.

Exemple

Un exemple en écologie : la tâche des collocations spatiale peut découvrir que le crocodile du Nil et le pluvier égyptiens vivent dans les mêmes endroits géographiques.

1.4.3 Le clustering spatial

Le clustering est une méthode de classification automatique non supervisée qui regroupe des objets dans des classes. Son but est de maximiser la similarité intraclasses et de minimiser la similarité interclasses.

La transposition au domaine spatial des méthodes de clustering s'appuie sur une mesure de similarité d'objets localisés suivant leur distance métrique. Néanmoins, la finalité du clustering en spatial n'est pas tant de former des classes que de détecter des concentrations anormales (par exemple, détecter un point chaud dans l'étude de criminalité, ou des zones à risque en accidentologie) (Aufaure, Yeh et Zeitouni 2000). Voir (Ng et Han 1994) pour plus de détails sur le clustering spatial.

Position Y

4 3,5 3 2,5 2 1,5 1 0,5 0

0 0,5 1 1,5 2 2,5 3 3,5 4 4,5

Position X

Figure 1-1. Exemple de collocations spatiales. Le pattern {, } est une collocation spatiale

Exemple

Le clustering est utilisé pour déterminer les "points chauds" dans l'analyse de criminalité et le suivi de maladies. L'analyse des points chauds "Hot spot analysis" est le processus de chercher des clusters d'évènements denses et inhabituels à travers le temps et l'espace. De nombreux organismes de justice pénale dans le monde profitent des avantages fournis par les technologies informatiques pour identifier les points chauds de la criminalité afin de prendre des stratégies préventives, comme le déploiement de patrouilles dans les zones de points chauds (Shekhar, Zhang, et al. 2004).

1.4.4 La classification spatiale

La tâche de classification consiste à attribuer un objet à une classe parmi un
ensemble donné de classes. Cette attribution est faite sur la base des valeurs
d'attribut de cet objet. Dans la classification spatiale les valeurs des attributs des

> 1 Km

Banlieue

Ville

Riche

Pauvre

Village

= 1 km

Villas Baraque

Type de maison

Riche

Type de la région

Pauvre

Pauvre

Distance par rapport à une firme

Figure 1-2. Arbre de décision pour la classification des régions en riches vs pauvres

objets voisins d'un objet peuvent également être pertinents pour sa classification, donc elles doivent être prises en considération (Azimi and Delavar 2007).

Cette tâche est réalisée par l'apprentissage supervisé qui, à partir de classes fournies partiellement en extension (un échantillon de la base de données), induit une description en intention (un modèle générique qui relie les attributs) permettant de classer les prochaines données (Aufaure, Yeh et Zeitouni 2000).

Exemple

Supposons que nous souhaitons classifier les régions d'une wilaya en riches versus pauvres. Pour ce faire, il faut identifier les facteurs importants liés à l'espace qui détermine la classification d'une région. Beaucoup d'attributs peuvent révéler intéressants pour cette classification, comme, le type de la région (village, banlieue, ville), type de maison qu'elles contiennent (villas, Baraques), et être à proximité d'une firme. Un modèle de classification est représenté sous forme d'un arbre de

classification (voir Figure 1-2)1 ou d'un ensemble de règles, appelées aussi arbre de décision et règles de décision respectivement.

1.4.5 L'analyse des tendances spatiales

La tendance spatiale est un changement régulier d'une ou de plusieurs attributs non-spatiales lors du déplacement en dehors d'un objet donné (Azimi and Delavar 2007).

Les techniques souvent utilisées pour l'analyse de tendances spatiales sont la régression et l'analyse de corrélations.

Exemple

Analyser la tendance du taux de chaumage selon la distance par rapport à une métropole ou une capitale, ou la tendance du changement du climat ou de la végétation selon la distance par rapport à la côte.

1.4.6 L'analyse des cas singuliers

Les cas singuliers ou encore appelés valeurs aberrantes et extrêmes (outliers en anglais) sont des objets qui ne respectent pas le comportement général ou le modèle de données (Han et Kamber 2006).

Shekhar et al (2004) définissent un cas singulier spatial comme un objet spatialement référencé dont les valeurs des attributs non-spatiaux sont inconsistants avec celles des autres objets à l'intérieur d'un certains voisinage spatial.

Exemple

Un taudis (gourbi) dans un cartier de villas est considéré comme un objet spatial aberrant en se basant sur l'attribut non spatial «type de maison ».

1 Cet exemple est imaginaire, c.à.d. il ne représente pas une vraie étude sur des données réelles.

Nous avons présenté dans cette section des méthodes d'extraction de pattern. Cependant la validité des ces patterns n'est pas un but facile à atteindre. L'application triviale des tâches du data mining peut conduire à de faux résultats. En effet, les tâches du data mining ne sont pas « stand-alone » mais elles doivent s'exécuter au sein d'un processus bien déterminé, ce qui est l'objet de la section suivante. Une des étapes de ce processus est ensuite l'entrée vers le domaine de la désambiguïsation des toponymes.

1.5 Le processus de découverte de connaissance2

Nous présentons dans cette section un nouveau concept qui est la découverte de connaissance dans les bases de données en montrant ses étapes et sa relation avec le data mining. Ce que nous intéresse -bien sur- dans ce mémoire est le data mining spatial et la découverte de connaissances spatiales. Cependant les points discutés dans cette section ne se limitent pas aux données spatiales, mais concernent plutôt le data mining et la découverte de connaissances dans leurs sens génériques indépendamment des type de données sur lesquelles ils s'appliquent (relationnelles, spatiales, textuelles, multimédia...). C'est pour cette raison que nous avons choisi dans cette section d'utiliser les termes data mining et découverte de connaissance sans la spécification « spatial ».

1.5.1 Définition et étapes

La découverte de connaissances dans les bases de données, plus connu avec son acronyme anglais KDD (Knwoledge discovery in databases) est le processus non trivial d'identification de modèles valides, nouveaux, potentiellement utiles, et compréhensibles dans les données3 (Fayyad, Piatetsky-Shapiro and Smyth 1996).

Le terme processus signifie que le KDD se compose de plusieurs étapes. Ces étapes
peuvent être résumées en trois phases globales, à savoir : la préparation des

2 Des parties de cette section ont été publiées dans (Bensalem et Kholladi 2008)

données, le data mining, et l'évaluation des modèles. Ces phases sont définies brièvement ci-dessous. Toutefois, les détails ne sont pas l'objet de ce mémoire. Voir (Han et Kamber 2006) pour une ample explication.

La préparation des données : elle comprend la collecte, l'intégration, la transformation, le nettoyage, la réduction, et la description des données.

Le data mining : consiste à appliquer des méthodes issues de la statistique, et de l'apprentissage automatique pour découvrir des modèles importants et utiles sur les données. Parmi les méthodes du DM, la classification, clustering, les règles associatives, etc. (voir la section 1.4).

L'évaluation des modèles : consiste à estimer l'erreur et la précision sur les modèles extraits, et mesurer leur utilité, leur originalité et leur intelligibilité. Un modèle est considéré comme une connaissance s'il est utile, inconnu auparavant, et dépasse un certain pourcentage de précision.

1.5.2 Le sens large et le sens étroit du data mining(Bensalem et Kholladi 2008)

La préparation des données, et aussi l'évaluation des modèles (les phases respectivement avant et après l'application des tâches du DM) sont des phases d'une importance primordiales. La phase de préparation de données seule contribue de 75 à 90% à la réussite du projet de fouille (Pyle 2003). C'est pourquoi il n'est pas question de négliger ces étapes dans la réalité. Ignorer les phases de préparation des données ou d'évaluation des modèles rendrait inutile le DM et nous met en danger d'obtenir des modèles étrangers à la réalité.

Ce lien étroit entre le data mining et les phases antérieures et postérieures est la
raison derrière l'émergence d'un autre point de vue sur sa définition. Certains
chercheurs comme (Han et Kamber 2006) définissent le data mining comme

3 Par analogie au KDD, la Découverte de Connaissance Géographique DCG (en anglais Geographique knowledge discovery (GKD)) est le processus d'extraction d'informations et de connaissances à partir

l'ensemble des phases de découverte de connaissances et non pas seulement la phase d'extraction de patterns4. Par conséquent, il existe deux sens du terme data mining (voir Figure 1-3), dont l'un est un sens large : tout le processus de découverte de connaissances, tandis que l'autre est un sens étroit : l'étape d'extraction de patterns dans le processus de découverte de connaissances (Bensalem et Kholladi 2008).

Figure 1-3. La relation entre le data mining et le KDD

Dans le reste de ce chapitre nous utilisons le terme data mining dans son sens large car c'est l'étape de collecte de données5 qui vas nous permettre de montrer la relation du DMS avec la désambiguïsation des toponymes.

Comme nous avons déjà mentionné, le data mining spatial est une extension du
data mining classique (c.-à-d. celui appliqué sur les données alphanumériques,
relationnelles ou transactionnelles) avec une adaptation aux données spatiales. Les

des grandes bases de données géo-référencées (Miller, 2007).

4 Par analogie, Shekhar & Chawla (2003) voient que le data mining spatial est un processus qui contient toutes les phases de découverte de connaissances géographiques.

5 La collecte de données est une étape dans la phase du prétraitement de données.

données spatiales sont donc un concept clé pour le data mining spatial, et elles le sont également pour la désambiguïsation des toponymes.

La section suivante donne une vue globale sur ce type de données et plus particulièrement sur les données géographiques. Toutefois, on se limite aux aspects que nous considérons indispensables pour la compréhension du reste du mémoire. Quelques aspects des donnée géographiques ont été complètements omis, comme, la représentation raster et vectorielle, et les relations topologiques; les autres sont présentées d'une façon plus ou moins détaillées. Pour des détails plus amples sur les informations géographiques et des domaines en relation voir (Longley, et al. 2005).

1.6 Les données géographiques

Les données géographiques et spatiales sont de plus en plus nombreuses. Avec l'avènement du Web, la manipulation des données géographiques spécifiquement n'est plus exclusive aux communautés scientifiques et professionnelles mais elle est devenue une tâche presque quotidienne ou probablement indispensable dans la vie de l'Homme moderne.

1.6.1 Spatiale ou géographique : quelle est la différence?

Les données spatiales concernent tous les phénomènes où les entités pouvant être intégrés à l'intérieur de certain espace formel qui génère des relations implicites entre elles. Cet espace peut être non géographique comme les surfaces des autres planètes et l'espace de l'univers. Une image médicales est un exemple de donnés spatiales ou l'espace de référence est le corps humain.

Les données géographiques concernent un cas particulier où les entités sont géoréférencées c.-à-d. elles se réfèrent à la surface de la Terre ou à ces proximités (Longley, et al. 2005, Miller 2007).

Les informations de l'environnent collectées par les capteurs numériques comme la température et la pression sont un exemple typique des informations géographiques. Les images satellitaires de la terre comme celles du fameux Google Hearth sont aussi un exemple bien connu des informations géographiques manipulées dans le Web. Les évènements d'actualités sont aussi des informations géographiques car ils se produisent dans des lieux déterminés dans la Terre.

Brièvement, toute information qui peut être liée à un endroit est une information spatiale. Si cet endroit est un emplacement dans la Terre, on parle alors d'une information géographique. Une information géographique est donc une information spatiale, mais le contraire n'est pas toujours vrai.

L'adjectif spatial (idem pour géographique) est ajouté à toute opération ou objet qui manipule les données spatiales, comme, requête spatiale, analyse spatiale, data mining spatial, base de données spatiale,..., etc. Par exemple, la requête « Quels sont les noms des librairies de Constantine? » est une requête géographique car elle contient une donnée géographique qui est « Constantine ».

Nous nous intéressant dans ce mémoire aux données géographiques spécifiquement. Néanmoins, nous utilisons l'adjectif « spatial » soit comme synonyme de « géographique » ou si le dit contexte n'est pas exclusif aux données géographiques.

1.6.2 Caractéristiques des données géographiques

Les données géographiques ont plusieurs caractéristiques qui les différencient des données alphanumériques simples. Le texte suivant mentionne certaines de ces caractéristiques. Il convient de noter que cette liste de caractéristiques n'est pas exhaustive.


· Les données géographiques sont multidimensionnelles, car deux coordonnées doivent être spécifiées pour définir un emplacement, par exemple la latitude et la longitude (Longley, et al. 2005).

· Les objets géographiques peuvent avoir de multiples représentations géométriques ; une rue par exemples peut être représentée par une surface ou une ligne selon les besoins.

· Les informations géographiques sont complexes. Elles sont composées d'une donnée spatiale, éventuellement des données temporelles, et un ensemble d'attributs (données attributaires). La section suivante fournit plus de détails sur ce point.

· L'importance de la notion de précision liée notamment aux procédures de collecte et de saisie de données(Laurini 1996). En effet, la qualité des résultats de l'analyse et des requêtes spatiales est liée à la précision des données.

· Les informations géographiques se manipulent par un outil logiciel appelé un système d'informations géographiques (SIG).

1.6.2.1 Les composants d'une information géographique

Comme nous avons déjà mentionné, une information géographique comprend trois composants principaux : une donnée spatiale, une donnée temporelle, et des données attributaires.

1.6.2.1.1 Les données spatiales

Une donnée spatiale renvoie à l'emplacement géographique d'une entité ainsi que sa forme géométrique. D'un point de vue SGBD, c'est une donnée liée à un système de coordonnées spatiales et dont son type est l'un des types géométrique fournis par le SGBD ou définis par le système d'information géographique (SIG).

L'emplacement d'un objet est représenté par un localisant (Laurini 1996) qui est une information permettant de localiser un objet dans l'espace. Le localisant joue le rôle d'un identifiant de l'objet géographique, et il est spécifié par rapport à l'un des systèmes de géo-référencement comme les adresses postales et les coordonnées géographiques. Voir le chapitre suivant pour plus d'informations à propos du géo-référencement.

 
 

·

 

Polygone Ligne Point

Figure 1-4. Les types géométriques élémentaires d'une donnée spatiale

Les formes géométriques élémentaires associées aux objets géographiques sont : le point, la ligne et, la surface (voir Figure 1-4). Ces formes sont des types abstraits de données géométriques qui peuvent être manipulées par des extensions de SQL.

- Le point est un type de base composé de deux ou trois coordonnées (X, Z) ou (X, Y, Z) selon la dimension utilisée 2D ou 3D respectivement. Un objet de type point représente par exemple le barycentre d'une ville dans une grande échelle.

- Une ligne est composée d'une liste de points. Elle peut représenter par exemple une route ou une rivière.

- Une surface est composée d'une chaîne fermée de lignes connectées, ayant un intérieur et un extérieur. Elle peut représenter par exemple un pays, un village, ...etc. Une surface fait généralement référence à un polygone.

Il convient de noter que le localisant est la plus importante donnée d'une information géographique car il constitue la base de plusieurs avantages comme : La capacité de visualiser les objets sur la carte, de lier différents types d'information au fait qu'elles se réfèrent à au même lie, et de mesurer les distances et les superficies. Sans localisant, les données sont censées être non-spatiales et n'auraient aucune valeur au sein d'un système d'information géographique (Longley, et al. 2005).

Figure 1-5. Exemple d'une table d'informations géographiques

1.6.2.1.2 Les données temporelles

Les informations géographiques ne contiennent pas obligatoirement des données temporelles. Toutefois le temps est une données importante dans certains domaines comme la géophysique et la météorologie (Longley, et al. 2005).

1.6.2.1.3 Les attributs

Sont des données alphanumériques classiques décrivant les caractéristiques quantitatives ou qualitatives de l'entité géo-référencée.

Certains attributs sont physiques ou environnementaux, comme la température d'un lieu, tandis que d'autres sont sociaux ou économiques, comme la population d'un pays. D'autres attributs représente une mesure de quelque chose dans un endroit et éventuellement dans le temps, par exemple, la température atmosphérique, tandis que d'autres représentent un classement en catégories, par exemple, les catégories d'utilisation de terrains, qui distinguent entre les terrains d'agriculture, d'industrie, ou résidentiels (Longley, et al. 2005).

Exemple

La Figure 1-5 (voir page 23) représente une table de données géographiques. La willaya d'Oran (le nom est une donnée attributaire) a une population de 897700 (données attributaire), et elle est représentée sur la carte par un polygone dont chaque sommet est représenté par des coordonnées spatiales (l'attribut position est une données spatial de type polygone)6.

1.6.2.2 Sources de données géographiques

Les données géographiques peuvent être collectées de plusieurs sources, ou bien achetées auprès d'un fournisseur privé ou public.

Les sources connues des données géographiques sont les cartes, les sondages, les SIG, les images satellitaires, etc. Avec l'avènement du Web et des bibliothèques numériques, et le développement des techniques du traitement automatique des langues naturelles (TALN), une nouvelle source a commencé à prouver son utilité ; cette source est les documents textuels.

Nous proposons de classifier les sources de données géographiques selon le « type de données ». Ce critère de classification les divise en 2 catégories principales: sources fournissant des données structurées, et sources fournissant données non structurées. Le Tableau 1-1 illustre cette classification.

Ce qui nous intéresse dans ce mémoire est l'obtention des données géographiques à partir du texte. Dans la section suivante nous présentons des brèves descriptions de quelques travaux dans ce sujet.

6 La valeur de la donnée spatiale n'est qu'un exemple et ne représente pas la position spatiale réelle d'Oran.

Tableau 1-1. Classification des ressources d'informations géographiques selon le type de données

 

Exemples

Type de donnees que fournis la source

Données structurées

Bases de données spatiales Glossaires géographiques Fichiers plats

Tableau de données

 

Images

Images satellitaires

Photos aériennes

Images obtenues à partir caméras vidéo au sol Cartes géographiques scannées

 

Pages Web

Collection de document : rapport

professionnel, article de presse...

 

1.6.3 Des exemples de travaux sur l'utilisation du texte comme une source de données géographiques

Dans cette section nous présentons quelques travaux dans la littérature dont les données géographiques sont extraites du texte en langue naturelle puis utilisées dans des applications différentes.

1.6.3.1 Extraction des descriptions des villes pour la mise à jour d'un SIG urbain

Borges, Laender, Medeiros, Silva, et Davis (2003) ont utilisé le Web comme une source importante d'informations géographiques urbaines. Ils ont proposé un environnement qui permet d'extraire des données géographiques à partir des pages Web (comme les noms des villes, des rues, des boulevards, et autres), les convertir au format XML, puis les utiliser pour mettre à jour une base de données géographique d'un SIG urbain.

1.6.3.2 Data mining spatial sur des données géographiques extraites des pages web

Dans (Morimoto, et al. 2003) les auteurs ont présenté un système d'extraction de connaissances spatiales à partir des collections de pages web contenant des informations géographiques comme les adresses et les codes postaux. Pour chaque information géographique, ils ont appliqué des techniques du géocodage (voir le chapitre suivant pour plus d'informations sur le géocodage) pour calculer ses coordonnées géographiques. Ensuite, ils ont extrait les concepts-clés des pages web, puis formé une table d'associations géographiques dont chaque tuple contient les concepts-clé d'une page web et les coordonnées géographiques des lieux qu'elle renferme. Finalement des techniques du data mining spatial sont appliquées pour trouver des patterns spatiaux par exemples les collocations spatiales.

1.6.3.3 L'extraction et la visualisation des événements

Li, Srihari, Niu, et Li (2003) ont construit un entrepôt dynamique de connaissances à partir des documents textuelles (articles d'actualités et guide de touristes). Le but de la construction de cet entrepôt est de supporter plusieurs applications comme le data mining, et la visualisation et l'analyse des évènements. Parmi les informations contenues dans cet entrepôt des profiles des personnes et des descriptions des évènements. Ces derniers sont des informations géographiques du fait qu'elles sont composées d'une donnée spatiale qui est le lieu de naissance dans les profiles de personnes et le lieu d'occurrence dans les évènements.

1.6.3.4 Base de données géographique pour la conscience de la situation

L'extraction des évènements7 à partir des documents textuelles à été utilisé aussi
pour crées une base de données géographiques pour la conscience de situation8
(Kalashnikov, Ma, et al. 2006, Kalashnikov, Ma, et al. 2006). La base de donnée est

7 Les évènements sont des informations géographiques.

construite pour être analysée probablement par le data mining, ou tout simplement pour l'interrogation9.

Le Tableau 1-2 résume les travaux présentés ci-dessus.

Tableau 1-2. Quelques travaux qui utilisent les documents textuels comme une source d'informations géographiques

Buts d'extraction des

Sources textuelles informations

géographiques

(Borges, et al.

2003) Page web

Mise à jour une base de données géographique d'un SIG urbain

 

(Morimoto, et al.

2003) Page web Data mining spatial

Génération des profiles de personnes

(Li, et al. 2003) Articles d'actualités et guide de touristes Visualisation et analyse des

évènements

Text mining

(Kalashnikov, Ma, et al. 2006)

Les registres de communications transcrites et les rapports déposés par les premiers intervenants après la catastrophe du 9/11.

Articles de journaux et rapports de blog portant sur le tsunami de l'Asie.

Construire une BD des évènements pour la conscience de situation

 

1.6.3.5 Discussion

Après avoir examiné un ensemble de travaux sur l'utilisation du texte comme une source d'informations géographiques, nous avons pu tirer les remarques suivantes :

8 La conscience de situation (situational awareness (SA)) est la perception des éléments de l'environnement dans un volume de temps et d'espace, la compréhension de leur signification, et la projection de leur état dans le futur proche.

· Les informations géographiques souvent extraites du texte sont : les évènements, les adresses et les codes postaux, les noms des lieux, les noms des routes, les numéros de téléphone,...etc.

· Les informations extraites soit elles sont utilisées pour construire une base de données comme le cas de l'extraction des évènements et la génération des profiles de personnes, soit pour enrichir une base de données géographiques déjà existante.

· Les bases de données géographiques construites à partir des documents textuels avaient des utilisations variées dans la littérature entre autre l'analyse et la visualisation des évènements et le data mining.

· L'extraction des entités géographiques à partir des documents textuels utilisent des techniques pour identifier les informations géographiques dans le texte et d'autres pour relier ces informations à une position unique sur la Terre.

1.7 La relation entre le data mining spatiales et la

désambiguïsation des toponymes

Nous avons montré dans la section précédente que les documents textuels peuvent servir comme une source de données géographiques. En plus, dans certains travaux comme (Morimoto, et al. 2003) le data mining spatial a été utilisé pour tirer des connaissances à partir des informations géographiques provenant du texte.

La question qui se pose maintenant est : quel est la relation de tout ça avec la désambiguïsation des toponymes qui est le sujet principal de ce mémoire ?

9 D'après une communication personnelle avec Dmitri V. Kalashnikov, le premier auteur des deux articles cités ci-dessus.

Tableau 1-3. Comparaison entre les toponymes et les coordonnées géographiques

Toponymes Cordonnées géographiques

Données attributaires Données spatiales

Non formels (nominales) Formelles

Ne peuvent pas subir les calculs géométriques

Manipulés beaucoup plus par l'Homme dans le texte et la parole

Permettent les calculs géométriques

Manipulées beaucoup plus par la machine, notamment par les SIG

En effet, l'utilisation du texte comme source de données (géographiques et non géographiques) pâti d`un grand problème qui est l'ambiguïté des sens des noms propres. Généralement, cette ambiguïté consiste à l'utilisation d'un seul nom pour représenter des entités différentes.

Les toponymes c.-à-d. les noms des lieux sont parmi les noms propres qui peuvent être extraits du texte, notamment pour construire une base de données géographiques. À l'instar des autres types de noms propres, les toponymes sont des noms très ambigus (voir le chapitre suivant). Constantine, par exemples, est le nom de 17 lieux dans le monde10.

L'ambiguïté des toponymes est un problème pour le data mining spatial pour deux raisons, d'un coté, elle réduit la qualité de données, qui est un facteur important pour la réussite du data mining11, et d'un autre côté c'est un obstacle à l'intégration de données de plusieurs sources, qui est une étape importante pour la préparation des données du DMS.

En outre, les toponymes sont des données attributaire non formelles. Il est donc
nécessaire de les convertir en données formelles comme la latitude et la longitude
dans le but d'obtenir une base de données géographiques au sens du mot c.-à-d.

10 D'après Getty Thesaurus of Geographic names online http://www.getty.edu/research/conductingresearch/vocabularies/tgn (consulté le 6 mai 2009)

Le groupe pétrolier public algérien Sonatrach annonce la découverte de pétrole dans le bassin de Ghadamès, à 230 km au sud de Tripoli.

Cette découverte a été effectuée "suite au forage du puits d'exploration A1-65/02", attribué en mars 2005 par la National Oil Corporation (NOC), la compagnie

Extraction d'information

Tripoli a 10 référents : 1 en Lybie, 1 en Lebon

?

et 8 en USA.

Le toponyme La donnée spatiale

de toponymes Lybie

Désambiguïsation Tripoli de

Figure 1-6. Le rôle de la désambiguïsation des toponymes dans la construction d'une base de
données géographiques à partir du texte

une base de données qui contient des données spatiales (voir Section 1.6.2.1). Contrairement aux toponymes, Ces dernières, peuvent d'un côté, subir des calculs géométriques, qui sont les opérations de base des tâches du DMS et d'un autre coté, elles sont précises, ce qui est une caractéristique centrale pour la réussite du data mining spatial. Le Tableau 1-3 (voir Page 29) résume les différences qui existent entre les coordonnées géographiques qui sont des données spatiales et les toponymes qui sont donnée attributaire.

La désambigüisation des toponymes peut être considérée comme une étape de prétraitement de données dans le processus du DMS permettant de déterminer le lieu à lequel il se réfère chaque toponyme ambigu extrait de la source textuelle. Autrement dit, la désambiguïsation des toponymes permet d'attribuer à un toponyme, qui est une donnée ambiguë non formelle, une position unique dans la Terre, qui est une donnée précise. Cette dernière peut être convertie en une représentation formelle (spatiale) qui est indispensable pour les traitements spatiaux notamment le data mining spatial. La Figure 1-6 est une illustration de ce point.

11 L'application du data mining (spatial ou autre) sur des données ambiguës va sûrement engendrer des résultats erronés.

Figure 1-7. La position de la désambiguisation des toponymes dans le processus du data mining spatial

Brièvement, la relation du data mining spatial et la désambiguïsation des toponymes se résume dans la phrase suivante : la désambiguïsation des toponymes est une technique indispensable dans la phase de préparation des données du data mining spatial dans le cas où le texte en langue naturelle est utilisé comme une source des données géographiques. La Figure 1-7 montre la position de la DT dans le processus du DMS.

1.8 Conclusion

La préparation de données en vue de construire une base de données géographiques est une phase d'une importance primordiale, en particulier si cette base va subir une analyse en utilisant par exemple le data mining spatial, car la qualité de l'analyse dépond de la qualité des données.

Les données géographiques peuvent être collectées depuis plusieurs sources. Les données extraites du texte en langue naturelle y compris les toponymes sont généralement ambigües et non formelles, ce qui est un problème pour les traitements spatiaux comme le data mining spatial.

La désambiguïsation des toponymes peut servir comme technique de préparation de données géographique afin que ces dernières soient exploitables par les tâches du data mining spatial. Cette technique devient utile au sein du processus du DMS dans le cas où le texte en langue naturelle est la source des données géographiques à lesquelles le DMS sera appliqué.

Nous avons présenté dans ce chapitre un aperçu sur le data mining spatial et nous avons expliqué le rôle de la désambigüisation des toponymes dans son processus.

Il convient de noter que la désambiguïsation des toponymes est une tâche indépendante en elle-même, et le data mining spatial n'est pas le seul champ de son application. Le chapitre suivant fournit plus de détails sur cette tâche et discute sa relation avec d'autres domaines.

Chapitre 2

La Désambigüisation des

Toponymes : Notions de Base

2.1 Introduction

Dans ce chapitre nous définissons davantage la tâche de désambiguïsation des toponymes, nous présentons ses différentes applications et nous précisons sa position par rapport à d'autres domaines.

2.2 Les toponymes

Nous avons mentionné précédemment que le terme toponyme désigne un nom de lieu. Dans cette section nous parlons d'avantage sur les toponymes, leurs types, et une de leurs caractéristiques qui est l'ambiguïté.

2.2.1 Définition

Un toponyme peut être défini comme un nom de lieu ou un nom géographique, ou encore un nom propre d'une localité ou d'une région ou d'une certaine autre partie de la surface de la Terre ou de ses objets naturels ou artificiels (Hill 2006). Brièvement, un toponyme est un nom propre qui sert à désigner un emplacement géographique.

Le sens du terme toponyme est vaste. Le Tableau 2-1 montre les différents types de toponymes.

Tableau 2-1. Les types de toponymes

Type de toponyme Détails

Noms des lieux habités Noms des villes, villages...

Noms des divisions géographiques, politiques Noms des continents, pays, wilayas, daïra,

et administratives états (comme en USA), capitaux,...

Noms des reliefs (oronyme) Noms des montagnes, plaines, plateaux...

Noms des voix de communications (odonyme) Noms des routes, rues...

Noms des étendu d'eau (hydronyme) Noms des océans, mers, rivières...

Fabrication humaine (artéfact) Noms des tours, villas, centre, université...

2.2.2 L'ambiguïté des toponymes

L'ambiguïté est inhérente aux langues naturelles. Les toponymes -autant que termes de la langue- sont très ambigus. En fait, l'ambiguïté des toponymes a 2 types : l'ambiguïté géo/géo, l'ambiguïté géo/non-géo.

L'ambiguïté géo/géo se pose lorsqu'un toponyme représente plusieurs lieux
(Amitay, et al. 2004), par exemple, selon les gazetteer1 Getty2 et Geonames3
Constantine est le nom de 5 lieux habités dans le monde (voir Figure 2-1).

Michigan/ USA Kentucky / USA

Grenade

Algérie

Queensland / Australie

Figure 2-1. Les référents de Constantine dans le monde

L'ambiguïté géo/non-géo apparaît lorsqu'un toponyme se réfère à d'autres types d'entités (ex. Arafat est le nom d'un lieu à coté de La Mecque et aussi le nom de l'ex-président de Palestine) ou possède d'autres sens (ex. java un langage de programmation et Java une ile indonésienne).

1 Un gazetteer est un terme anglais qui désigne traditionnellement un dictionnaire de toponymes qui organise des informations sur les lieux géographiques. Nous avons choisi dans ce mémoire d'utiliser cette appellation anglaise car il n'y a pas une traduction unique et précise en français. Voir le chapitre 3 pour plus d'informations sur les gazetteer.

2 http://www.getty.edu/research/conductingresearch/vocabularies/tgn

3 http://www.geonames.org

2.3 La désambiguïsation des toponymes

2.3.1 Définition

La Désambiguïsation des Toponymes (DT) a plusieurs appellations dans la littérature : Résolution des Toponymes (Leidner 2007), Normalisation des Locations (Li, et al. 2003), Grounding ou Localisation (Amitay, et al. 2004). La DT est une tâche qui adresse l'ambiguïté des toponymes de type géo/géo et elle est définie dans la littérature avec plusieurs points de vue. Nous avons choisi de présenter les trois définitions ci-dessous.

La désambiguïsation des toponymes est :

« La tâche de déterminer quelle place l'on entend par une occurrence d'un nom de lieu » (Amitay, et al. 2004).

« La tâche d'attribuer un emplacement à un nom de lieu ambigu » (Li, et al. 2006).

« Un cas particulier de la désambiguïsation des sens des mots (DSM)4, qui est une tâche du traitement automatique des langues naturelles, elle s'agit de déterminer le sens d'un mot ambigu dans un contexte donné » (Stokes, et al. 2008).

2.3.2 Étapes

La plupart des méthodes de DT comprennent 2 phases principales : (1) l'extraction des référents candidats et (2) le choix du référent correct (voir Figure 2-2).

4 Voir section 2.4.3 pour plus d'informations sur la DSM

La désambiguïsation des toponymes : notions de base

ristiques de désambiguïsions

Heu

des toponymes

Ressources de connaissances

géographiques

Texte avec
toponymes
ambigus

Extraction des
référents candidats
de chaque toponyme

--------------
---------------

--------------
---------------

--------------- --------------- --------------- --------------- --------------- --------------- ---------------

Choix du référent
correct pour chaque
toponyme

Figure 2-2. Les étapes de la désambiguïsation des toponymes

La première phase consiste à déterminer les référents possibles de chaque toponyme dans le texte à main. L'obtention de ces différents référents (ce qu'on appelle les référents candidats) s'appuie habituellement sur des ressources structurées qui contiennent des listes prédéfinies de sens pour chaque toponyme. Les gazetteers et les ontologies sont des exemples de ces ressources.

La deuxième phase consiste à l'application d'un ensemble d'heuristiques en vue de déterminer parmi l'ensemble des candidats le référent le plus susceptible d'être le sens voulu par le toponyme ambigu. Ces heuristiques utilisent principalement les connaissances fournies par le contexte et des ressources externes comme sources d'évidence.

2.3.3 Terminologie

Dans cette section nous définition des termes intrinsèques à la désambiguïsation des toponymes qui sont : contexte, connaissances, ressources. Plus de détails sur ces éléments se trouvent au chapitre suivant.

2.3.3.1 Le contexte

Le contexte est le texte en langue naturelle où le toponyme à résoudre apparaît. Le contexte est la source d'évidence principale et intuitive dans les méthodes de DT. Les toponymes du contexte sont des informations souvent utilisées pour résoudre un toponyme ambigu du même contexte (voir Section 3.3 pour des informations plus amples).

2.3.3.2 Connaissances

Une connaissance -dans le contexte de la DT- est toute information qui peut aider à l'association des toponymes avec leurs référents correctes. Les connaissances peuvent être internes c.-à-d. en provenance du contexte, ou externe en provenance de sources hormis le contexte (voir Section 3.5).

2.3.3.3 Ressources

Toute source de connaissance hormis le contexte est appelée ressource.

Le Tableau 2-2 donne quelques exemples de ressources et les connaissances qu'ils fournissent (voir Section 3.6).

Tableau 2-2. Exemples des ressources utilisées dans les méthodes de DT et les connaissances qu'ils fournissent

Ressources Connaissances

Gazetteers, dictionnaires, ontologies

corpus

Relations

coordonnées spatiales définitions

Cooccurrences fréquences d'usage

2.3.4 Applications

Nous avons discuté dans le chapitre précédant l'utilité de la désambiguïsation des
toponymes dans le domaine du data mining spatial. Cependant, le DMS n'est pas le

seul champ d'application de la DT, cette dernière est une technique utile dans plusieurs applications dans multiples domaines.

Dans cette section nous présentons quelques applications de la désambiguïsation des toponymes.

2.3.4.1 Indexation géo-spatiale des documents textuels

En se basant sur l'indexation et la recherche par mots clés seulement, la requête spatiale « chercher des articles à propos de Constantine » va récupérer tous les documents qui contiennent des occurrences du mot « Constantine » quelque soit la localisation géographique de Constantine (Constantine de l'Algérie, Constantine des États-Unis...).

Cependant, l'indexation spatiale des documents -dont la désambiguïsation des toponymes se trouve parmi ses techniques principales- permet le regroupement ou le raffinement des résultats de la requête préalablement mentionnée selon la localisation géographique de Constantine.

En outre, l'indexation spatiale permet aussi de récupérer des documents qui ne mentionnent pas explicitement Constantine mais plutôt ils contiennent des toponymes qui représentent ses communes comme par exemple Zighoud Youcef, Al-Khroub...etc. Un tel résultat de recherche est impossible à obtenir par l'indexation classique basée sur les mots clés. Voir Section 2.4.1 pour plus d'informations sur ce sujet.

Exemple réel

La société MetaCarta fourni des services d'indexation spatiale des pages web (MetaCarta, Inc 2008) ; et dernièrement son site web a mis au point le service GeoSearch News5 qui est un service de recherche dans les informations de l'actualité en combinant les mots clés et les noms des lieux (Voir Figure 2-3).

5 http://geosearch.metacarta.com

Figure 2-3. La page web GeoSearch News de MetaCarta: Recherche géo-spatiale dans l'actualité du monde

2.3.4.2 Navigation géo-spatiale

Il s'agit d'étiqueter des collections de documents textuels qui se trouvent soit dans le web ou dans les bibliothèques numériques avec les toponymes qu'ils renferment, puis, les afficher sur une carte géographique pour permettre une navigation avec une dimension géo-spatiale. Cela facilite le parcours des documents qui mentionnent le même emplacement géographique.

Par exemples, si un article de presse contient le toponyme Mila. Il sera estampé dans la carte dans Mila, mais cela après la désambiguïsation des toponymes qui décide s'il s'agit de Mila>Algérie ou Mila>Northumberland>Virginie>États-Unis.

Exemples réels

1. La Figure 2-5, (voir Page 34) montre le site Google Maps6 qui fourni une navigation géo-spatiale dans les articles de Wikipedia7.

2. Le site AuthorMapper8 permet une navigation géo-spatiale dans la bibliothèque numérique de Springer9 selon les lieux des universités des auteurs (voir Figure 2-4).

6 http://maps.google.com

7 http://www.wikipedia.org

8 http://www.authormapper.com

9 http://www.springer.com

Figure 2-5. Naviguer dans les articles de Wikipedia à travers Google Maps

Figure 2-4. AuthorMapper: navigation géo-spatiale dans la bibliothèque Springer

41

2.3.4.3 Analyse visuelle des évènements

Figure 2-6. Biocaster: suivie des éclosions des maladies dans le monde

Il s'agit de projeter les évènements extraits du texte dans une carte selon l'endroit où se sont passés. Cela permet une analyse rapide des évènements rapportés dans un grand ensemble de documents textuels. Ça aide par exemple à détecter les évènements identiques, les suivre (c'est-à-dire ce qui s'est passé ensuite dans le même endroit), et les regrouper.

Exemples réels

1. Biocaster10 (voir Figure 2-6 ) est un système de surveillance mondiale de la santé qui sert à détecter et à suivre les éclosions de maladies infectieuses à partir d'une analyse continue des documents signalés dans plus de 1700 flux RSS. Le système visualise les évènements de maladies dans Google Maps après leur géo-localisation (Collier, et al. 2008).

10 http://biocaster.nii.ac.jp

Figure 2-7. La page du service MedISys : Système d'analyse des informations médicales

2. Le site de EMM11 (Europ Media Monitor) fournit un ensemble de services d'analyse des évènements écrits en plusieurs langues par leur visualisation sur

la carte ou en utilisant des graphes de statistique. La Figure 2-7 représente la page MedISys : le service d'analyse des informations médicales.

2.4 Domaines en relation avec la

désambiguïsation des toponymes

La désambiguïsation des toponymes est un domaine qui relie l'espace et le texte (Leidner 2007). Conséquemment, ses techniques sont issues principalement de deux disciplines qui sont le traitement automatiques des langues naturelles (TALN) qui s'occupe du traitement des données textuelles et les systèmes d'informations géographiques (SIG) qui s'occupent du traitement des données spatiales (voir Figure 2-8). Par ailleurs, la désambiguïsation des toponymes une tâche importante dans plusieurs domaines à savoir la recherche d'information géographique et l'extraction d'information.

11 http://emm-labs.jrc.it

Traitement automatique
des langues naturelles

DSM

DT

Systèmes d'informations
géographiques

Géocodage

Figure 2-8. Position de la DT par rapport à d'autres domaines

Dans cette section, nous faisons un tour d'horizon sur les domaines en relation avec la désambiguïsation de toponymes.

2.4.1 Recherche d'information géographique 2.4.1.1 La Recherche d'information

Une définition classique de la recherche d'information (RI) (Rijsberg 1979) est : la discipline qui fournit des techniques d'indexation de texte et des mécanismes de recherche.

Un problème typique de la recherche d'information est de sélectionner les documents pertinents parmi une collection de documents en fonction de la requête de l'utilisateur. Cette requête est souvent sous forme de quelques mots-clés décrivant l'information voulue(Han et Kamber 2006).

Contrairement aux systèmes de gestion de bases de données (SGBD), qui mettent l'accent sur la recherche et le traitement des données structurées comme les bases de données relationnelles, la recherche d'information concentre sur la recherche et l'organisation d'informations non structurées, particulièrement les documents textuels(Han et Kamber 2006).

La recherche d'information a deux procédures principales : l'indexation et la recherche. Au temps de l'indexation, une collection de documents est traitée document par document et les termes clés de chaque document sont extraits puis stockés dans un index. Au temps de la recherche, un utilisateur encode un besoin

d'information dans une requête, qui est analysée par le système de recherche. Ce dernier sélectionne les documents dont leurs termes clés correspondent aux termes clés de la requête, et une fonction de classement classe les documents en ordre décroissant de pertinence à l'égard de la requête (Leidner 2007).

2.4.1.2 La recherche d'information avec une dimension géographique

L'espace est une dimension très intuitive pour la recherche d'information, une étude faite sur le moteur de recherche Excite12 a montré que 18.6% des requêtes sont liées à la géographie, et 79.5% des requêtes géographiques contiennent des toponymes(Sanderson et Kohler 2004). Le problème ici est que les systèmes de RI classiques traitent les termes géographiques, entre autre les toponymes, comme tous les autres termes.

La recherche d'information géographique (RIG) est un nouveau domaine, d'abord décrit et baptisé par Ray Larson(1996)(Hill 2006). La RIG diffère de la RI par la reconnaissance et la modélisation explicite de l'espace dans le cadre des procédures d'indexation et de recherche d'information (Leidner 2007). Dans un système de RIG, non seulement les termes clés qui sont indexés mais aussi les termes géographiques avec leurs positions unique dans la Terre appelées empreintes spatiales (spatial footprint). La recherche dans ce cas, est basée sur la comparaison de l'empreinte spatiale d'une requête avec les empreintes spatiales des documents. Généralement, la comparaison n'est pas exacte, mais elle est basée plutôt sur un certain degré de chevauchement.

La Figure 2-9 montre le chevauchement de l'empreinte spatiale d'une requête géographique et les empreintes spatiales de quatre documents. Les documents A, B, C illustrés dans cette figure sont pertinents pour la requête, tandis que D ne l'est pas.

12 http://www.excite.com

La désambiguïsation des toponymes : notions de base

Empreinte spatiale du document B

(Le document B correspond à une partie de la requête)

Empreinte spatiale du document A

(Une partie du document A correspond à la requête)

A

D

B

Requête

C

Empreinte spatiale du document D

(Le document D ne

correspond pas à la requête) Empreinte spatiale de la requête

Empreinte spatiale du document C

(Le document C croise la requête)

Figure 2-9. Les différents types de chevauchements entre l'empreinte spatiale d'une requête et les empreintes
spatiales des documents

La création des empreintes spatiales des documents passe essentiellement par deux étapes qui sont : l'identification des toponymes dans le texte puis la désambiguïsation des toponymes.

La désambiguïsation des toponymes est donc une tâche d'une importance primordiale dans le processus de la recherche d'information géographique. Elle est appliquée au niveau de la recherche pour désambiguïser les toponymes de la requête, et au niveau de l'indexation pour désambiguïser les toponymes des documents textuels (voir Figure 2-10).

2.4.2 Extraction d'information

L'Extraction d'Information (EI) est le nom donné à tout processus qui sert à identifier et à classifier -à partir d'un ensemble de classes prédéfinies- les instances des noms et des relations qui se trouvent dans des documents textuels (Cowie and Lehnert 1996). Elle peut être définie aussi comme la transformation des textes en langage naturel (comme les articles de presse, les brevets, les pages web, etc.) en des représentations structurées prédéfinies. Une fois extraites, les informations peuvent ensuite être stockées dans des bases de données pour être interrogées, analysées, fouillées, etc.(Gaizauskas, et al. 1997).

Documents textuels

Extraction des
termes index

Toponymes

Termes clés

Désambiguïsation
des toponymes

Index spatial Index de termes-clés

Figure 2-10. Pipeline spatial dans la procédure d'indexation dans un système de recherche
d'information géographique

La figure 1-6 (voir Chapitre 1, page 30) illustre la création d'une base de données géographiques des évènements à partir du texte, a travers l'extraction d'information.

Conceptuellement, l'EI englobe trois sous-tâches: la reconnaissance des entités nommées, la désambiguïsation des entités nommées, l'extraction de relations (Bunescu 2007). Ces opérations sont décrites brièvement dans les sous-sections suivantes.

2.4.2.1 Reconnaissance des entités nommées

La reconnaissance des entités nommées (REN) (Chinchor 1998) consiste à identifier dans le texte les mentions des noms propres, des expressions de temps, et des expressions numériques, comme le montre le Tableau 2-3.

Tableau 2-3. Catégories des entités nommées selon (Chinchor 1998)

Catégories des entités nommées Sous catégorie

Noms des entités (Noms propres) Personne

Organisation Toponyme

Expressions temporelles Date

temps

Expression numériques Expression monétaires

Pourcentage

Exemple

Dans la phrase suivante: « Le prophète Mohamed est né le 12 Rabi`a al Awal à La Mecque », le système de reconnaissance des entités nommées doit identifier 3 entités nommées : «Mohamed» autant qu'un nom de personne, « 12 Rabi`a al Awal » comme une date, et « La Mecque » comme un nom de lieu (un toponyme).

2.4.2.2 Désambiguïsation des entités nommées

L'identification des entités nommées, et en particulier celles de la première catégorie (c.à.d. les noms propres associés aux entités) n'est pas généralement suffisante pour obtenir des informations consolidables à partir du texte. Cela est dû à l'ambigüité qui est un caractère inhérent aux noms dans la langue naturelle. Un type de cette ambiguïté consiste à associer un nom à plusieurs entités. Par exemple, dans les phrases ci-dessous « Al Akkad » se réfère à deux personnes différentes, ce qui provoque une ambiguïté dans les informations extraites.

Al Akkad est le réalisateur des films « Le message >> et le « Le lion du désert >>. Al Akkad est l'auteur du livre « Génie de Mohamed >>.

La désambiguïsation des entités nommées (Bunescu 2007) est la tâche qui permet l'identification de l'entité qui corresponde à une occurrence d'un nom dans un document textuel, cette tâche est un cas spécifique de la désambiguïsation des sens des mots (Section 2.4.3). Par exemple, en appliquant la désambiguïsation des entités nommées sur le nom « Al Akkad » dans les deux phrases ci-dessus ; Al Akkad de la première phrase est associé à l'entité : Moustafa Al Akkad, par contre celui de la deuxième phrase est associé à l'entité : Mahmoud Al Akkad.

La désambiguïsation des entités nommées est une sous tâche importante dans l'extraction d'information, en particulier, lorsque les informations extraites d'un certain document doivent être intégrées avec des informations sur la même entité en provenance d'autres documents ou de sources externes.

2.4.2.3 Extraction de relations

Une fois les entités nommées ont été correctement identifiées puis désambiguïsées, une étape supplémentaire dans l'EI est de trouver des relations prédéfinies entre ces entités. Par exemple dans la phrase « Al-Khawarizmi est un mathématicien originaire de Khiva, né vers 783 », un système conçu pour extraire les relations entre les personne et les lieux doit identifier la relation né-à qui relie le nom de personne Al-Khawarizmi et le toponyme Khiva. C'est le résultat de cette étape qui permet de construire des bases de données qui contiennent une description pour chaque entité extraite.

Les lieux géographiques sont parmi les entités extraites. Et le fait de les relier avec d'autres informations permet de construire des bases de données géographiques comme il a été discuté dans la Section 1.6.3 du le chapitre précédant.

Documents textuels

Extraction des
entités nommées

Entités nommées :
Toponymes, noms de
personnes...etc.

Désambiguïsation des entités nommées

 

Désambiguïsation
des toponymes

Désambiguïsation
des noms de
personnes

Désambiguïsation
des expressions
temporelles

Entités nommées sans
ambiguïté

Extraction de
relations

Base de données

Figure 2-11. Le processus d'extraction d'information avec la tache de désambiguïsation des toponymes

2.4.2.4 Relation entre l'extraction d'information et la

désambiguïsation des toponymes

La désambiguïsation des toponymes peut être considérée comme une spécification de la tâche de désambiguïsation des entités nommées. Par conséquent, c'est l'une des étapes importantes dans le processus d'extraction d'information cela est dans le cas où des toponymes ambigus sont parmi les informations extraites. La Figure 2-11 (voir Page 34) montre la position de la désambiguïsation des toponymes dans le processus de l'EI.

2.4.3 Désambiguïsation des sens des mots 2.4.3.1 Description du problème

La désambiguïsation des sens de mots (DSM)13 est définie comme : la tâche de l'attribution automatique du sens le plus approprié à un mot polysémique14 dans un contexte donné (Sinha et Mihalcea 2007).

Formellement, supposons que T est une portion de texte c.-à-d. une séquence de mots (m1, m2...mn) ; et SensD (mi) est l'ensemble des sens (s1, s2,..., sn) des mots mi encodés dans un dictionnaire D. On peut décrire la DSM comme la tâche d'attribuer les sens si à l'ensemble ou certains des mots de T. Cela revient à identifier une fonction F qui associe les mots vers leurs sens. Tels que F(i) ? SensD (mi), où F(i) est un sous ensemble des sens du mot mi qui sont appropriées dans le contexte T. La fonction F peut associer plus qu'un sens à chaque mot mi ? T, mais en général, seulement le sens le plus approprié est sélectionné, c.-à-d. |F (i)| = 1 (Navigli 2009).

2.4.3.2 Relation de la DSM avec la désambiguïsation de toponymes

Les toponymes sont un type spécial de mots. Certain auteurs comme (Stokes, et al.
2008) considèrent la DT comme un cas spécifiques de la DSM où les mots à

13 Traduction directe du terme anglais Word sens disambiguation (WSD). En effet, nous n'avons pas trouvé un terme conventionnel en français. Néanmoins, il existe des traductions variées comme : résolution de polysémie, désambiguïsation sémantique et désambiguïsation syntaxique.

14 Un mot polysémique est un mot qui possède plusieurs sens.

désambiguïser sont les toponymes et leurs sens sont les lieux physiques que l'auteur du texte a fait entendu en les mentionnant.

Un autre point de vue dit que la DT est une étape au-delà de la DSM (Li, et al. 2003), car les méthodes de cette dernière ne peuvent résoudre que l'ambiguïté de type géo/non-géo, c.-à-d. elles peuvent déterminer si un nom est un toponyme ou non, mais elles ne sont pas en mesure de lui associer le lieu physique à lequel il se réfère. Et c'est ça le rôle de la DT.

La recherche d'information géographique et l'extraction d'information (discutés cidessus) sont des domaines qui utilisent la désambiguïsation des toponymes comme une tâche dans leurs systèmes. Par contre, la désambiguïsation des sens des mots est un domaine que la DT inspire beaucoup de techniques et de notions, telles que : les phases principales et les opérations de base (voir Section 2.3.2).

Sauf que, les méthodes de DSM emploient plus de ressources, et quand au contexte, il est représenté par la quasi-totalité des mots du texte et non pas par les toponymes. Le Tableau 2-4 résume les principales différences entre la DSM et la DT.

Tableau 2-4. Comparaison entre la Désambiguïsation des Sens des Mots et la Désambiguïsation des Toponymes

Désambiguïsation des Sens des Mots Désambiguïsation des Toponymes

Trouver le sens voulu par la mention du mot dans un contexte donné

Concerne tous les types de mots : les noms, les verbes, les adjectif...

Les ressources utilisées sont : les dictionnaires numériques, les thésaurus, les ontologies, les corpus

Trouver le référent voulu par la mention du toponyme dans un contexte donné

Concerne seulement les noms des lieux

Les ressources utilisées sont : les gazetteers, les ontologies, les corpus, le Web

Le contexte est représenté par tous les mots Le contexte est représenté par les toponymes

2.4.4 Géocodage

Le Géocodage est le nom communément donné au processus de conversion des adresses postales aux coordonnées de latitude et longitude, ou d'autres systèmes universels de coordonnées. Le Géocodage permet à n'importe quelle base de données contenant des adresses, de contribuer à un système d'information géographique (Leidner 2007).

Le terme géocodage dans ce sens est utilisé beaucoup plus par la communauté des SIG, mais pratiquement, il est utilisé aussi par d'autres communautés avec un sens plus large qui ne se limite pas aux adresses postales, à savoir, géocoder les montagnes, les rivières, les numéros de téléphones, les noms de domaines...etc.

On peut dire donc que la désambiguïsation des toponymes est un géocodage (avec son sens large) dont les données à géocoder sont des toponymes. Et d'un autre point de vue, la DT est une technique alternative au géocodage des adresses postales (le sens restreint), car les toponymes sont des données non structurées quand a les adresses postales sont des données structurées.

2.4.5 Géo-référencement

Le géo-référencement est le terme qui désigne l'opération de relier les informations aux emplacements géographiques, il s'agit d'établir une relation entre les informations (ex. documents, bases de données, cartes géographiques, images) et les emplacements géographiques à travers les toponymes ou les codes de lieux (ex. les codes postaux) ou le référencement géo-spatiale (ex. les coordonnées longitude et la latitude) (Hill 2006). Le Tableau 2-5 donne quelque exemple des systèmes de géo-référencement.

Tableau 2-5. Quelques systèmes de géo-référencement couramment utilisés

Système de géo-

Domaine de couverture

sans ambiguïté Exemple

référencement Type

Adresses Postales Nominal Globe Université Mentouri, Route Ain El

Bay, Constantine, Algérie

Code postal Nominal Pays L'aéroport d'Alger : 16101

Latitude/longitude Métrique Globe Tassili de Hoggar :

26° 19' 60" Nord 5° 0' 00" East

UTM Métrique Globe Oran :

x : 713981.9

y : 3952997.6

Zone : 30

Hémisphère du nord

On peut dire que la désambiguïsation des toponymes est un géo-référencement des documents textuels.

Le géocodage, le géo-référencement et la désambiguïsation des toponymes ont des sens similaires mais avec quelques différences. Le Tableau 2-6 présente une comparaison entre ces 3 tâches.

Tableau 2-6. Comparaison entre le géo-référencement, le géocodage et la désambiguïsation des toponymes

Type d'information à relier à Tâche l'espace

Façon de représenter l'espace

Le géo-référencement Tous les types d'informations Tous les types de

représentation de l'espace

Le géocodage

Sens

restreint Adresses postales Coordonnées spatiales

Sens large Tous les types d'informations Coordonnées spatiales

La désambiguïsation des Toponymes apparaissant Représentation spatiale non

toponymes dans le texte ambigüe

2.5 Conclusion

Dans ce chapitre nous avons défini la tâche de désambiguïsation des toponymes, et nous avons montré ces différentes applications et sa position par rapport à d'autres domaines.

En conclusion, on dit que la tâche de désambiguïsation des toponymes est multidisciplinaire dans ses notions de base, ses techniques et aussi dans ses applications. Cette multidisciplinarité serait plus évidente en présentant les différents travaux dans ce domaine, ce qui est l'objet du chapitre suivant.

Chapitre 3

État de l'art

3.1 Introduction

Les chapitre précédent ont permis d'avoir une vue globale sur la désambiguïsation des toponymes, ils ont donc donné des réponses à deux questions principales dans la recherche qui sont le « quoi » et le « pourquoi » mais ils n'ont pas répondu à une troisième question de la même importance qui est le « comment ».

« Comment désambiguïser les toponymes ? » c'est donc l'objet de ce chapitre qui répond à cette question en présentant l'état de l'art des méthode de désambiguïsation.

Malgré le fait que les méthodes de désambigüisation des toponymes sont très différentes dans l'esprit (Leidner 2007)(dû à la nature multidisciplinaire), mais ils ont des éléments en commun que leur présence est incontournable et indispensable dans toute méthode de DT. Ce chapitre s'articule selon ces éléments qui sont le contexte, les heuristiques, les connaissances et les ressources.

Nous commençons d'abord dans la section suivante par une brève comparaison de notre point de vue avec celui de Leidner (2007) qui fût le premier à présenter un état de l'art élargie de la désambiguïsation des toponymes autant qu'une tâche indépendante de la DSM et de la REN. En suite nous présentons une synthèse des différents travaux dans la DT en faisant des comparaisons et des classifications des méthodes selon la présentation du contexte, les heuristiques, les connaissances et les ressources.

3.2 Les méthodes

Les méthodes de désambiguïsation des toponymes comprennent deux phases principales qui sont : l'obtention des référents candidats d'un toponyme, et le choix du référent correct (voir Section 2.32) mais elles se distinguent principalement par la deuxième phase.

Étant donné que la littérature de la désambiguïsation des toponymes est dispersées à travers plusieurs disciplines (RI, TALN (DSM, IE), SIG) Un simple examen des méthodes peut donner l'impression qu'elles sont complètement différentes les unes des autres, notamment, dans la deuxième phase. Cependant, un examen plus approfondi permettra d'en tirer des facteurs en commun.

Leidner (2007) -dans le cadre de sa thèse1 - a analysé une dizaine de méthodes de l'état de l'art de DT2 et il a remarqué que plusieurs moyens d'évidence et sources de connaissances (ressources) se reproduisent dans des méthodes différentes. En outre, il a résumé les moyens d'évidence en dix-sept heuristiques et connaissances de base qu'il a ensuite regroupé dans une taxonomie distinguant entre les connaissances (ou les heuristiques) linguistiques et les connaissances (ou les heuristiques) du monde.

Après avoir analysé les méthodes de DT présentées dans l'état de l'art élaboré par Leidner (2007) et aussi d'autres méthodes plus récentes, nous avons reformulé les moyens d'évidence de Leidner (2007) mais selon notre point de vue et avec notre propre classification. Contrairement à Leidner, nous distinguons entre les heuristiques et les connaissances3, et sur la base de cette distinction nous considérons la majorité des moyens d'évidence que Leidner a tiré comme des heuristiques ; nous élaborons donc deux taxonomies différentes pour les heuristiques et les connaissances.

Ainsi, les méthodes de DT peuvent être vues comme des heuristiques (des algorithmes) qui servent à désambiguïser les toponymes ambigus apparaissant dans un certain contexte textuel, en manipulant des connaissances extraites de ce contexte et des ressources externes. La Figure 3-1 illustre le rôle de ces différents éléments.

1 La thèse de Leidner (2007) est la première thèse qui a adressé la désambiguïsation des toponymes autant que tâche indépendante. Cette thèse est une référence de base dans ce domaine et elle est publiée aussi comme livre.

2 Les travaux analysés dans (Leidner 2007) sont publiés entre 1999 et 2006.

3 Cette distinction n'est pas parfois évidente car il existe des connaissances qui sont inhérentes à certaines heuristiques.

Texte avec
toponymes résolus

Liste de référents
candidats pour chaque
toponyme ambigu

Connaissances qui
aident à la
désambiguïsation

Toponymes

---------------
---------------
---------------

Ressources

Heuristiques de
désambiguïsation

Texte qui contient des
toponymes ambigus :
Le contexte

Figure 3-1.Les éléments principaux des méthodes de désambiguïsation des toponymes

Il est donc clair que les méthodes de désambiguïsation des toponymes sont toutes composées de quatre éléments principaux qui sont : le contexte, les heuristiques, les connaissances, et les ressources. Dans les sections suivantes nous présentons un état de l'art des méthodes de DT organisé selon ces quatre composants. En lisant les sections de ces éléments le lecteur (selon ces besoins) ne se trouverait pas contraint de suivre leur ordre de rédaction.

3.3 Le contexte

Le contexte est le texte en langue naturelle qui contient le(s) toponyme(s) à désambiguïser. Il est donc naturelle que l'opération de manipuler le contexte soit présente dans toute méthode de DT.

Deux types d'informations qui peuvent être tirées du contexte :

1. Les toponymes (ou d'autres mots pertinent) qu'il contient,

2. Des informations statistiques ou linguistiques sur le toponyme à résoudre tels que la position dans le texte, la fréquence d'occurrence, ... etc. (voir Section 0 pour plus d'informations sur les connaissances)

L'utilisation du contexte pour associer les mots à leurs sens est une idée intuitive dont l'origine est dans le domaine de désambiguïsation des sens des mots. Cependant, le contexte dans les méthodes de désambiguïsation des toponymes est représenté généralement par les toponymes qu'il contient et non pas par tous les mots du texte.

La taille du contexte dans les méthodes de DT varie de quelques toponymes autour du toponyme ambigu jusqu'à tous les toponymes du texte d'un document.

Supposons qu'un document contient le texte ci-dessous4 (Les toponymes sont soulignés).

« La ville de La Mecque, se situe à l'ouest de l'Arabie saoudite, sur les pentes de la chaîne d'Al-Sarawat, entre les massifs du Hedjaz et de l'Asir, plus précisément dans la vallée de l'Oued Ibrahim au pied de collines de 60 m à plus de 500 m de hauteur. Le port de Djeddah n'est distant que de 65 kilomètres.

La partie est de la ville se situe entre 194 et 310 m au-dessus du niveau de la mer. La partie ouest à 400 m, se caractérise par la présence de certains monts qui

peuvent atteindre jusqu'à 900 m d'altitude comme le mont Jabal Tarki (qui est la plus haute montagne de La Mecque) et le Jabal Khandama qui culmine à 914

m. »

Le Tableau 3-1 illustre les différentes tailles du contexte, en supposons que le toponyme « Asir » (dans le texte ci-dessus) est le toponyme à désambiguïser.

Tableau 3-1. Les différentes tailles du contexte

Taille du contexte Explication Exemple

n-grams

une séquence de n

toponymes, y compris le toponyme cible (le toponyme à désambiguïser)

Hedjaz, Asir, Oued Ibrahim (n=3)

Fenêtre (taille #177;n)

Une fenêtre de taille #177;n veut dire n toponyme à droite et n toponyme à gauche du mot cible.

Al-Sarawat, Hedjaz, Asir, Oued Ibrahim, Djeddah (n=2)

La suite du tableau est dans la page suivante

4 Ce texte est un extrait de : La Mecque. (2009, août 25). Wikipédia, l'encyclopédie libre. Page consultée le 10:21, septembre 6, 2009 à partir de http://fr.wikipedia.org/w/index.php?title=LaMecque&oldid=44178292.

Tous les toponymes de la La Mecque, Arabie saoudite, Al-

Phrase phrase qui contient le Sarawat, Hedjaz, Asir, Oued

toponyme cible. Ibrahim.

Tous les toponymes du La Mecque, Arabie saoudite, Al-

Paragraphe paragraphe qui contient le Sarawat, Hedjaz, Asir, Oued

toponyme cible. Ibrahim, Djeddah, Djeddah.

Discours

Tous les toponymes du texte qui contient le toponyme cible.

La Mecque, Arabie saoudite, AlSarawat, Hedjaz, Asir, Oued Ibrahim, Djeddah, Djeddah, Jabal Tarki, La Mecque, Jabal Khandama

Buscaldi et Rosso (2008c) ont comparé la précision et le recall5 de deux heuristiques de DT en utilisant des tailles différentes de contexte. DC représente l'heuristique de la densité conceptuelle (Buscaldi et Rosso 2008a) (Voir H9 H6cidessous), et MAP représente l'heuristique de (Smith and Crane 2001) (Voir H6 cidessous).

Les graphes de la Figure 3-2 (Construit à partir des données fournies par (Buscaldi
and Rosso 2008c)) montrent que le recall (le pourcentage des toponymes résous

94,70% 94,00% 92,20%

87,90%

83,20% 84,00%

Phrase Paragraphe Document

Précision_DC Précision_MAP Recall_DC Recall_MAP

74,20%

70,20%

63,90%

56,70%

41,60%

27,80%

Figure 3-2. L'effet de la taille du contexte sur la performance de désambiguïsation des toponymes

5 La précision et le recall sont des mesures de performance des méthodes de désambiguïsation des toponymes. Voir le chapitre suivant pour plus d'informations sur ces mesures.

correctement par rapport à tous les toponymes) augmente avec des valeurs significatives en augmentant la taille du contexte. Tandis que la précision diminue dans une méthode et augmente dans une autre mais avec des valeurs non importantes.

3.4 Les Heuristiques

3.4.1 Qu'est ce qu'une heuristiques de désambiguïsation de toponymes

Nous définissons les heuristiques de désambiguïsation des toponymes comme les algorithmes qui manipulent les connaissances disponibles dans le contexte du toponyme ambigu ou extraites des différentes ressources en vue d'émerger parmi un ensemble de candidats, le référent le plus susceptible d'être le sens voulu par le toponyme ambigu.

3.4.2 Classification des heuristiques de désambiguïsation de toponymes

Dans les sections suivantes nous présentons une classification des heuristiques de résolution de toponymes (Bensalem et Kholladi 2009a). Nous distinguons trois classes globales : heuristique basées sur le contexte, heuristiques basées les règles de préférence, et heuristiques complémentaires. Généralement, une méthode de désambiguïsation combine plusieurs heuristiques dans un ordre particulier, ou dans une procédure ou formule de calcule de poids, dans le but d'augmenter le nombre de toponymes résolus.

3.4.2.1 Désambiguïsation par le contexte

Les heuristiques que nous classifions sous cette catégorie cherchent des indices de désambiguïsation dans l'environnement textuel où le toponyme ambigu apparait.

Il existe deux approches générales de la désambiguïsation par le contexte, la
première consiste à désambiguïser chaque toponyme séparément des autres. Il

s'agit d'extraire des mots (toponymes ou/et termes) particuliers du document qui contient le toponyme à résoudre, puis, choisir parmi les référents candidats le référent le plus relié à ces mots. Cette relation peut être spatiale (H1), linguistique (H2, H3) ou statistique (H4).

La deuxième approche consiste à résoudre plusieurs toponymes ambigus à la fois en effectuant des calculs géométriques sur les coordonnées spatiales des référents candidats des toponymes (H5, H6), ou en appliquant d'autres algorithmes comme le cas de des heuristiques H7 et H8.

Les heuristiques de cette classe utilisent des techniques issues des domaines suivants: le Traitement Automatique des Langues Naturelles (TALN) y compris la DSM (H1, H2, H3, H4, H7, H9), les Systèmes d'Informations Géographiques (SIG)(H1, H5, H6), et la théorie des graphes (H7H8).

H1 Distance aux voisins textuels non ambigus

La résolution d'un toponyme t1 se fait par les étapes suivantes (Leidner 2007) :

1. Envisager un contexte de taille W toponymes non ambiguë de chaque côté du t1 dans le texte.

2. Attribuer comme interprétation de t1 le référent qui est géographiquement le plus proche de tous les toponymes de W.

Il convient de noter que cette heuristique n'est plus applicable dans le cas de l'absence des toponymes non ambigus dans le texte concerné.

Cette heuristique est basée sur les calculs géométriques dans la 2ème étape donc elle nécessite l'utilisation des coordonnées géographiques de référents de chaque toponymes. Et elle est utilisée par Smith & Crane (2001).

H2 Chevauchement entre les chemins hiérarchiques des référents et le texte Il s'agit de calculer le chevauchement (les mots identiques) entre les noms des lieux qui composent le chemin hiérarchique de chaque référent du toponyme

ambigu et ceux qui se trouvent dans le contexte. À partir d'une étude empirique, Clough (2005) a choisi un contexte de chevauchement de 2 mots à gauche et 8 mots à droite du toponyme ambigu. Une partie de notre heuristique de désambiguïsation est aussi basée sur l'intersection du chemin hiérarchique avec le contexte (Bensalem et Kholladi 2009a). Voir le chapitre suivant pour plus de détails.

Une idée similaire est de chercher la mention du toponyme supérieure. Si t1 est un toponyme à résoudre, et un deuxième toponyme t2 apparaît d'ailleurs dans le même document, tel que, l'un des référents de t1 est situé dans l'un des référents de t2. Alors attribuer à t1 ce référent situé à t2. Cette heuristique est utilisée par (Hauptmann and Olligschlaeger 1999) et (Pouliquen, et al. 2004), et (Li, et al. 2006).

Exemple

Dans l'exemple6 donné dans le Tableau 3-2, le référent choisi pour résoudre le toponyme « Constantine » est « Africa>Algeria» car « Algeria » (le toponyme supérieur de Constantine7) existe dans le contexte ce qui a permis de lui attribuer le plus grand score de chevauchement.

Tableau 3-2. Exemple sur l'application de l'heuristique H2

Les toponymes

du contexte Skikda, Algeria, Constantine

Le toponyme à

désambiguïser Constantine

Les chemins hiérarchiques des référents du Constantine avec leurs scores de chevauchement avec le contexte

North and Central America>United States> Kentucky> Breckinridge county 0

North and Central America>United States> Michigan>Saint Joseph county 0

 

Oceania>Australia> Queensland 0

Africa>Algeria 1

6 Les référents de l'exemple sont extraites du Gazetteer Getty.

7 On dit aussi que Algeria est holonyme de Constantine.

H3 L'appariement des patterns

C'est une technique appliqué dans le TALN, elle est connue habituellement sous le nom anglais « patterns matching ». Dans le domaine de désambiguïsation des toponymes il s'agit de chercher dans le texte, des modèles prédéfinis - syntaxiques et/ou lexicales - sur les expressions qui contiennent le toponyme ambigu. Une fois le pattern est détecté dans le texte, les informations qu'il contient sont comparées aux référents candidats pour choisir le plus approprié parmi eux.

Nous distinguons deux types d'heuristiques de résolution de toponymes qui utilisent les techniques d'appariement de patterns : des heuristiques qui servent à extraire des relations hiérarchiques (H3.1), et des heuristiques qui servent à extraire le type de toponyme (H3.2). Chacune de ces heuristiques est expliquées cidessous. Il y a des patterns qui détectent à la fois les relations hiérarchiques et le type de toponyme, comme ceux utilisés dans (Li, Srihari, et al. 2003).

H3.1 Les patterns de relation hiérarchique

Ils capturent les toponymes contigus dans le texte. Ce type de patterns peut prendre l'un des formats suivants (Leidner 2007) :

t1, t2

t1/t2 t1 (t2)

Si exactement le cas où l'un des référents candidats r1 du toponyme t1 est situé dans r2, tel que r2 est l'un des référents du toponyme t2. Alors attribuer r1 à t1.

Ce format est beaucoup utilisé dans les adresses, et il peut contenir deux toponymes ou plus.

Exemples

En détectant le pattern t1(t2) dans la phrase ci-dessous, le toponyme ambigu Tripoli sera résolu à Tripoli>Liban au lieu de Tripoli>Libye.

À l'époque des Omeyyades, Tripoli (Libon) devint une importante base navale.

Cette heuristique est utilisée dans : (Hauptmann and Olligschlaeger 1999), (Smith and Crane 2001), (Li, Srihari, et al. 2003), (Rauch, Bukatin and Baker 2003), (Amitay, et al. 2004).

H3.2 Les patterns de type

Si un toponyme apparaît dans le texte à coté d'un nom qui indique son type (ex. ville, capital, pays, commune...) alors éliminer les référents candidats qui ne sont pas de ce type.

Exemple

Soit la phrase suivante qui contient le toponyme ambigu Washington :

L'état de Washington est situé dans le nord-ouest des États-Unis.

Le pattern « état de toponyme » permet de résoudre le toponyme Washington à Washington l'état au lieu de Washington la capitale.

Cette heuristique est utilisée dans : (Li, Srihari, et al. 2003), (Rauch, Bukatin and Baker 2003) et (Schilder, Versley et Habel 2004), (Li, et al. 2006), (Stokes, et al. 2008).

H4 Modèle de cooccurrence

Une cooccurrence (aussi appelée collocation) fait référence à des mots souvent utilisés ensemble (Zheng, et al. 2007). L'idée de base derrière cette méthode est que la distribution d'un mot dans un contexte lexical (les mots et les expressions qu'il apparaît avec) est fortement révélatrice de sa signification (Pekar, Krkoska et Staab 2004).

Le modèle de cooccurrence renferme pour chaque sens d'un toponyme (c.-à-d. référent) les toponymes (ou les mots) fréquemment apparus avec lui. Un modèle de cooccurrence est construit à partir d'un corpus (Voir 3.6.2) puis appliqué sur le texte à main pour capturer les mots du contexte et ensuite, inférer à partir de ces mots le sens le plus approprié au toponyme ambigu.

Par exemple, on peut inférer à partir d'un corpus que le terme « palais d'Alhambra » est positivement corrélé avec le toponyme « Grenade » tel que le référent de ce dernier dans ce cas est Grenade>Espagne. Alors, en appliquant ce modèle de cooccurrence sur un nouveau texte, si « Alhambra » est mentionné à proximité du toponyme « Grenade », ce dernier sera attribué à la ville de Grenade dans l'Espagne au lieu de l'état de Grenade dans l'océan atlantique.

La désambiguïsation en utilisant les modèles de cooccurrences est inspirée des méthodes de désambiguïsation des sens des mots. Cette heuristique est implémentée en utilisant un éventail de technique à savoir, l'apprentissage automatique.

Cette heuristique a été utilisée par Overell et al. (2006a, 2006b, 2007) qui ont généré un modèle de cooccurrence à partir de l'encyclopédie libre Wikipedia. Elle a été utilisée aussi par (Smith et Mann 2003) qu'ils ont utilisé une méthode d'apprentissage supervisé pour construire un modèle de cooccurrence sous forme de classificateur.

H5 Espace géométrique (polygone / distance) minimaliste

Il s'agit d'attribuer à tous les toponymes qui émergent dans le même texte les référents qui diminuent le plus les distances spatiales bilatérales, et par conséquent, ils occupent ensemble espace géométrique le plus réduit. Cette heuristique prend en compte toutes les interprétations possibles pour chaque toponyme et fait des traitements d'optimisation à l'aide de la proximité géographique comme critère.

Cette heuristique est utilisée dans (Leidner, Sinclair et Webber 2003), (Rauch, Bukatin and Baker 2003), et (Amitay, et al. 2004).

H6 Contexte géographique unifié

Consiste à la sélection dynamique d'une zone géographique selon les toponymes
contenus dans le texte, et ignorer les référents qui se trouvent en dehors cette

zone. Le contexte géographique est élaboré en calculant le centroïde (barycentre) géographique des référents des toponymes mentionnés dans le document, puis éliminer tous les référents candidats qui sont situés à plus d'une certaine distance loin du centre. Dans (Smith and Crane 2001) cette distance était définie 2 écartstypes. Cela peut être considéré comme une version dynamique de H16.

H7 Le chemin le plus court entre les référents

Une heuristique utilisée dans (Stokes, et al. 2008) consiste à désambiguïser les toponymes en cherchant le chemin le plus cours entre les référents candidats dans l'arbre hiérarchique de Getty : le Thésaurus des Noms Géographique8. Cette idée est déjà appliquée dans les méthodes de désambiguïsation des sens de mots mais en employant WordNet.

World

North and Central
America

Riverside county

United States

California

Mecca

2

1

Saudi Arabia
al-Garbîyah region

Makkah administrative
region

Mecca

Asia

Figure 3-3. Chemins entre le toponyme ambigu Mecca et Saudi Arabia dans l'arbre hiérarchique du monde
selon le gazetteer Getty : le chemin numéro 1 est le plus court car il contient 3 arc seulement.

Exemple

Soit « Mecca » le toponyme à résoudre sachant que le toponyme « Saudi Arabia»
apparaît avec lui dans le même contexte. L'heuristique H7 résout « Mecca » à

8 Getty Thesaurus of Geographic Names: http://www.getty.edu/research/conductingresearch/vocabularies/tgn (dernière visite le 07/04/2009)

« Mecca>Saudi Arabia » comme c'est expliqué dans la Figure 3-3.

H8 Les noeuds de l'arbre couvrant maximum

Il s'agit de construire un graphe pondéré, où chaque noeud représente un sens d'un toponyme (un référent), et chaque arête représente une relation entre deux sens (voir Figure 3-4). Le poids représente la similarité entre chaque couple de référents. Le graphe est partiellement complet car il n'y a pas de liens entre les différents sens d'un toponyme. Les noeuds de l'arbre couvrant9 de poids maximal (maximum weight spanning tree (MST))10 sont les sens considérés les plus prometteurs pour les toponymes.

Figure 3-4. Le graphe des lieux et l'arbre couvrant maximum d'après (Li, Srihari, et al. 2003)

9 Un arbre couvrant d'un graphe est un sous-graphe sans cycle qui connecte tous les sommets ensemble. Un graphe peut comporter plusieurs arbres couvrants différents.

10 Un arbre couvrant de poids maximal est un arbre couvrant dont le poids est plus grand ou égal à celui de tous les autres arbres couvrants du graphe.

Cette heuristique est utilisée dans (Li, Srihari, et al. 2002) en appliquant l'algorithme Kruskal pour calculer l'arbre couvant maximum, puis optimisée par le même groupe d'auteur dans (Li, Srihari, et al. 2003) au moyen de l'algorithme Prim qui utilise un espace de recherche plus petit par rapport à Kruskal.

H9 La densité conceptuelle

La Densité Conceptuelle (DC) est une mesure de corrélation entre le sens d'un mot et son contexte. Elle a été présentée dans le domaine de DSM par Agirre et Rigau (1996) puis reformulée par Rosso et al. (2003). Cette dernière est ensuite adaptée à la désambiguïsation des toponymes par Buscaldi et Rosso (2008a).

La formule de calcul de DC est :

DC(m, f, n) = m? (m log f

~ )

(1)

Tel que m est le nombre de noeuds (synsets)11 pertinentes dans la sous-hiérarchie composée des lieux du contexte, n est le nombre total de synsets dans la soushiérarchie, et f est le poids de la fréquence du sens (par exemple 1 pour le sens le plus fréquent, 2 pour le second, etc.).

Dans la méthode de Buscaldi et Rosso (2008a), la densité conceptuelle est calculée pour chaque référent candidat du toponyme ambigu. En suite, le référent qui maximise cette valeur ( c.-à-d. la densité conceptuelle) est celui qui sera attribué au toponyme ambigu.

L'explication détaillée de cette heuristique est hors l'objet du présent chapitre, mais il est suffisant de dire que la densité conceptuelle est une quantification d'une certaine proximité entre les toponymes du contexte. C'est-à-dire que cette heuristique résout les toponymes ambigus par les référents les plus proches les uns aux autres. Cependant, la proximité quantifiée n'est pas spatiale comme le cas

11 Les mots synonymes dans WordNet sont regroupés dans des noeuds appelée synset.

des heuristiques H1, H5, H6 mais elle est plutôt une proximité dans l'arbre hiérarchique des lieux du monde comme le cas de H2, H3.1., H7.

L'heuristique que nous proposons (Bensalem et Kholladi 2009a) se situe dans la même classe des heuristiques expliquée ci-dessus, c.-à-d. elle est basée sur le contexte, mais nous laissons son explication pour le chapitre suivant.

3.4.2.2 Désambiguïsation par les règles de préférences

Le choix d'un référent parmi les candidats dans cette classe d'heuristiques dépend principalement des préférences et des intuitions de l'Homme et il est complètement indépendant du contexte (le contraire des heuristiques de la première classe (Section 3.4.2.1)).

Chaque règle de préférence permet directement de choisir un référent parmi les candidats, ou d'affecter un poids à chacun d'eux, et celui qui a le plus grand score (la somme des poids attribués par plusieurs heuristiques) sera ensuite choisi comme le référent correct. Par exemple, les auteurs de (Li, et al. 2006), ont utilisé une approche qui attribue des scores de probabilité aux candidats en se basant sur plusieurs heuristiques comme H10 et H13.

Une règle de préférence peut être basée sur l'intuition humaine (H10, ..., H14, H16) ou sur des statistiques effectué sur des corpus de référence (H15), ou sur des exigences de l'application (H17).

Certaines heuristiques de cette classe ne sont qu'une simplification du problème, c.-à-d. elles ne conduisent pas directement au référent voulu mais plutôt elles réduisent le nombre de référents candidats, c'est le cas de H16 et H17.

Nous expliquons dans ce qui suit les heuristiques de la catégorie règles de préférences.

H10 La plus grande population

Cette heuristique consiste à attribuer au toponyme ambigu le référent avec la plus grande population, en s'appuyant sur une source d'informations fiables.

Cette heuristique est utilisée dans (Rauch, Bukatin and Baker 2003), (Amitay, et al. 2004) et (Pouliquen, et al. 2004), (Li, et al. 2006).

H11 Le référent de niveau supérieur

Soit une taxonomie de toponymes dont la racine est le monde et les feuilles sont les villes12.

Si un toponyme peut se référer à deux référents candidats, dont l'un est un pays, et l'autre est une ville, H11 choisit celui qui appartient à la classe la plus supérieure, dans ce cas c'est le pays qui sera choisi.

Cette heuristique est utilisée dans (Smith and Crane 2001), (Li, Srihari, et al. 2003), (Clough 2005) et (Stokes, et al. 2008).

H12 Le référent le plus connu

Le choix du référent correct est basé sur l'intuition humaine loin de toute connaissance fournie par les gazetteers ou d'autres ressources. Li, Srihari, et al. (2002, 2003) ont développé une procédure qui récupère le lieu le plus connu pour un toponyme ambigu en se basant sur les mécanismes de « ranking » des moteurs de recherche. Leur heuristique utilise le moteur de recherche Yahoo!13.

Exemple

Si le toponyme « Cairo » est mentionné dans un texte, cette heuristique lui attribue le référèrent « Cairo>Egypte » au lieu de « Cairo>Alabama>USA » par exemple. Car les premiers résultats retournés par la requête « cairo » au moteur de recherche Yahoo! représentent le référent « Cairo>Egypte », comme c'est illustré dans la Figure 3-5.

12 C'est ce que nous avons appelé l'arbre hiérarchique des lieux du monde.

13 http://www.yahoo.com

Figure 3-5. Les résultats de la requête "cairo" dans le moteur de recherche Yahoo!

H13 Préférer un type

Par exemple préférer les référents qui représentent des capitales, ou préférer les lieux habités que les divisions administratives...etc.

Exemple

Constantine peut indiquer la wilaya de Constantine ou la ville de Constantine, si le type préféré est « ville » alors c'est la ville de Constantine qui est choisie comme référent.

Cette heuristique est utilisée dans : (Li, Srihari, et al. 2003), (Li, et al. 2006).

H14 Ordre de préférence des ressources

Lors de l'utilisation parallèle de plusieurs gazetteers, il peut être utile de définir un ordre de priorité statique entre eux. Clough (2005) a prouvé l'efficacité de cette méthode en établissant un ordre de préférence entre 3 ressources géographiques selon leurs qualités.

H15 Le sens le plus fréquent dans un corpus

Il s'agit de choisir le référent qui est situé dans l'état ou le pays le plus fréquent. Ces fréquences d'occurrence sont calculées sur un corpus d'apprentissage.

Smith et Mann (2003) ont utilisé les résultats de cette heuristique comme référence pour mesurer les performances de leur méthode principale.

Stokes et al. (2008) ont supposé que l'emplacement le plus fréquent pour un toponyme est celui représenté par la page de Wikipedia14 qui contient le plus grand nombre d'occurrences de ce toponyme. Le classement des pages de Wikipedia selon le nombre d'occurrence d'un toponyme est obtenu par le service web GeoNames15. L'intuition derrière cette heuristique16 est que les contributeurs de Wikipédia ont tendance à écrire un article plus long (conséquemment avec plus de mentions du toponyme) pour l'emplacement le plus souvent associé à un toponyme ambigu.

Exemple

On ne s'attend pas d'avoir un long article sur Gaza située aux États-Unis que celui sur Gaza de Palestine, donc l'article de Gaza>États-Unis ne contient pas autant d'occurrence du terme Gaza, par conséquence il ne sera pas classé le premier dans les résultats de recherche fournies par GeoNames. Et donc c'est Gaza>Palestine qui sera attribué au toponyme Gaza.

H16 Supprimer les petites places

Il s'agit de réduire la taille de la ressource des lieux géographiques en fonction de la taille de la population. Cela diminue l'ambiguïté, mais bien évidemment c'est une simplification du problème plutôt que une véritable solution. Toutefois, Pouliquen et al. (2004) ont démontré que cette technique peut être utile dans certaines applications.

14 http://www.wikipedia.org

15 http://www.geonames.org

16 Cette clarification avec l'exemple utilisé est obtenue par une communication personnelle avec Nicola Stokes (le premier auteur de l'article).

H17 Concentration sur une zone géographique

Cette heuristique consiste à ignorer les référents qui se trouvent en dehors d'un polygone ou d'une zone géographique (pays, région, continent...).

La zone géographique concernée est sélectionnée d'une manière statique, c. à. d. elle ne dépend pas formellement du texte mais plutôt, c'est une décision faite par l'utilisateur ou le concepteur du système de désambiguïsation. Cette heuristique peut être considérée comme la version statique de H6, et elle est utilisée dans (Pouliquen, et al. 2004).

3.4.2.3 Heuristiques complémentaires

Les heuristiques de cette classe ne conduisent pas toutes seules à la désambiguïsation des toponymes mais plutôt elles sont utilisées comme des procédures complémentaires dans les méthodes de désambiguïsation.

H18 Un référent par discours

Il s'agit de supposer que tous les toponymes identiques partagent le même référent, c'est-à-dire propager le sens des toponymes résolus à ceux qui ont la même forme dans le document. Cette heuristique a des origines dans le domaine de la désambiguïsation des sens des mots (Gale, Church et Yarowsky 1992).

Cette heuristique est utilisée par (Leidner, Sinclair et Webber 2003), (Li, Srihari, et al. 2003), (Amitay, et al. 2004), (Schilder, Versley et Habel 2004), (Pouliquen, et al. 2004), (Hauptmann and Olligschlaeger 1999).

H19 Attribuer les référents aux toponymes non ambigus

Un toponyme est dit non ambigu s'il a exactement un seul référent comme candidat. L'affectation des référents aux toponymes non ambigus est une étape triviale utilisée par tous les systèmes de désambiguïsation des toponymes, et habituellement invoquée en premier lieu avant le traitement des toponymes ambigus.

La Figure 3-6 résume les différentes heuristiques de l'état de l'art de désambiguïsation des toponymes. Et le Tableau 3-3 distribue ces heuristiques selon leurs références.

H6 Contexte
géographique
unifié

H7 Le chemin le plus
court entre les référents

H9 La
densité
conceptuelle

H3.2 Les patterns
de type

H3 L'appariement
des patterns

Désambiguïsation par le
contexte

H2 Chevauchement
entre les chemins
hiérarchiques des

H3.1 Les patterns de
relation hiérarchique

Heuristiques de désambiguïsation des toponymes

H5 Espace géométrique
(polygone / distance)
minimaliste

H18 Un référent
par discours

H4 Modèle de
cooccurrence

H1 Distance aux
voisins textuels non
ambigus

H8 Les noeuds de l'arbre
couvrant maximum

Autres heuristiques

H16 Supprimer les
petites places

H19 Attribuer les
référents aux
toponymes non
ambigus

H11 Le référent
de niveau
supérieur

H13
Préférer
un type

Désambiguïsation par les
règles de préférences

H14 Ordre de
préférence des
ressources

H17 Concentration
sur une zone
géographique

H12 Le référent le
plus connu

H15 Le sens le
plus fréquent
dans un corpus

H10 La plus
grande
population

Figure 3-6. Classification des heuristiques de désambiguïsation des toponymes

État de l'art

Tableau 3-3. Distribution des heuristiques de désambiguïsation des toponymes utilisées dans la littérature17

Désambiguïsation par le contexte Désambiguïsation par les règles de préférences

H1

H2 H3.1 H3.2 H4

H5 H6

H7

H8

H9

(Hauptmann and Olligschlaeger 1999) (Smith and Crane 2001)
(Leidner, Sinclair et Webber 2003)

 
 
 
 
 
 
 
 

(Li, Srihari, et al. 2003)

 
 
 
 
 
 
 
 

(Rauch, Bukatin and Baker 2003)

 
 
 
 
 
 
 
 

(Smith et Mann 2003)

 
 
 
 
 
 
 
 

(Amitay, et al. 2004)

 
 
 
 
 
 
 
 

(Pouliquen, et al. 2004)

 
 
 
 
 
 
 
 

(Schilder, Versley et Habel 2004)

 
 
 
 
 
 
 
 

(Clough 2005)

 
 
 
 
 
 
 
 

(Li, et al. 2006)

 
 
 
 
 
 
 
 

(Overell et Rüger 2007)

 
 
 
 
 
 
 
 

(Buscaldi et Rosso 2008a)

 
 
 
 
 
 
 
 

(Stokes, et al. 2008)

 
 
 
 
 
 
 
 

H10 H11 H12 H13 H14 H15 H16 H17 H18

3.5 Les connaissances

Les connaissances représentent l'ensemble des informations à propos du toponyme ambigu et ces référents candidats. Les connaissances sont les éléments de base derrière le choix du référent correcte. Sans connaissances il n'est pas possible ni pour l'homme ni pour la machine de déterminer le sens des mots ambigus (Navigli 2009) y compris les toponymes.

Nous présentons dans cette section une synthèse des connaissances manipulées dans l'état de l'art des méthodes de DT.

17 La représentation de ce tableau est inspirée de (Leidner 2007, p.116), mais la signification des heuristiques est différente de celle de (Leidner 2007) comme j'ai déjà expliqué dans la section 3.2.

3.5.1 Classification des connaissances

D'après notre point de vue, les connaissances peuvent être classifiées selon 5 critères : la cible, la source, le domaine, la nature, et la méthode d'acquisition. Le Tableau 3-4 fourni une explication de ces critère avec les classes engendrées.

Tableau 3-4. Critères de classification des connaissances utilisées pour la désambiguïsation des toponymes

Critère Classes Explication

Cible
· Connaissances à propos du toponyme

~ Connaissances à propos des référents

On veut dire par « cible » celui qui est concerné par les connaissances. Les noms des classes répondent à la question : cette connaissance est à propos de quoi ?

Sources
· Contexte

· Gazetteer (ou autre ressource qui joue le même rôle)

· Corpus

Classification selon la ressource à partir de laquelle une connaissance est obtenue. (Voir Section 3.6 pour plus de détails sur les sources de connaissances.)

Domaine
· Connaissances linguistiques

· Connaissances géographiques

Les connaissances linguistiques sont extraites du texte, tandis que les connaissances géographiques sont concrètes et concerne le monde réel.

Nature
· Valeur

· Relation

Exemple : pour un toponyme ambigu, le nombre de son apparition dans le texte (la fréquence d'occurrence) est une valeur. Cependant, les

toponymes qui apparaissent avec lui dans le même contexte (les cooccurrences) sont des relations.

Méthode d'acquisition

· Direct

· Indirect

Il y a des connaissances obtenues directement depuis les ressources c.- à-d. elles sont brutes et d'autres sont calculées à partir des connaissances brutes ( ex. la distance est calculée à partir des coordonnées spatiales), ou extraites du texte comme le type d'un toponyme (Voir H3.2 Les

patterns de type)

Le critère de classification des connaissances le plus discriminant est la cible. Selon
ce critère nous divisons les connaissances manipulées par les heuristiques de DT

en 2 classes : connaissances à propos du toponyme à résoudre et connaissances à propos des référents. Dans le reste de cette section nous présentons une vue d'ensemble sur ces deux classes de connaissances. Le schéma de la Figure 3-7 illustre cette description.

Dans cette sous-section le terme toponyme est utilisé pour désigner un mot qui représente un nom géographique mais qui n'a pas encore une représentation concrète dans le monde, tandis que le terme référent désigne un toponyme dont son sens est connu.

3.5.1.1 Connaissances à propos des toponymes

Les toponymes sans `grounding' ne sont que des mots c.à.d. des unités lexicales, tant qu'ils sont ambigus, ils ne possèdent aucune relation avec le monde physique. Cela explique le fait que la quasi-totalité des connaissances pouvant être obtenues à propos des toponymes sont linguistiques. La seule connaissance géographique qui peut être obtenu à propos d'un toponyme est parfois le type de lieu à lequel il se réfère. En fait, le texte peut contenir une phrase qui indique que le toponyme mentionné est une ville ou une capitale...etc. Ce type de connaissance est obtenu par les patterns de type (Voir l'heuristique H3.2).

À partir du contexte on peut calculer des valeurs comme la fréquence d'occurrence d'un toponyme et la distance textuelle entre les toponymes comme dans la méthode de (Li, Srihari, et al. 2003), ou extraire les cooccurrences. Les cooccurrences dans le domaine de la DT sont les toponymes qui apparaissent avec le toponyme à résoudre dans le même contexte. La récupération des cooccurrences depuis le contexte est une procédure incontournable dans toutes les méthodes de DT basées sur le contexte (Section 3.4.2.1).

3.5.1.2 Connaissances à propos des référents

Un référent représente une entité physique dans le monde (un lieu), par conséquent beaucoup de connaissances géographiques peuvent lui être associées.

Figure 3-7. Taxonomie des connaissances utilisees pour la desambiguIsation des toponymes

Par exemple une fois le toponyme `Constantine' est résous à `Constantine> Algérie' on peut obtenir ses caractéristiques comme sa population, ses coordonnées spatiale,..., etc. et encore ses relations avec d'autres référents. Un exemple de relations est les distances spatiales entre les référents des toponymes du même contexte. Cette relation est exploitée dans (Smith and Crane 2001), (Leidner, Sinclair et Webber 2003), (Rauch, Bukatin and Baker 2003), et (Amitay, et al. 2004).

Un autre type de relations qui peut être exploité comme connaissance dans les méthodes de DT sont les relations arborescentes c.-à-d. les relations qui existent entre les référents dans l'arbre hiérarchique des lieux du monde (Bensalem et Kholladi 2009b). La relation arborescente la plus connue est `est-partie-de' (appelée aussi méronymie) à plusieurs niveaux, qui est généralement représentée sous forme d'un chemin hiérarchique. Par exemples le chemin hiérarchique : `Jérusalem>Palestine>Asie' indique que Jérusalem est-partie-de Palestine, et Palestine est-partie-de l'Asie, et par conséquence Jérusalem est-partie-de l'Asie.

Contrairement aux relations basées sur la distance spatiale, les relations arborescentes ne sont pas exploitées explicitement dans les méthodes de DT (voir le chapitre 4 pour une ample discutions sur cette lacune).

Les connaissances linguistiques qui peuvent être obtenues à propos des référents sont généralement des valeurs statistiques, entre autre, la fréquence d'occurrence dans un corpus, et les cooccurrences c.à.d. les toponymes qui apparaissent fréquemment avec le référent cible (Voir l'heuristique H4 pour plus d'informations sur l'utilité des cooccurrences).

3.6 Les ressources

Toute source de connaissance hormis le contexte est appelée ressource. Les ressources ont deux rôles principaux dans la DT qui sont :

1. Fournir les différents référents d'un toponyme. Ce qui représente la première étape de la DT ;

2. Fournir des connaissances linguistiques et géographiques sur les référents (Voir aussi la taxonomie de connaissances dans la Figure 3-7).

Les ressources peuvent offrir des connaissances générales ou spécifiques à un domaine. Par exemple, WordNet18 (voir Chapitre 4, p98) fourni des définitions et des relations pour plusieurs types de mots: les noms (y compris les toponymes), les verbes, les adjectifs, et les adverbes. Tandis que les gazetteer (Section 3.6.1) sont des ressources de connaissances sur les lieux géographiques seulement.

Les ressources utilisées dans l'état de l'art sont : les ontologies (Volz, Kleb et Mueller 2007), les corpus linguistiques (Smith et Mann 2003), les gazetteer.

3.6.1 Les gazetteers

Gazetteer est un terme anglais19 qui représente traditionnellement un dictionnaire de toponymes. Maintenant, les gazetteers sont considérés comme un type de Systèmes d'Organisation des Connaissances (SOC), qui organisent des informations sur les lieux géographiques nommés (Hill 2006).

Une entrée dans un gazetteer contient au minimum 3 types d'informations (Leidner 2007) qui sont un toponyme avec son type et son empreinte spatiale:

Toponyme : nom d'un objet20 géographique et éventuellement ses variantes historique ou vernaculaire (voir Section 2.2).

Type : c'est la catégorie de l'objet géographique à lequel se réfère le toponyme, par exemple : région administrative, pays, cité, montagne, pont, ..., etc.

18 http://wordnet.princeton.edu

19 Nous avons choisi d'utilisé le terme gazetteer dans ce mémoire car il n'a pas une traduction unique et précise en français.

20 On dit objet car le gazetteer peut contenir non seulement des noms de lieux comme les pays et les villes mais aussi des noms des montagnes, des rivières, des constructions ..., etc.

Empreinte spatiale : représentation de la location référée par le toponyme dans un système de coordination par exemple la latitude et la longitude.

Les gazetteers diffèrent entre eux dans les types d'objets qu'ils renferment (ex. lieux habités, étendus d'eau, montagnes...) la couverture géographique (ex. le monde, un continent, un pays...), la granularité des lieux ( ex. il peut contenir seulement les pays avec leurs villes comme il peut aller jusqu'aux villages, cartiers, rues..), et les détails de chaque entrée (population, longitude et latitude, code postale, superficie...) (Hill 2006) (Leidner 2007, Chapitre 4).

Les gazetteers sont utilisés dans les méthodes de DT pour 4 objectifs :

1. Identifier les toponymes dans le texte ;

2. Fournir la liste des référents candidats pour chaque toponyme ;

3. Fournir des connaissances géographiques à propos des référents ;

4. Annoter les corpus destinés à l'évaluation des méthodes de DT, ou ceux servant comme source de connaissance, notamment, dans les méthodes supervisées (comme (Smith et Mann 2003)). Voir Section 3.6.2 pour plus d'informations sur les corpus et leur annotation.

Le Tableau 3-5 montre les connaissances fournies par les gazetteers et les heuristiques qui les manipulent. Nous remarquons que les connaissances des gazetteers sont manipulées presque par tout les heuristique de désambiguïsation des toponymes.

Tableau 3-5. Les connaissances fournies par les gazetteers et les Heuristiques qui les manipulent

connaissances Heuristiques qui les manipulent

Position géo-spatiale H1 Distance aux voisins textuels non ambigusH1

H5 Espace géométrique (polygone / distance) minimaliste

H6 Contexte géographique unifiéH6

Chemin hiérarchique H2 Chevauchement entre les chemins hiérarchiques des référents

et le texte

H3.1 Les patterns de relation hiérarchique

H7 Le chemin le plus court entre les référents

H8 Les noeuds de l'arbre couvrant maximum

Population H10 La plus grande population

H16 Supprimer les petites places

Type de référent H11 Le référent de niveau supérieur

H3.2 Les patterns de type

H13 Préférer un type

Le Tableau 3-6 fournit des informations sur quelque gazetteers utilisés dans la littérature de la DT.

Tableau 3-6. Exemple de gazetteers utilisés dans les méthodes de désambigüisation des toponymes

Nom Nombre Site web Utilisé par

d'entrées

The Getty Thesaurus of 1.115.000 http://www.getty.edu/research (Stokes, et al. 2008)

Geographic Names (TGN) /conductingresearch/vocabula (Li, et al. 2006)

ries/tgn (Overell et Rüger 2007)

(Clough 2005)

World gazetteer inconnu http://world-gazetteer.com (Amitay, et al. 2004)

(Stokes, et al. 2008) (Li, et al. 2006)

USGS Geographic Names 1.836.264 http://geonames.usgs.gov (Amitay, et al. 2004)

Information System (Volz, Kleb et Mueller 2007)

(GNIS) (Garbin et Mani 2005)

3.6.2 Les corpus

Un corpus est une collection de textes utilisées pour apprendre des modèles de langue (Navigli 2009).

Les corpus dans le domaine de la DT sont des ressources textuelles21 où tous les toponymes sont annotés avec des informations spatiales qui indiquent une position unique dans la Terre (Leidner 2007).

Les corpus sont utilisés dans les heuristiques de DT pour obtenir deux connaissances linguistiques: les collocations (c.-à-d. les cooccurrences fréquentes) (voir H4), et des statistiques linguistiques à propos de la distribution de l'occurrence des toponymes et leurs sens (ex. trouver le référent le plus fréquents pour un toponyme (voir H15)).

En plus de leur utilisation comme source de connaissances, les corpus sont utilisés aussi comme terrain vérité pour l'évaluation des méthodes de DT.

Dans un corpus de DT chaque toponyme doit être annoté par un label (tag) qui détermine le lieu à lequel il se réfère ( ex. la latitude et la longitude). Les informations de l'annotation sont obtenues depuis les gazetteers. Conséquemment, l'utilisation d'un certain corpus pour l'évaluation impose l'utilisation du gazetteer avec lequel il est annoté.

Malheureusement, l'évaluation est encore problématique dans la communauté de recherche à cause du manque de corpus standards dédiés à la tâche de désambiguïsation des toponymes (Leidner 2007). Les méthodes de la littérature sont toutes évaluées sur des corpus différents.

3.6.3 Les ontologies

Volz, et al. (2007) ont présenté une approche de DT basée sur une ontologie et sa lexicalisation22. Dans leur approche, l'ontologie sert à identifier les toponymes dans le texte, à leur associer les référents possibles, et à fournir des connaissances pour la désambiguïsation.

21 Un ensemble de documents qui contiennent du texte libre en langue naturelle.

22 Création automatisée des listes qui comprennent tous les mots utilisés pour nommer respectivement les concepts, les relations, et les instances d'une ontologie.

L'ontologie dans l'approche de (Volz, Kleb et Mueller 2007) n'a joué pratiquement que le rôle d'un gazetteer mais seulement, elle a une structure différente où chaque type géographique est représenté par un concept (une classe), les référents sont les instances, et les toponymes sont le vocabulaire des instances. D'après notre point de vue, le vrai avantage des ontologies, est l'inférence des relations, mais malheureusement, cela n'a pas été exploité dans cette approche.

La méthode de Buscladi et Rosso (Buscaldi et Rosso 2008a) est basée sur l'ontologie WordNet qui a été utilisée pour fournir les différents sens d'un toponyme mais aussi pour calculer la densité conceptuelle (voir l'heuristique H9)

3.7 Conclusion

Nous avons articulé l'état de l'art sur quatre (4) axes, qui sont le contexte, les heuristiques, les connaissances et les ressources. Ces quatre composants sont les piliers de toute méthode de désambiguïsation des toponymes. Après cet état de l'art, nous avons remarqué que l'idée de désambiguïser les toponymes, par les référents les plus proches dans l'arbre hiérarchiques du monde, n'a pas été proposée auparavant. En effet, la seule relation arborescente entre les toponymes du même contexte qui a été exploitée explicitement pour la désambiguïsation est la méronymie (est-partie-de). Dans le chapitre suivant, nous proposons une nouvelle heuristique de DT qui désambigüise les toponymes ambigus du même contexte par les référents les plus proches les uns aux autres en termes de toutes les relations arborescentes qui peuvent exister entre eux.

Chapitre 4

Une nouvelle Heuristique de

Désambiguïsation des

Toponymes

 

Une partie de ce chapitre se trouve dans les
articles
(Bensalem et Kholladi 2009b)et (Bensalem
et Kholladi 2009c)

 

4.1 Introduction

Nous présentons dans ce chapitre notre contribution principale dans ce mémoire qui est une nouvelle heuristique de désambiguïsation des toponymes basée sur le calcul de la plus forte relation arborescente entre les référents des toponymes du même contexte. Notre heuristique exploite la connaissance « relation arborescente » qui n'est pas exploitée d'une manière explicite dans les méthodes de l'état de l'art.

Nous commençons d'abord par présenter notre motivation, puis nous présentons notre méthode, en introduisant la mesure de la Densité Géographique que son calcul se base principalement sur les chemins hiérarchiques. Nous fournissons dans la section 04.3 les résultats d'évaluation de notre heuristique en la comparant avec une autre. Enfin, nous terminons par une conclusion qui résume les différents points discutés dans ce chapitre.

4.1.1 Aperçu sur les travaux antérieurs

Nous avons proposé dans le chapitre précédent (Section 3.4.2) une classification des heuristiques existantes de la désambiguïsation des toponymes. Cette classification a engendré deux catégories principales1: les heuristiques de désambiguïsation par le contexte, et les heuristiques de désambiguïsation par les règles de préférence.

Nous rappelons que les heuristiques de la première catégorie dépendent principalement des toponymes qui existent dans le même contexte dans lequel le toponyme à désambiguïser apparaît. Cela rend la tâche de désambiguïsation des toponymes similaire à la désambiguïsation des sens des mots (DSM) (Navigli 2009) qui est parmi les tâches connues du traitement automatique des langues naturelles (TALN). On veut dire par contexte (Section 3.3), le texte en langue naturelle qui contient le(s) toponyme(s) à désambiguïser. La taille de ce dernier

1 Une troisième catégorie décrite dans le chapitre précédant contient des heuristiques complémentaires.

dans les méthodes de DT varie de quelques toponymes autour du toponyme ambigu jusqu'à tous les toponymes du texte du document.

Toutefois, les heuristiques de la deuxième catégorie désambiguïsent les toponymes en se basant sur des préférences et des intuitions de l'être humain. Par exemple, désambiguïser par les référents à plus grande population (Pouliquen, et al. 2004) (Amitay, et al. 2004) (Rauch, Bukatin and Baker 2003) ou par les référents les plus fréquents (Stokes, et al. 2008).

A titre d'exemple, si le toponyme à résoudre est `Alexandrie', les deux heuristiques de la deuxième catégorie lui associent le référent `Alexandrie>Égypte' au lieu de `Alexandrie>Piémont>Italie' par exemple, car le premier lieu est le plus connu et le plus peuplé2. Tandis que le référent choisi par les heuristiques de la première catégorie peut être `Alexandrie>Égypte' ou `Alexandrie>Piémont>Italie' selon les toponymes qui apparaissent avec `Alexandrie' dans le même contexte.

Dans le but de facilité la lecture de ce chapitre, le Tableau 4-1 (voir p. 90) rappelle la liste des heuristiques présentée dans le chapitre 3.

4.1.2 Les types de relations entre les toponymes du même contexte

En observant les heuristiques de la désambiguïsation des toponymes par le contexte, nous remarquons que derrière la plus part des heuristiques de cette classe, se cache une intuition qui consiste à supposer l'existence d'une certaine proximité géographique entre les référents des toponymes du même contexte.

H1, H5, H6 désambiguïsent les toponymes par les référents les plus proches en termes de distance, ce qui implique à faire des calculs géométriques en utilisant les coordonnées spatiales des référents. Cependant, les heuristiques H2, H9, H3.1, H7 désambiguïsent les toponymes par les référents les plus proches dans l'arbre

2 Référents et statistiques de population selon Word Gazetteer : http://world-gazetteer.com (dernière consultation le 28 septembre 2009).

hiérarchique des lieux du monde. Dans ce cas, les référents doivent être représentés par leurs chemins hiérarchiques.

Tableau 4-1. Rappel des heuristiques de l'état de l'art de désambiguïsation des toponymes

Heuristiques de
désambiguïsation par
le contexte

H1 Distance aux voisins textuels non ambigus

H2 Chevauchement entre les chemins hiérarchiques des référents et le texte

H3 L'appariement des patterns

H3.1 Les patterns de relation hiérarchique H3.2 Les patterns de type

H4 Modèle de cooccurrence

H5 Espace géométrique (polygone / distance) minimaliste

H6 Contexte géographique unifié

H7 Le chemin le plus court entre les référents

H8 Les noeuds de l'arbre couvrant maximum

H9 La densité conceptuelle

Heuristiques de
désambiguïsation par
les règles de
préférence

H10 La plus grande population

H11 Le référent de niveau supérieur

H12 Le référent le plus connu

H13 Préférer un type

H14 Ordre de préférence des ressources

H15 Le sens le plus fréquent dans un corpus

H16 Supprimer les petites places

H17 Concentration sur une zone géographique

Heuristiques H18 Un référent par discours

complémentaires H19 Attribuer les référents aux toponymes non ambigus

Nous appelons « relation spatiale » entre les référents toute relation géographique résultante de la proximité des distances, et « relation arborescente » toute relation résultante de proximités dans l'arbre hiérarchique des lieux du monde (Bensalem et Kholladi 2009b).

En outre, nous distinguons deux types de relations arborescentes: les relations hiérarchiques, et les relations non hiérarchiques (Bensalem et Kholladi 2009b).

Les relations hiérarchiques existent entre les lieux de la même branche dans l'arbre. Par exemple entre un pays et une de ses villes ; comme entre l'Algérie et Constantine dans la Figure 4-1.

Andalousie

Michigan

Marrakech Alger Constantine

Relations
hierarchiques

Séville

Alger

Relations non
hiérarchiques

Cordoue

Monde

Amérique

est meronyme de
(méronymie)

Europe

est holonyme de
(holonymie)

Afrique

USA

Espagne Maroc

Algérie

Figure 4-1. Une partie de l'arbre hiérarchique du monde (Alger est un toponyme ambigu)

Les relations non hiérarchiques sont celles qui existent entre les noeuds qui se trouvent dans des branches différentes mais qui ont une (ou plusieurs) racine commune. La racine commune peut être directe (ex. Andalousie par rapport à Séville et Cordoue) ou indirecte (ex. Afrique par rapport à Constantine et Marrakech).

Il existe deux sortes de relations hiérarchiques: la méronymie qui est la relation «est-partie-de» et l'holonymie3 qui représente la relation « contient-la-partie ». Par exemple, nous disons que `Algérie' est un holonyme de `Constantine' et `Constantine' est un meronyme de l'Algérie.

Un chemin hiérarchique d'un lieu est donc composé d'un ensemble de toponymes connectés les uns aux autres par des relations d'holonymie/méronymie. Par exemple `Alger>Algerie>Afrique' et `Alger>Michigan>USA>Amérique' sont des chemins hiérarchiques du toponyme ambigu `Alger' (voir Figure 4-1).

La Figure 4-2 résume les différents types des relations géographiques qui peuvent exister entre les lieux du même contexte.

3 L'holoymie et la méronymie sont des termes qui expriment des relations sémantiques et ils sont originaires de la discipline de la linguistique.

Holonymie Meronymie

Hiérarchiques

Arborescentes

Relations
géographiques

Non
hiérarchiques

Spatiales

Figure 4-2. Les différents types de relations géographiques qui peuvent exister entre les lieux mentionnés dans le
même contexte

4.1.3 Une nouvelle perspective au problème de la désambiguïsation des toponymes

Nous avons remarqué que la plupart des méthodes existantes fondées sur la proximité arborescente sont capables de résoudre les toponymes en recherchant ses holonymes dans le contexte c.-à-d. en cherchant ses relations de méronymie4. Clough (2005) quantifie l'existence des holonymes par le calcul du score du chevauchement (SC) entre le contexte et le chemin hiérarchique du référent (voir l'explication de H2 dans le chapitre 3). Le SC permet évidement d'identifier dans le contexte tous les holonymes d'un toponyme, qu'ils soient directes ou indirectes. L'heuristique de Pouliquen et al. (2004) cherche seulement la mention dans le contexte d'un holonyme du toponyme à résoudre sans le calcul du score du chevauchement.

4 Étant donné que la relation de méronymie est la relation «est-partie-de », alors, chercher des relations de méronymie pour un toponyme consiste à trouver ses racine c.-à-d. ses holonymes.

Cependant, au meilleur de nos connaissances, les seules heuristiques qui essayent de chercher d'autres types de relations arborescentes entre les toponymes (c.-à-d. non seulement la relation de la méronymie) sont l'heuristique du plus court chemin (H7) de (Stokes, et al. 2008), et celle basée sur la densité conceptuelle (DC) de Buscaldi, et Rosso (2008a) (H9)5.

Exemple

Si les toponymes : `Alger', `Constantine' sont mentionnés dans un texte, et Constantine est résous à `Constantine >Algérie', il est possible en utilisant les heuristiques H7 et H9 de résoudre le toponyme ambigu `Alger' par `Alger>Algérie' car ce référent partage une racine commune avec `Constantine' (donc une relation non hiérarchique avec `Constantine') qui est l'Algérie (voir la Figure 4-1 p.91). Cependant, en utilisant les heuristiques basées sur le score du chevauchement avec le contexte on ne peut pas découvrir que le référent `Alger>Algérie' est le plus relier à `Constantine' par rapport aux autres référents de `Alger'.

Stokes, et al. (2008) ont utilisé l'heuristique du plus court chemin (H7) comme une heuristique secondaire qui résout les toponymes ambigus par rapport aux ceux déjà résous par d'autres heuristiques. D'ailleurs, ils n'ont pas fourni des détails sur son principe.

L'heuristique de (Buscaldi et Rosso 2008a) quantifie des relations arborescentes entre les toponymes par le calcul de la densité conceptuelle, mais le principe de cette quantification n'est pas suffisament claire6. En outre la DC a été introduite pour la prmiere fois pour la désambiguisation des sens des mots (Agirre et Rigau 1996) (Rosso, et al. 2003) puis adaptée à la désambiguisation des toponymes (Buscaldi et Rosso 2008a), donc elle n'est pas conçue directement pour adresser le problème de DT.

5 Sachant que cela reste notre point de vue sur leurs méthodes et ce n'est pas déclaré explicitement par les auteurs.

6 Les auteurs n'ont pas déclaré que la DC est une mesure des relations arborescentes et n'ont pas expliqué sa formule dans ce sens.

En bref, contrairement aux relations spatiales, les relations arborescentes ne sont pas exploitées explicitement dans les méthodes de DT. En effet, à nos jours il n'y pas d'auteurs qui ont déclaré que leur méthode est basée sur la quantification des relations arborescentes de tous types entre les toponymes du même contexte. Ainsi, nous croyons que nous somme les premiers à voir le problème de désambiguïsation des toponymes dans cette perspective.

Nous proposons dans le reste de ce chapitre une nouvelle heuristique de désambiguïsation des toponymes basée sur le contexte. À la différence des autres heuristiques de cette catégorie, notre heuristique est conçue explicitement sur l'idée de chercher des relations arborescentes (hiérarchiques et non hiérarchiques) entre les toponymes du même contexte, et elle est basée sur une nouvelle mesure de corrélations arborescentes entre les toponymes que nous appelons la Densité Géographique.

4.2 Notre heuristique de désambiguïsation des

toponymes

4.2.1 Notation

Tableau 4-2. Conventions de notation de l'heuristique de densité géographique

T l'ensemble des toponymes qui apparaissent dans T = {t i D / i = 1...n} un document D

Chaque toponyme apparait une seule fois dans T. n est le nombre de toponymes.

G: un gazetteer.

Chaque rid est représenté par un ensemble de caractéristiques qui diffèrent selon le gazetteer utilisé. Dans cette heuristique nous avons besoin pour chaque lieu de : son identifiant, son nom et son chemin hiérarchique. On dit que le lieu rid est un référent de ti si ti est le nom de rid.

G = { rid/ r id est un lieu géographique dans la Terre }

La suite du tableau est dans la page suivante

hid est le chemin hiérarchique de rid dans l'arbre d'hiérarchie de G.

Chaque noeud de hid est un référent rid.k, tel que le premier noeud rid.1 est l'extrême holonyme de rid et le dernier noeud rid.l est rid. tel que l est la longueur du chemin hiérarchique.

hid =» rid1>rid2>...>ridl»

Comp(hid) sont les référents qui compose un Comp(hid) ={ ridk, k=1..l}

chemin hiérarchique hid.

R i : l'ensemble des référents du toponyme ti. R i = { rid G / ti est le nom de rid }

Hi un ensemble composé des chemins H i = { hid / rid Ri }

hiérarchiques des référents de Ri

R est l'ensemble de tous les ensembles Ri, c.-à-d. R = { R i , i = 0..n }

l'ensemble des référents de tous les toponymes

d'un document D.

H est l'ensemble de tous les ensembles Hi. H = { Hi , i = 0..n }

Comp(Hi): les composants de tous les hid Hi sans Comp(Hi)= U Comp(hid)/ hid Hi

duplication des éléments

Comp(H): l'ensemble des ensembles Hi. Comp(H)= U Comp(Hi)/ Hi H

4.2.2 Principe et méthode

Notre heuristique est basée sur l'hypothèse que les toponymes qui apparaissent ensembles dans le même document sont reliés géographiquement par des relations arborescentes qu'ils soient hiérarchiques ou non hiérarchiques.

L'heuristique proposée résout un toponyme par le référent qui est :

n Le plus relié géographiquement aux référents des autres toponymes, c.-à-d. celui qui possède relativement beaucoup de relations arborescentes avec les référents des autres toponymes (on peut dire que c'est une relation indirecte avec le contexte), et ;

n Le plus relié au contexte, c.-à-d. son chemin hiérarchique et le contexte contiennent relativement beaucoup de toponymes en commun (le même

principe de l'heuristique H2).

Ces deux caractéristiques sont quantifiées par le calcul de ce que nous appelons la Densité Géographique (Bensalem et Kholladi 2009a). Nous définissons donc la Densité Géographique (DG) comme une mesure de corrélation (directe ou indirecte) entre un référent d'un toponyme et le contexte de ce dernier.

La désambiguïsation des toponymes par le calcul de la densité géographique suit les étapes suivantes :

1. Extraire tous les toponymes du document D (taille du contexte = tous les toponymes du document).

2. Éliminer les duplications en appliquant l'hypothèse de « un sens par discours » (voir H18).

3. Déterminer la liste des référents candidats Ri pour chaque toponyme ti. Chaque référent candidat rid doit être représenté par son chemin hiérarchique hid.

4. Calculer la densité géographique pour chaque référent candidat dans Ri de chaque toponyme ti.

5. Attribuer à chaque toponyme ti le référent rid qui possède la plus grande densité géographique DG(rid) parmi l'ensemble de ses référents candidats.

4.2.3 La densité géographique

Les connaissances principales sur lesquelles se base le calcul de la densité géographique sont les chemins hiérarchiques des référents candidats de tous les toponymes du contexte (c.-à-d. les éléments de l'ensemble H). Le chemin hiérarchique d'un référent est composé du référent lui-même, est ces holonymes7 c.-à-d. sa racine directe, et ces racines indirectes.

La DG d'un référent rid d'un toponyme ambigu ti augmente lorsque :

7 Dans l'intention de brièveté, désormais, le mot « holonnyme » seul suffira pour dire « holonymes directs et indirects » qui compose nt le chemin hiérarchique d'un toponyme.

(a) ce référent apparaît parmi les holonymes (les racines) des autres référents dans R-Ri, et /ou,

(b) ses holonymes sont parmi les référents candidats des autres toponymes (c.-à-d. dans R-Ri), et /ou,

(c) ses holonymes sont aussi des holonymes pour d'autres référents, et

(d) les toponymes qui composent son chemin hiérarchique existent partiellement ou totalement dans le contexte.

Les caractéristiques (a), (b) et (d) signifient la présence d'une relation hiérarchique entre le référent cible rid et certains référents des autres toponymes, et (c) signifie la présence d'une relation non hiérarchique.

Les caractéristiques (a), (b) et (c) sont quantifiées par le calcul des fréquences du référent rid et ses holonymes (c.-à-d. de rid.1,..rid.2, ...rid.l) dans les chemins hiérarchiques des référents de l'ensemble R. La fréquence d'un référent rid.k est la somme de ses poids dans chaque Ri (l'équation (2)).

Le poids P est une fonction booléenne qui indique l'existence ou l'absence d'un référent rid.k dans les chemins hiérarchiques d'un ensemble Ri (l'équation (3)). Par conséquent, La plus grande valeur que peut prendre une fréquence est égale à n : le nombre des ensembles Ri dans R, et ce qui représente aussi le nombre de toponymes dans le texte.

La caractéristique (d) est quantifiée par le calcul du score du chevauchement du chemin hiérarchique du référent rid avec le contexte D, cela est représenté par la valeur SC(hid, D).

La densité géographique DG (rid, R) d'un référent candidat rid est la somme de ces deux valeurs décrites ci-dessus (la fréquence des référents qui compose son chemin hiérarchique hid et le score du chevauchement de ce dernier avec le contexte) (l'équation (1)).

DG (rid, R) = (Fréquence ( ~~d.k , R) ) + SC(h~~ ,D) (1)

k=1

n

Fréquence ( r.k ,R) = >P(r~d.k,RL) (2)

t=1

P(gd.k, R1) = (0, si le nombre de rgd.k dans Comp(H1) = 0 (3)

1, si le nombre de rgd.k dans Comp(H1) ? 0

4.3 Évaluation

4.3.1 Description des ressources

L'évaluation des méthodes de la désambiguïsation des toponymes nécessite l'utilisation de deux ressources principales qui sont les corpus textuels et les inventaires de sens comme les gazetteers et les ontologies. L'évaluation est encore problématique dans ce domaine dû au manque de ressources standards qui permettent la comparaison entre les performances des différentes méthodes. Leidner (2004, 2006) a adressé ce problème mais malheureusement ses données ne sont pas disponible gratuitement8.

Buscaldi et Rosso (Buscaldi et Rosso 2008a) ont évalué leur méthode basée sur la densité conceptuelle en utilisant l'ontologie WordNet comme un inventaire de sens, et le corpus GeoSemCor.

WordNet (Miller 1995) est une large base de données lexicale disponible aussi bien en anglais qu'en d'autres langues. Les mots dans WordNet sont relier les uns aux autres par une variété de relations sémantiques, parmi elles l'holonymie et sa relation inverse la méronymie qui sont les relations les plus significatives pour les toponymes.

8 D'après une communication personnelle avec Jochen Leidner.

Les mots en WordNet sont groupés en 4 catégories : les noms, les verbes, les adjectifs et les adverbes. Les noms à leur tour sont classifiés en 26 catégories. Les toponymes se retrouvent parmi les noms de 2 classes: Location et Object. La classe Location contient des noms désignant une position spatiale, mais la classe, objet, contient des noms désignant des objets naturels.

Le corpus GeoSemCor -présenté pour la première fois dans (Buscaldi et Rosso 2008a)- est une version de SemCor (Miller, Leacock, et al. 1993) où chaque toponyme est annoté par son référent correct dans WordNet (voir Figure 4-3). Ce corpus est disponible gratuitement sur la page personnelle de Buscaldi9. Le Tableau 4-3 donne quelques informations à propos de GeoSemCor.

geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=savannah wnsn=1 lexsn=1:15:00::>Savannah</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=texas wnsn=1 lexsn=1:15:00::>Texas</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf>

Figure 4-3. Les toponymes du fichier br-a01 du corpus GeoSemCor annotés avec leurs sens dans WordNet. La
combinaison de lemma et lexsn permet de relier le toponyme avec son sens

9 http://users.dsic.upv.es/grupos/nle/downloads.html

Tableau 4-3. Informations à propos le corpus GeoSemCor

Nombre total des toponymes 1210

Nombre des toponymes ambigus 498

Nombre de documents 123

Nombre moyen de toponymes 9,84

par document

Nombre de toponymes sans

duplications dans le même 693

document

Nombre moyen de toponymes

par document sans duplication 5,20

Nombre de toponymes dupliqué

avec des référents différents 13

dans le même document

Étant donné que WordNet n'est pas une source de connaissances purement géographiques, elle n'est pas aussi riche de toponymes et de référents pour chaque toponyme que les gazetteers. Le Tableau 4-4 fournit des toponymes pris du corpus GeoSemCor et des toponymes de quelques wilayas d'Algérie et compare leur nombre de référents récupérés du WordNet (version 2.1) et du Gazetteer Getty.

De son coté, GeoSemCor n'est pas compilé pour évaluer la tâche de DT, il est plutôt construit pour la tâche de désambiguïsation des sens des mots. Par conséquent, ces deux ressources ne sont pas vraiment adaptées à la tâche de désambiguïsation des toponymes.

Toutefois, Nous avons choisi d'évaluer notre heuristique en utilisant ces
ressources. Cela est pour deux raisons. D'un coté, ce sont les seules ressources de
DT gratuitement disponible10, et de l'autre coté cela nous permet de comparer

10 GeoSemCor est disponible dans l'adresse http://users.dsic.upv.es/grupos/nle/downloads.html et WordNet dans l'adresse http://wordnet.princeton.edu

notre méthode à celle de Buscaldi et Rosso (2008a) qui ressemble à la notre dans le fait qu'elle puisse détecter des relations non hiérarchiques entre les toponymes.

Tableau 4-4. Comparaison du nombre de référents pour certains toponymes dans WordNet et le Gazetteer Getty

Toponyme

Nombre de référents
dans WordNet

Nombre de référents
dans le gazetteer Getty

China

2

264

Georgia

3

74

New York

3

104

Paris

2

102

Palestine

2

44

Russia

4

14

Annaba

1

3

Constantine

1

17

Mila

0

4

Oran

1

14

4.3.2 Expérimentations

4.3.2.1 Objectifs et métriques d'évaluation

Nous avons implémenté notre méthode en utilisant le langage Perl et nous avons réalisé un ensemble d'expérimentations pour les buts suivants:

· Vérifier l'hypothèse de l'existence des relations arborescentes entre les toponymes du même contexte

· Étudier l'effet de la détection des relations de méronymie vs toutes les relations arborescentes sur les performances de la désambiguïsation des toponymes

· Comparer les performances de notre méthode avec d'autres.

L'estimation des performances des méthodes de désambiguïsation des toponymes
se fait par les métriques utilisées dans les domaines de la recherche d'information

et le traitement automatique des langues naturelles. Ces métriques sont : la précision, le recall, la couverture, et F-mesure. Ils se calculent dans le domaine de la DT comme montré dans les équations (4), (5), (6) et (7) respectivement.

Précision =

nombre de toponymes résous correctement

(4)

 
 
 

Recall =

nombre de toponymes résous correctement

(5)

 
 

Couverture =

nombre de toponymes résous

(6)

 
 

F - mesure =

4.3.2.2 Résultats et analyse

2 * Précision * Recall

(7)

 
 
 

Le Tableau 4-5 fourni les résultats d'expérimentations.

Tableau 4-5. Résultats d'évaluation en utilisant WordNet et GeoSemCor

 

Précision

Recall

Couverture

F-mesure

DG (freq + SC)

88,2%

87,4%

99,0%

0,878

SC (H2)

90,8%

78,3%

86,3%

0,841

DC (H9)

89,9%

77,5%

86,2%

0,832

Map (H6)

87,9%

70,2%

79,9%

0,781

 

La ligne DG représente les résultats de notre méthode basée sur la densité géographique. Cette dernière -comme c'est expliqué précédemment- est la somme de la fréquence du référent et le score du chevauchement de son chemin hiérarchique avec le contexte. La ligne SC représente les résultats d'expérimentations avec le score du chevauchement seulement (voir l'heuristique H2). La ligne nommée DC représente les résultats de la méthode de Buscaldi et Rosso (2008a) qui est basée sur la densité conceptuelle. Map indique les résultats

de la méthode de Smith et Crane (2001). Cette dernière est basée sur la détection des relations spatiales entre les référents des toponymes (voir l'heuristiques H6 dans le chapitre précédent). Les résultats de ces 4 méthodes sont obtenus en utilisant le corpus GeoSemCor. Les linges DC et Map sont prise des articles (Buscaldi et Rosso 2008a) et (Buscaldi and Rosso 2008c) en considérant tous les toponymes du document comme contexte.

Les résultats d'expérimentation montre que la plus grande précision est celle de la méthode SC, cela veut dire que l'occurrence des holonymes d'un toponyme ambigu dans le contexte est le plus précis indicateur de son sens (son référent).

La couverture et le recall en utilisant la densité géographique (qui quantifie le degré de toutes les relations arborescentes) sont plus élevés par rapport à ceux de SC. Cela confirme que la recherche des relations hiérarchiques de type méronymie (quantifiés par SC) n'est pas suffisante pour désambiguïser tous les toponymes du contexte (pourtant elle donne des résultats précis). Il est donc plus performant de détecter tout les types de relations arborescentes pour désambiguïser le plus grand nombre de toponymes.

La couverture et le recall de notre méthode sont considérablement élevés par rapport à ceux des méthodes basées sur la DC (Buscaldi et Rosso 2008a) (+9,9%, +12,8% respectivement) et sur les calculs spatiaux (Smith & Crane, 2001)(+17,2%, +19,1% respectivement). Cependant, pas de différences significatives entre les précisions de ces trois méthodes (-1 ,9% et +0,3 la différence entre la précision de méthode DG et les méthodes DC et MAP respectivement).

De surcroît, les valeurs de toutes les mesures de notre méthode ont dépassé la valeur 80%, ce qui indique de bonnes performances.

4.4 Rapport entre le nombre de toponymes dans

le contexte et les performances de la DT

Puisque notre heuristique utilise tous les toponymes du contexte. Nous avons réalisé une autre expérimentation pour étudier le rapport entre le nombre de toponymes du contexte et les performances de la désambiguïsation des toponymes. Mais les résultats ont prouvé qu'il n'y a pas une telle corrélation comme c'est illustré dans la Figure 4-4.

Mesures de performances

1 1 1 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 6 6 6 7 8 9 10111419

Nombre de toponymes dans les documents

couverage recall precision

Figure 4-4. Rapport entre le nombre de toponymes et les performances de la DT : pas de corrélation significative

4.5 Conclusion

Nous avons classifié dans ce chapitre les différentes relations géographiques qui peuvent exister entre les toponymes du même contexte en se basant sur notre propre analyse des travaux de la littérature. En plus, nous avons proposé une nouvelle heuristique de désambiguïsation des toponymes. Notre heuristique est basée sur l'hypothèse de l'existence des relations géographiques arborescentes entre les toponymes du même contexte. Donc, elle résout les toponymes ambigus par les référents les plus reliés entre eux dans l'arbre hiérarchique des lieux du monde. Pour quantifier le degré de cette relation nous avons introduit une mesure

de corrélation géographique que nous avons appelé la densité géographique (DG), cela est par analogie à la densité conceptuelle (DC) utilisée pour la désambiguïsation des sens des mots, et appliquée par Buscaldi et Rosso (2008) pour la DT.

L'évaluation de notre heuristique en utilisant WordNet et GeoSemCor a montré la validité de notre hypothèse et la performance de notre heuristique. En outre, la comparaison de notre méthode à celle basée sur le SC a montré que la détection des relations de méronymies -qui est une idée utilisée dans quelques méthodes de l'état de l'art- est une heuristique précise mais n'est pas suffisante pour désambiguïser tous les toponymes d'un texte donné.

La comparaison de notre méthode avec celle de Smith et Crane (2001) (voir H6) a montré que la désambiguïsation des toponymes en cherchant une proximité arborescente est plus précise et plus performante que la désambiguïsation en s'appuyant sur la proximité en terme de distance.

Finalement, il faux reconnaître que les ressources GeoSemCor et WordNet nous ont permis d'évaluer notre méthode en la comparant à d'autres mais, à vrai dire ces deux ressources ne sont pas vraiment dédiées à la tâche de désambiguïsation des toponymes. Nul doute que l'utilisation d'autres ressources va nous permettre de mieux évaluer notre méthode.

Résumé de 24 mois de recherche

L'ordre des chapitres de ce mémoire reflète l'ordre chronologique des différentes étapes que nous avons connu durant notre chemine de recherche qui a commencé par l'exploration d'un large domaine qui est le data mining spatial et a terminé par une contribution dans un domaine spécifique qui est la désambiguïsation des toponymes.

Notre premiers pas dans cette recherche était de faire une synthèse sur le domaine du data mining spatial. Durant cette phase nous avons découvert que le data mining spatial est un domaine très large et sa largeur a plusieurs aspects.

Premièrement, c'est une extension du data mining sur les données spatiales, ce qui nous a obligé de se documenté dans deux domaine : le data mining d'un côté et les bases de données spatiales d'un autre côté.

Deuxièmement, le data mining -et à fortiori le data mining spatial- est un domine pluridisciplinaire, il se situe dans l'intersection de trois disciplines qui sont la statistique (avec ses trois branche inférencielle, descriptive et mathématique), les bases de données, et l'intelligence artificielle en particulier l'apprentissage machine. Cette nature pluridisciplinaire du data mining nous a fait passer beaucoup de temps pour se familiariser avec son jargon dérivé de plusieurs disciplines en particulier la statistique inférencielle qui était problématique pour nous autant qu'informaticien. Durant cette phase nous avons publié un article (Bensalem & Kholladi, 2008) sur les différents aspects de la relation entre le data mining et la statistique qui est un sujet de débat entre les chercheures informaticiens et statisticiens.

Chaque phase est un domaine de recherche qui a ses propres notions, techniques et problèmes.

Le quatrième aspect de la largeur du data mining est la multiplicité de ses domaines d'application, qui varient entre la science, l'environnement, l'économie, la communication, le Web, ..., etc.

Parmi cet éventail de sujets, nous avons choisi d'investiguer dans la première phase du data mining spatial qui est la collecte et la préparation de données géographiques. Parmi les sujets de recherche dans cette phrase, il y a l'intégration de données depuis plusieurs sources, et parmi ces sources il y a les documents textuels en langue naturelle. Ces raffinements nous ont conduits finalement vers la problématique de la désambiguïsation des toponymes.

Malgré le fait que la désambiguïsation des toponymes a des relations avec plusieurs autres domaines, nous étions contraints de consacrer le premier chapitre pour discuter précisément sa relation avec le data mining spatial du moment qu'il est le domaine de départ de notre recherche. Une partie de notre article (Bensalem & Kholladi, 2009b) discute cette relation.

Après notre décision de s'investiguer dans le domaine de la désambiguïsation des toponymes, nous avons affronté de nouveau la contrainte de la pluridisciplinarité. En fait, la DT partage plusieurs techniques avec la désambiguïsation des sens des mots et l'extraction des entités nommées qui sont des sous-domaines de la discipline du traitement automatique des langues naturelles, et aussi avec le géocodage et le géoparcing qui sont des sous-domaines des systèmes d'informations géographiques. En plus elle sert au géo-référencement des documents textuels qui permet l'indexation géographique des documents au sein d'un système de recherche d'information. Le chapitre 2 a discuté la position de la DT par rapport à ces domaines. Cela a permis d'un coté de bien exhiber l'utilité de cette tâche dans plusieurs applications, et d'un autre coté, de se familiariser avec son jargon multidisciplinaire.

Pour préparer le chapitre 3, nous avons analysé des dizaines de méthodes de l'état de l'art de la DT. Au début, ces méthodes nous ont apparu complètement différentes, mais par induction nous avons trouvé qu'elles partagent 4 composants, qui sont le contexte, les heuristiques, les connaissances, et les ressources. Cela nous a inspiré l'idée d'articuler l'état de l'art selon ces 4 axes. De plus, nous avons élaboré des classifications des heuristiques1 et des connaissances, et nous croyions que notre état de l'art est complément de celui de (Leidner, 2007).

L'analyse des méthodes de l'état de l'art nous a permis de remarquer que beaucoup de méthodes sont basées implicitement sur l'idée que les référents des toponymes du même contexte sont proches géographiquement les uns des autres. En outre, nous avons distingué deux types de relations géographiques : les relations spatiales, qui résultent des proximités en termes de distance, et les relations arborescentes qui résultent des proximités dans l'arbre hiérarchique des lieux du monde. Contrairement aux relations spatiales, les relations arborescentes ne sont pas exploitées explicitement dans les méthodes existantes de DT. Notre contribution consiste à proposer une heuristique de désambiguïsation des toponymes qui est basée sur la quantification de ce type de relations, et ainsi elle porte remède à la dite lacune des méthodes existantes.

L'évaluation de notre heuristique a prouvé la validité de l'idée de désambiguïsation en exploitant les relations arborescentes et en plus elle a montré la performance de notre méthode par rapport d'autres. Notre heuristique ainsi que les résultats de son évaluation seront publié prochainement dans (Bensalem & Kholladi, 2009c)2.

Il convient de noter que l'évaluation est encore problématique dans ce domaine à
cause du manque de corpus standards dédiés à cette tâche. En effet, nous avons
contacté une vingtaine d'auteurs pour l'obtention de leurs corpus. Finalement,

1 L'idée de classifier les heuristiques est inspirée de (Leidner, 2007), mais notre classification est différente de la sienne.

2 Ce papier est accepté et sera publié dans la conférence ACIT à décembre prochain (si Allah le Veut).

nous avons choisi de travailler sur GeoSemCor qui est gratuitement disponible sur le Web mais il a l'inconvénient de ne pas être vraiment adapté à la tâche de DT.

Perspectives

La désambiguïsation des toponymes est encore un terrien fertile pour la recherche. Dans ce qui suit nous présentons un ensemble de perspectives :

· Étudier les performances de notre heuristique au sein d'un processus de recherche d'information géographique. En effet, beaucoup d'auteurs réalisent ce type d'études en utilisant leurs heuristiques de désambiguïsation comme (Stokes, Li, Moffat, & Rong, 2008), (Overell & Rüger, 2007).

· Étudier l'effet de la taille (nombre de toponymes et nombre de référents pour chaque toponyme) et de la granularité des gazetteers dans la désambiguïsation des toponymes.

· Appliquer la désambiguïsation des toponymes sur des textes en langue arabe, ce qui implique la construction des gazetteers et des corpus d'évaluation en langue arabe. En outre, il est indispensable dans ce cas d'adapter les techniques de l'identification des toponymes dans le texte à la langue arabe. En effet, la reconnaissance des entités nommées (y compris les toponymes) en langue arabe est le sujet de plusieurs articles comme (Nezda, Hickl, Lehmann, & Fayyaz, 2006) dans la littérature du TALN.

· Bénéficier de Wikipedia comme source de données géographiques pour construire automatiquement un gazetteer multilingue.

· Comparer l'ambiguïté des toponymes dans différentes langues: arabe, anglais, français, puis faire des études sur la possibilité de tirer avantage de la différence éventuelle du taux d'ambiguïté des toponymes entre les langues pour proposer d'autres heuristiques de désambiguïsation.

Annexe A : Références de base

Domaine Références

Data mining (Han et Kamber 2006)

Désambiguïsation des toponymes (Leidner 2007)

Désambiguïsation des sens des mots (Ide et Véronis 1998)

(Navigli 2009)

Informations géographiques et système et (Longley, et al. 2005)

d'information géographique (Laurini 1996) (disponible dans la

bibliothèque centrale de UMC)

Géo-référencement (Hill 2006)

Annexe B : Fonction de calcul de la Densité

Géographique écrite en Perl

sub geographical_density { @toponyms = ();

@toponyms = @_;

%tab_frequence = (); %topo_file = ();

foreach $topony (@toponyms)

{ @topo_hierars = ();

@topo_hierars = get_topo_hierar($topony); @{$topo_file{$topony}}{@topo_hierars} = () x

@topo_hierars;

#@affich = keys %{$topo_file{$topony}};

#print "les hirar de $topony sont @affich \n";

@components = ();

@components = get_hierars_components(@topo_hierars); foreach $r (@components)

{ $tab_frequence{$r}++; }

}

@tab f = ();

_

@tab_f = %tab_frequence;

foreach $topony (keys %topo_file) #reference to an

hierarchis

{ $ref_h = $topo_file{$topony};

@tab_hie =();

@tab_hie = keys %{$ref_h}; # retrieve hierarchis of a

toponym

foreach $h (@tab_hie)

{ @tab_h = ();

@tab_h = split (/>/,"$h");

$length_h = @tab_h; $topo_file{$topony}{$h}{"frequence"} =

referent_frequence($h,\%tab_frequence); $topo_file{$topony}{$h}{"SC"} =

context_inter_score($h,\@toponyms); $topo_file{$topony}{$h}{"length_h"} = $length_h; $topo_file{$topony}{$h}{"DG"} =

$topo_file{$topony}{$h}{"frequence"} +

$topo_file{$topony}{$h}{"SC"};

}

}

return \%topo_file;}

Annexe C : Le toponyme ambigu `Georgia'

dans les fichiers de WordNet et le

corpus GeoSemCor

Data.noun 08889889 15 n 02 Georgia 1 Sakartvelo 0 008 @i 08578498

n 0000 #p 08401715 n 0000 #m 08181367 n 0000 + 03148509 a 0101 %p 08890235 n 0000 %p 08890396 n 0000 %p 08890614 n 0000 %m 09587708 n 0000 | a republic in Asia Minor on the Black Sea separated from Russia by the Caucasus mountains; formerly an Asian soviet but became independent in 1991

08945623 15 n 04 Georgia 0 Empire_State_of_the_South 0 Peach_State 0 GA 0 018 @i 08534691 n 0000 #p 08915715 n 0000 #m 08920565 n 0000 #m 08921379 n 0000 + 03148282 a 0101 -r 01266860 n 0000 %p 08946257 n 0000 %p 08946399 n 0000 %p 08946706 n 0000 %p 08946835 n 0000 %p 08947280 n 0000 %p 08947398 n 0000 %p 08947538 n 0000 %p 09109867 n 0000 %p 09123267 n 0000 %p 09148673 n 0000 %p 09243465 n 0000 %p 09318270 n 0000 | a state in southeastern United States; one of the Confederate states during the American Civil War

08946145 15 n 01 Georgia 2 001 @i 08918800 n 0000 | one of the British colonies that formed the United States

Index.noun georgia n 3 6 @ #m #p %m %p - 3 2 08512235 08512738

08459739

georgia n 3 7 @ #m #p %m %p + - 3 2 08945623 08946145 08889889

Index.sense georgia%1:15:00:: 08945623 1 17

georgia%1:15:01:: 08889889 3 0
georgia%1:15:02:: 08946145 2 1

GeoSemCor geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true

cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf>

geosemcor2.0/brown1/tagfiles/br-h01:<wf geo=true cmd=done rdf=georgia pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Ga.</wf>

geosemcor2.0/brown2/tagfiles/br-g17:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=2 lexsn=1:15:02::>Georgia</wf>

Bibliographie

Nombre de références : 66

Agirre, E., & Rigau, G. (1996). Word sense disambiguation using conceptual density. Proceedings of the 16th conference on computational linguistics (COLING '96) (pp. 16- 22). Copenhaghen: Association for Computational Linguistics.

Amitay, E., Har'El, N., Sivan, R., & Soffer, A. (2004). Web-a-where: geotagging web content. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 273 - 280). New York: ACM.

Aufaure, M.-A., Yeh, L., & Zeitouni, K. (2000). Fouille de données spatiales. Le temps, l'espace et l'évolutif en Sciences du Traitement de l'Information .

Azimi, A., & Delavar, M. (2007). Quality assessment in spatial clustering of data mining. Proceedings of the 5th International Symposium on Spatial Data Quality (ISSDQ2007). Enschede, The Netherlands.

Bensalem, I., & Kholladi, M. K. (2009b). L'utilisation des chemins hiérarchiques des lieux pour la désambiguïsation des toponymes. Quaterième Atelier sur les Systèmes Décisionnels (ASD 2009). Jijel.

Bensalem, I., & Kholladi, M. K. (2009a). La désambiguïsation des toponymes par la densité géographique. International Conference on Applied Informatics (ICAI'09). Bordj Bou Arréridj, Algérie.

Bensalem, I., & Kholladi, M. K. (2009c). Toponym Disambiguation by Arborescent relationships. International Arab Conference on Information Technology (ACIT'2009). Yemen.

Bensalem, I., & Kholladi, M. K. (2008). ????? ???? : ÁÇÕÍ?ÇÈ ????? ? ???????? ?? ???????. Premières
Journées Scientifiques en Informatique (JSIO'08).
Communication Poster.Oran, Algérie.

Borges, K. A., Laender, A. H., Medeiros, C. B., Silva, A. S., & Davis, C. A. (2003). The web as a data source for spatial databases. Anais do V Brazilian Symposium on Geoinformatics, Campos do Jordão. SP, Brazil.

Bunescu, R. C. (2007). Learning for information extraction: From named entity recognition and disambiguation to relation extraction. Thèse de doctorat de philosophie, University of Texas, Austin.

Buscaldi, D., & Rosso, P. (2008). A conceptual density-based approach for the disambiguation of toponyms. International Journal of Geographical Information Science , 22 (3), 301-313.

Buscaldi, D., & Rosso, P. (2008a). A conceptual density-based approach for the disambiguation of toponyms. International Journal of Geographical Information Science , 22 (3), 301-313.

Buscaldi, D., & Rosso, P. (2008c). Map-based vs. knowledge-based toponym disambiguation. Proceeding of the 2nd international workshop on Geographic information retrieval, Napa Valley, California, USA (pp. 19-22). ACM.

Chinchor, N. (1998). MUC-7 named entity task definition (version 3.5). Proceedings of the 7th Message Understanding Conference (MUC-7). Fairfax, Virginia.

Clough, P. (2005). Extracting metadata for spatially-aware information retrieval on the Internet. Dans C. Jones, & R. Purves (Éd.), Proceedings of the ACM Workshop on Geographic Information Retrieval (GIR) held at the Conference on Information and Knowledge Management (CIKM) (pp. 25-30). ACM Press.

Collier, N., Doan1, S., Kawazoe, A., Goodwin, R. M., Conway, M., Tateno, Y., et al. (2008). BioCaster: detecting public health rumors with a Web-based text mining system. (J. Wren, Ed.) Bioinformatics , 24 (24), 2940-2941.

Cowie, J., & Lehnert, W. (1996). Information extraction. Communications of the ACM , 1 (39), 80-91.

Fayyad, U. M., Piatetsky-Shapiro, G., & Smyth, P. (1996). knowledge discovery and data mining: Towards a unifying Framework. Proceedings of the Second International Conference on Knowledge Discovery (pp. 82-88). California: AAAI Press.

Gaizauskas, R., Humphreys, K., Azzam, S., & Wilks, Y. (1997). Concepticons vs. lexicons: An architecture for multilingual information extraction. Dans P. M. Teresa (Éd.), Information extraction: A multidisciplinary approach to an emerging information technology , International Summer School, SCIE-97, Frascati, Italy, 14-18, 1997 (Vol. 1299, pp. 28-43). Berlin: Springer-Verlag.

Gale, W., Church, K., & Yarowsky, D. (1992). One sense per discourse. Proceedings of the Fourth DARPA Speech and Natural Language Workshop (pp. 233-237). San Mateo, CA: Morgan Kaufmann.

Garbin, E., & Mani, I. (2005). Disambiguating toponyms in news. Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing (HLT/EMNLP) (pp. 263-270). Vancouver: Association for Computational Linguistics.

Gardarin, G. (1999). Internet/intranet et bases de données: Data Web, Data Media, Data Warehouse, Data Mining. Eyrolles.

Han, J., & Kamber, M. (2006). Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann.

Hauptmann, A. G., & Olligschlaeger, A. M. (1999). Using location information from speech recognition of television news broadcasts. In T. Robinson, & S. Renals (Ed.), Proceedings of the ESCA ETRW Workshop on Accessing Information in Spoken Audio (pp. 102-106). Cambridge, England: University of Cambridge.

Hill, L. L. (2006). Georeferencing: The geographic associations of information. Cambridge, MA, USA: The MIT Press.

Ide, N., & Véronis, J. (1998). Word sense disambiguation: Stat of the art. Computational Linguistics , 24 (1).

Kalashnikov, D. V., Ma, Y., Mehrotra, S., Hariharan, R., & Butts, C. (2006). Modeling and querying uncertain spatial information for situational awareness applications. Proceedings of the 14th annual ACM international symposium on Advances in Geographic Information Systems (ACM GIS) (pp. 131 - 138 ). ACM.

Kalashnikov, D. V., Ma, Y., Mehrotra, S., Hariharan, R., Venkatasubramanian, N., & Ashish, N. (2006). SAT: Spatial Awareness from Textual input. Proceedings of the 10th International Conference on Extending Database Technology (EDBT), Munich, Germany.

Larson, R. R. (1996). Geographic information retrieval and spatial browsing. In L. Smith, & M. Gluck (Eds.), Geographic information systems and libraries: Patrons, maps, and spatial information : [papers presented at the 1995 Clinic on Library Applications of Data Processing, April 10-12, 1995] (pp. 81-123). Urbana-Champaign, USA: Graduate School of Library and Information Science, University of Illinois at Urbana-Champaign.

Laurini, R. (1996, juin 10). Bases de données géographiques. Technique de l'ingénieur (Référence H3758) .

Leidner, J. L. (2006). An evaluation dataset for the toponym resolution task. Computers,Environment and Urban Systems , 30 (4), 400-417.

Leidner, J. L. (2007). Toponym resolution in text: Annotation, evaluation and applications of spatial grounding of place names. PhD dissertation, University of Edinburgh, Institute for Communicating and Collaborative Systems, School of Informatics.

Leidner, J. L. (2004). Towards a reference corpus for automatic toponym resolution evaluation (Extended abstract). Proceedings of the Workshop on Geographic Information Retrieval held at the 27th Annual International ACM SIGIR Conference (SIGIR), (p. pages unnumbered). Sheffield, England, UK.

Leidner, J. L., Sinclair, G., & Webber, B. (2003). Grounding spatial named entities for information extraction and question answering. Proceedings of the Workshop on the Analysis of Geographic References held at the Joint Conference for Human Language Technology and the Annual Meeting of the North American Chapter of the Association for Computational Linguistics 2003 (HLT/NAACL 2003), (pp. 31-38). Edmonton, Alberta, Canada.

Li, H., Srihari, R. K., Niu, C., & Li, W. (2003). InfoXtract location normalization: a hybrid approach to geographic references in information extraction. Proceedings of the HLTNAACL 2003 Workshop: Analysis of Geographic References (pp. 39-44). Edmonton, Alberta, Canada: Association for Computational Linguistics.

Li, H., Srihari, R. K., Niu, C., & Li, W. (2002). Location normalization for information extraction. Proceedings of the 19th international conference on Computational linguistics . 1, pp. 1-7. Morristown, NJ, USA: Association for Computational Linguistics .

Li, Y., Moffat, A., Stokes, N., & Cavedon, L. (2006). Exploring Probabilistic Toponym Resolution for Geographical Information Retrieval. Proceedings of SIGIR Workshop on Geographical Information Retrieval, (pp. 17-22). Seattle, Washington.

Longley, P. A., Goodchild, M. F., Maguire, D. J., & Rhind, D. W. (2005). Geographical information systems and science (2 ed.). England: John Wiley & Sons Ltd.

MetaCarta, Inc. (2008). MetaCarta GSRP processing and indexing with the georeferencing engine. Consulté le Août 27, 2009, sur http://www.metacarta.com/products-platformindexing.htm

MetaCarta, Inc. (n.d.). Retrieved from Geographic search and referencing solutions - MetaCarta - At the forefront of the GeoWeb: http://www.metacarta.com/

Miller, G. A. (1995). WordNet: a Lexical database for english. Communication of the ACM , 38 (11), 39-41.

Miller, G. A., Leacock, C., Tengi, R., & Bunker, R. T. (1993). A semantic concordance. Proceedings of the ARPA Workshop on Human Language Technology (pp. 303-308). Princeton, New Jersey : Association for Computational Linguistics.

Miller, H. J. (2007). Geographic data mining and knowledge discovery. In J. Wilson, & A. S. Fotheringham (Eds.), Handbook of geographic information science (pp. 352-366). Wiley-Blackwell.

Miller, H. J., & Han, J. (2001). Geographic data mining and knowledge discovery. CRC Press.

Morimoto, Y., Aono, M., Houle, M. E., & McCurley, K. S. (2003). Extracting spatial knowledge from the web. Proceedings of the 2003 Symposium on Applications and the Internet (SAINT'03) (p. 326). Los Alamitos, CA, USA: IEEE Computer Society.

Navigli, R. (2009). Word sense disambiguation: A survey. ACM Computing Surveys , 41 (2), 69 pages (10:1-10:69).

Nezda, L., Hickl, A., Lehmann, J., & Fayyaz, S. (2006). What in the World is a shahab? Wide coverage named entity recognition for Arabic. Proccedings of the 5th edition of the international conference on language ressources and evaluation (LERC 2006), (pp. 41- 46). Genoa, Italy.

Ng, R. T., & Han, J. (1994). Efficient and effective clustering methods for spatial data mining. Proceedings of the 20th International Conference on Very Large Data Bases (pp. 144 - 155 ). San Francisco, CA, USA: Morgan Kaufmann Publishers Inc. .

Overell, S. E., & Rüger, S. (2007). Geographic co-occurrence as a tool for GIR. Proceedings of the 4th ACM workshop on Geographical information retrieval, Lisbon, Portugal (pp. 71- 76 ). New York, NY, USA: ACM Press.

Overell, S. E., & Rüger, S. (2006a). Identifying and grounding descriptions of places. Third Workshop on Geographic Information Retrieval, SIGIR 2006. ACM Press.

Overell, S., Magalhães, J., & Rüger, S. (2006b). Place disambiguation with co-occurrence models.

Pekar, V., Krkoska, M., & Staab, S. (2004). Feature weighting for co-occurrence-based classification of words. Proceedings of the 20th international conference on Computational Linguistics, Geneva, Switzerland . Morristown, NJ, USA: Association for Computational Linguistics .

Pouliquen, B., Steinberger, R., Ignat, C., & Groeve, T. D. (2004). Geographical information recognition and visualization in texts written in various languages. Proceedings of the 2004 ACM Symposium on Applied Computing (pp. 1051-1058). ACM Press.

Pyle, D. (2003). Data Collection, Preparation, Quality, and Visualization. In N. Ye (Ed.), The handbook of data mining (pp. 366-391). Mahwah, New Jersey, USA: Lawrence Erlbaum Associates, Inc.

Rauch, E., Bukatin, M., & Baker, K. (2003). A confidence-based framework for disambiguating geographic terms. HLTNAACL 2003 Workshop: Analysis of Geographic References (pp. 50-54). Edmonton, Alberta, Canada: Association for Computational Linguistics.

Rijsberg, C. V. (1979). Information retrieval. Oxford: Butterworths.

Rosso, P., Masulli, F., Buscaldi, D., Pla, F., & Molina, A. (2003). Automatic noun sense disambiguation. Dans A. Gelbukh (Éd.), Computational linguistics and intelligent text processing: 4th International Conference, CICLing 2003 Mexico City, Mexico, February 16-22, 2003 Proceedings , 2588 of Lecture Notes in Computer Science (pp. 273-276 ). Berlin: Springer.

Sanderson, M., & Kohler, J. (2004). Analyzing geographic queries. Proceedings of the Workshop on Geographic Information Retrieval. 27th Annual International ACM SIGIR Conference. Sheffield, UK.

Schilder, F., Versley, Y., & Habel, C. (2004). Extracting spatial information: grounding, classifying and linking spatial expressions. InWorkshop on Geographic Information Retrieval held at the Twenty-Seventh Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Sheffield, England, UK: Association for Computing Machinery.

Shekhar, S., & Chawla, S. (2003). Spatial databases: a tour (Draft copy). Prentice Hall.

Shekhar, S., Zhang, P., Huang, Y., & Vatsavai, R. R. (2004). Trends in spatial data mining. In H. Kargupta, A. Joshi, K. Sivakumar, & Y. Yesha (Eds.), Data Mining: Next Generation Challenges and Future Directions. AAAI Press.

Sinha, R., & Mihalcea, R. (2007). Unsupervised graph-based word sense disambiguation using measures of word semantic similarity. Proceedings of the International Conference on Semantic Computing (ICSC'07) (pp. 363-369). Washington, DC, USA: IEEE Computer Society.

Smith, D. A., & Crane, G. (2001). Disambiguating geographic names in a historical digital library. Research and Advanced Technology for Digital Libraries: Fifth European Conference (ECDL 2001), (pp. 127-136).

Smith, D. A., & Crane, G. (2001). Disambiguating geographic names in a historical digital library. Research and Advanced Technology for Digital Libraries: Fifth European Conference (ECDL 2001), (pp. 127-136).

Smith, D. A., & Mann, G. S. (2003). Bootstrapping toponym classifiers. Proceedings of the HLT-NAACL 2003 Workshop on Analysis of Geographic References. 1, pp. 45-46. Morristown, NJ: Association for Computational Linguistics.

Stokes, N., Li, Y., Moffat, A., & Rong, J. (2008). An empirical study of the effects of NLP components on Geographic IR performance. International Journal of Geographical Information Science , 22 (3), 247-264.

Volz, R., Kleb, J., & Mueller, W. (2007). Towards ontology-based disambiguation of geographical identifiers. Proceedings of 16th International World Wide Web Conference (WWW2007). Banff, Canada.

Zheng, D., Zhao, T., Li, S., & Yu, H. (2007). Research on a novel word co-occurrence model and its application. Dans Knowledge science, engineering and management (pp. 437- 446). Berlin / Heidelberg: Springer.






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"La première panacée d'une nation mal gouvernée est l'inflation monétaire, la seconde, c'est la guerre. Tous deux apportent une prospérité temporaire, tous deux apportent une ruine permanente. Mais tous deux sont le refuge des opportunistes politiques et économiques"   Hemingway