Memoire Online - La désambiguà¯sation des toponymes

Résumé de 24 mois de recherche

L'ordre des chapitres de ce mémoire reflète l'ordre chronologique des différentes étapes que nous avons connu durant notre chemine de recherche qui a commencé par l'exploration d'un large domaine qui est le data mining spatial et a terminé par une contribution dans un domaine spécifique qui est la désambiguïsation des toponymes.

Notre premiers pas dans cette recherche était de faire une synthèse sur le domaine du data mining spatial. Durant cette phase nous avons découvert que le data mining spatial est un domaine très large et sa largeur a plusieurs aspects.

Premièrement, c'est une extension du data mining sur les données spatiales, ce qui nous a obligé de se documenté dans deux domaine : le data mining d'un côté et les bases de données spatiales d'un autre côté.

Deuxièmement, le data mining -et à fortiori le data mining spatial- est un domine pluridisciplinaire, il se situe dans l'intersection de trois disciplines qui sont la statistique (avec ses trois branche inférencielle, descriptive et mathématique), les bases de données, et l'intelligence artificielle en particulier l'apprentissage machine. Cette nature pluridisciplinaire du data mining nous a fait passer beaucoup de temps pour se familiariser avec son jargon dérivé de plusieurs disciplines en particulier la statistique inférencielle qui était problématique pour nous autant qu'informaticien. Durant cette phase nous avons publié un article (Bensalem & Kholladi, 2008) sur les différents aspects de la relation entre le data mining et la statistique qui est un sujet de débat entre les chercheures informaticiens et statisticiens.

Chaque phase est un domaine de recherche qui a ses propres notions, techniques et problèmes.

Le quatrième aspect de la largeur du data mining est la multiplicité de ses domaines d'application, qui varient entre la science, l'environnement, l'économie, la communication, le Web, ..., etc.

Parmi cet éventail de sujets, nous avons choisi d'investiguer dans la première phase du data mining spatial qui est la collecte et la préparation de données géographiques. Parmi les sujets de recherche dans cette phrase, il y a l'intégration de données depuis plusieurs sources, et parmi ces sources il y a les documents textuels en langue naturelle. Ces raffinements nous ont conduits finalement vers la problématique de la désambiguïsation des toponymes.

Malgré le fait que la désambiguïsation des toponymes a des relations avec plusieurs autres domaines, nous étions contraints de consacrer le premier chapitre pour discuter précisément sa relation avec le data mining spatial du moment qu'il est le domaine de départ de notre recherche. Une partie de notre article (Bensalem & Kholladi, 2009b) discute cette relation.

Après notre décision de s'investiguer dans le domaine de la désambiguïsation des toponymes, nous avons affronté de nouveau la contrainte de la pluridisciplinarité. En fait, la DT partage plusieurs techniques avec la désambiguïsation des sens des mots et l'extraction des entités nommées qui sont des sous-domaines de la discipline du traitement automatique des langues naturelles, et aussi avec le géocodage et le géoparcing qui sont des sous-domaines des systèmes d'informations géographiques. En plus elle sert au géo-référencement des documents textuels qui permet l'indexation géographique des documents au sein d'un système de recherche d'information. Le chapitre 2 a discuté la position de la DT par rapport à ces domaines. Cela a permis d'un coté de bien exhiber l'utilité de cette tâche dans plusieurs applications, et d'un autre coté, de se familiariser avec son jargon multidisciplinaire.

Pour préparer le chapitre 3, nous avons analysé des dizaines de méthodes de l'état de l'art de la DT. Au début, ces méthodes nous ont apparu complètement différentes, mais par induction nous avons trouvé qu'elles partagent 4 composants, qui sont le contexte, les heuristiques, les connaissances, et les ressources. Cela nous a inspiré l'idée d'articuler l'état de l'art selon ces 4 axes. De plus, nous avons élaboré des classifications des heuristiques¹ et des connaissances, et nous croyions que notre état de l'art est complément de celui de (Leidner, 2007).

L'analyse des méthodes de l'état de l'art nous a permis de remarquer que beaucoup de méthodes sont basées implicitement sur l'idée que les référents des toponymes du même contexte sont proches géographiquement les uns des autres. En outre, nous avons distingué deux types de relations géographiques : les relations spatiales, qui résultent des proximités en termes de distance, et les relations arborescentes qui résultent des proximités dans l'arbre hiérarchique des lieux du monde. Contrairement aux relations spatiales, les relations arborescentes ne sont pas exploitées explicitement dans les méthodes existantes de DT. Notre contribution consiste à proposer une heuristique de désambiguïsation des toponymes qui est basée sur la quantification de ce type de relations, et ainsi elle porte remède à la dite lacune des méthodes existantes.

L'évaluation de notre heuristique a prouvé la validité de l'idée de désambiguïsation en exploitant les relations arborescentes et en plus elle a montré la performance de notre méthode par rapport d'autres. Notre heuristique ainsi que les résultats de son évaluation seront publié prochainement dans (Bensalem & Kholladi, 2009c)².

Il convient de noter que l'évaluation est encore problématique dans ce domaine à
cause du manque de corpus standards dédiés à cette tâche. En effet, nous avons
contacté une vingtaine d'auteurs pour l'obtention de leurs corpus. Finalement,

¹ L'idée de classifier les heuristiques est inspirée de (Leidner, 2007), mais notre classification est différente de la sienne.

² Ce papier est accepté et sera publié dans la conférence ACIT à décembre prochain (si Allah le Veut).

nous avons choisi de travailler sur GeoSemCor qui est gratuitement disponible sur le Web mais il a l'inconvénient de ne pas être vraiment adapté à la tâche de DT.

Perspectives

La désambiguïsation des toponymes est encore un terrien fertile pour la recherche. Dans ce qui suit nous présentons un ensemble de perspectives :

· Étudier les performances de notre heuristique au sein d'un processus de recherche d'information géographique. En effet, beaucoup d'auteurs réalisent ce type d'études en utilisant leurs heuristiques de désambiguïsation comme (Stokes, Li, Moffat, & Rong, 2008), (Overell & Rüger, 2007).

· Étudier l'effet de la taille (nombre de toponymes et nombre de référents pour chaque toponyme) et de la granularité des gazetteers dans la désambiguïsation des toponymes.

· Appliquer la désambiguïsation des toponymes sur des textes en langue arabe, ce qui implique la construction des gazetteers et des corpus d'évaluation en langue arabe. En outre, il est indispensable dans ce cas d'adapter les techniques de l'identification des toponymes dans le texte à la langue arabe. En effet, la reconnaissance des entités nommées (y compris les toponymes) en langue arabe est le sujet de plusieurs articles comme (Nezda, Hickl, Lehmann, & Fayyaz, 2006) dans la littérature du TALN.

· Bénéficier de Wikipedia comme source de données géographiques pour construire automatiquement un gazetteer multilingue.

· Comparer l'ambiguïté des toponymes dans différentes langues: arabe, anglais, français, puis faire des études sur la possibilité de tirer avantage de la différence éventuelle du taux d'ambiguïté des toponymes entre les langues pour proposer d'autres heuristiques de désambiguïsation.

"I don't believe we shall ever have a good money again before we take the thing out of the hand of governments. We can't take it violently, out of the hands of governments, all we can do is by some sly roundabout way introduce something that they can't stop ..." Friedrich Hayek (1899-1992) en 1984