L'ordre des chapitres de ce mémoire reflète
l'ordre chronologique des différentes étapes que nous avons connu
durant notre chemine de recherche qui a commencé par l'exploration d'un
large domaine qui est le data mining spatial et a terminé par une
contribution dans un domaine spécifique qui est la
désambiguïsation des toponymes.
Notre premiers pas dans cette recherche était de faire
une synthèse sur le domaine du data mining spatial. Durant cette phase
nous avons découvert que le data mining spatial est un domaine
très large et sa largeur a plusieurs aspects.
Premièrement, c'est une extension du data mining sur
les données spatiales, ce qui nous a obligé de se
documenté dans deux domaine : le data mining d'un côté et
les bases de données spatiales d'un autre côté.
Deuxièmement, le data mining -et à fortiori le
data mining spatial- est un domine pluridisciplinaire, il se situe dans
l'intersection de trois disciplines qui sont la statistique (avec ses trois
branche inférencielle, descriptive et mathématique), les bases de
données, et l'intelligence artificielle en particulier l'apprentissage
machine. Cette nature pluridisciplinaire du data mining nous a fait passer
beaucoup de temps pour se familiariser avec son jargon dérivé de
plusieurs disciplines en particulier la statistique inférencielle qui
était problématique pour nous autant qu'informaticien. Durant
cette phase nous avons publié un article (Bensalem & Kholladi, 2008)
sur les différents aspects de la relation entre le data mining et la
statistique qui est un sujet de débat entre les chercheures
informaticiens et statisticiens.

Chaque phase est un domaine de recherche qui a ses propres
notions, techniques et problèmes.
Le quatrième aspect de la largeur du data mining est
la multiplicité de ses domaines d'application, qui varient entre la
science, l'environnement, l'économie, la communication, le Web, ...,
etc.
Parmi cet éventail de sujets, nous avons choisi
d'investiguer dans la première phase du data mining spatial qui est la
collecte et la préparation de données géographiques. Parmi
les sujets de recherche dans cette phrase, il y a l'intégration de
données depuis plusieurs sources, et parmi ces sources il y a les
documents textuels en langue naturelle. Ces raffinements nous ont conduits
finalement vers la problématique de la désambiguïsation des
toponymes.
Malgré le fait que la désambiguïsation des
toponymes a des relations avec plusieurs autres domaines, nous étions
contraints de consacrer le premier chapitre pour discuter
précisément sa relation avec le data mining spatial du moment
qu'il est le domaine de départ de notre recherche. Une partie de notre
article (Bensalem & Kholladi, 2009b) discute cette relation.
Après notre décision de s'investiguer dans le
domaine de la désambiguïsation des toponymes, nous avons
affronté de nouveau la contrainte de la pluridisciplinarité. En
fait, la DT partage plusieurs techniques avec la désambiguïsation
des sens des mots et l'extraction des entités nommées qui sont
des sous-domaines de la discipline du traitement automatique des langues
naturelles, et aussi avec le géocodage et le géoparcing qui sont
des sous-domaines des systèmes d'informations géographiques. En
plus elle sert au géo-référencement des documents textuels
qui permet l'indexation géographique des documents au sein d'un
système de recherche d'information. Le chapitre 2 a discuté la
position de la DT par rapport à ces domaines. Cela a permis d'un
coté de bien exhiber l'utilité de cette tâche dans
plusieurs applications, et d'un autre coté, de se familiariser avec son
jargon multidisciplinaire.

Pour préparer le chapitre 3, nous avons analysé
des dizaines de méthodes de l'état de l'art de la DT. Au
début, ces méthodes nous ont apparu complètement
différentes, mais par induction nous avons trouvé qu'elles
partagent 4 composants, qui sont le contexte, les heuristiques, les
connaissances, et les ressources. Cela nous a inspiré l'idée
d'articuler l'état de l'art selon ces 4 axes. De plus, nous avons
élaboré des classifications des heuristiques1 et des
connaissances, et nous croyions que notre état de l'art est
complément de celui de (Leidner, 2007).
L'analyse des méthodes de l'état de l'art nous
a permis de remarquer que beaucoup de méthodes sont basées
implicitement sur l'idée que les référents des toponymes
du même contexte sont proches géographiquement les uns des autres.
En outre, nous avons distingué deux types de relations
géographiques : les relations spatiales, qui résultent
des proximités en termes de distance, et les relations
arborescentes qui résultent des proximités dans l'arbre
hiérarchique des lieux du monde. Contrairement aux relations spatiales,
les relations arborescentes ne sont pas exploitées explicitement dans
les méthodes existantes de DT. Notre contribution consiste à
proposer une heuristique de désambiguïsation des toponymes qui est
basée sur la quantification de ce type de relations, et ainsi elle porte
remède à la dite lacune des méthodes existantes.
L'évaluation de notre heuristique a prouvé la
validité de l'idée de désambiguïsation en exploitant
les relations arborescentes et en plus elle a montré la performance de
notre méthode par rapport d'autres. Notre heuristique ainsi que les
résultats de son évaluation seront publié prochainement
dans (Bensalem & Kholladi, 2009c)2.
Il convient de noter que l'évaluation est encore
problématique dans ce domaine à
cause du manque de corpus
standards dédiés à cette tâche. En effet, nous
avons
contacté une vingtaine d'auteurs pour l'obtention de leurs
corpus. Finalement,
1 L'idée de classifier les heuristiques est
inspirée de (Leidner, 2007), mais notre classification est
différente de la sienne.
2 Ce papier est accepté et sera publié
dans la conférence ACIT à décembre prochain (si Allah le
Veut).

nous avons choisi de travailler sur GeoSemCor qui est
gratuitement disponible sur le Web mais il a l'inconvénient de ne pas
être vraiment adapté à la tâche de DT.
Perspectives
La désambiguïsation des toponymes est encore un
terrien fertile pour la recherche. Dans ce qui suit nous présentons un
ensemble de perspectives :
· Étudier les performances de notre heuristique
au sein d'un processus de recherche d'information géographique. En
effet, beaucoup d'auteurs réalisent ce type d'études en utilisant
leurs heuristiques de désambiguïsation comme (Stokes, Li, Moffat,
& Rong, 2008), (Overell & Rüger, 2007).
· Étudier l'effet de la taille (nombre de
toponymes et nombre de référents pour chaque toponyme) et de la
granularité des gazetteers dans la désambiguïsation des
toponymes.
· Appliquer la désambiguïsation des
toponymes sur des textes en langue arabe, ce qui implique la construction des
gazetteers et des corpus d'évaluation en langue arabe. En outre, il est
indispensable dans ce cas d'adapter les techniques de l'identification des
toponymes dans le texte à la langue arabe. En effet, la reconnaissance
des entités nommées (y compris les toponymes) en langue arabe est
le sujet de plusieurs articles comme (Nezda, Hickl, Lehmann, & Fayyaz,
2006) dans la littérature du TALN.
· Bénéficier de Wikipedia comme source de
données géographiques pour construire automatiquement un
gazetteer multilingue.
· Comparer l'ambiguïté des toponymes dans
différentes langues: arabe, anglais, français, puis faire des
études sur la possibilité de tirer avantage de la
différence éventuelle du taux d'ambiguïté des
toponymes entre les langues pour proposer d'autres heuristiques de
désambiguïsation.