Chapitre 1
Du Data Mining Spatial à
la Désambiguïsation des
Toponymes
1.1 Introduction
Notre recherche -afin de réaliser ce mémoire- a
commencé par l'exploration d'un large domaine qui est le data mining
spatial (DMS), or elle a abouti à une contribution dans un domaine
spécifique qui est la désambiguïsation des toponymes.
En effet, la désambiguïsation des toponymes est
une tâche indépendante en ellemême mais elle peut être
considérée comme une étape d'une importance primordiale
dans plusieurs domaines. Le fait que le DMS fût le domaine de notre
départ, il aurait constitué une forte raison de consacrer ce
chapitre à la démonstration de sa relation avec la contribution
principale du présent mémoire.
Ce chapitre s'articule comme suit : les sections 1.2
jusqu'à 1.5 présentent un aperçu sur le data mining
spatial. Les données géographiques -qui sont le point commun
entre le DMS et la DT- sont en suite l'objet de la section 1.6. La section 1.7
explique la relation entre le DMS et la DT et on termine par une conclusion qui
récapitule brièvement les principaux points discutés.
1.2 Définition et objectifs du data mining
spatial
En raison de la grande quantité (habituellement,
téraoctets) de données spatiales, il est coûteux et souvent
irréalistes pour les utilisateurs de les examiner en détail. Le
data mining spatial (fouille de données spatiales en
français) vise à automatiser un tel processus de
découverte de connaissances (Ng et Han 1994).
Le data mining spatial implique l'application d'outils
informatiques pour révéler des patterns intéressants dans
des objets et des événements répartis dans l'espace
géographique et dans le temps (Miller et Han 2001). Il est défini
aussi comme l'extraction de connaissances, de relations spatiales, ou d'autres
patterns intéressants qui ne sont pas explicitement stockées dans
les bases de données spatiales (Han et Kamber 2006). Son objectif est
d'automatiser le processus de compréhension des données spatiales
par des représentations concises qui font
apparaitre la sémantique des données. Ces
représentations sont appelées : connaissances, et elles sont sous
forme de relations spatiales, ou relations entre les données spatiales
et non spatiales.
Une fois les connaissances sont découvertes par le DMS,
elles peuvent être utilisées pour la construction des bases de
connaissances spatiales, la réorganisation des bases de données
spatiales, et l'optimisation de requêtes spatiales (Han et Kamber
2006).
1.3 Exemples historiques fameux de l'exploration
des données spatiales
Shekhar & Chawla(2003) ont cité quelques exemples
bien connus qu'ils ont eu lieu avant l'invention de l'ordinateur, mais ils bien
illustrent le type de connaissances découvertes par le data mining
spatial :
1. En 1855, lorsque le choléra asiatique soufflait
à Londres, un épidémiologiste a marqué tous les
lieux où la maladie a frappé (ce sont les données
spatiales) sur une carte, et a découvert que les lieux forment un
cluster (cela est la connaissance découverte) dont le centre s'est
avéré être une pompe à eau. Lorsque les
autorités gouvernementales éteignaient la pompe à eau, le
choléra a commencé à s'estomper. Plus tard, les
scientifiques ont confirmé la nature des eaux d'origine de la
maladie.
2. En 1909, un groupe de dentistes ont découvert que
les habitants de Colorado Springs ont exceptionnellement des dents saines, et
ils ont attribué ça au niveau élevé de fluor
naturel dans l'eau potable locale. Les chercheurs ont ensuite confirmé
le rôle positif du fluor dans la lutte contre la carie dentaire.
Maintenant, toutes les municipalités dans les États-Unis assurent
que l'eau potable est fortifié avec du fluorure.
Dans ces exemples les scientifiques ont découvert des
corrélations entre les données : le choléra et l'eau
d'une pompe, et le fluor et la santé des dents. Sans
inspection minutieuse et approfondie d'un grand nombre de
données, il est impossible de découvrir ces connaissances. Le
rôle du data mining spatiales est d'automatiser la découverte de
telles corrélations (Shekhar and Chawla 2003).
1.4 Les tâches du data mining spatial
Les tâches du DMS sont généralement une
extension des tâches du Data mining (DM) en intégrant les
données et les relations spatiaux. On trouve ainsi les règles
associatives spatiales, le clustring spatial, la classification spatiale,
l'analyse des tendances spatiales, et l'analyse des cas singuliers. Une
brève description de ces tâches est présentée
ci-dessous.
|