4.4 Rapport entre le nombre de toponymes dans
le contexte et les performances de la DT
Puisque notre heuristique utilise tous les toponymes du
contexte. Nous avons réalisé une autre expérimentation
pour étudier le rapport entre le nombre de toponymes du contexte et les
performances de la désambiguïsation des toponymes. Mais les
résultats ont prouvé qu'il n'y a pas une telle corrélation
comme c'est illustré dans la Figure 4-4.
Mesures de performances
1 1 1 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 6 6 6 7 8 9
10111419
Nombre de toponymes dans les documents
couverage recall precision
Figure 4-4. Rapport entre le nombre de toponymes et les
performances de la DT : pas de corrélation significative
4.5 Conclusion
Nous avons classifié dans ce chapitre les
différentes relations géographiques qui peuvent exister entre les
toponymes du même contexte en se basant sur notre propre analyse des
travaux de la littérature. En plus, nous avons proposé une
nouvelle heuristique de désambiguïsation des toponymes. Notre
heuristique est basée sur l'hypothèse de l'existence des
relations géographiques arborescentes entre les toponymes du même
contexte. Donc, elle résout les toponymes ambigus par les
référents les plus reliés entre eux dans l'arbre
hiérarchique des lieux du monde. Pour quantifier le degré de
cette relation nous avons introduit une mesure
de corrélation géographique que nous avons
appelé la densité géographique (DG), cela est par
analogie à la densité conceptuelle (DC) utilisée pour la
désambiguïsation des sens des mots, et appliquée par
Buscaldi et Rosso (2008) pour la DT.
L'évaluation de notre heuristique en utilisant WordNet
et GeoSemCor a montré la validité de notre hypothèse et la
performance de notre heuristique. En outre, la comparaison de notre
méthode à celle basée sur le SC a montré que la
détection des relations de méronymies -qui est une idée
utilisée dans quelques méthodes de l'état de l'art- est
une heuristique précise mais n'est pas suffisante pour
désambiguïser tous les toponymes d'un texte donné.
La comparaison de notre méthode avec celle de Smith et
Crane (2001) (voir H6) a montré que la désambiguïsation des
toponymes en cherchant une proximité arborescente est plus
précise et plus performante que la désambiguïsation en
s'appuyant sur la proximité en terme de distance.
Finalement, il faux reconnaître que les ressources
GeoSemCor et WordNet nous ont permis d'évaluer notre méthode en
la comparant à d'autres mais, à vrai dire ces deux ressources ne
sont pas vraiment dédiées à la tâche de
désambiguïsation des toponymes. Nul doute que l'utilisation
d'autres ressources va nous permettre de mieux évaluer notre
méthode.
|