La désambiguà¯sation des toponymes( Télécharger le fichier original )par Imene BENSALEM Université Mentouri de Constantine, Algérie - magistère en informatique 2009 |
3.6.2 Les corpusUn corpus est une collection de textes utilisées pour apprendre des modèles de langue (Navigli 2009). Les corpus dans le domaine de la DT sont des ressources textuelles21 où tous les toponymes sont annotés avec des informations spatiales qui indiquent une position unique dans la Terre (Leidner 2007). Les corpus sont utilisés dans les heuristiques de DT pour obtenir deux connaissances linguistiques: les collocations (c.-à-d. les cooccurrences fréquentes) (voir H4), et des statistiques linguistiques à propos de la distribution de l'occurrence des toponymes et leurs sens (ex. trouver le référent le plus fréquents pour un toponyme (voir H15)). En plus de leur utilisation comme source de connaissances, les corpus sont utilisés aussi comme terrain vérité pour l'évaluation des méthodes de DT. Dans un corpus de DT chaque toponyme doit être annoté par un label (tag) qui détermine le lieu à lequel il se réfère ( ex. la latitude et la longitude). Les informations de l'annotation sont obtenues depuis les gazetteers. Conséquemment, l'utilisation d'un certain corpus pour l'évaluation impose l'utilisation du gazetteer avec lequel il est annoté. Malheureusement, l'évaluation est encore problématique dans la communauté de recherche à cause du manque de corpus standards dédiés à la tâche de désambiguïsation des toponymes (Leidner 2007). Les méthodes de la littérature sont toutes évaluées sur des corpus différents. 3.6.3 Les ontologiesVolz, et al. (2007) ont présenté une approche de DT basée sur une ontologie et sa lexicalisation22. Dans leur approche, l'ontologie sert à identifier les toponymes dans le texte, à leur associer les référents possibles, et à fournir des connaissances pour la désambiguïsation. 21 Un ensemble de documents qui contiennent du texte libre en langue naturelle. 22 Création automatisée des listes qui comprennent tous les mots utilisés pour nommer respectivement les concepts, les relations, et les instances d'une ontologie. L'ontologie dans l'approche de (Volz, Kleb et Mueller 2007) n'a joué pratiquement que le rôle d'un gazetteer mais seulement, elle a une structure différente où chaque type géographique est représenté par un concept (une classe), les référents sont les instances, et les toponymes sont le vocabulaire des instances. D'après notre point de vue, le vrai avantage des ontologies, est l'inférence des relations, mais malheureusement, cela n'a pas été exploité dans cette approche. La méthode de Buscladi et Rosso (Buscaldi et Rosso 2008a) est basée sur l'ontologie WordNet qui a été utilisée pour fournir les différents sens d'un toponyme mais aussi pour calculer la densité conceptuelle (voir l'heuristique H9) |
|