La désambiguà¯sation des toponymes( Télécharger le fichier original )par Imene BENSALEM Université Mentouri de Constantine, Algérie - magistère en informatique 2009 |
4.3 Évaluation4.3.1 Description des ressourcesL'évaluation des méthodes de la désambiguïsation des toponymes nécessite l'utilisation de deux ressources principales qui sont les corpus textuels et les inventaires de sens comme les gazetteers et les ontologies. L'évaluation est encore problématique dans ce domaine dû au manque de ressources standards qui permettent la comparaison entre les performances des différentes méthodes. Leidner (2004, 2006) a adressé ce problème mais malheureusement ses données ne sont pas disponible gratuitement8. Buscaldi et Rosso (Buscaldi et Rosso 2008a) ont évalué leur méthode basée sur la densité conceptuelle en utilisant l'ontologie WordNet comme un inventaire de sens, et le corpus GeoSemCor. WordNet (Miller 1995) est une large base de données lexicale disponible aussi bien en anglais qu'en d'autres langues. Les mots dans WordNet sont relier les uns aux autres par une variété de relations sémantiques, parmi elles l'holonymie et sa relation inverse la méronymie qui sont les relations les plus significatives pour les toponymes. 8 D'après une communication personnelle avec Jochen Leidner. Les mots en WordNet sont groupés en 4 catégories : les noms, les verbes, les adjectifs et les adverbes. Les noms à leur tour sont classifiés en 26 catégories. Les toponymes se retrouvent parmi les noms de 2 classes: Location et Object. La classe Location contient des noms désignant une position spatiale, mais la classe, objet, contient des noms désignant des objets naturels. Le corpus GeoSemCor -présenté pour la première fois dans (Buscaldi et Rosso 2008a)- est une version de SemCor (Miller, Leacock, et al. 1993) où chaque toponyme est annoté par son référent correct dans WordNet (voir Figure 4-3). Ce corpus est disponible gratuitement sur la page personnelle de Buscaldi9. Le Tableau 4-3 donne quelques informations à propos de GeoSemCor. geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=savannah wnsn=1 lexsn=1:15:00::>Savannah</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=texas wnsn=1 lexsn=1:15:00::>Texas</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> Figure 4-3. Les toponymes du fichier br-a01 du corpus
GeoSemCor annotés avec leurs sens dans WordNet. La 9 http://users.dsic.upv.es/grupos/nle/downloads.html Tableau 4-3. Informations à propos le corpus GeoSemCor Nombre total des toponymes 1210 Nombre des toponymes ambigus 498 Nombre de documents 123 Nombre moyen de toponymes 9,84 par document Nombre de toponymes sans duplications dans le même 693 document Nombre moyen de toponymes par document sans duplication 5,20 Nombre de toponymes dupliqué avec des référents différents 13 dans le même document Étant donné que WordNet n'est pas une source de connaissances purement géographiques, elle n'est pas aussi riche de toponymes et de référents pour chaque toponyme que les gazetteers. Le Tableau 4-4 fournit des toponymes pris du corpus GeoSemCor et des toponymes de quelques wilayas d'Algérie et compare leur nombre de référents récupérés du WordNet (version 2.1) et du Gazetteer Getty. De son coté, GeoSemCor n'est pas compilé pour évaluer la tâche de DT, il est plutôt construit pour la tâche de désambiguïsation des sens des mots. Par conséquent, ces deux ressources ne sont pas vraiment adaptées à la tâche de désambiguïsation des toponymes. Toutefois, Nous avons choisi d'évaluer notre heuristique
en utilisant ces 10 GeoSemCor est disponible dans l'adresse http://users.dsic.upv.es/grupos/nle/downloads.html et WordNet dans l'adresse http://wordnet.princeton.edu notre méthode à celle de Buscaldi et Rosso (2008a) qui ressemble à la notre dans le fait qu'elle puisse détecter des relations non hiérarchiques entre les toponymes. Tableau 4-4. Comparaison du nombre de référents pour certains toponymes dans WordNet et le Gazetteer Getty
|
|