WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La désambiguà¯sation des toponymes

( Télécharger le fichier original )
par Imene BENSALEM
Université Mentouri de Constantine, Algérie - magistère en informatique 2009
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

4.3 Évaluation

4.3.1 Description des ressources

L'évaluation des méthodes de la désambiguïsation des toponymes nécessite l'utilisation de deux ressources principales qui sont les corpus textuels et les inventaires de sens comme les gazetteers et les ontologies. L'évaluation est encore problématique dans ce domaine dû au manque de ressources standards qui permettent la comparaison entre les performances des différentes méthodes. Leidner (2004, 2006) a adressé ce problème mais malheureusement ses données ne sont pas disponible gratuitement8.

Buscaldi et Rosso (Buscaldi et Rosso 2008a) ont évalué leur méthode basée sur la densité conceptuelle en utilisant l'ontologie WordNet comme un inventaire de sens, et le corpus GeoSemCor.

WordNet (Miller 1995) est une large base de données lexicale disponible aussi bien en anglais qu'en d'autres langues. Les mots dans WordNet sont relier les uns aux autres par une variété de relations sémantiques, parmi elles l'holonymie et sa relation inverse la méronymie qui sont les relations les plus significatives pour les toponymes.

8 D'après une communication personnelle avec Jochen Leidner.

Les mots en WordNet sont groupés en 4 catégories : les noms, les verbes, les adjectifs et les adverbes. Les noms à leur tour sont classifiés en 26 catégories. Les toponymes se retrouvent parmi les noms de 2 classes: Location et Object. La classe Location contient des noms désignant une position spatiale, mais la classe, objet, contient des noms désignant des objets naturels.

Le corpus GeoSemCor -présenté pour la première fois dans (Buscaldi et Rosso 2008a)- est une version de SemCor (Miller, Leacock, et al. 1993) où chaque toponyme est annoté par son référent correct dans WordNet (voir Figure 4-3). Ce corpus est disponible gratuitement sur la page personnelle de Buscaldi9. Le Tableau 4-3 donne quelques informations à propos de GeoSemCor.

geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=savannah wnsn=1 lexsn=1:15:00::>Savannah</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=texas wnsn=1 lexsn=1:15:00::>Texas</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf>

Figure 4-3. Les toponymes du fichier br-a01 du corpus GeoSemCor annotés avec leurs sens dans WordNet. La
combinaison de lemma et lexsn permet de relier le toponyme avec son sens

9 http://users.dsic.upv.es/grupos/nle/downloads.html

Tableau 4-3. Informations à propos le corpus GeoSemCor

Nombre total des toponymes 1210

Nombre des toponymes ambigus 498

Nombre de documents 123

Nombre moyen de toponymes 9,84

par document

Nombre de toponymes sans

duplications dans le même 693

document

Nombre moyen de toponymes

par document sans duplication 5,20

Nombre de toponymes dupliqué

avec des référents différents 13

dans le même document

Étant donné que WordNet n'est pas une source de connaissances purement géographiques, elle n'est pas aussi riche de toponymes et de référents pour chaque toponyme que les gazetteers. Le Tableau 4-4 fournit des toponymes pris du corpus GeoSemCor et des toponymes de quelques wilayas d'Algérie et compare leur nombre de référents récupérés du WordNet (version 2.1) et du Gazetteer Getty.

De son coté, GeoSemCor n'est pas compilé pour évaluer la tâche de DT, il est plutôt construit pour la tâche de désambiguïsation des sens des mots. Par conséquent, ces deux ressources ne sont pas vraiment adaptées à la tâche de désambiguïsation des toponymes.

Toutefois, Nous avons choisi d'évaluer notre heuristique en utilisant ces
ressources. Cela est pour deux raisons. D'un coté, ce sont les seules ressources de
DT gratuitement disponible10, et de l'autre coté cela nous permet de comparer

10 GeoSemCor est disponible dans l'adresse http://users.dsic.upv.es/grupos/nle/downloads.html et WordNet dans l'adresse http://wordnet.princeton.edu

notre méthode à celle de Buscaldi et Rosso (2008a) qui ressemble à la notre dans le fait qu'elle puisse détecter des relations non hiérarchiques entre les toponymes.

Tableau 4-4. Comparaison du nombre de référents pour certains toponymes dans WordNet et le Gazetteer Getty

Toponyme

Nombre de référents
dans WordNet

Nombre de référents
dans le gazetteer Getty

China

2

264

Georgia

3

74

New York

3

104

Paris

2

102

Palestine

2

44

Russia

4

14

Annaba

1

3

Constantine

1

17

Mila

0

4

Oran

1

14

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Là où il n'y a pas d'espoir, nous devons l'inventer"   Albert Camus