WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La désambiguà¯sation des toponymes

( Télécharger le fichier original )
par Imene BENSALEM
Université Mentouri de Constantine, Algérie - magistère en informatique 2009
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

4.2.1 Notation

Tableau 4-2. Conventions de notation de l'heuristique de densité géographique

T l'ensemble des toponymes qui apparaissent dans T = {t i D / i = 1...n} un document D

Chaque toponyme apparait une seule fois dans T. n est le nombre de toponymes.

G: un gazetteer.

Chaque rid est représenté par un ensemble de caractéristiques qui diffèrent selon le gazetteer utilisé. Dans cette heuristique nous avons besoin pour chaque lieu de : son identifiant, son nom et son chemin hiérarchique. On dit que le lieu rid est un référent de ti si ti est le nom de rid.

G = { rid/ r id est un lieu géographique dans la Terre }

La suite du tableau est dans la page suivante

hid est le chemin hiérarchique de rid dans l'arbre d'hiérarchie de G.

Chaque noeud de hid est un référent rid.k, tel que le premier noeud rid.1 est l'extrême holonyme de rid et le dernier noeud rid.l est rid. tel que l est la longueur du chemin hiérarchique.

hid =» rid1>rid2>...>ridl»

Comp(hid) sont les référents qui compose un Comp(hid) ={ ridk, k=1..l}

chemin hiérarchique hid.

R i : l'ensemble des référents du toponyme ti. R i = { rid G / ti est le nom de rid }

Hi un ensemble composé des chemins H i = { hid / rid Ri }

hiérarchiques des référents de Ri

R est l'ensemble de tous les ensembles Ri, c.-à-d. R = { R i , i = 0..n }

l'ensemble des référents de tous les toponymes

d'un document D.

H est l'ensemble de tous les ensembles Hi. H = { Hi , i = 0..n }

Comp(Hi): les composants de tous les hid Hi sans Comp(Hi)= U Comp(hid)/ hid Hi

duplication des éléments

Comp(H): l'ensemble des ensembles Hi. Comp(H)= U Comp(Hi)/ Hi H

4.2.2 Principe et méthode

Notre heuristique est basée sur l'hypothèse que les toponymes qui apparaissent ensembles dans le même document sont reliés géographiquement par des relations arborescentes qu'ils soient hiérarchiques ou non hiérarchiques.

L'heuristique proposée résout un toponyme par le référent qui est :

n Le plus relié géographiquement aux référents des autres toponymes, c.-à-d. celui qui possède relativement beaucoup de relations arborescentes avec les référents des autres toponymes (on peut dire que c'est une relation indirecte avec le contexte), et ;

n Le plus relié au contexte, c.-à-d. son chemin hiérarchique et le contexte contiennent relativement beaucoup de toponymes en commun (le même

principe de l'heuristique H2).

Ces deux caractéristiques sont quantifiées par le calcul de ce que nous appelons la Densité Géographique (Bensalem et Kholladi 2009a). Nous définissons donc la Densité Géographique (DG) comme une mesure de corrélation (directe ou indirecte) entre un référent d'un toponyme et le contexte de ce dernier.

La désambiguïsation des toponymes par le calcul de la densité géographique suit les étapes suivantes :

1. Extraire tous les toponymes du document D (taille du contexte = tous les toponymes du document).

2. Éliminer les duplications en appliquant l'hypothèse de « un sens par discours » (voir H18).

3. Déterminer la liste des référents candidats Ri pour chaque toponyme ti. Chaque référent candidat rid doit être représenté par son chemin hiérarchique hid.

4. Calculer la densité géographique pour chaque référent candidat dans Ri de chaque toponyme ti.

5. Attribuer à chaque toponyme ti le référent rid qui possède la plus grande densité géographique DG(rid) parmi l'ensemble de ses référents candidats.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Les esprits médiocres condamnent d'ordinaire tout ce qui passe leur portée"   François de la Rochefoucauld