WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La désambiguà¯sation des toponymes

( Télécharger le fichier original )
par Imene BENSALEM
Université Mentouri de Constantine, Algérie - magistère en informatique 2009
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

4.3.2 Expérimentations

4.3.2.1 Objectifs et métriques d'évaluation

Nous avons implémenté notre méthode en utilisant le langage Perl et nous avons réalisé un ensemble d'expérimentations pour les buts suivants:

· Vérifier l'hypothèse de l'existence des relations arborescentes entre les toponymes du même contexte

· Étudier l'effet de la détection des relations de méronymie vs toutes les relations arborescentes sur les performances de la désambiguïsation des toponymes

· Comparer les performances de notre méthode avec d'autres.

L'estimation des performances des méthodes de désambiguïsation des toponymes
se fait par les métriques utilisées dans les domaines de la recherche d'information

et le traitement automatique des langues naturelles. Ces métriques sont : la précision, le recall, la couverture, et F-mesure. Ils se calculent dans le domaine de la DT comme montré dans les équations (4), (5), (6) et (7) respectivement.

Précision =

nombre de toponymes résous correctement

(4)

 
 
 

Recall =

nombre de toponymes résous correctement

(5)

 
 

Couverture =

nombre de toponymes résous

(6)

 
 

F - mesure =

4.3.2.2 Résultats et analyse

2 * Précision * Recall

(7)

 
 
 

Le Tableau 4-5 fourni les résultats d'expérimentations.

Tableau 4-5. Résultats d'évaluation en utilisant WordNet et GeoSemCor

 

Précision

Recall

Couverture

F-mesure

DG (freq + SC)

88,2%

87,4%

99,0%

0,878

SC (H2)

90,8%

78,3%

86,3%

0,841

DC (H9)

89,9%

77,5%

86,2%

0,832

Map (H6)

87,9%

70,2%

79,9%

0,781

 

La ligne DG représente les résultats de notre méthode basée sur la densité géographique. Cette dernière -comme c'est expliqué précédemment- est la somme de la fréquence du référent et le score du chevauchement de son chemin hiérarchique avec le contexte. La ligne SC représente les résultats d'expérimentations avec le score du chevauchement seulement (voir l'heuristique H2). La ligne nommée DC représente les résultats de la méthode de Buscaldi et Rosso (2008a) qui est basée sur la densité conceptuelle. Map indique les résultats

de la méthode de Smith et Crane (2001). Cette dernière est basée sur la détection des relations spatiales entre les référents des toponymes (voir l'heuristiques H6 dans le chapitre précédent). Les résultats de ces 4 méthodes sont obtenus en utilisant le corpus GeoSemCor. Les linges DC et Map sont prise des articles (Buscaldi et Rosso 2008a) et (Buscaldi and Rosso 2008c) en considérant tous les toponymes du document comme contexte.

Les résultats d'expérimentation montre que la plus grande précision est celle de la méthode SC, cela veut dire que l'occurrence des holonymes d'un toponyme ambigu dans le contexte est le plus précis indicateur de son sens (son référent).

La couverture et le recall en utilisant la densité géographique (qui quantifie le degré de toutes les relations arborescentes) sont plus élevés par rapport à ceux de SC. Cela confirme que la recherche des relations hiérarchiques de type méronymie (quantifiés par SC) n'est pas suffisante pour désambiguïser tous les toponymes du contexte (pourtant elle donne des résultats précis). Il est donc plus performant de détecter tout les types de relations arborescentes pour désambiguïser le plus grand nombre de toponymes.

La couverture et le recall de notre méthode sont considérablement élevés par rapport à ceux des méthodes basées sur la DC (Buscaldi et Rosso 2008a) (+9,9%, +12,8% respectivement) et sur les calculs spatiaux (Smith & Crane, 2001)(+17,2%, +19,1% respectivement). Cependant, pas de différences significatives entre les précisions de ces trois méthodes (-1 ,9% et +0,3 la différence entre la précision de méthode DG et les méthodes DC et MAP respectivement).

De surcroît, les valeurs de toutes les mesures de notre méthode ont dépassé la valeur 80%, ce qui indique de bonnes performances.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Qui vit sans folie n'est pas si sage qu'il croit."   La Rochefoucault