![]() |
La désambiguà¯sation des toponymes( Télécharger le fichier original )par Imene BENSALEM Université Mentouri de Constantine, Algérie - magistère en informatique 2009 |
3.6 Les ressourcesToute source de connaissance hormis le contexte est appelée ressource. Les ressources ont deux rôles principaux dans la DT qui sont :
Les ressources peuvent offrir des connaissances générales ou spécifiques à un domaine. Par exemple, WordNet18 (voir Chapitre 4, p98) fourni des définitions et des relations pour plusieurs types de mots: les noms (y compris les toponymes), les verbes, les adjectifs, et les adverbes. Tandis que les gazetteer (Section 3.6.1) sont des ressources de connaissances sur les lieux géographiques seulement. Les ressources utilisées dans l'état de l'art sont : les ontologies (Volz, Kleb et Mueller 2007), les corpus linguistiques (Smith et Mann 2003), les gazetteer. 3.6.1 Les gazetteersGazetteer est un terme anglais19 qui représente traditionnellement un dictionnaire de toponymes. Maintenant, les gazetteers sont considérés comme un type de Systèmes d'Organisation des Connaissances (SOC), qui organisent des informations sur les lieux géographiques nommés (Hill 2006). Une entrée dans un gazetteer contient au minimum 3 types d'informations (Leidner 2007) qui sont un toponyme avec son type et son empreinte spatiale: Toponyme : nom d'un objet20 géographique et éventuellement ses variantes historique ou vernaculaire (voir Section 2.2). Type : c'est la catégorie de l'objet géographique à lequel se réfère le toponyme, par exemple : région administrative, pays, cité, montagne, pont, ..., etc. 18 http://wordnet.princeton.edu 19 Nous avons choisi d'utilisé le terme gazetteer dans ce mémoire car il n'a pas une traduction unique et précise en français. 20 On dit objet car le gazetteer peut contenir non seulement des noms de lieux comme les pays et les villes mais aussi des noms des montagnes, des rivières, des constructions ..., etc. Empreinte spatiale : représentation de la location référée par le toponyme dans un système de coordination par exemple la latitude et la longitude. Les gazetteers diffèrent entre eux dans les types d'objets qu'ils renferment (ex. lieux habités, étendus d'eau, montagnes...) la couverture géographique (ex. le monde, un continent, un pays...), la granularité des lieux ( ex. il peut contenir seulement les pays avec leurs villes comme il peut aller jusqu'aux villages, cartiers, rues..), et les détails de chaque entrée (population, longitude et latitude, code postale, superficie...) (Hill 2006) (Leidner 2007, Chapitre 4). Les gazetteers sont utilisés dans les méthodes de DT pour 4 objectifs :
Le Tableau 3-5 montre les connaissances fournies par les gazetteers et les heuristiques qui les manipulent. Nous remarquons que les connaissances des gazetteers sont manipulées presque par tout les heuristique de désambiguïsation des toponymes. Tableau 3-5. Les connaissances fournies par les gazetteers et les Heuristiques qui les manipulent connaissances Heuristiques qui les manipulent Position géo-spatiale H1 Distance aux voisins textuels non ambigusH1 H5 Espace géométrique (polygone / distance) minimaliste H6 Contexte géographique unifiéH6 Chemin hiérarchique H2 Chevauchement entre les chemins hiérarchiques des référents et le texte H3.1 Les patterns de relation hiérarchique H7 Le chemin le plus court entre les référents H8 Les noeuds de l'arbre couvrant maximum Population H10 La plus grande population H16 Supprimer les petites places Type de référent H11 Le référent de niveau supérieur H3.2 Les patterns de type H13 Préférer un type Le Tableau 3-6 fournit des informations sur quelque gazetteers utilisés dans la littérature de la DT. Tableau 3-6. Exemple de gazetteers utilisés dans les méthodes de désambigüisation des toponymes Nom Nombre Site web Utilisé par d'entrées The Getty Thesaurus of 1.115.000 http://www.getty.edu/research (Stokes, et al. 2008) Geographic Names (TGN) /conductingresearch/vocabula (Li, et al. 2006) ries/tgn (Overell et Rüger 2007) (Clough 2005) World gazetteer inconnu http://world-gazetteer.com (Amitay, et al. 2004) (Stokes, et al. 2008) (Li, et al. 2006) USGS Geographic Names 1.836.264 http://geonames.usgs.gov (Amitay, et al. 2004) Information System (Volz, Kleb et Mueller 2007) (GNIS) (Garbin et Mani 2005) |
|