WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La désambiguà¯sation des toponymes

( Télécharger le fichier original )
par Imene BENSALEM
Université Mentouri de Constantine, Algérie - magistère en informatique 2009
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

2.4.2 Extraction d'information

L'Extraction d'Information (EI) est le nom donné à tout processus qui sert à identifier et à classifier -à partir d'un ensemble de classes prédéfinies- les instances des noms et des relations qui se trouvent dans des documents textuels (Cowie and Lehnert 1996). Elle peut être définie aussi comme la transformation des textes en langage naturel (comme les articles de presse, les brevets, les pages web, etc.) en des représentations structurées prédéfinies. Une fois extraites, les informations peuvent ensuite être stockées dans des bases de données pour être interrogées, analysées, fouillées, etc.(Gaizauskas, et al. 1997).

Documents textuels

Extraction des
termes index

Toponymes

Termes clés

Désambiguïsation
des toponymes

Index spatial Index de termes-clés

Figure 2-10. Pipeline spatial dans la procédure d'indexation dans un système de recherche
d'information géographique

La figure 1-6 (voir Chapitre 1, page 30) illustre la création d'une base de données géographiques des évènements à partir du texte, a travers l'extraction d'information.

Conceptuellement, l'EI englobe trois sous-tâches: la reconnaissance des entités nommées, la désambiguïsation des entités nommées, l'extraction de relations (Bunescu 2007). Ces opérations sont décrites brièvement dans les sous-sections suivantes.

2.4.2.1 Reconnaissance des entités nommées

La reconnaissance des entités nommées (REN) (Chinchor 1998) consiste à identifier dans le texte les mentions des noms propres, des expressions de temps, et des expressions numériques, comme le montre le Tableau 2-3.

Tableau 2-3. Catégories des entités nommées selon (Chinchor 1998)

Catégories des entités nommées Sous catégorie

Noms des entités (Noms propres) Personne

Organisation Toponyme

Expressions temporelles Date

temps

Expression numériques Expression monétaires

Pourcentage

Exemple

Dans la phrase suivante: « Le prophète Mohamed est né le 12 Rabi`a al Awal à La Mecque », le système de reconnaissance des entités nommées doit identifier 3 entités nommées : «Mohamed» autant qu'un nom de personne, « 12 Rabi`a al Awal » comme une date, et « La Mecque » comme un nom de lieu (un toponyme).

2.4.2.2 Désambiguïsation des entités nommées

L'identification des entités nommées, et en particulier celles de la première catégorie (c.à.d. les noms propres associés aux entités) n'est pas généralement suffisante pour obtenir des informations consolidables à partir du texte. Cela est dû à l'ambigüité qui est un caractère inhérent aux noms dans la langue naturelle. Un type de cette ambiguïté consiste à associer un nom à plusieurs entités. Par exemple, dans les phrases ci-dessous « Al Akkad » se réfère à deux personnes différentes, ce qui provoque une ambiguïté dans les informations extraites.

Al Akkad est le réalisateur des films « Le message >> et le « Le lion du désert >>. Al Akkad est l'auteur du livre « Génie de Mohamed >>.

La désambiguïsation des entités nommées (Bunescu 2007) est la tâche qui permet l'identification de l'entité qui corresponde à une occurrence d'un nom dans un document textuel, cette tâche est un cas spécifique de la désambiguïsation des sens des mots (Section 2.4.3). Par exemple, en appliquant la désambiguïsation des entités nommées sur le nom « Al Akkad » dans les deux phrases ci-dessus ; Al Akkad de la première phrase est associé à l'entité : Moustafa Al Akkad, par contre celui de la deuxième phrase est associé à l'entité : Mahmoud Al Akkad.

La désambiguïsation des entités nommées est une sous tâche importante dans l'extraction d'information, en particulier, lorsque les informations extraites d'un certain document doivent être intégrées avec des informations sur la même entité en provenance d'autres documents ou de sources externes.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Je voudrais vivre pour étudier, non pas étudier pour vivre"   Francis Bacon