2.4.2 Extraction d'information
L'Extraction d'Information (EI) est le nom
donné à tout processus qui sert à identifier et à
classifier -à partir d'un ensemble de classes prédéfinies-
les instances des noms et des relations qui se trouvent dans des documents
textuels (Cowie and Lehnert 1996). Elle peut être définie aussi
comme la transformation des textes en langage naturel (comme les articles de
presse, les brevets, les pages web, etc.) en des représentations
structurées prédéfinies. Une fois extraites, les
informations peuvent ensuite être stockées dans des bases de
données pour être interrogées, analysées,
fouillées, etc.(Gaizauskas, et al. 1997).
Documents textuels
Extraction des termes index
Toponymes
Termes clés
Désambiguïsation des toponymes
Index spatial Index de termes-clés
Figure 2-10. Pipeline spatial dans la procédure
d'indexation dans un système de recherche d'information
géographique
La figure 1-6 (voir Chapitre 1, page 30) illustre la
création d'une base de données géographiques des
évènements à partir du texte, a travers l'extraction
d'information.
Conceptuellement, l'EI englobe trois sous-tâches: la
reconnaissance des entités nommées, la
désambiguïsation des entités nommées,
l'extraction de relations (Bunescu 2007). Ces opérations sont
décrites brièvement dans les sous-sections suivantes.
2.4.2.1 Reconnaissance des entités
nommées
La reconnaissance des entités nommées (REN)
(Chinchor 1998) consiste à identifier dans le texte les mentions des
noms propres, des expressions de temps, et des expressions numériques,
comme le montre le Tableau 2-3.
Tableau 2-3. Catégories des entités
nommées selon (Chinchor 1998)
Catégories des entités nommées Sous
catégorie
Noms des entités (Noms propres) Personne
Organisation Toponyme
Expressions temporelles Date
temps
Expression numériques Expression monétaires
Pourcentage
Exemple
Dans la phrase suivante: « Le prophète Mohamed est
né le 12 Rabi`a al Awal à La Mecque », le système de
reconnaissance des entités nommées doit identifier 3
entités nommées : «Mohamed» autant qu'un nom de
personne, « 12 Rabi`a al Awal » comme une date, et « La Mecque
» comme un nom de lieu (un toponyme).
2.4.2.2 Désambiguïsation des entités
nommées
L'identification des entités nommées, et en
particulier celles de la première catégorie (c.à.d. les
noms propres associés aux entités) n'est pas
généralement suffisante pour obtenir des informations
consolidables à partir du texte. Cela est dû à
l'ambigüité qui est un caractère inhérent aux noms
dans la langue naturelle. Un type de cette ambiguïté consiste
à associer un nom à plusieurs entités. Par exemple, dans
les phrases ci-dessous « Al Akkad » se réfère à
deux personnes différentes, ce qui provoque une ambiguïté
dans les informations extraites.
Al Akkad est le réalisateur des films « Le message
>> et le « Le lion du désert >>. Al Akkad est l'auteur
du livre « Génie de Mohamed >>.
La désambiguïsation des entités
nommées (Bunescu 2007) est la tâche qui permet
l'identification de l'entité qui corresponde à une occurrence
d'un nom dans un document textuel, cette tâche est un cas
spécifique de la désambiguïsation des sens des mots (Section
2.4.3). Par exemple, en appliquant la désambiguïsation des
entités nommées sur le nom « Al Akkad » dans les deux
phrases ci-dessus ; Al Akkad de la première phrase est associé
à l'entité : Moustafa Al Akkad, par contre celui de la
deuxième phrase est associé à l'entité : Mahmoud Al
Akkad.
La désambiguïsation des entités
nommées est une sous tâche importante dans l'extraction
d'information, en particulier, lorsque les informations extraites d'un certain
document doivent être intégrées avec des informations sur
la même entité en provenance d'autres documents ou de sources
externes.
|