2.4.2.3 Extraction de relations
Une fois les entités nommées ont
été correctement identifiées puis
désambiguïsées, une étape supplémentaire dans
l'EI est de trouver des relations prédéfinies entre ces
entités. Par exemple dans la phrase « Al-Khawarizmi est un
mathématicien originaire de Khiva, né vers 783 », un
système conçu pour extraire les relations entre les personne et
les lieux doit identifier la relation né-à qui relie le
nom de personne Al-Khawarizmi et le toponyme Khiva. C'est le résultat de
cette étape qui permet de construire des bases de données qui
contiennent une description pour chaque entité extraite.
Les lieux géographiques sont parmi les entités
extraites. Et le fait de les relier avec d'autres informations permet de
construire des bases de données géographiques comme il a
été discuté dans la Section 1.6.3 du le chapitre
précédent.
Documents textuels
Extraction des entités nommées
Entités nommées : Toponymes, noms
de personnes...etc.
Désambiguïsation des entités
nommées
|
Désambiguïsation des toponymes
|
Désambiguïsation des noms de personnes
|
Désambiguïsation des
expressions temporelles
|
Entités nommées sans ambiguïté
Extraction de relations
Base de données
Figure 2-11. Le processus d'extraction d'information
avec la tache de désambiguïsation des toponymes
2.4.2.4 Relation entre l'extraction d'information et
la
désambiguïsation des toponymes
La désambiguïsation des toponymes peut
être considérée comme une spécification de la
tâche de désambiguïsation des entités
nommées. Par conséquent, c'est l'une des étapes
importantes dans le processus d'extraction d'information cela est dans le cas
où des toponymes ambigus sont parmi les informations extraites. La
Figure 2-11 (voir Page 34) montre la position de la
désambiguïsation des toponymes dans le processus de l'EI.
2.4.3 Désambiguïsation des sens des mots
2.4.3.1 Description du problème
La désambiguïsation des sens de mots
(DSM)13 est définie comme : la tâche de l'attribution
automatique du sens le plus approprié à un mot
polysémique14 dans un contexte donné (Sinha et
Mihalcea 2007).
Formellement, supposons que T est une portion de texte
c.-à-d. une séquence de mots (m1, m2...mn) ; et
SensD (mi) est l'ensemble des sens (s1, s2,..., sn)
des mots mi encodés dans un dictionnaire D. On
peut décrire la DSM comme la tâche d'attribuer les sens
si à l'ensemble ou certains des mots de T. Cela
revient à identifier une fonction F qui associe les mots vers
leurs sens. Tels que F(i) ? SensD (mi), où
F(i) est un sous ensemble des sens du mot mi qui sont
appropriées dans le contexte T. La fonction F peut
associer plus qu'un sens à chaque mot mi ? T, mais en
général, seulement le sens le plus approprié est
sélectionné, c.-à-d. |F (i)| = 1 (Navigli
2009).
2.4.3.2 Relation de la DSM avec la
désambiguïsation de toponymes
Les toponymes sont un type spécial de mots. Certain
auteurs comme (Stokes, et al. 2008) considèrent la DT comme un cas
spécifiques de la DSM où les mots à
13 Traduction directe du terme anglais Word sens
disambiguation (WSD). En effet, nous n'avons pas trouvé un terme
conventionnel en français. Néanmoins, il existe des traductions
variées comme : résolution de polysémie,
désambiguïsation sémantique et désambiguïsation
syntaxique.
14 Un mot polysémique est un mot qui
possède plusieurs sens.
désambiguïser sont les toponymes et leurs sens sont
les lieux physiques que l'auteur du texte a fait entendu en les mentionnant.
Un autre point de vue dit que la DT est une étape
au-delà de la DSM (Li, et al. 2003), car les méthodes de cette
dernière ne peuvent résoudre que l'ambiguïté de type
géo/non-géo, c.-à-d. elles peuvent déterminer si un
nom est un toponyme ou non, mais elles ne sont pas en mesure de lui associer le
lieu physique à lequel il se réfère. Et c'est ça le
rôle de la DT.
La recherche d'information géographique et l'extraction
d'information (discutés cidessus) sont des domaines qui utilisent la
désambiguïsation des toponymes comme une tâche dans leurs
systèmes. Par contre, la désambiguïsation des sens des mots
est un domaine que la DT inspire beaucoup de techniques et de notions, telles
que : les phases principales et les opérations de base (voir Section
2.3.2).
Sauf que, les méthodes de DSM emploient plus de
ressources, et quand au contexte, il est représenté par la
quasi-totalité des mots du texte et non pas par les toponymes. Le
Tableau 2-4 résume les principales différences entre la DSM et la
DT.
Tableau 2-4. Comparaison entre la
Désambiguïsation des Sens des Mots et la
Désambiguïsation des Toponymes
Désambiguïsation des Sens des Mots
Désambiguïsation des Toponymes
Trouver le sens voulu par la mention du mot dans un contexte
donné
Concerne tous les types de mots : les noms, les verbes, les
adjectif...
Les ressources utilisées sont : les dictionnaires
numériques, les thésaurus, les ontologies, les corpus
Trouver le référent voulu par la mention du
toponyme dans un contexte donné
Concerne seulement les noms des lieux
Les ressources utilisées sont : les gazetteers, les
ontologies, les corpus, le Web
Le contexte est représenté par tous les mots Le
contexte est représenté par les toponymes
|