Au cours de ce travail, plusieurs points, concernant
l'identification d'agrégats dans de grands réseaux de mots
utilisés conjointement, ont pu être clarifiés :
· les méthodes d'agrégation doivent
traiter la liaison en fonction de sa nature et de son importance relative
à l'usage des mots (ce qui signifie que nous devons utiliser des graphes
pondérés et dirigés) ;
· la reconnaissance de « figures » fortement
connectées comme des cliques ne permet pas à elle seule de
détecter des ensembles thématiques cohérents. Les
comparaisons de méthodes menées pour la recherche de mots
utilisés par les
4.5 : Conclusion 181
Chapitre 4. Expérimentations, validations
sémantiques et résultats de mesure
pédophiles a permis de montrer que les méthodes
utilisant la pondération relative sont les plus efficaces
[Belbeze&al-2009-2].
Ceci pourrait donc aussi signifier de manière plus
générale que les méthodes dîtes «
séparatistes » ne seraient pas la bonne voie. De plus, la plupart
des méthodes séparatistes requièrent comme
paramètre le nombre d'agrégats à créer, elles
partent de l'ensemble du graphe pour rechercher un nombre de sous-ensembles. Ce
qui est à l'opposé des méthodes d'agrégation
locales basées, elles, sur une analyse contextuelle et locale.
La validation d'un agrégat de noeuds issu d'un
processus de regroupement dans un graphe est d'autant plus difficile que sa
définition est incomplète. Dans le cas qui nous occupe,
même s'il existe une parenté entre l'agrégat et le champ
lexical, nous ne sommes pas parvenus à définir l'agrégat
précisément. Le champ lexical est défini pour un contexte
qui est textuel, l'agrégat est défini dans un réseau. La
taille moyenne des textes étudiés par les linguistes et celle des
réseaux de mots que nous étudions sont suffisamment
éloignées pour que la nature des travaux ne puisse être
comparée.
Dans nos méthodes de validation, nous avons seulement
cherché à mesurer la cohérence sémantique du
regroupement. Pour cela, trois types de méthodes ont été
utilisées :
? les méthodes par comparaison de la distribution de
certaines mesures, pour des catégories entre des combinaisons de mots
particulières et des combinaisons des mots issus d'agrégats ;
? les méthodes de validation basées sur le
jugement d'un expert pour des regroupements de mots dans un domaine particulier
(la pédophilie dans le cadre de ce travail).
? Des méthodes mixtes qui comparent les
résultats du comportement de combinaisons de mots par rapport à
une « baseline » construite manuellement.
Chaque type de méthode possède ses propres limites
et ses qualités :
Les méthodes de comparaison comportementale d'un type
de mot présentent l'avantage considérable de s'auto valider. En
effet, la distance (ou différence) de comportement entre les ensembles
aléatoires et ceux considérés comme sémantiquement
valides est directement lisible comme le facteur de qualité de telles
méthodes.
En revanche, ces méthodes sont lourdes à mettre
en oeuvre. En effet, fondées sur un comportement statistique, elles ne
peuvent être considérées valides que si elles sont
appliquées sur des échantillons de grande taille.
Les évaluations manuelles, si elles ne sont
fondées que sur le simple avis d'un expert sont sans doute les moins
informatives. Les observations de quelque ordre que ce soit sont finalement peu
instructives. Comment évaluer, sans référentiel, un
élément tel que la cohérence sémantique d'un
agrégat ? La question n'a pas trouvé de réponse.
4.5 : Conclusion 182
Chapitre 4. Expérimentations, validations
sémantiques et résultats de mesure
Il n'en reste pas moins, que sur le plan humain, la parole
d'un expert validant la qualité sémantique d'un agrégat de
mots créé par une méthode est incontournable. La nature
particulièrement subjective de ce qu'est la cohérence
sémantique ne peut se contenter de système de mesure
automatique.
La comparaison de regroupements avec une base de
qualité construite manuellement et étalonnée comme
TREC-Eval est sans doute plus adaptée pour valider nos agrégats.
Malheureusement, la taille de la base de TREC-Eval est encore trop faible pour
servir d'outil de mesure absolu.
La véritable évaluation consisterait sans doute
à récolter les niveaux de satisfaction des utilisateurs d'un
système tel que celui décrit dans notre avant-propos. La mise au
point (en vrai-grandeur) d'un système de création de lien social
autour des agrégats permettrait alors de juger de leur cohérence
sémantique.
Toutefois, nous devons valoriser la réussite de la
démarche concernant la cohérence entre plusieurs méthodes
de validation. Ainsi, les agrégats créés avec la
méthode de Rigidification Régulée sur le réseau
« 100 mots dans AOL » ont été testés avec
pratiquement les mêmes résultats par deux méthodes
comparatives : MCCVS (Méthode Comparative de Coefficient de Validation
Sémantique) et MCCDR (Méthode de Comparaisons de Cohérence
de Documents Retournés). La première méthode évalue
le Coefficient de Cohérence Sémantique Comparé de ces
agrégats à 0.899 et la seconde donne une valeur de 0.898 pour le
Quotient de Centralité Sémantique Comparé. La
proximité de ces résultats encourage à penser que l'usage
de plusieurs méthodes de validation sémantique est souhaitable,
leur résultat respectif pouvant alors se valider l'un l'autre.
Enfin, quelques mots sur les technologies utilisées
pour ces expérimentations : nous avons utilisé des
systèmes de bases de données pour stocker et étudier les
graphes. Or, beaucoup de chercheurs « chargent » directement les
graphes en mémoire dans des structures chainées
représentant le graphe. Ceux-ci sont souvent persuadés que, par
sa simplicité, ce système est le plus rapide. C'est sans doute le
cas pour des opérations de boucles systématiques. Mais les bases
de données ont de nombreux avantages :
? elles permettent de stocker infiniment plus de
matière que la ram disponible sur l'ordinateur (dans le cas de
Méga-Graphes, elles sont donc une aide précieuse) ;
? dans le cas d'études et de recherches de type «
Brain Storming » sur le graphe le langage SQL permet interactivement
d'ausculter et de retourner des informations très rapidement ;
? en changeant très peu de codes on peut travailler sur
toute la base, un extrait ou un type de données particulier ;
4.5 : Conclusion 183
Chapitre 4. Expérimentations, validations
sémantiques et résultats de mesure
? les nouvelles fonctions de type « select into »
fournies par les éditeurs permettent d'extraire rapidement une partie du
graphe choisi selon toutes les conditions possibles ;
? grâce à des index bien choisis il est possible
d'accélérer l'extraction de données de telle sorte que les
réponses soient immédiates alors qu'une boucle en mémoire
consommera toujours un temps proportionnel au nombre d'éléments
;
? les moteurs de base de données modernes savent
parfaitement paralléliser les requêtes de façon à
utiliser les machines modernes multiprocesseurs (cela permet de profiter
immédiatement de la puissance de calcul maximale de la machine sans
avoir à écrire un code complexe parallélisable) ;
? il est possible de stocker l'avancée des travaux
dans la base et de reprendre naturellement un travail en cours, ce qui permet
la reprise sur incident simplement.
Il nous semble donc utile de ne pas écarter
systématiquement les technologies de type « base de données
» pour qui veut se confronter aux très grands graphes de terrain.
Elles ont aussi, nous devons en convenir, des inconvénients. La
simplicité apparente de l'usage de ces systèmes de gestion de
bases de données cache des algorithmes très complexes. Souvent,
pour des raisons commerciales, ces algorithmes sont peu
détaillés. Il devient alors très difficile d'en
prévoir les performances et plus encore dans des conditions d'usage
intensif.
184
Conclusion générale et perspectives