3. Les applications existantes
Gestion documentaire sur le Web, commerce électronique,
finance et affaires
Les agents tels qu'ils sont définis ci-dessus
n'existent malheureusement pas encore, en tout cas sous forme de logiciels
disponibles par tous. Mais certaines caractéristiques sont prises en
compte dans le développement de produits destinés à des
applications spécifiques et ces produits donnent l'illusion de
raisonner. Par abus de langage et pour des raisons évidentes de
marketing, les constructeurs de ces produits les qualifient d'agents
intelligents. Dans ce chapitre, nous décrivons les fonctionnements des
agents intelligents existants dans les applications de recherche et diffusion
d'informations sur le Web, de commerce électronique et de banque et
assurance. Pour illustrer nos propos, nous nous appuyons sur quelques exemples
d'outils du marché. L'annexe A fournit une liste plus complète
d'agents existant actuellement.
3.1. La gestion documentaire sur le Web
Ces agents facilitent la recherche et le traitement
d'informations sur Internet en automatisant certaines des tâches des
internautes. Ils se posent en complément des traditionnels moteurs de
recherche à qui, d'ailleurs, ils font appel automatiquement, en traitant
des requêtes plus complexes et en effectuant des traitements
complémentaires sur leurs résultats. Le schéma de la
figure 2 représente le fonctionnement des agents documentaires. Tout ce
qui est écrit en bleu constitue l'agent. L'utilisateur semble perplexe
devant les réponses fournies. C'est que souvent les résultats
d'une requête ne correspondent pas à ses attentes (voir plus
précisément le paragraphe 3.1.6).
requête
reconnaissance de la requête de l'utilisateur
requête
spécifique
requête spécifique
· · ·
moteur de
recherche
moteur de
recherche
résultats
recherches spécifiques sur les résultats des
moteurs de recherche
résultats
résultats
filtrage des résultats, analyse sémantique,
stockage
?? !!
Figure 2 : les agents documentaires sur le
Web
Les moteurs de recherche traditionnels tels Altavista, Hotbot
ou Yahoo tiennent à jour des index de la plupart des informations
présentes sur le NET, et vont chercher dans leurs propres bases de
données les informations répondant à la requête de
l'utilisateur sans se soucier de la quantité d'informations
retournées ni de leur adéquation aux besoins de l'utilisateur.
L'objectif' des agents documentaires est de résoudre le problème
de cette ingérable quantité d'information
à laquelle les utilisateurs sont confrontés,
c'est-à-dire :
Ø trouver des informations qui ne sont pas
indexées (non présentes dans les serveurs conventionnels), de
façon à avoir un avantage concurrentiel
Ø économiser du temps pour le balayage des
serveurs
Ø collecter automatiquement l'information
Ø fabriquer des bases de données
thématiques
Ø trouver les experts d'un domaine bien précis
Ø analyser un serveur en OFF-LINE (importer le contenu
d'un serveur sur le disque dur de l'utilisateur pour l'analyser hors
connexion)
Ø fabriquer des cartographies de sites
Ø tracer un réseau de co-citation de serveurs
Ø fabriquer un mailing d'adresses E-mails.
Nous analysons ci-dessous les cinq fonctions principales des
agents documentaires : la recherche d'informations, la veille, la gestion des
informations recueillies, le filtrage des informations, l'analyse
sémantique des documents. Nous présentons, pour chacune de ces
fonctions, les propositions de quelques outils parmi les plus utilisés.
Nous montrons ensuite comment certains outils implantent certaines des
propriétés des agents telles que nous les avons décrites
dans le paragraphe 2 et pourquoi on peut les qualifier de systèmes
multi-agents débutants. Enfin, nous donnons un bilan d'utilisation des
logiciels existants.
3.1.1. La recherche d'informations
D'une manière générale, la recherche
d'informations s'effectue par mots-clés reliés ou non par des
opérateurs booléens. Les différences entre les outils
portent sur les opérateurs booléens reconnus (and, or, near,
must, ...), sur le type de mots-clés (troncature possible ou non d'un
mot, ordonnancement des mots-clés, utilisation de nom de serveur dans un
mot-clé,...), sur les moteurs de recherche utilisés et sur la
manière de formuler la requête (requêtes exprimées
directement au moyen de prédicats sur des mots-clés, ou
expression en langage naturel). Nous allons dans ce qui suit rappeler le
principe de référencement des documents puis étudier les
différentes stratégies de recherche implantées dans les
outils et les formulations de requête proposées.
Principes de référencement des
documents. Les documents accessibles sur Internet contiennent un
ensemble de mots clés inscrits entre les balises d'en-tête de la
page d'accueil du site. Un exemple est fourni ci-après :
<head>
<title> Solutions réseau </title>
<meta name="keywords"
content="commutateur, concentrateur, modem, routeur,
connectique, cable, X25, ethernet, télécommunications,
ingénierie réseau, fibre optique, lan, wan">
<meta name="description"
content="Etude, comercialisation, installation, entretient de
solutions de réseaux informatiques.">
</head>
Les moteurs de recherche utilisent les mots
repérés par les balises "title", "meta keywords" et "meta
description" pour fabriquer leurs index.
Recherche au moyen des moteurs de recherche
généralistes. Les recherches sont
lancées simultanément sur plusieurs moteurs de recherche afin de
combler les lacunes des uns et des autres. Les résultats sont
fusionnés et les doublons éliminés. A titre d'exemples
DigOut4U utilise Altavista, HotBot, WebCrawler, Yahoo, OpenText, InfoSeek,
Hotbot news, Altavista news, Déjànews, InfoseekNews et Excite.
Echosearch utilise Altavista, Excite, Hotbot, Infoseek, Lycos, Opentext,
Pathfinfer ainsi que Webcrawler. Webcompass quant à lui propose l'emploi
de AltaVista (Web and News), Excite (Web and News), HotBot , DejaNews,
Infoseek, Yahoo, Magellan, Lycos, Opentext et WebCrawler.
Recherche dans des sources
spécialisées. Les recherches sont
réalisées par des moteurs sectoriels ou dans des bases de
données spécialisées (par exemple, les archives d'un
journal) comprenant un moteur d'interrogation adéquat (par exemple
Excite). Ainsi DigOut4U permet d'interroger des moteurs francophones (Ecila,
Carrefour, Yahoo France, Echo, UREC, Yahoo Canada, Lockace) mais pas d'en
ajouter de nouveaux. WebCompass et WebSeeker, en revanche, le permettent mais
les possibilités offertes par le second sont infiniment
supérieures. En standard il propose l'interrogation d'une centaine de
moteurs spécialisés et permet d'en ajouter aisément.
Webcompass, au contraire, donne, certes, la possibilité d'ajouter de
nouveaux moteurs mais n'en propose qu'une quarantaine en standard, ne permet
pas de faire des recherches autrement que par l'intermédiaire de
l'opérateur OR et interdit de rajouter des moteurs non-anglophones.
WebSeeker, et dans une moindre mesure WebCompass, se
distinguent donc par l'étendue des ressources qu'ils sont capables
d'interroger. Les 110 moteurs que WebSeeker propose en standard sont
classés par catégories : Web (pour les moteurs et annuaires
généralistes), Arts, Automotive, Business, Computers, Deutsch,
Education, Employement, Entertaiment, Finance, Français, Games,
Governement, Health, Housing, Kids, legal, Lifestyle, Multimedia, News, People,
Reference, Science, Shopping, Software, Sports, Travel et Usenet. Il n'est pas
possible d'interroger tous les moteurs à la fois mais chaque
catégorie est assez bien fournie ! WebCompass, pour sa part, propose les
catégories suivantes : General, Health international, Investment, Media,
Netnews, Sports, Technical. Par exemple, les sources de la catégorie
"Technical" sont les suivantes : Byte Magazine, CNET News et Zdnet. Ce sont des
moteurs, des annuaires plus ou moins spécialisés, des bases de
données de revues.
Recherche hors moteur de
recherche. Il s'agit ici d'utiliser les résultats
fournis par les moteurs de recherche (spécialisés ou
généralistes) pour explorer les liens contenus dans les pages et
visiter des pages éventuellement non référencées
dans les bases de données des moteurs de recherche. Autonomy et DigOut4U
offrent cette fonctionnalité. Evidemment, de telles recherches
complémentaires peuvent être longues et doivent être
lancées la nuit ou être stoppées par l'utilisateur.
Formulation des requêtes.
Elle peut être faite selon la manière classique
d'interrogation de fonds documentaires c'est-à-dire par l'introduction
de mots-clés choisis par l'utilisateur et reliés par des
opérateurs booléens, ou en langage naturel.
La formulation par introduction de mots-clés est plus
ou moins puissante selon les outils. En général, pour peu que la
requête de l'utilisateur soit un peu complexe, les agents de recherche
feront correspondre plusieurs questions aux moteurs de recherche
utilisés. Par exemple, Echosearch accepte des phrases entre guillemets
et des termes associés aux opérateurs "must" et "cannot".
NetAttaché accepte les parenthèses et une requête du type :
(Sartre and Beauvoir) and (existentialisme or "Saint Germain"). Les documents
pertinents devront d'une part inclure les termes "Beauvoir" et "Sartre" et
d'autre part soit le terme "existentialisme", soit "Saint Germain". WebSeeker
propose l'ordonnancement des mots-clés et des opérateurs
perfectionnés tels la troncature de mots-clés, near, followed of,
but not. Il offre également un opérateur de proximité qui
permet de déclarer une distance maximum qui doit être
respectée entre des mots. Par exemple, soit la requête
"réduction d'impôts". On peut indiquer combien de mots au maximum
peuvent séparer le mot "réduction" du mot "impôts". De
plus, des mots peuvent être déclarés facultatifs ou
obligatoires.
Les outils qui accepte une formulation des requêtes en
langage naturel transforment la requête de manière plus ou moins
efficace en prédicats sur des mots-clés comme expliqué
dans le paragraphe précédent. Par exemple, avec DigOut4 et
Autonomy, l'utilisateur introduit sa requête sous forme d'une ou
plusieurs phrases qui sont décomposées en concepts ou
mots-clés de façon à faire correspondre le contenu des
questions aux règles strictes d'interrogation des moteurs.
Malheureusement, les logiciels ont du mal à comprendre une question. Il
semble que la décomposition de la question en mots-clés ne se
fasse pas de manière correcte car les résultats des recherches
ont souvent une très faible pertinence. De plus la manière dont
la question doit être formulée pour être facilement
compréhensible par le logiciel n'est pas clairement expliquée.
DigOut4U permet en outre des recherches multilingues. Une requête
formulée en français sera automatiquement traduite en anglais et
vice versa. La recherche sera alors multilingue. Attention cependant : la
traduction des termes se fait selon un dictionnaire parfois un peu hasardeux.
Par exemple le terme d'agent est transformé automatiquement en
"personne". Heureusement il est possible de corriger la traduction qui est
faite des termes de la recherche.
|