3.1.4. Le filtrage des informations
Le filtrage concerne autant la recherche que le traitement de
ses résultats. En effet beaucoup de logiciels permettent à
l'utilisateur d'indiquer le type de documents à rapatrier ou le type de
sites à consulter. Par exemple, NetAttaché permet d'exclure des
URL, ou des noms de serveurs d'une recherche, des images, des extensions des
navigateurs (ActiveX, Java applets). WebSeeker permet de désactiver
l'utilisation de moteurs de recherche, d'indiquer le nombre de documents
maximum à rapatrier par source. Autonomy permet de ne retenir que les
images figurant dans les documents résultats d'une recherche.
3.1.5. L'analyse sémantique des documents
C'est la possibilité d'effectuer des
résumés à partir des textes recueillis et dans certains
cas, d'en extraire des mots-clés . WebCompass, DigOut4U et EchoSearch
donnent la possibilité de regrouper par thèmes les documents
retournés ainsi que d'en faire des résumés. En
réalité, les "soi-disants" résumés sont
fabriqués en mettant bout à bout des paragraphes extraits du
document. EchoSearch permet en plus d'élaborer des tables des
matières et des listes de mots-clés et de concepts. Les tables
des matières sont élaborés à partir des balises
titres (H1 à H6) des documents retournés. Chaque balise titre est
considérée comme titre de partie et à cet égard
apparaît dans les sommaires et tables de matière. Les balises
à utiliser pour fabriquer le sommaire peuvent être
sélectionnées par l'utilisateur. L'index est une liste
alphabétique des termes significatifs des documents retournés.
Lorsque un mot semble avoir deux significations, il est accompagné d'une
expression issue du texte illustrant chacun de ses différents contextes.
La liste des concepts reprend les mots-clés en réinsérant
chacun d'entre eux dans leur contexte, c'est à dire une phrase ou une
expression contenant le terme en question.
3.1.6. Les outils documentaires sur le Web, des
systèmes multi-agents intelligents ?
Certains outils apparaissent être des systèmes
multi-agents. Tout d'abord, parler de système suppose plusieurs agents
travaillant pour un objectif commun. Par exemple, dans Autonomy, plusieurs
agents peuvent être créés, chacun d'eux s'occupant en
parallèle d'une partie de la recherche. Chaque agent visualise sur une
carte à l'écran le trajet qu'il effectue sur la toile
d'araignée. DigOut4U permet de traiter les premiers résultats
d'une recherche pendant que la recherche se poursuit.
Les propriétés des agents se retrouvent dans
les outils documentaires sur le Web :
Ø l'autonomie. Ils sont capables de s'activer
eux-mêmes ainsi que les matériels nécessaires (modem) pour
effectuer de la veille
Ø la communicabilité. Chaque agent
chargé d'une recherche se montre capable d'extraire les information les
plus saillantes pour les communiquer aux autres agents
Ø l'adaptation à leur environnement, leurs
utilisateurs en l'occurrence. La gestion des profils permet d'affiner leur
fonctionnement, de cibler les recherches
Ø l'apprentissage. L'utilisateur peut avec certains
logiciels qualifier les différents résultats d'une recherche
(intéressant, très intéressant, à rejeter,
superficiel,...). Les logiciels utilisent ces annotations lors des recherches
suivantes. De même, les adresses des pages et des sites les plus souvent
consultées par l'utilisateur sont mémorisées pour
être utilisées en premier lors des recherches suivantes.
|