Chapitre3 :Etude théorique
1. Introduction :
Dans ce chapitre on va définir les moteurs de
recherche, leurs fonctionnalités, les opérations logiques
utilisées dans la recherche sur le web, ainsi que leurs
architectures.
2. Définition d'un moteur de recherche
:
Un moteur de recherche (Searchbot) est une machine
spécifique (matérielle et logicielle) qui visite les sites, les
indexe, les trie, afin de trouver les documents cherchés.
Or des documents apparaissent tous les jours, il faut donc
constamment réactualiser cette base de données. Ainsi, aucun
moteur de recherche ne peut parcourir la totalité des pages en un jour
(ce processus peut prendre plusieurs semaines). Chacun adopte donc sa propre
stratégie, certains vont même jusqu' à calculer la
fréquence de mise à jour des sites.
Des robots (logiciels) parcourent des millions de pages Web,
et associent l'adresse à des mots clés qui ont été
définis en en-tête de la page, soit en piochant des mots dans la
page elle même. Lorsque l'utilisateur d'un moteur remplit le formulaire,
il spécifie les mots qu'il cherche (éventuellement qu'il ne
souhaite pas) grâce aux opérateurs booléens « et
», « ou », « non »... (Symbolisés par +,
-,...), la requête est envoyée au moteur qui consulte ses bases de
données pour chacun des mots puis affine la recherche en enlevant les
pages ne convenant pas, puis retourne une liste de liens vers des pages, avec
le début du texte de la page ou le texte spécifié par le
créateur de la page dans des balises spéciales, appelées
méta-tags.
Ces réponses sont classées dans un ordre de
pertinence, c'est-à-dire le pourcentage de mots correspondant aux
critères de l'utilisateur, et leur indice de densité.
3. Description des moteurs de recherche : 3.1. Type de
Service :
Le type de service fourni par le moteur : Index Automatique,
Index Manuel, Annuaire, Index Automatique et Annuaire, Index Manuel et
Annuaire.
3.2. Type d'accès :
L'accès à ce service est-il gratuit (Public) ou
payant (Commercial), ou bien les deux types d'accès sont-ils
proposés (Public et Commercial).
3.3. Fréquence de mise à jour :
Evaluation moyenne de la fréquence de mise à
jour de l'ensemble de l'index de la base. Evaluation moyenne du nombre de
requêtes adressées au service pour une période
donnée.
3.4. Sites Miroirs :
Les sites miroirs sont des répliques du site original
à des localisations différentes, afin de répartir la
charge des machines et de réduire les temps de communication. Cette
liste comprend, s'il y a lieu, le nom du site miroir, un lien vers ce site, son
URL ainsi que sa localisation.
4 .Fonctionnement du moteur de recherche : 4.1. Collecte
des documents :
4 .1.1. Méthode de collection :
Décrit la manière dont les documents qui seront
plus tard indexés sont collectés .Trois cas sont possibles :
> Manuelle : des internautes passent
leurs journées à parcourir le Web et à signaler les sites
intéressants.
> Automatique : un robot (petit
programme) se promène sur le Web et rapatrie les documents qu'il trouve
en se déplaçant de lien en lien.
> Soumission d' URL : dans ce cas,
ce sont les auteurs afin que ces derniers indexent leurs pages.
4.1.2. Méthode de parcours :
Pour parcourir le Web deux stratégies sont possibles :
-Parcours en largeur : A partir d'une page, on parcourt d'un seul
niveau les liens présents sur celle-ci.
-Parcours en profondeur : A partir d'une page, on explore le
premier lien, puis sur la page résultante on parcoure le premier lien,
etc.
A partir les stratégies de parcours, différents
services sont proposés :
-Protocole standard d'exclusion :
Deux réponses possibles, oui ou non. Dans le cas de
l'affirmative, cela signifie que le robot de collecte respecte le protocole
standard d'exclusion permettant à tout web master de spécifier
des pages Web ne devant pas être collectées par le robot.
-Serveurs collectés :
Ce critère décrit l'ensemble des types de
serveurs collectés par le moteur de recherche. On a restreint leur
nombre aux plus essentiels : WWW, Usenet, F.T.P, Gopher, et- une rubrique
`Autre', pour les outils collectant des documents à partir d'autres
sources.
-Couverture géographique :
Décrit la couverture géographique du robot de
collecte des documents. En effet, de plus en plus d'outils sont
spécifiques à un domaine géographique particulier (Europe,
France, Pays Francophones, Suisse,.....).
-Type de contenu :
On trouve ici le sujet des documents collectés par le
système. Si la plupart s'intéressent à tous les documents
(dans ce cas, le type de contenu est étiqueté
général), certains vont restreindre leur processus de collecte
à certains sujets bien précis (médecine, brevets,
informatique,....)
-Fréquence de visite des documents :
Ce critère donne une évaluation de la
fréquence moyenne de visite des documents par le robot de collecte. En
effet, ce dernier doit parcourir le plus fréquemment possible les payes
qu'il a déjà récupérées afin de tenir compte
de toute modification du document. Ainsi, plus cette fréquence est
élevée, et plus les résultats d'une recherche seront
à jour par rapport à la réalité (si l'indexation
est aussi fréquente).
|