exemplaire d'un moteur de recherche

( Télécharger le fichier original )
par sami rahal
institut supérieur des études technologique Djerba Tunisie - technicien supérieur en réseau informatique 2007

précédent sommaire suivant

Chapitre3 :Etude théorique

1. Introduction :

Dans ce chapitre on va définir les moteurs de recherche, leurs fonctionnalités, les opérations logiques utilisées dans la recherche sur le web, ainsi que leurs architectures.

2. Définition d'un moteur de recherche :

Un moteur de recherche (Searchbot) est une machine spécifique (matérielle et logicielle) qui visite les sites, les indexe, les trie, afin de trouver les documents cherchés.

Or des documents apparaissent tous les jours, il faut donc constamment réactualiser cette base de données. Ainsi, aucun moteur de recherche ne peut parcourir la totalité des pages en un jour (ce processus peut prendre plusieurs semaines). Chacun adopte donc sa propre stratégie, certains vont même jusqu' à calculer la fréquence de mise à jour des sites.

Des robots (logiciels) parcourent des millions de pages Web, et associent l'adresse à des mots clés qui ont été définis en en-tête de la page, soit en piochant des mots dans la page elle même. Lorsque l'utilisateur d'un moteur remplit le formulaire, il spécifie les mots qu'il cherche (éventuellement qu'il ne souhaite pas) grâce aux opérateurs booléens « et », « ou », « non »... (Symbolisés par +, -,...), la requête est envoyée au moteur qui consulte ses bases de données pour chacun des mots puis affine la recherche en enlevant les pages ne convenant pas, puis retourne une liste de liens vers des pages, avec le début du texte de la page ou le texte spécifié par le créateur de la page dans des balises spéciales, appelées méta-tags.

Ces réponses sont classées dans un ordre de pertinence, c'est-à-dire le pourcentage de mots correspondant aux critères de l'utilisateur, et leur indice de densité.

3. Description des moteurs de recherche : 3.1. Type de Service :

Le type de service fourni par le moteur : Index Automatique, Index Manuel, Annuaire, Index Automatique et Annuaire, Index Manuel et Annuaire.

3.2. Type d'accès :

L'accès à ce service est-il gratuit (Public) ou payant (Commercial), ou bien les deux types d'accès sont-ils proposés (Public et Commercial).

3.3. Fréquence de mise à jour :

Evaluation moyenne de la fréquence de mise à jour de l'ensemble de l'index de la base. Evaluation moyenne du nombre de requêtes adressées au service pour une période donnée.

3.4. Sites Miroirs :

Les sites miroirs sont des répliques du site original à des localisations différentes, afin de répartir la charge des machines et de réduire les temps de communication. Cette liste comprend, s'il y a lieu, le nom du site miroir, un lien vers ce site, son URL ainsi que sa localisation.

4 .Fonctionnement du moteur de recherche : 4.1. Collecte des documents :

4 .1.1. Méthode de collection :

Décrit la manière dont les documents qui seront plus tard indexés sont collectés .Trois cas sont possibles :

> Manuelle : des internautes passent leurs journées à parcourir le Web et à signaler les sites intéressants.

> Automatique : un robot (petit programme) se promène sur le Web et rapatrie les documents qu'il trouve en se déplaçant de lien en lien.

> Soumission d' URL : dans ce cas, ce sont les auteurs afin que ces derniers indexent leurs pages.

4.1.2. Méthode de parcours :

Pour parcourir le Web deux stratégies sont possibles :

-Parcours en largeur : A partir d'une page, on parcourt d'un seul niveau les liens présents sur celle-ci.

-Parcours en profondeur : A partir d'une page, on explore le premier lien, puis sur la page résultante on parcoure le premier lien, etc.

A partir les stratégies de parcours, différents services sont proposés :

-Protocole standard d'exclusion :

Deux réponses possibles, oui ou non. Dans le cas de l'affirmative, cela signifie que le robot de collecte respecte le protocole standard d'exclusion permettant à tout web master de spécifier des pages Web ne devant pas être collectées par le robot.

-Serveurs collectés :

Ce critère décrit l'ensemble des types de serveurs collectés par le moteur de recherche. On a restreint leur nombre aux plus essentiels : WWW, Usenet, F.T.P, Gopher, et- une rubrique `Autre', pour les outils collectant des documents à partir d'autres sources.

-Couverture géographique :

Décrit la couverture géographique du robot de collecte des documents. En effet, de plus en plus d'outils sont spécifiques à un domaine géographique particulier (Europe, France, Pays Francophones, Suisse,.....).

-Type de contenu :

On trouve ici le sujet des documents collectés par le système. Si la plupart s'intéressent à tous les documents (dans ce cas, le type de contenu est étiqueté général), certains vont restreindre leur processus de collecte à certains sujets bien précis (médecine, brevets, informatique,....)

-Fréquence de visite des documents :

Ce critère donne une évaluation de la fréquence moyenne de visite des documents par le robot de collecte. En effet, ce dernier doit parcourir le plus fréquemment possible les payes qu'il a déjà récupérées afin de tenir compte de toute modification du document. Ainsi, plus cette fréquence est élevée, et plus les résultats d'une recherche seront à jour par rapport à la réalité (si l'indexation est aussi fréquente).

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"En amour, en art, en politique, il faut nous arranger pour que notre légèreté pèse lourd dans la balance." Sacha Guitry