L'espace web du sénégal : étude de son degré d'ouverture ´ travers l'analyse des liens hypertextes( Télécharger le fichier original )par El Hadji Malick GUEYE Université Paris 10 Nanterre - Master de Recherche 2005 |
II.4.3 Le degré de connectivité du WebDans un article assez répandu, « Diameter of the World-Wide Web »82(*), Albert et al. (1999) ont tenté de calculer le diamètre du Web, c'est à dire la chaîne la plus longue entre deux pages Web. Au moment où la taille du Web était estimée à 800 millions de pages (1999), ils ont pu arriver à la conclusion suivante : en choisissant par hasard deux pages Web, on peut passer de l'une à l'autre en 19 clicks en moyenne. En d'autres termes, ils considéraient le Web comme un univers de faible diamètre et fortement interconnecté. Cette notion de « small world » (petit mode) importée de l'analyse réseau en science sociale pour caractériser le Web, sera ultérieurement contestée par Border et al. (2000) à travers une étude restée référence. Ils ont constitué un corpus de 200 millions de pages par le biais du moteur de recherche Alta Vista. La figure suivante montre des aspects très intéressants de la connectivité du Web assez loin des conclusions de Albert et al. Figure 8 : Connectivité du Web (Broder et al., 2000) Leur principale découverte était que, le corpus ainsi constitué pouvait être divisé en 5 grands ensembles, chacun avec ses caractéristiques et son degré d'orientation et de connexion : Strongly Connected Component (SCC), IN, OUT, Tendrils et Disconnected. Tout d'abord, il y a le (SCC), Strongly Connected Component qui peut être traduit par Composantes Fortement Connexes (Prime-Claverie, 2004). Cet ensemble qui est au fait le coeur de tous les ensembles est constitué de 56 millions de pages sur les 200 millions composant le corpus. C'est le seul ensemble où toutes les pages sont reliées les unes aux autres par un chemin. Son diamètre est estimé à 28 liens. Le concept de « petit monde » peut s'appliquer à cet ensemble. Ensuite, nous avons les ensembles OUT et IN contenant chacun 44 millions de pages. Si les pages de l'ensemble OUT ne peuvent être atteintes qu'à partir du SCC, celles de l'ensemble IN peuvent atteindre les pages du SCC directement. Ce qui revient aussi à dire que une recherche de liens lancée à partir de l'ensemble IN contiendra les pages de l'ensemble SCC plus celles de l'ensemble OUT. Nous avons aussi les Tendrils, qui contiennent 44 millions de pages ne pouvant ni atteindre l'ensemble SCC ni être atteintes à partir de celui-ci. Enfin, il reste l'ensemble Disconnected contenant 16 millions de pages. Et comme son nom l'indique, il n'est lié à aucun des quatre ensembles sus-cités et est complètement déconnecté. Par ailleurs, ils ont aussi émis l'idée d'un possible passage ou liaison d'une petite partie de l'ensemble IN vers une petite partie de l'ensemble OUT sans passer par le coeur, formant ainsi un Tube. Cette découverte montre que le Web est loin d'avoir l'aspect d'un « petit monde » où il y aurait un fort degré d'interconnexion. Les auteurs ont pu estimer le diamètre du graphe (dressé à partir des 800 millions de pages extraites), à 500. Ils ont aussi montré que, en choisissant au hasard deux pages, la probabilité pour qu'il existe un chemin entre elles est de 24%. S'il s'agit d'un chemin direct, sa longueur moyenne est estimée à 16. Dans le cas d'un chemin indirect, c'est à dire que les liens entre ces deux pages vont dans les deux sens, la longueur du chemin est estimée à 6. * 82 ALBERT, R., JEONG, H., BARBARASI, A.-L.. Diameter of the World Wide Web. In : Nature 401:130-131, Sep 1999. |
|