Memoire Online - L'espace web du sénégal : étude de son degré d'ouverture ´Â travers l'analyse des liens hypertextes

« L'espace web du senegal : étude de son degré d'ouverture à travers l'analyse des liens hypertextes »

Mémoire Master 2 de recherche Sciences de l'Information et de la Communication

A tous ceux et à toutes celles qui m'ont manifesté leur soutien surtout dans les moments difficiles.

Mes remerciements vont d'abord à l'endroit de mes deux encadrants, Monsieur Ihadjadène et Madame Prime-Claverie. Sans vos conseils et suggestions mais aussi votre disponibilité et votre patience, ce travail ne verrait jamais jour. Je remercie aussi Monsieur Perriault pour ses conseils très utiles dans l'orientation de mon sujet.

Ensuite, j'envoie un grand remerciement au Pr. Mike Thelwall du The Statistical Cybermetrics Research Group de l'Université de Wolverhampton pour l'aide apportée à la constitution de mon corpus de travail et au-delà pour avoir mis à la disposition des professionnels de l'information des logiciels de traitement libres et gratuits.

Enfin, je remercie tous les amis de Marseille et de Paris. C'est grâce à votre soutien moral et psychologique et vos encouragements que j'ai pu terminer ce travail.

Liste des figures

Liste des tableaux

Introduction

Les nouvelles technologies de l'information et de la communication ont connu ces dernières décennies une importance toute particulière. Effet de mode, de mimétisme ou réelle révolution de la société contemporaine, force est de constater que le terme NTIC s'invite désormais dans tous les débats politiques, scientifiques, économiques, culturels (...) et intéresse particulièrement les chercheurs et les universitaires. Dans notre étude, nous voulons nous intéresser à l'aspect le plus remarquable de cette société de l'information : Internet, plus précisément le Web.

L'objectif général de cette étude est de mesurer le degré d'interconnexion des sites Web du Sénégal avec les autres sites de la toile mondiale et de déterminer ainsi leur ouverture dans ce réseau global. La motivation de ce travail est à chercher dans le retard que connaissent aujourd'hui les pays du Sud (africains particulièrement) en matière de nouvelles technologies de l'information et de la communication. Sans négliger cette fracture numérique et sans nier l'urgente nécessité de trouver des mesures pour la réduire, notre étude s'inscrit dans une démarche d'aborder autrement ce fossé notamment à travers une approche participative. Autrement dit, malgré les manques d'infrastructures et autres carences, il s'agit de surfer sur la vague de cette révolution numérique avec nos spécificités et nos richesses. Il s'agit d'exister simplement sur le Web. L'extrait suivant illustre assez bien cette vision : « ...un village branché à Internet, avec une parabole et où les femmes continuent à piler le riz à la main et à porter des seaux sur la tête sur de trop longues distances »^1(*).

L'existence et la participation du Sénégal sur le Web, nous voulons la découvrir à travers les relations qu'il entretient avec les autres sites du Web, et ceci en étudiant les liens hypertextes qui les unissent. Afin d'y arriver, nous allons faire appel à la wébométrie qui est une discipline héritant des techniques bibliométriques et scientométrique et qui se consacre à l'étude du contenu des pages Web, des liens hypertextes, de l'usage des sources d'information et des technologies Web.

Ainsi, après la première partie qui sera consacrée à l'état de la recherche sur l'Internet au Sénégal suivie d'une seconde partie axée sur l'exposé de notre problématique et la définition de nos objectifs de recherche, nous allons développer dans la troisième partie la revue de la littérature sur les méthodes bibliométriques et leur cheminement vers la wébométrie et la cybermétrie. Dans la dernière partie, nous aborderons l'analyse de l'espace Web du Sénégal c'est à dire sa structure interne, son interconnexion et son « extériorisation » vers le reste du Web.

Partie I : Etat de la recherche

En général, les études qui concernent Internet abordent les technologies de connexion ou les infrastructures, la structure du réseau à travers les liens, les contenus des sites et pages Web et les usages. En Afrique, compte tenu du fossé numérique abyssal qui sépare ce continent du reste du monde, une bonne partie des études qui lui sont consacrées quant à l'insertion d'Internet est surtout axée aux enjeux des NTIC pour le développement économique et social, aux questions d'accès et d'infrastructures de télécommunication, aux usages et aux politiques gouvernementales en matière de nouvelles technologies.

Mais qu'en en est-il du Sénégal ? Quelles sont les études qui ont été faites sur l'Internet dans ce pays ? Et plus précisément, en existe-t-il quelques-unes qui abordent l'analyse des liens hypertextes et le degré de connectivité des sites web sénégalais ?

Les travaux sur l'Internet au Sénégal sont relativement abondants par rapport aux autres pays de la sous région. Ceci est en grande partie dû à la « précocité » de son branchement aux réseaux « pré-Internet » en 1989 (le premier en Afrique de l'Ouest) grâce à l'IRD (Institut De Recherche pour le Développement, anciennement ORSTOM), de la déclaration de son nom de domaine (.sn) depuis 1992 et de sa connexion Web en 1996^2(*).

Ces études, dans leur grande majorité, s'inscrivent dans la même perspective que les thèmes énumérés plus haut concernant les pays africains.

Tout d'abord, Internet est abordé sous l'angle de ses possibles impacts dans le développement économique, d'une part, et d'autre part, de son adaptation dans les structures socio-économiques du Sénégal basées en grande partie sur l'informel (Chéneau-Loquay Annie, 2002, 2003 ; Lainé Audrey, 1999). Son insertion dans le pays est conditionnée et épouse en même temps les réalités socio-économiques et fait perdurer dans la plupart du temps les disparités géographiques entre les différentes régions du Sénégal (Guignard, Thomas, 2002) avec Dakar comme axe central.

Ensuite, les questions liées à l'accès reviennent souvent dans les études concernant le Sénégal, et l'Afrique de manière générale. Parmi ces questions, le développement des infrastructures reste le point le plus important à cause notamment du retard des pays africains dans leur globalité dans ce domaine, mais aussi du fait que ce point conditionne l'insertion et l'appropriation de l'outil Internet (Lainé Audrey, 1999, Loustau Guillaume, 2001). Eric Bernard (2003), a traité d'une manière profonde le déploiement des infrastructures Internet en Afrique de l'Ouest et a montré que le Sénégal est, parmi les pays de la sous région, le mieux, voire le plus équipé. Cet assez bon équipement, qu'il faut par ailleurs relativiser vu son retard par rapport aux normes mondiales, a permis au Sénégal d'assurer un bon maillage du territoire et de faciliter ainsi une assez bonne pénétration de l'outil Internet jusque dans les coins assez éloignés du pays (Chéneau-Loquay, Annie, 2002).

Par ailleurs, l'appropriation et le développement de l'Internet au Sénégal sont perçus aussi à travers la coopération internationale, plus particulièrement par le biais des Organisations Non Gouvernementales, ONG (Dulau Caroline, 2002). Cette « quasi spécificité » des pays en voie de développement, à cause de l'aide au développement, est fortement perceptible à Dakar qui abrite par ailleurs les sièges et les bureaux régionaux de plusieurs organismes internationaux. Ces ONG sont particulièrement actives dans l'accès à Internet aux couches de la population les plus défavorisées. Par ailleurs, elles ont été parmi les premières institutions (ex : Enda) à mettre en place leurs propres sites Web ce qui leur assure une certaine visibilité dans l'espace Web du Sénégal.

Enfin, l'espace Web du Sénégal, en tant que ensemble cohérent et évolutif, a fait l'objet de quelques études. Christophe Brun et Steven Huter (1999, 2000) chercheurs au Network Startup Resource Center (NSRC) à l'Université d'Oregon aux Etats-Unis ont essayé de dresser une topologie de l'Internet au Sénégal avec les fournisseurs d'accès et les quelques sites Web présents en cette période sur le net. La mise à jour en janvier 2000 a donné la carte suivante :

Figure 1 : Topologie de l'Internet au Sénégal (janvier 2000) (Christophe Brun, Steven Huter, NSRC)

J'ai essayé de les contacter pour avoir une carte plus récente. Ils m'ont fait savoir qu'il ne leur est plus possible d'assurer la mise à jour à cause de la prolifération des sites web sénégalais depuis cette période. Thomas Guignard (2002) quant à lui s'est penché sur le contenu des pages Web sénégalais à travers l'observation de quelques sites les plus visités comme les portails et les sites des institutions. Il a aussi tenté d'analyser les contenus des sites et les pratiques des internautes sénégalais à travers un questionnaire administré à 135 d'entre eux. Son objectif était de mesurer le degré d'extraversion du contenu des sites et des internautes sénégalais. Il a pu constater que les sites sénégalais les plus consultés présentent dans la plupart du temps des informations souvent relatives à l'Occident et que prés d'un quart des internautes questionnés avouent ne consulter aucun site sénégalais !! Après quelques limites soulevées, il est arrivé à la conclusion suivante : « Une analyse des sites sénégalais mériterait d'être réalisée : malheureusement nous n'avons pas pu entreprendre une telle étude car le corpus est trop important^3(*) ».

Comme nous venons de le voir, les études sur l'Internet au Sénégal, dans la majeure partie des cas, se sont bornées à aborder l'insertion, le développement et l'appropriation de cet outil à travers plusieurs démarches comme le développement des infrastructures de télécommunication, un accès plus élargi et plus abordable. Les enjeux et les impacts de l'Internet quant à son adaptation dans le contexte socio-économique du Sénégal, de même que le comportement des internautes sénégalais sont souvent aussi abordés. Le rôle des pouvoirs publics, des ONG et des organismes internationaux reviennent souvent dans les quelques études recensées.

A l'état actuel de notre recherche, il n'y a pas à notre connaissance (avec cependant toutes les réserves qui s'imposent) de travaux qui procéderaient à une analyse des liens hypertextes des sites Web du Sénégal et qui montreraient comment cet espace web est structuré et comment ces sites sont interconnectés entre eux et comment ils se sont liés avec le reste de la toile mondiale.

Partie II : Problématique et objectifs de recherche

I. Problématique

I.1. Enjeux des NTIC en Afrique

Si les pays africains ne parviennent pas davantage à tirer avantage de la révolution de l'information et à surfer sur la grande vague du changement technologique, ils seront submergés par elle. Dans ce cas, ils risquent d'être encore plus marginalisés et économiquement stagnants dans le futur qu'aujourd'hui". Ce passage tiré du rapport de la Banque Mondiale sur le développement d'Internet déjà en mars 1995 est sans appel. Autrement dit, il est une obligation pour l'Afrique de suivre l'évolution des NTIC, de se les approprier au risque de sombrer. Les avantages que peuvent apporter les NTIC aux pays africains sont certains. Nous n'allons pas les développer tous. On signalera juste un excellent ouvrage^4(*) développé dans le cadre du programme de recherche REGARDS (unité mixte CNRS/IRD). Ce travail mené sous la coordination de Annie Chéneau-Loquay a rassemblé des chercheurs du Nord et du Sud autour des thèmes sur l'appropriation et la maîtrise des nouvelles technologies de l'information et de communication en Afrique. Aussi bien sur le plan économique, politique, social que scientifique, l'introduction des NTIC peut aider l'Afrique à venir à bout à plusieurs de ses problèmes et de quitter ainsi cette place marginale qu'elle occupe aujourd'hui au plan international. Cependant, et c'est là la particularité des travaux contenus dans cet ouvrage, il ne s'agit pas d'adhésion inconditionnelle à l'idée du « mythe de la toute puissance de la technologie ». Il s'agit plus d'analyser les voies et moyens pour tirer profit de ces outils en les adaptant aux contextes socio-économiques particuliers du continent que de considérer les NTIC comme la solution miracle qui doit permettre le développement de l'Afrique.

Notre approche de l'Internet et de son environnement global dans notre étude est aussi à recadrer dans cette perspective. Son utilité pour l'Afrique n'est plus à nier, même si les problèmes de base, approvisionnement en eau, énergie, alimentation ne sont pas résolus^5(*). Ces problèmes de subsistance ne doivent pas empêcher une appropriation de cet outil d'information et de communication et de profiter de ses apports en terme de mise à disposition de gisements importants d'informations qui étaient jadis inaccessibles aux pays africains. « Les 4.000 accès du Sénégal, les 2.500 du Cameroun sont autant de fenêtres ouvertes sur les plus grandes bibliothèques scientifiques et techniques du monde, autant de points d'accès à la presse internationale, aux rapports sur les droits de l'homme, autant de vecteurs accélérant la circulation des idées»^6(*). Par ailleurs, avec Internet, l'Afrique pourrait aussi se sentir sans doute moins isolée. La visibilité mondiale qu'offre Internet peut désenclaver, culturellement et géographiquement, une bonne partie du continent. Et enfin, un autre point qui doit être une conséquence du précédent, il ne s'agira plus de se réduire au simple spectateur ou consommateur : ce qui ne fera qu'aggraver le phénomène d'extraversion constaté par Thomas Guignard^7(*). Cette visibilité doit inciter à marquer notre présence dans le monde par la production de contenus de qualité aptes à faire apprécier nos ressources et nos potentialités par l'extérieur^8(*).

I.2. Vers une approche géographique de l'Internet

La réduction des distances, le démantèlement des frontières, la relative abolition de la notion de territoire (...), voilà quelques conséquences que l'on attribue souvent à la propagation planétaire d'Internet. Cependant, la géographie, avec tout ce que cela implique comme représentation spatiale, de correspondance, de circuits d'échange des biens et services, d'interactivité entre les hommes, n'en est pas pour autant affectée, du moins dans sa signification. Seulement c'est une nouvelle géographie qui se dessine, représentée cette fois-ci par les couches physiques, les infrastructures d'accès, le trafic et les flux des données, les liens hypertextes qui interconnectent telle et telle zone... Reste à savoir quelle signification et quel sens donner à cette nouvelle géographie et ses nouveaux moyens de communication et d'échange ?

L'émergence d'une discipline qui s'intéresse à la compréhension de l'Internet comme espace à la fois virtuel et cognitif nous aidera à y voir un peu plus clair.

I.2.1 L'émergence de la notion de cybergéographie

La cybergéographie est une nouvelle inter-discipline (à l'intersection de l'informatique, la sociologie, les sciences de l'information, la cartographie, l'urbanisme...) qui regroupe divers efforts pour étudier et représenter l'Internet et ses espaces sociaux et informationnels (Horn David, 2003)^9(*). Martin Dodge, un des pionniers de cette discipline et fondateur de Cyber-Geography Research et du site cybergeography.org depuis 1997 avec ses Atlas du Cyberspaces, la définit comme : « the geographical analysis of Internet infrastructure and usage and the spatialization and mapping of online spaces^10(*)».

Basée principalement sur les techniques de cartographie et de visualisation, cette discipline s'est d'abord intéressée à l'espace physique d'Internet c'est à dire la matérialité brute du réseau comme les câbles sous-marins et les satellites. L'approche cartographique de cette partie physique du Net permet de cerner de manière pertinente le déploiement des infrastructures de télécommunications dans toutes leurs disparités et leurs discontinuités à travers le monde ; ce qui permet aussi en même temps d'évaluer la fracture numérique avec le Nord bien desservi et bien quadrillé par les câbles et les satellites, et le Sud qui présente une situation à la fois marginale et contrastée.

En plus de l'étude des flux et du « routage » des paquets de données, l'autre centre d'intérêt de la cybergéographie est d'aborder le Web en tant que espace informationnel et hypertextuel. Ceci consiste à s'appuyer sur le principe d'auto-organisation du Web pour analyser les interactions et les interconnexions et de déceler les espaces cognitifs. D'aucuns, comme David Horn^11(*), parleront de l'émergence d'une géographie « hypertextuelle ». Selon lui, il s'agit, d'une part, de l'analyse des principes et des caractéristiques topologiques de l'interconnexion sur le Web, et d'autre part d'une tentative de «cartographier » l'information ou d'en faciliter la cognition en mobilisant des métaphores spatiales. On retrouve dans ces tentatives de cerner l'environnement spatial du Web les mêmes principes qu'en wébométrie (voir page 58) comme la structure des liens, la théorie des graphes, l'analyse du diamètre du Web (Albert et al., 1999 ; Broder et al., 2000 ), la connectivité du Web...

I.2.2 Le Web : entre virtualité et réalité ?

Notre approche pour cette question n'est pas de la réduire en une logique dialectique, de démontrer que le Web est soit l'un, soit l'autre. Car, vu que le caractère virtuel du Web ne fait aucun doute, nous voulons essayer de voir dans quelle mesure cette virtualité peut-elle revêtir, dans son élaboration, dans son fonctionnement ou dans ses impacts, une certaine idée de la réalité. Il s'agira d'aller chercher, au-delà des technologies de connexion, du transport des paquets de données et des liaisons hypertextuelles (à première vue instantanées et sans réels motifs), les raisons de leur élaboration et de leur donner ainsi une intelligibilité cognitive en rapport avec des considérations politiques, économiques, sociales, culturelles...

Concernant Internet dans son ensemble, (...) en dépit de la promesse d'une ubiquité dans la connectivité, l'Internet est un réseau sélectif qui reflète la géographie physique et le développement économique^12(*). Plus précisément, il apparaît clairement que le déploiement des infrastructures d'accès comme les câbles, les satellites, (bref tout ce qui compose la couche physique du réseau) est le fait d'une réelle volonté politique et obéit à des considérations économiques et financières. On est loin de la virtualité comme le soulignent Barthelemy Marc, Gondran Bernard, Guichard Eric (2003) : « The Internet infrastructure is not virtual : its distribution is dictated by social, geographical, economical, or political constraints ^13(*)». Pour illustration, les cartographies faites sur ces infrastructures au niveau planétaire donnent une vision assez nette de la fracture numérique avec les pays développés constituant le noeud de ces dispositifs et les pays du tiers monde (avec des contrastes) bénéficiant seulement de quelques ramifications. D'où les propos de Matthew Zook : « L'Internet n'est pas en train de détruire la géographie mais connecte de manière sélective certaines personnes et certains lieux au sein de réseaux hautement interactifs, et dans le même temps en contourne largement d'autres^14(*)».

S'agissant de l'univers du Web et de la virtualité proprement parlée, cette interaction (directe ou indirecte) avec la réalité est beaucoup moins évidente. Donner une quelconque intelligibilité et une signification pratique (qui s'appuieraient sur la réalité) au déploiement des sites Web, de leur interconnexion et de l'organisation hypertextuelle de la toile est un peu difficile pour la raison suivante : les raisons et motivations qui peuvent être à l'origine de la création d'un lien hypertexte sont de plusieurs sortes (voir page 54). En terme d'analogie entre bibliométrie et wébométrie, si les citations permettrent, dans une certaine mesure, une représentation assez nette des relations entre centres d'intérêt, chercheurs, institutions et pays grâce notamment aux modes de fonctionnent des revues et aux règles de complication des banques de données comme Thomson ISI, on ne peut pas en dire autant pour les « sitations » quant à l'organisation et la compréhension du Web. Cependant, certaines études ont essayé de dépasser ces limites des liens hypertextes et de jeter un pont entre la virtualité et la réalité. Mike Thelwall^15(*) a essayé de voir si la distance géographique entre les universités britanniques influerait sur le degré d'interconnexion de leurs sites Web. Son étude qui concernait 109 universités est arrivée au constat suivant : plus leur distance géographique est petite, plus elles ont tendance à se « siter » : (...) universities are still most likely to be linked to their neighbours. Cependant, il a évité d'en faire une généralité à cause notamment du problème des motivations des « sitations » et de la relative spécificité des sites universitaires.

Par ailleurs, les gTLDs (comme .com, .org, .edu) et les ccTLDs (ex. .sn pour le Sénégal et .fr pour la France) vont permettre à ceux qui s'intéressent à la représentation spatiale du Web davantage de précision et de « fidélité » par rapport à la géographie physique. Les cartes de Martin Dodge^16(*) montrent les différentes possibilités qu'ils offrent. La cartographie de la ville de New York par le biais de la répartition des domaines (.com.) réalisée par Matthew Zook^17(*) en est aussi un exemple. Sa carte laisse apparaître une concentration trop importante de ces noms de domaines autour de l'île de Manhattan et Wall Street, ce qui « peut » révéler la présence d'une activité économique, financière ou commerciale assez dynamique.

I.2.3 Fracture numérique, « opportunité numérique »

Cette partie représente un point important à travers lequel notre étude trouve toute son essence. La fracture numérique, problématique majeure dans l'étude du déploiement et de l'utilisation des nouvelles technologies de l'information et de la communication, est aujourd'hui tellement débattue qu'elle en est presque réduite en un terme passe-partout. Aussi bien au niveau de sa définition opérationnelle, de son évaluation que des objets qu'elle tente de décrire, elle est souvent sujet à confusion. Et plus que tout autre domaine, cette nouvelle réalité de la société de l'information suit et se calque sur la géographie physique avec une nette opposition entre le Nord très en avance et le sud (particulièrement l'Afrique) très en marge de cette évolution même si des fois, il existe des configurations où des Suds sont au Nord et des Nords au Sud (Annie Chéneau-Loquay, 2000).

« Que ce soit au niveau des individus, des organisations, des pays, des blocs géopolitiques, des zones géographiques, des communautés, des groupes sociaux, des métiers..., les définitions relatives à la fracture numérique renvoient à l'idée de division en deux groupes : ceux qui bénéficient de l'économie numérique (haves) et de l'autre, ceux qui sont exclus de l'économie numérique et de ses préposés (have not) »^18(*). Donc, cette fracture désigne toujours une inégalité, une disparité dans les possibilités d'accès et les usages effectifs faits des TIC ; et ceci, quelle que soit la zone géographique, même si la disparité Nord-Sud est la plus souvent abordée notamment sous l'angle du déploiement des infrastructures d'accès.

Afin de mesurer ces disparités quant à l'accès et à l'utilisation des NTIC, des indicateurs ont été mis en place notamment par les organismes internationaux comme l'Union Internationale des Télécommunications (UIT). A part la télédensité qui décompte le nombre de lignes principales de téléphone fixe par 1000 habitants, il y a les indices dits synthétiques, plus « complets » comme l'indice d'accès numérique de l'UIT en 2003 qui mesure la capacité globale des individus d'un territoire donné à accéder et à utiliser les TIC. Cet indicateur prend en considération 5 paramètres : les infrastructures, l'accessibilité économique, l'Education, la qualité (de la bande) et l'utilisation. Il avait pour but de classer les pays en quatre catégories (excellent, bon, moyen, faible) et d'aider ainsi les pouvoirs publics dans leur politique en matière de NTIC. Cependant, la pertinence de ces différents indicateurs quant à leur capacité à quantifier et à mesurer la fracture numérique notamment dans les pays du Sud est très discutable (Annie Chéneau-Loquay, 1999 ; Richard Heeks, 2001). Ils se basent dans la plupart du temps sur des modèles et critères occidentaux comme par exemple « l'individualisme ou la personnalisation » du compte E-mail, de la ligne téléphonique, de l'ordinateur... alors que dans les pays sous-développés comme ceux d'Afrique, l'accès et les usages sont communautaires et collectifs (Pascal Renaud, 2001 ; Annie Chéneau-Loquay, 2003). « Le critère international pour comptabiliser l'équipement téléphonique par rapport à la population, la télédensité, n'est pas un très bon indicateur en Afrique pour exprimer le service rendu... » (Annie Chéneau-Loquay, 1999) et concernant Internet, Mike Jensen (2002) constate que, à cause du grand nombre de comptes partagés et l'utilisation intense des services d'accès publics, il est difficile de mesurer le nombre total des utilisateurs Internet. Pour toutes ces raisons, et sans nier le retard des pays du tiers monde, Richard Heeks (2001) ira jusqu'à affirmer que la fracture numérique est surestimée^19(*). Il donne un exemple sur des recherches en Trinidad et Tobago où les statistiques officielles affirment qu'un foyer sur vingt est connecté au réseau alors que des études de terrains montrent qu'un foyer sur trois a accès à un messagerie électronique.

L'objectif de tous ces indicateurs est à la fois de mesurer et de tenter de réduire ce fossé numérique qui sépare notamment l'Afrique du reste du monde. Ces quelques lignes suffisent à avoir une idée sur l'état des pays africains : « Selon les statistiques de l'Union Internationale des Télécommunications (UIT), avec 20 % de la population mondiale, l'Afrique ne compte que 2 % du réseau planétaire avec une densité globale très faible; moins de deux lignes pour 1.000 habitants en moyenne (contre 48 en Asie, 280 en Amérique, 314 en Europe - Est et Ouest - et 520 pour les pays à hauts revenus). Il est classique de dire qu'il y a autant de téléphones à Tokyo ou à Manhattan que dans toute l'Afrique sub-saharienne^20(*) ». Les initiatives pour la réduction de cette fracture font apparaître deux courants (Rallet Alain, Rochelandet Fabrice, 2004) : l'intervention des pouvoirs publics et les lois du marché. En Afrique, les pays du Nord et les bailleurs de fonds ont plutôt tendance à inciter à la libéralisation et à l'ouverture du marché des télécommunications. « Face à l'énorme progression d'Internet, le risque de marginalisation des pays les moins avancés est réel. Or les pays les plus riches, plutôt que de coopérer pour installer des infrastructures, se bornent à encourager les pays en développement à s'ouvrir au marché mondial des télécommunications et à promouvoir l'initiative privée. (...) Si le démarrage de l'Internet s'est appuyé, au Nord sur une intervention massive de l'Etat, est-il sérieux de proposer aux pays les plus pauvres de faire appel au marché ?^21(*)» Résultat, la majorité des opérateurs africains se retrouve privatiser dans des conditions des fois pas vraiment les meilleures. Par ailleurs, le cas du Sénégal est un exemple pour montrer à quel point l'idée propagée en particulier par la Banque Mondiale selon laquelle le développement d'Internet ne doit rien à l'Etat est fausse et idéologique^22(*). Depuis la mise en place des réseaux « pré-Internet » en 1989 jusqu'à sa mise en 1996, l'Etat sénégalais a été très présent par le biais de l'opérateur historique, La SONATEL, même si l'ouverture de son capital plus tard aux privés (France Telecom) a accéléré la diffusion des TIC au Sénégal (voir page 24).

Mais quel que soit le niveau de retard des pays africains, y a-t-il un moyen de surmonter cette fracture numérique, de participer, sans tomber dans un effet de « mimétisme », à cette société de l'information ?

L'image paradoxale d'un village branché à Internet, avec une parabole et où les femmes continuent à piler le riz à la main et à porter des seaux sur la tête sur de trop longues distances (Annie Chéneau-Loquay, 2002), n'est pas un « fait venu d'ailleurs » dans notre étude. Favoriser de vraies pratiques d'usage adaptées aux contextes socio-économiques et culturels locaux et transformer la fracture numérique en « opportunité numérique » comme souligné par le Sénégal lors du Sommet Mondial sur la Société de l'Information de Genève 2003, sont des perspectives dans lesquelles nous recadrons notre étude. Car, loin de guetter une disparition « miraculeuse » du fossé numérique du jour au lendemain et d'espérer « naïvement » des NTIC un remède à tous les problèmes de l'Afrique, et aussi dans un autre sens, de céder à un retard technologique fataliste qui peut pousser à rester au marge de la révolution numérique, le Sénégal (l'Afrique) doit rester visible, s'exprimer sur le Web et saisir les opportunités éventuelles.

I.3. L'Internet au Sénégal : état des lieux

I.3.1 Historique

- 1989 : période « pré-internet ». L'institut de recherche français, l'ORSTOM, qui sera renommé plus tard IRD, met en place à Dakar le RIO (Réseau Informatique de l'ORSTOM, qui changera en 1992 en Réseau Intertropical d'Ordinateurs), avant de l'élargir après dans la sous région. L'objectif était d'améliorer la communication entre le siège parisien et l'ensemble de ses centres outre-mer mais aussi et surtout relier les chercheurs de l'Institut à la communauté scientifique internationale. L'échange des messages avec l'Internet global se fait via une passerelle située à Montpellier.^23(*) C'était un système de messagerie de type strore&forward et utilisait le protocole UUCP (Unix to Unix Copy). Notons aussi le réseau Fidonet, un autre réseau de messagerie électronique, dont le Sénégal est relié grâce à l'ONG Enda en 1992.

- 1992 : déclaration du ccTLD du Sénégal : (.sn). Le Sénégal fait son premier pas véritable vers le réseau global Internet. Les adresses électroniques se terminant par .fr, .ca ou .org vont pouvoir être remplacées par des adresses électroniques sénégalaises, c'est à dire utilisant le ccTLD « .sn ». Ceci a été rendu possible grâce à la coopération entre l'IRD et l'Ecole Supérieure Polytechnique de Dakar. Plus tard, l'Université Cheikh Anta Diop sera chargée de gérer entièrement ce nom de domaine. Selon Eric Bernard, la déclaration de ce nom de domaine, au-delà de son importance pour l'usager, peut revêtir la forme d'un véritable acte politique.

- Mars 1996 : le Sénégal est en ligne. Même si le premier serveur WWW d'Afrique de l'Ouest, REFER, ait été mis en ligne déjà depuis en 1995 à Dakar, grâce à l'Agence Universitaire de la Francophonie, le Sénégal n'entre vraiment dans Internet qu'en mars 96 lorsque la SONATEL, l'opérateur national de télécommunication, met en place un lien Intelsat à 64 Kbps négocié avec l'opérateur MCI Worldcom et reliant le Sénégal aux USA. Le premier fournisseur d'accès grand public, Telecom-Plus, apparait. Son premier client : la Présidence de la République^24(*). Les anciens réseaux pré-Internet, se fondent dans un seul ensemble, l'Internet sénégalais.

I.3.2 Les infrastructures d'accès

Sur le plan des infrastructures de télécommunication, le Sénégal dispose d'un parc assez fourni et se place en position de pionnier dans la sous région et même au niveau continental.

D'abord, concernant l'accès au téléphone, le Sénégal est de très loin le pays africain qui compte le plus grand nombre de lignes publiques : 6,17 % du total des lignes contre 2,60 en Afrique du Sud, 2,90 au Swaziland^25(*). Ceci a été rendu possible grâce à une initiative originale dès 1992 : les télécentres privés. Ce sont des concessions accordées par la SONATEL (l'opérateur national de télécommunications, qui détenait le monopole sur le téléphone fixe et l'accès à l'international, monopole qui prendra fin en 2006), à des personnes privées. Ces télécentres, qu'on voit pulluler à chaque coin de rue, dans les villes comme dans les coins les plus reculés du Sénégal, sont devenus maintenant une vraie institution. Ils ont dépassé le cadre d'une simple cabine téléphonique. Ils sont des lieux de rencontre et de convivialité proposant en même temps des services de secrétariat et de dactylographie et des fois une connexion Internet, surtout à Dakar. Et selon Annie Chéneau-Loquay^26(*), cette initiative a fait que 70 % des sénégalais sont désormais accessibles par téléphone. Il faut aussi noter que le réseau téléphonique couvrant l'ensemble du territoire du Sénégal est entièrement numérique et compte plus de 2.200 km de fibre optique^27(*). Par ailleurs, la téléphonie mobile connaît une forte progression avec deux licences : Alizé, filiale à 100% de SONATEL, créée en 1996, leader du marché comptabilisait en 2001, 400.000 abonnés et 700.000 aujourd'hui ; Sentel, l'autre opérateur en compte prés de 350.000. Un appel d'offre pour un troisième opérateur global (évoluant aussi bien sur le fixe, le mobile que sur Internet) sera lancé dans les deux mois qui viennent^28(*).

Ensuite, pour ce qui est de la connexion Internet, le Sénégal fait partie des onze pays d'Afrique où l'opérateur de télécommunications joue le jeu d'un accès universel en créant un code spécial qui permet de se connecter à Internet au coût de la communication locale dans le pays tout entier^29(*). Avec une connexion de 64Kbps dès sa mise en ligne en 1996, le Sénégal disposait en décembre 2000 d'une bande passante à l'international de 42Mbps. Cela représente le plus gros débit à l'international d'Afrique de l'Ouest. A titre de comparaison, l'ensemble des bandes passantes des 15 autres pays de la CEDEAO (Communauté Economique des Etats de l'Afrique de l'Ouest) représente seulement un quart de ce débit^30(*). D'aucuns, comme Eric Bernard^31(*), penseront que la bande passante réelle consacrée à Internet n'était à cette période que 6 Mbps, ce qui était encore la meilleure capacité de la sous région. Le reste « serait » utilisé par la SONATEL pour faire passer ses appels téléphoniques. France Télécom, son partenaire stratégique depuis 1997 qui détient 42,33% du capital du Groupe SONATEL en est pour beaucoup pour cette augmentation de la bande passante notamment par son raccordement aux câbles sous-marins Atlantis 2 et SAT3/WASC/SAFE. Le câble Atlantis II relie depuis 1999 le Sénégal et le Cap Vert à l'Amérique du Sud et à l'Europe. Cette liaison de 12.000 km dessert l'Argentine, le Brésil, le Sénégal, le Cap Vert, les îles Canaries, l'Espagne et le Portugal et se connecte ensuite sur les câbles Unisur (Brésil, Argentine, Uruguay) et Columbus-2 (Italie, Espagne, Portugal, Mexique, États-Unis) déjà existants^32(*). Le câble SAT3/WASC/SAFE (South Africa Telecommunications/West African Submarine Cable/ South Africa, Far East cable) « est le seul câble au monde à relier Nord, Sud, Est et Ouest^33(*) » Brian Cheesman, chargé des réseaux internationaux de Telkom, l'opérateur sud-africain. Ce câble, inauguré à Dakar le 27 mai 2003 par le Président Wade, est composé de deux portions : la partie africaine (SAT3/WASC) part du Portugal à Cap Town, reliant sur 14.279 km le Sénégal, la Côte d'Ivoire, le Ghana, le Bénin, le Nigeria, le Cameroun, le Gabon, l'Angola et l'Afrique du Sud. La seconde partie (SAFE), d'une longueur de 12.169 km relie l'Afrique du Sud à la Malaisie en passant par l'Inde, l'Île Maurice et la Réunion. Longtemps ignorés dans ces genres d'ouvrage, ce projet aura pour effet d'accroître de manière conséquente la connectivité internationale des pays africains et de jeter ainsi un grand pas quant à leur entrée dans les autoroutes de l'information.

Figure 2 : Câbles sous-marins desservant l'Afrique de l'Ouest (Eric Bernard, 2002)

Ainsi, le Sénégal devrait pouvoir augmenter sa bande passante internationale avec le câble SAT3 de 42Mbps à 100Mbps^34(*). En fin 2003, elle a été de 310Mbps (155 Mbps mis en service le 14 juillet 2003 vers l'Europe sur Atlantis 2 et 155 Mbps le 30 septembre 2003 vers les USA sur SAT3/WASC/SAFE)^35(*) avant d'atteindre ½ Giga en octobre 2004^36(*). Voici l'évolution de la bande passante du Sénégal depuis sa connexion sur Internet en mars 1996.

Figure 3 : Evolution de la bande passante internationale du Sénégal (1996-2004)

Cette augmentation des capacités de la SONATEL fera davantage de Dakar un « hub » sous régional, une plaque tournante en matière d'infrastructures de télécommunication et d'accès à Internet. Et toujours en matière d'accès Internet, la SONATEL, afin d'élargir son offre et de mieux répondre aux demandes des entreprises, des hommes d'affaires et des cybercafés (en plein essor) en matière de vitesse de navigation et de transfert des données, a lancé depuis le 03 mars 2003 la technologie ADSL devenant ainsi le quatrième pays du continent africain après l'Afrique du Sud, le Nigéria et la Tunisie à déployer cette technologie^37(*). La couverture reste néanmoins limitée à certaines zones comme la région de Dakar où la demande est assez importante. « Avec l'ADSL, certains services de l'Internet tels que la vidéo en ligne, les catalogues virtuels en 3D, la télévision, la visioconférence via Internet, le télétravail, etc. jusque-là peu accessibles aux sénégalais, seront désormais à leur portée ». Et dans cette même lancée, la télévision numérique et la vidéo via la ligne téléphonique ont été testées en décembre 2004 grâce à l'appui de France Telecom et de Canal Horizons (filiale de Canal +). Six (06) chaînes sont proposées et des négociations sont en cours avec la RTS (Radiodiffusion Télévision Sénégalaise) pour inclure une chaîne nationale^38(*).

Enfin, même si toutes ces initiatives technologiques reflètent un équipement assez développé en infrastructures d'accès, la présence et la disponibilité d'un capital humain assez compétent en sont aussi pour beaucoup. Le Sénégal se place parmi les premiers pays du Tiers monde pour le nombre d'ingénieurs et de techniciens supérieurs par rapport à sa population (...). Le pays compterait 342 ingénieurs en informatique et 467 techniciens supérieurs par million d'habitants^39(*).

Comme remarque, nous constatons que la capacité du Sénégal en bande passante internationale dépasse largement les besoins du pays. Cette débauche de réseaux à haut débit tournés vers l'international attire les gros clients, tel PCCI (Premium Concept Center International) qui a investi 4,5 milliards de francs CFA pour délocaliser à Dakar son centre d'appels téléphoniques, à destination de clients... européens^40(*). Plusieurs autres entreprises ont investit ce secteur ; Dakar en compterait une dizaine et voudrait bien se positionner sur ce marché comme la Tunisie, le Maroc...

I.3.3 Les politiques et modalités d'accès

La question des infrastructures étant relativement réglée grâce aux efforts déployés par la SONATEL et les pouvoirs publics, reste maintenant à banaliser l'utilisation d'Internet en le rendant accessible aussi bien du point de vue de son coût que de son déploiement à toutes les couches de la population et dans toutes les régions.

En 2002, le Sénégal comptait 13 fournisseurs^41(*) contre 09 en 2000^42(*). Une panoplie d'offres de connexion, allant de la classique connexion commutée à l'ADSL, est aujourd'hui proposée par ces différents fournisseurs. Sonatel Multimedia, filiale Internet de l'opérateur historique, qui a lancé depuis le 15 juillet 2004 aussi des offres de connexion WIFI, représente plus de 80% de part de marché au moment où le nombre d'abonnés était estimé à 15.000 en août 2001^43(*). Autant dire que, pour les autres fournisseurs, la lutte pour la survie est rude. Il faut dire que, malgré les capacités en bande passante et les offres multiples et variées, la demande a du mal à suivre. Annie Chéneau-Loquay (2003) note un certain essoufflement de l'intérêt pour Internet à Dakar notamment. Les coûts d'accès et d'équipement en sont pour beaucoup dans ce ralentissement de la pénétration de l'Internet au Sénégal. D'une part, même si le prix de la connexion a considérablement diminué (une heure de connexion tourne aujourd'hui autour de 350 Fcfa (environ 0,5 euros) à Dakar contre 1.000 Fcfa il y a trois ans), il reste prohibitif pour bon nombre de sénégalais. D'autre part, selon Samba Sène, Directeur Général de Sonatel Multimédia " Le principal frein au développement de l'Internet tient au prix élevé des ordinateurs. À l'exception des entreprises et d'une population de cadres, la majorité des Sénégalais n'a pas les moyens d'investir 600.000 francs CFA dans une machine neuve "^44(*). Les coûts élevés incitent donc à créer des accès publics ; chose qui sera facilitée par l'existence et la bonne pénétration des télécentres dans le territoire. Comme vu plus haut, la plupart de ces télécentres offre désormais la connexion Internet à des coûts abordables. Aujourd'hui, le nombre de cybercentres est estimé à 900 dans tout le pays^45(*). Si l'accès et l'usage individuel dominent dans les pays développés, en Afrique, l'appropriation et l'accès aux outils de communication sont essentiellement collectifs étant donné le faible niveau de vie moyen des populations comparé au coût du matériel et de la communication elle-même (Chéneau-Loquay, Annie, 2003). Et pour Pascal Renaud^46(*) « L'accès collectif est sûrement la solution la mieux adaptée lorsqu'il s'agit de répartir des moyens limités. Et Internet s'y prête : les PC regroupés en grappe dans des cybercentres partagent les frais de connexité ».

Dan cette même perspective, beaucoup d'initiatives vont être développées pour permettre l'appropriation de l'Internet par les populations les plus défavorisées et les plus enclavées. Les Centres Multimédias Communautaires (CMC), développés par les pouvoirs publics avec l'appui de l'UNESCO en sont un exemple. Ce projet part du constat sur la disparité entre centres urbains et campagnes en matière d'accès aux nouvelles technologies de l'information. Car, il existerait une vraie fracture numérique entre régions. Par exemple, sur les 184 cybercentres recensés par Thomas Guignard^47(*) en 2001 dans son étude, 111 se trouvent dans la région de Dakar, concentrant ainsi 60 % des cybercentres sur 0,3% du territoire avec 25 % de la population totale du Sénégal. D'où le constat suivant : Internet est d'abord l'apanage des centres villes et de leurs élites mieux reliées aux centres mondiaux qu'à leur propre hinterland...^48(*) Ce projet va donc donner la priorité aux zones rurales et périurbaines. L'objectif des CMC est ainsi de favoriser l'appropriation des NTIC aux citoyens les plus défavorisés et de faire progresser le niveau de connaissance des populations sur les problèmes de leur terroir, de leur pays et de l'étranger^49(*). Une autre initiative et non des moindres est la signature, le 25 octobre 2004 à Dakar, d'un protocole d'accord entre le ministre de l'Education, Moustapha Sourang, et le PDG de Microsoft Europe, Moyen-Orient et Afrique, Jean-Philippe Courtois, portant sur l'accès à Internet de trois millions d'élèves et étudiants sénégalais^50(*). Selon les propres termes du Ministre : "Grâce à cet accord, trois millions d'élèves et étudiants vont bénéficier de l'accès à une machine et à Internet et 60% des bacheliers pourront exercer un métier lié à l'informatique", à travers notamment l'acquisition de 10.000 ordinateurs et le formation de plus de 2.000 professeurs. Et enfin, la célébration de la fête de l'Internet est aussi l'occasion pour les organismes impliqués dans le développement des NTIC d'élargir l'« @lphabétisation » des populations. Pour l'édition 2005, qui se déroulait du 20 au 27 mars 2005, le Forum des Cybercentres du Sénégal (FOCYS), a organisé des journées portes ouvertes en offrant gratuitement 30 minutes de connexion à tout le monde^51(*). Ceci dans le but de permettre aux internautes, surtout aux néophytes, de découvrir les services comme la messagerie électronique, les forums de discussion et l'initiation à la recherche. "L'étape la plus difficile, c'est la première entrée dans un cyber-café. Après, c'est une drogue..." dira tout simplement Amadou Moctar Sow président de FOCYS.

I.3.4 Evolution des sites Web sénégalais

Vu la rareté des études effectuées sur ces sites Web, très peu d'informations sont aujourd'hui disponibles à leur sujet. L'étude que nous sommes en train de mener, nous l'espérons, approfondira davantage la connaissance de cet espace Web et permettra de mieux le comprendre aussi bien du point de vue de sa structure que de son degré d'ancrage dans le réseau mondial.

Le nombre des noms de domaines (.sn) enregistrés, comme partout ailleurs dans le monde, a connu une évolution rapide. D'après les statistiques de la Commission Université Réseaux d'Informations (CURI), organisme rattaché à l'Université Cheikh Anta Diop de Dakar et chargé de l'enregistrement et de la gestion des noms de domaines (.sn), les sites sénégalais déclarés sont passés de 62 en 1998 à 914 en 2002.

Figure 4 : Evolution des noms de domaines .sn déclarés 1998-2002 (Source CURI)

Mais selon Thomas Guignard^52(*), il existerait une grande différence entre les sites déclarés et ceux étant effectivement en ligne. Par exemple, en 2001, alors qu'on dénombrait 672 sites déclarés, ils n'étaient que 160 à être en ligne. Les prix assez prohibitifs de la création d'un site Web expliquent peut-être ce problème.

II. Objectifs de recherche

II.1. Objectifs généraux

L'objectif principal de cette étude est de mesurer le degré d'interconnexion des sites Web du Sénégal, les noms de domaines (.sn) plus précisément, avec les autres sites de la toile mondiale et de déterminer ainsi leur visibilité dans ce réseau global. Ce travail commencera par la constitution d'un corpus regroupant l'ensemble des noms de domaines (.sn) en ligne. Et à travers les méthodes wébométriques comme l'analyse des liens, nous comptons arriver à déceler les liens externes à l'espace Web du Sénégal, c'est à dire les liens partant de cet ensemble vers des sites « non sénégalais ». Ce qui nous permettra d'analyser comment le Sénégal « s'externalise » sur le Web et à quel degré.

Afin de bien l'atteindre, cet objectif principal est assorti d'objectifs secondaires ou spécifiques qui nous permettront de bien le préciser dans son élaboration et sa réalisation.

II.2. Objectifs spécifiques

§ Mesurer la taille de l'espace Web du Sénégal : ce sera le point de départ de cette étude. Comme nous l'avons vu plus haut, les noms de domaines (.sn) déclarés et enregistrés auprès de la CURI NIC Sénégal diffère largement de celui des sites effectivement en ligne.

§ Structurer cet espace Web : nous comptons aussi catégoriser les sites sénégalais en domaine d'activité, en type d'autorité et en type de site pour ensuite étudier leur interconnexion.

§ Lister les liens internes et externes : pour précision, ce sera les liens internes à l'ensemble Web du Sénégal, les liens qui sortent de cet ensemble vers d'autres sites de la toile mondiale.

§ Identifier et stratifier les zones géographiques vers lesquelles pointent les sites sénégalais grâce à l'identification des ccTLDs.

Partie III : Revue de la littérature

I. Méthodes quantitatives en sciences de l'information

I.1. Définitions

"Pourquoi ne pas appliquer à la science ses propres instruments ? Pourquoi ne pas mesurer, généraliser, faire des hypothèses, tirer des conclusions" se demandait Derek John de Solla Price dans son célèbre livre Little Science, Big Science (1963).

Cette citation nous permet d'entrer dans la partie préliminaire de notre étude et qui est consacrée aux méthodes quantitatives : scientométrie, bibliométrie et infométrie. Les travaux de De Solla Price ont été particulièrement déterminants notamment en scientométrie : "The key figure in this new quantitatives studies was Price, whose writings, especially Little Science, Big Science had a major impact on thinking about the growth and evolution of scientific journals^53(*). Ces outils permettent en somme : d'évaluer le travail d'un chercheur, de mesurer l'évolution d'un domaine de recherche, d'évaluer l'impact d'un article et le prestige et la qualité d'une revue...

Dans cette partie, nous tenterons de rapporter les différentes définitions qui ont été données à ces méthodes, leurs spécificités et les contextes qui ont prévalu à leur développement.

I.1.1 Bibliométrie

La bibliométrie est définie en 1969 par Pritchard comme l'ensemble des méthodes et techniques quantitatives - de type mathématique/statistique - susceptibles d'aider à la gestion des bibliothèques et d'une manière très générale des divers organismes ayant à traiter de l'information.^54(*)

I.1.2 Scientométrie :

Pour Xavier Polanco (1995), on peut considérer la scientométrie comme la bibliométrie spécialisée au domaine de l'IST (l'information scientifique et technique). Toutefois, la scientométrie désigne d'une manière générale l'application de méthodes statistiques à des données quantitatives (économiques, humaines, bibliographiques) caractéristiques de l'état de la science.

Une petite comparaison entre ces deux termes permet de détecter que, bien qu'ils se basent tous sur les mêmes techniques et méthodes (voir page 35) à quelques différences prés, ils ont des objets d'étude différents et visent de ce fait des objectifs différents. Ces propos de Brookes résument tout : « Alors que la bibliométrie aurait pour objet d'étudier les livres et les revues et pour objectif de comprendre les activités de la communication de l'information, la scientométrie aurait pour objet l'étude des aspects quantitatifs de la création, la diffusion et l'utilisation de l'information scientifique et technique et pour objectif la compréhension des mécanismes de la recherche comme activité sociale »^55(*).

Scientométrie ---------> science de la science ------------> étude sociologique

I.1.3 Infométrie

Plus récent, ce terme a été adopté en 1987 par la F.I.D. (Fédération Internationale de Documentation). Tague-Sutcliffe (1992) le définit comme : «the study of the quantitative aspects of information in any form, not just records or bibliographies, and in any social group, not just scientists». L'infométrie devient l'ensemble des activités métriques relatives à l'information, couvrant ainsi aussi bien la bibliométrie que la scientométrie^56(*). On retrouve cette même conception chez Le Coadic^57(*), pour qui, l'infométrie regroupe, en plus de la bibliométrie et de la scientométrie, la médiamétrie, la muséométrie et la wébométrie. Ceci dit, l'amalgame pour désigner ces trois termes est fréquent (Lafouge, Boukacem, 2004).

Polanco (1995) résume assez bien ces trois concepts : "Les études quantitatives de la science et de la technologie représentent le champ de recherche où l'on utilise les méthodes et les techniques mathématiques, statistiques et de l'analyse des données en vue de rassembler, manipuler, interpréter et prévoir une variété de caractéristiques telles que la performance, le développement et la dynamique de la science et de la technologie"

A titre indicatif, nous utiliserons, tout au long de ce travail, plus souvent le terme bibliométrie pour désigner l'ensemble des activités de métriques, et ceci par pur souci de commodité.

Mais quels que soient le domaine ou la discipline auxquels on peut les rattacher, quels que soient leurs objets d'étude et leurs objectifs, ils se fondent tous sur les mêmes lois de distributions statistiques. Meadows (1990) nous signale que l'intérêt pour les caractéristiques quantitatives de l'information, c'est-à-dire pour une approche de type bibliométrique, s'est particulièrement développé à partir des années 1950, sous l'impact du travail de Shannon (1949), ayant comme fondement les lois bibliométriques à savoir la loi de Lotka (1926) concernant les auteurs, la loi de Bradford (1935) concernant les sources d'information et la loi de Zipf (1936) qui concerne les mots d'un lexique ou d'un discours.

- La loi de Lotka a pour objectif de mesurer la contribution de chaque chercheur au progrès scientifique.

- La loi de Bradford a pour visé la gestion des abonnements et de manière plus précise de connaître le « noyau » des périodiques d'un domaine.

- La loi de Zipf vise l'étude linguistique des écrits littéraires par le biais de la fréquence d'utilisation des mots.

Ces trois lois, comme pour toutes lois hyperboliques, sont caractérisées par un faible coeur et une forte dispersion (Prime-Claverie, 2004). Le coeur représente un petit nombre d'éléments ou d'individus ayant une forte fréquence. En d'autres termes, cela veut dire que peu de revues publient la grande majorité des articles (loi de Bradford), peu de mots sont très fréquents dans les textes (loi de Zipf), peu d'auteurs publient beaucoup (loi de Lotka). La dispersion caractérise un très grand nombre d'éléments ou d'individus ayant une faible fréquence. Ce qui revient à dire aussi que la grande majorité des revues ne publient qu'une infime partie des articles (loi de Bradford), la plupart des termes n'apparaît qu'une seule fois dans les textes (loi de Zipf), la majeur partie des chercheurs ne publie qu'un seul article pour une période donnée (loi de Lotka).

Ces lois ont servi de fondement au développement, plus tard dans les années 60, des méthodes quantitatives comme la scientométrie et dont Price (analyse des citations) sera la figure emblématique. Mais ces dites méthodes citationnistes n'ont été largement utilisées qu'avec l'arrivée des outils développés par l'Institute for Scientific Information (maintenant Thomson ISI) et des recherches de son fondateur, Eugene Garfield^58(*). Meadows (1990) nous apprend que : «One important area of Price's work covered the applications of citation analysis. In this, he relied on the contemporaneous activities of Garfield in developing the concept of a citation index»

Les travaux de Garfield ont donné naissance à des outils devenus quasi incontournables dans les traitements bibliométriques, notamment en analyse des citations, aussi bien pour la compréhension de la production, la diffusion des écrits et la composition de la communauté scientifique et les liens qu'entretiennent ses membres. Ces outils sont les banques de données Science Citation Index (SCI), Social Science Citation Index (SSCI) et le Arts and Humanities Citation Index (AHCI), mais aussi le Journal of Citation Report (JCR) qui donne le facteur d'impact des revues .

Nous reparlerons de ces banques de données et de la notion de citation tout au long de la prochaine partie qui est consacrée aux différents stades que doit suivre un traitement bibliométrique.

I.2. Processus du traitement bibliométrique

Les études bibliométriques travaillent sur des corpus volumineux de publications scientifiques, généralement des articles primaires ou des brevets et suivent en général plusieurs étapes passant de la constitution du corpus jusqu'à l'interprétation des résultats de l'analyse. Vu l'orientation que nous comptons donner à notre étude et le caractère spécifique de ces genres d'étude (qui essayent d'appliquer les techniques bibliométriques à l'environnement web), nous abordons dans cette partie les trois étapes les plus problématiques dans une étude wébométrique pour finir avec une notion très capitale aussi pour notre recherche c'est à dire l'analyse citationniste. Les trois étapes que nous aborderons sont :

I.2.1 La constitution du corpus

La constitution du corpus commence par la collecte des données sur lesquelles va porter l'étude donnée. Ce sont les banques de données bibliographiques de l'ISI, entre autres banques de données, qui sont le plus souvent utilisées pour constituer ces corpus. Ceci est dû au fait qu'elles présentent beaucoup d'avantages par rapport aux autres banques de données (Katz, Hicks, 1998) :

Ø Elles présentent une très bonne couverture des domaines de recherche dans la mesure où elles recensent systématiquement, avec cependant quelques biais, tous les articles et les thèmes des revues qu'elles couvrent.

Ø Le critère d'inclusion d'une revue dans le SCI, SSCI et le AHCI est le nombre de citations qu'elle reçoit, ce qui rejoint les travaux de De Solla Price (1963) «le degré d'utilisation semble être un meilleur test de qualité » ; au lieu d'une approche basée sur la quantité des articles publiés,

Ø Elles contiennent les adresses institutionnelles des auteurs d'un article spécifique, très important pour l'analyse de la collaboration.

Ø Seules les banques de données de Thomson ISI contiennent les citations. Ces informations permettent de mesurer l'impact de la recherche. Katz et Hicks (1998) considèrent que cette caractéristique justifie à elle seule l'usage de ces banques de données comme outil de politique scientifique et de gestion de la recherche.

Les banques de données de Thomson ISI possèdent aussi certains désavantages qui tiennent au fait qu'elles sont relativement coûteuses et ne se prêtent pas aussi bien en recherche en sciences sociales qu'en sciences naturelles (Archambault et Vignola, 2004).

I.2.2 Découpage du corpus en unités statistiques

Cette étape est aujourd'hui moins fastidieuse avec les efforts considérables que fournissent les serveurs de banques de données dans la compilation des références. Les notices bibliographiques sont des ensembles structurés d'information composés de champs comme : auteurs, titre, mots-clés, date de publication, langue, résumé ... Chaque champ est composé d'un nom de champ et d'un contenu. « Certains champs sont particulièrement riches d'information pour contribuer à l'analyse de l'univers scientifique. Les champs mots-clés et titre en sont de bons exemples. Ils figurent d'ailleurs parmi les champs les plus souvent utilisés dans les études bibliométriques » (Prime-Claverie, 2004).

I.2.3 Normalisation des données

La normalisation du corpus est une étape très importante, car elle conditionne pour une grande partie la bonne analyse des données collectées. Malgré les efforts déployés par les serveurs pour l'harmonisation des références, certains champs posent beaucoup de problèmes dans le cadre d'un traitement bibliométrique comme le champ adresse des auteurs (Archambault, Vignola., 2004), qui présente souvent beaucoup de variances. Toujours selon eux, il faut noter que les banques de données sont optimisées pour retracer des articles plutôt que pour faire des calculs complexes de dénombrement. En d'autres termes, elles sont conçues pour des usages bibliographiques plutôt que bibliométriques. Le travail de bibliométrie commence donc avec le conditionnement de données bibliographiques dans le but de constituer des banques de données bibliométriques. Le travail consiste principalement à normaliser les données. Donc tout ceci nécessite un travail de nettoyage, d'épuration et d'harmonisation du corpus (ajout ou suppression de champs) pour arriver à un bon niveau de traitement.

Ces différentes étapes ainsi présentées, même si elles posent de temps en temps des problèmes dans le cadre d'une étude bibliométrique, elles sont largement facilitées par les efforts des serveurs de banques de données en matière de compilation et d'harmonisation des références bibliographiques. Dans notre contexte d'étude, vu la spécificité et l'hétérogénéité des documents web, ces étapes, surtout celles concernant le découpage et la codification du corpus, sont assez fastidieuses comme nous le verrons plus loin dans la troisième partie.

I.3. Analyse des citations

L'analyse des citations, malgré quelques limites, va fortement bouleverser les méthodologies d'analyse des écrits scientifiques de même que la compréhension de la sociologie des sciences.

I.3.1 Processus de publication : Motivations des citations

Pour comprendre les motivations qui peuvent pousser un chercheur à citer ses pairs dans ses travaux, il faut garder en tête que la connaissance scientifique objective est cumulative par essence. Chaque nouvelle connaissance scientifique enrichit, modifie, perfectionne ou réfute totalement dans certains cas, la connaissance précédente. Cette caractéristique de cumul est partagée par la littérature scientifique. Dans la pratique, la citation n'est rien d'autre que la relation qui lie un document citant et le document cité. Price (1970) précisera davantage cette notion de citation : « Si l'article A a une note bibliographique utilisant et décrivant l'article B, alors A contient une référence à B, et B reçoit une citation de A ».

Et pour histoire, il est d'usage depuis le XIX^ème siècle que le chercheur mentionne à la suite de son article l'ensemble des travaux qui l'ont aidé dans le cadre de sa recherche. Ces citations permettent d'une part, aux lecteurs de consulter les travaux qui ont inspiré l'auteur ; d'autre part, c'est aussi une façon pour lui de rendre hommage à ses prédécesseurs. Selon Case et Higgins^59(*), il existerait deux écoles pour étudier les motivations des citations : la première considère la citation comme une dette intellectuelle vis-à-vis des pairs qui ont inspiré le chercheur. Et l'autre pense que la citation sert avant tout les intérêts de l'auteur puisqu'il cite pour rendre son article beaucoup plus crédible, beaucoup plus persuasif.

Ainsi, vu que le monde scientifique forme une communauté qui ne cesse de s'élargir et où chaque nouveau savoir vient se raccorder à ceux existant, on est à même de comprendre, à partir de l'analyse des citations et des références, la composition et l'évolution des publications scientifiques et au-delà, construire des réseaux des auteurs, des revues, des institutions, des pays (...) avec les différentes combinaisons possibles. Ce qui n'est rien d'autre que l'idée de la carte de la science prônée par Price (1965) et qui se base sur les "relations structurelles du réseau de références et citations". Concrètement, ceci revient à représenter la production scientifique sous la forme de graphe orienté avec les deux principaux éléments : les noeuds qui représentent les publications scientifiques et les arcs qui représentent les différentes relations obtenues à travers les citations. Selon Prime-Claverie (2004), les publications sont les composantes élémentaires du modèle scientifique c'est à dire les items. Elles sont datées et appartiennent à différentes unités scientifiques comme les auteurs, les revues, les institutions, les pays, etc. Les citations, par l'intermédiaire des références bibliographiques, relient les différents items ; et de manière indirecte, elles relient aussi les différentes unités scientifiques.

I.3.2 L'article scientifique

L'approche des citations pour aborder la production scientifique et ses impacts dans la l'organisation et l'évolution de la communauté scientifique se base naturellement sur la place qu'occupe l'article scientifique et la place et la signification que lui ont accordées différents penseurs.

Commençons par le réductionnisme bibliométrique que Polanco (1995) définit comme « le point de vue par effet duquel l'article scientifique devient un outil de définition de la science et l'on fait de la publication écrite un indicateur privilégié de l'activité scientifique, considérant que le produit final de la recherche scientifique est la publication d'un texte écrit. » Ainsi pourrait-on dire que, sont considérés comme scientifiques que ceux qui publient, et de ce fait l'article devient la chose qui matérialise l'activité scientifique. La quantité d'articles publiés fût longtemps considérée comme un indicateur pertinent de l'activité du scientifique. Au 6^ème Congrès International d'Histoire des Sciences (Amsterdam, août 1950)^60(*), Price expose pour la première fois une manière d'utiliser le nombre d'articles scientifiques comme une indication quantitative de l'activité de recherche. Cette approche quantitative quant à la mesure de l'activité de la recherche sera longtemps de mise jusqu'au moment où on commence à observer une certaine dérive du côté des chercheurs qui n'utilisent plus l'article scientifique dans sa fonction première, celle de communiquer leurs savoirs, mais pour se faire reconnaître et cautionner la propriété intellectuelle de leurs travaux (Prime-Claverie, 2004). Alors Price (1963) dira que «le degré d'utilisation semble être un meilleur test de qualité » ; le degré et la fréquence des citations et des références reflètent même « l'utilité des différents articles ». Voilà ce qui sera l'hypothèse de base de l'analyse des citations de Price dans Little Science, Big Science (1963)

Dès lors, la notion des citations et de son utilisation comme moyen de mesurer de manière fiable et pertinente l'activité de la science et des scientifiques sera instituée pour devenir ensuite « indispensable » en matière de métriques de la science.

I.3.3 L'analyse du graphe de citations

Il y a différentes méthodes d'analyser le graphe de citation. Nous allons seulement nous limiter ici aux notions de facteurs d'impacts et de facteurs d'influence.

Facteurs d'impacts et facteurs d'influence

« Le décompte des citations permet d'évaluer l'impact scientifique de la recherche. Le décompte des citations reçues par des revues est compilé systématiquement par Thomson ISI et vendu sous la marque de commerce Journal Citation Reports (JCR). Ce produit comprend de nombreux indicateurs ayant trait aux citations reçues par les revues scientifiques et dont le facteur d'impact est sans doute le plus largement utilisé » (Archambault et Vignola, 2004). Ce facteur d'impact est défini comme le rapport, pour une année donnée, entre le nombre de citations des articles publiés par un périodique et le nombre d'articles publiés, le tout sur une période de deux ans. Cependant, ces facteurs d'impact présentent des limites (Pinski and Narin, 1976). D'après eux, ces dits facteurs ne tiennent pas compte, d'une part, de la longueur des articles. Ce qui fait que les articles de synthèse, plus étendus dans leur couverture et plus longs, reçoivent de ce fait plus de citations que les articles de recherche. Ensuite, ces facteurs ignorent les pratiques de citation propres aux différents domaines. Et enfin, avec l'approche des facteurs d'impacts, les citations ont la même valeur quelle que soit leur revue de provenance. En retour, ils ont présenté un nouvel indicateur, le facteur d'influence, pour rendre compte de l'analyse du degré de prestige des revues. Ils se sont basés sur le fait que les citations n'ont pas la même valeur, et pour cause, les revues considérées comme les plus prestigieuses reçoivent forcément plus de citations. Ce facteur d'influence est calculé à partir du poids d'influence d'une référence bibliographique et qui n'est rien d'autre que le rapport entre le nombre total de citations reçues par une revue et le nombre total de références issues de la revue. Ainsi, l'influence d'un article est égale à la somme des poids d'influence des références bibliographiques qui le citent.

II. De la bibliométrie à la wébométrie

II.1. A propos d'Internet

Le réseau Internet est né vers les années 60 au sein d'un organisme militaire américain, L'ARPA (Advanced Research Project Agency) avant de se développer dans le milieu universitaire plus tard. « L'origine de ce projet est la construction d'un réseau informatique capable de résister à d'éventuelles attaques soviétiques, et pouvant s'auto-confugurer si l'un des maillons venait à défaillir. » (Prime-Clverie, 2004). Le principe de base d'Internet est l'absence de structure centralisée et de « contrôle » - certains pensent pourtant qu'il existe une certaine auto-organisation ou auto-régulation du réseau (Björneborn, 2004), (nous y reviendrons) -, ce qui lui assure une expansion fulgurante et sans limite.

Le Web a été développé par Berners-Lee et ses collègues du CERN (Centre Européen de Recherche Nucléaire) à Génève en 1991 et était considéré au début comme un Intranet destiné aux chercheurs affiliés au Centre. Leur projet était de proposer un outil afin de faciliter le partage d'information entre les chercheurs du CERN, géographiquement dispersés, à travers un accès facile à des publications en ligne (Björneborn, 2004). Cette technologie a été mise gratuitement à la disposition du grand public (individus, entreprises et institutions) en 1993 (Cailliau, 1995). A partir de là, le Web va devenir un réseau gigantesque comparable à un réseau de neurones (Abraham, Ralph H., 1996). Glover et al. (2002) qualifierons le Web d'une collection de documents hétérogènes où nous retrouvons du texte, du son, de la vidéo, de l'animation (...) touchant des domaines aussi divers que le social, le culturel, l'économique, le scientifique, le politique...

II.1.1 Estimation de la taille du Web

Plusieurs études ont tenté de mesurer la taille du Web parmi lesquelles celles menées sous l'égide du NEC Research Institute en 1997 et 1999. Cette équipe, dirigée par Lawrence et Giles (1998 ; 1999), a estimé la taille du Web indexable à 320 millions de pages en 1997 et à 800 millions de pages en 1999. Leur méthode d'investigation était basée sur la combinaison de plusieurs moteurs de recherche dont AltaVista, HotBot, NorthernLight, Excite, Lycos, et Infoseek, et de recouper les réponses communes. Selon eux, le meilleur des moteurs de recherche, à l'époque Nothern Light, ne pouvait couvrir plus de 16% du Web. La réunion des six plus grands moteurs de recherche ne couvrirait que 60% du Web. Mais vu que les moteurs de l'époque ne pouvaient pas indexer les pages de formats (.pdf) ou (.doc) par exemple, ce que font maintenant les moteurs de recherche comme Google, on est tenté d'affirmer que la taille du Web était beaucoup plus grande que ne l'ont constatée les études du NEC Research Institute.

Aujourd'hui, on estime la taille du Web visible à plus de 5 milliards de pages reliées par une cinquantaine de milliards de liens hypertextes (Björneborn, 2004). D'où le constat fort parlant de Rostaing, Hervé : « Je n'étonnerai personne en évoquant ma confusion devant l'évolution galopante d'Internet et plus particulièrement du World Wide Web »^61(*). L'étonnement est d'autant plus grand qu'on sait que le Web invisible, contenant les pages dynamiques et les bases de données accessibles en ligne (ex. Diaolog) et que les moteurs de recherche ne peuvent pas indexer, serait 400 à 500 fois plus grande que le Web visible^62(*).

La figure suivante présente l'évolution du nombre de sites Web de septembre 1995 à juillet 2003, hors sites dupliqués. Nous constatons ainsi que le nombre de sites est passé, durant cette période de 8 ans, de 18.864 sites web à plus de 42 millions sites ; ce qui nous donne une idée assez nette de l'accroissement rapide que subit le Web.

Figure 5 : Evolution du nombre de sites Web. (Sources : Le Journal du Net^63(*). )

II.1.2 La notion d'auto-organisation du Web

Le Web est comme un arbre constitué de domaines, de serveurs et de pages (Abraham, 1996). Avec cette structure, selon (Björneborn, 2004), le Web est devenu un système évolutif et de plus en plus complexe, contenant toute sorte d'informations, utilisées par des acteurs différents pour différentes raisons. Et comme dis plus haut, le principe de base d'Internet est l'absence de contrôle et d'organisation centralisée. Björneborn et Ingwersen (2001) caractérisent le Web de « 3D » : distribué, diversifié et dynamique. La distribution consiste au fait que les ressources du net sont réparties dans des millions de sites situés un peu partout dans le monde sans structure centralisée. Ces même ressources sont aussi diverses que variées et touchant toutes les activités humaines. Les rapports de recherche scientifiques, les pages de jeux, les spots publicitaires, les vitrines commerciales, les pages de propagande de toutes sortes (...), cohabitent sur le Web. Et par dynamisme, ils entendent par là le changement continuel et les mutations sans arrêt que subissent les contenus des pages Web. Une page créée aujourd'hui peut disparaître du jour au lendemain ou bien changer complètement de contenu.

Avec le manque de structure centralisée et de contrôle des contenus, on est tenté de dire qu'il règne un désordre et un chaos total sur le Web. A la différence de la citation dans la littérature scientifique, la création de liens hypertextes est moins formelle et n'est soumise à aucun contrôle (Prime-Claverie, 2004). Et pourtant, l'analyse du Web révèle un remarquable degré d'auto-organisation (Björneborn, 2004). Cette auto-organisation du Web est perceptible à travers l'analyse des sujets et des centres d'intérêt des chercheurs par exemple. L'interconnexion des sites Web concernant leurs projets, leurs publications, leurs domaines et leurs institutions de recherche, est évidente. Sur ce point, l'étude de Rostaing & Boutin (1999) qui visait à cartographier la présence de la communauté des biblio-scientométriciens sur Internet en est une parfaite illustration. Par ailleurs, la création des liens hypertextes est moins anarchique qu'on le pense. Ce processus qui consiste à se lier aux autres sites du réseau est souvent motivé par le souci de faire référence à des pages qui illustrent en quelque sorte ses propres pages, d'où l'existence un certain centre d'intérêt commun. Ce qui implique l'idée de regroupement, donc d'organisation. Nous verrons plus tard qu'il existe aussi d'autres motivations quant à la création de liens hypertextes. Enfin, une autre manifestation de l'auto-organisation du Web se trouve dans l'apparition de plus en plus importante de sites portails et de guides spécialisés ou généraux avec comme but principal de regrouper les ressources sur un certain nombre de sujets afin de faciliter l'accès. On peut citer par exemple : SAPRISTI (Sentiers d'Accès et Pistes de Recherche d'Informations Scientifiques et Techniques sur l'Internet !)^64(*) élaboré par INSA de Lyon et GIRI2 (Guide des Indispensables de la Recherche sur Internet)^65(*) mis en place par l'Université de Laval au Canada.

II.2. La webométrie

La wébométrie comme discipline spécialisée dans l'analyse des pages et sites Web (et plus précisément des liens hypertextes) est tributaire des méthodes et travaux développés dans les disciplines de métriques comme la bibliométrie, la scientométrie et l'infométrie. Cette adaptation des lois bibliométriques dans le contexte assez particulier du Web a donné naissance, et ce concrètement depuis le milieu des années 90 avec Larson (1996), à un champ d'étude très dynamique où l'on retrouve aussi bien des informaticiens, des professionnels de l'information que de mathématiciens. On peut même dire qu'elle est devenue un domaine scientifique à part entière avec ses différentes théories à construire, des taches à faire, des unités à définir, des méthodes à développer et des problèmes à résoudre^66(*).

Par ailleurs, vu le changement qu'a introduit Internet dans la production, la diffusion et la circulation des écrits scientifiques, les professionnels de l'information, notamment, ne peuvent plus ignorer ce nouveau média. Il faut le comprendre, l'apprivoiser à travers les outils et méthodes dont ils disposaient. « Le Web et les autres services de l'Internet sont une aubaine pour les bibliomètres, car ils offrent de nouvelles sources d'information sur support numérique liées à l'activité scientifique (littérature grise, forums, etc.) différentes des traditionnelles bases de données d'articles » Prime-Claverie (2004). A partir de là, plusieurs analogies entre le circuit traditionnel de la production et de l'utilisation des connaissances scientifiques et l'environnement Web vont voir le jour, et parmi lesquelles entre articles et pages Web, entre citations et hyperliens. ...

Nous reviendrons sur ces analogies, leurs applications ainsi que leurs limites, un peu plus loin. Mais commençons cette partie par définir sur le plan conceptuel et théorique ce nouveau champ de recherche.

II.2.1 Définition

Björneborn et Ingwersen (in press) définissent la webométrie comme : «The study of the quantitative aspects of the construction and use of information resources, structures and technologies on the Web, drawing on bibliometric and informetric approaches.»

Comme nous le voyons, cette définition englobe les aspects quantitatifs de la construction et de l'utilisation du Web. Et ainsi, la recherche en wébométrie tournerait autour de quatre axes principaux. Björneborn (2004) :

- L'analyse de l'utilisation du Web (incluant principalement les comportements de recherche des utilisateurs)

- L'analyse des technologies Web (incluant la performance des moteurs de recherche)

Par ailleurs, on voit souvent le terme cybermétrie utiliser à la place de wébométrie et vice versa. Seulement pour Björneborn (2004), il existe bel et bien une nuance entre ces deux termes. Pour cela, il définit la cybermétrie comme : «The study of the quantitative aspects of the construction and use of information resources, structures and technologies on the Whole Internet, drawing on bibliometric and informetric approaches.»

C'est presque la même définition que la wébométrie sauf que, à la place de « on the Web », il met « on the whole Internet ». En d'autres termes, ce champ englobe les études statistiques des groupes de discussion, des mailing list et autres modes de communication sur Internet incluant bien sûr le Web. Ce qui revient à dire tout simplement que la cybermétrie englobe entière la wébométrie.

Figure 6 : Relation entre info-/biblio-/sciento-/cyber-/web-métrie (Björneborn, 2004)

Et pour résumer le tout, en tenant compte aussi de la bibliométrie, de la scientométrie et l'infométrie, il nous présente la figure suivante^67(*) qui montre de manière fort pertinente comment ces différentes disciplines, toutes issues des sciences de l'information, s'imbriquent les unes aux autres.

II.2.2 Historique

Tout d'abord, Mike Thelwall et Han Woo Park^68(*) nous apprennent que le véritable intérêt des Sciences de l'information pour l'étude des liens hypertextes a commencé vers 1996 et a été principalement motivé par les analogies avec les citations des articles de périodiques. Durant cette période, plusieurs termes furent proposés pour nommer ce nouveau champ de recherche (Björneborn, 2004). A titre d'exemple on peut citer : Netometrics avancé par Bossy (1995) ; Webometry qui nous vient de Abraham (1996) ; Internetometrics en 1996 puis Webometrics en 1997 avec Almind et Ingwersen ; et enfin Cybermetrics coïncidant avec le début du Journal du même nom^69(*) en 1997 par Aguillo. Même si Chakrabarti (2002) parlera beaucoup plus tard de Web Bibliometry, ce sont les termes wébométrie et cybermétrie qui sont les plus utilisés.

Par ailleurs, un point capital dans le développement de la wébométrie est l'émergence des moteurs de recherche commerciaux tel AltaVista qui permettait, sur une simple commande, à n'importe qui, de dénombrer les liens entre pages Web. (Park & Thelwall, 2003). Les professionnels de l'information qui ont détecté ce potentiel, n'ont pas manqué de se référer à leur propre discipline pour voir les différentes applications possibles, notamment de dresser une analogie entre articles de périodiques et documents Web, entre hyperliens et citations. Donc, selon eux le point de départ de la wébométrie est la tentative d'appliquer l'analyse des citations au contexte du Web.

II.3. Place des moteurs de recherche dans les études wébométriques

Si dans les études bibliométriques les banques de données bibliographiques (ex. ISI Thomson) et autres bases dédiées à la compilation des écrits scientifiques fournissent les corpus et les échantillons de traitement, en wébométrie c'est les moteurs de recherche qui jouent, à quelques différences prés, ce rôle. Mais qu'est-ce qu'un moteur de recherche ?

Un moteur de recherche est un programme qui indexe automatiquement les pages Web. En suivant les hyperliens, il repère et collecte les pages, extrait tous les mots (sauf les mots vides) contenus dans ces pages et en fait une base de données. Il lie ainsi, à travers un système d'appariement, cette base de données ainsi constituée et les utilisateurs. Mais répondent-ils vraiment aux attentes des wébomètres ?

II.3.1 Utilisation et limites des moteurs

Les modes de recherches avancées des moteurs permettent aux wébomètres des opérations booléennes plus complexes, donc des recherches plus ciblées. Citons par exemple les opérations : link, domain, site, host, title, ... L'utilisation des moteurs de recherche de première génération comme Alta Vista, Nothern Light, HotBot en wébométrie ont montré très vite les limites de ces outils.

Et même si les algorithmes de ces moteurs sont devenus de plus en plus développés, comme abordé plus haut, leur couverture du Web est très limitée (Lawrence et Giles, 1998). D'autres problèmes concernent le flou qui règne dans la fréquence des mises à jour, des règles d'indexation, des algorithmes de classement. Sur ce dernier point, notons l'innovation du moteur Google, (Brin & Page, 1998), avec son algorithme Page Rank qui prend en compte la dimension structurelle du Web et classe ainsi les pages en fonction du nombre de liens qui pointent vers elles. Ce qui n'est rien d'autre que l'application du facteur d'influence adapté au graphe du Web (voir page 41).

Par ailleur, Rostaing dénote d'autres faiblesses et erreurs des moteurs de recherche comme : des pages supprimées dans les sites mais maintenues dans l'index, des pages modifiées dans les sites et toujours caractérisées par les mots de l'ancienne version dans l'index, des pages de grandes tailles indexées uniquement avec un ensemble restreint de premiers mots, la disparition de pages de l'index alors qu'elles sont toujours présentes dans les sites, la disparition de mots caractérisant une page sans que la page ait été modifiée^70(*).

Enfin, l'utilisation des moteurs comporte aussi d'autres problèmes. En plus de la limitation causée par leur incapacité à couvrir la totalité du Web, il y a une autre limitation qui est cette fois-ci volontaire et relève de la part des concepteurs de ne pas dévoiler la totalité de leurs informations (Prime-Claverie, 2004). Par exemple, avec une recherche sur Google avec la fonction site, il est impossible d'extraire plus de 300 références quel que soit le nombre de résultat trouvé par le moteur.

Ainsi devenons-nous faire avec ces limites et nous contenter de ces outils au risque de produire des travaux de qualité moindre ? Ou bien, devenons-nous développer des outils alternatifs mieux adaptés au domaine des sciences de l'information et qui seront à même de répondre aux attentes des wébomètres ?

II.3.2 Quelques réponses de professionnels de l'information

Cette partie a pour base et pour point de départ l'appel de Bar-Ilan^71(*) à la communauté des sciences de l'information à avoir ses propres moteurs (crawler), accessibles à tous et qui permettront des méthodes de collecte de données fiables et transparentes.

S'il y a un groupe de recherche qui a vraiment oeuvré dan ce sens, c'est bien l'équipe de Mike Thelwall : The Statistical Cybermetrics Research Group^72(*) de l'Université de Wolverhampton en Angleterre. Connaissant la difficulté à bien parcourir le Web pour constituer un corpus de travail, ils ont développé et mis à la disposition des professionnels, gratuitement, des bases de données^73(*) des structures des liens hypertextes de plusieurs universités : Royaume-Uni, Nouvelle Zélande, Australie, Chine, Taïwan, ... Pourquoi les sites universitaires ? Pour Thelwall^74(*), il existe deux raisons pour cela : d'une part, concernant l'utilisation d'Internet, le secteur académique est plus mature que les autres secteurs ; d'autre part, les sites Web des universités permettent une comparaison très nette avec les articles des travaux universitaires. Ce qui explique aussi par ailleurs pourquoi la plupart des études wébométriques et cybermétriques concerne le milieu universitaire.

En plus de ces bases de données, l'équipe de Wolverhampton a mis aussi en accès libre, toujours sur son site, un crawler de liens hypertextes Soscibot. Il permet entre autre, de parcourir et d'identifier les liens entrants et les sortants d'un site Web donné. Nous reparlerons de cet outil dans la prochaine partie.

De telles tentatives et initiatives montrent à la fois la jeunesse mais aussi le dynamisme de cette nouvelle discipline qui s'affirme de plus en plus. L'intégration et la prise en compte par ces outils des autres secteurs seraient une excellente chose. Car le but de tout cela est d'arriver à avoir des données fiables et pertinentes pour procéder à de bonnes analyses.

II.4. Analyse du graphe du Web

L'un des qualificatifs que l'on donne le plus souvent à Internet est : le réseau des réseaux. Ce qui implique naturellement l'idée de représentation, de graphe, de liens, de relations, d'interconnexion... « Le Web peut être modélisé comme un graphe mathématique en considérant ses pages comme des noeuds et comme arcs, les liens hypertextes.»^75(*). Et pour Ingwersen et Björneborn (2001), la théorie des graphes est un excellent outil pour comprendre la structure des liens du Web. De manière très particulière, ces liens hypertextes représentent une importance de premier ordre en ce qu'ils déterminent même la structure mais aussi l'expansion et la taille de plus en grande du Web. Car, grâce à ces liens, créer sa page Web, s'ancrer aux autres sites et s'inviter ainsi au réseau global devient de plus en plus chose aisée, d'où la croissance exponentielle du Web (Larson, 1996). Par ailleurs, «The study of the structure of this graph is useful because of the importance of hyperlinks for search engine web crawlers and in information science web link research». (Björneborn, 2001). C'est pourquoi Han Woo Parker^76(*) dit que : « L'élément structurel de base d'Internet est le lien hypertexte ».

Mais avant d'entrer dans le vif du sujet et de montrer le caractère spécifique par rapport à la théorie des graphes en science sociale ou en bibliométrie, nous commencerons par quelques définitions opérationnelles sur le Web mais aussi sur les différents types de liens hypertextes.

II.4.1 Quelques définitions opérationnelles

Le Web, l'environnement Internet en général, dispose de ses propres termes et concepts qui permettent de bien le décrire et de le différencier de tout autre environnement. Un éclaircissement sur ces termes du point de vue conceptuel ne peut qu'être une chose nécessaire et même incontournable pour notre appréhension et notre compréhension, d'une part. D'autre part, cela nous permettra de bien cerner la relation qu'entretiennent ces différents éléments et comment ils sont structurés.

Les termes les plus « importants » du Web et que nous allons fréquemment utiliser dans cette étude sont : site Web, page Web, serveur Web, nom de domaine, URL :

- Un site Web est un emplacement donné par un nom de domaine contenant une ou plusieurs pages Web, reliées par des liens hypertextes ou des images ancrées. Ces sites sont créés et maintenus par un individu, une compagnie ou une organisation^77(*).

- Si un site peut être conçu comme un terme Web, et représentant un document Web, le serveur Web est quant à lui un terme d'Internet représentant une ou plusieurs machines ou ordinateurs (Björneborn, 2004). Pour lui, cette distinction conceptuelle est essentielle car le Web et Internet sont deux entités différentes. Si le Web est un réseau de documents reliés par des liens hypertextes, Internet est un réseau de machines reliées par des câbles et des routeurs.

- Un nom de domaine fonctionne comme un système d'adressage et d'identificateur avec un nom alphanumérique utilisé pour identifier une ou plusieurs adresses IP. Vu que Internet est basé sur l'adressage numérique (IP) et non sur les noms de domaine, chaque serveur Web a besoin d'un DNS (Domain Name Server) pour traduire les noms de domaine en adresse IP. Un nom de domaine basique est composé de trois segments : www.xxx.yy. Le dernier segment (yy), le Top Level Domain (TLD), peut désigner le code de domaine d'un pays (ex. .fr pour la France, .sn pour le Sénégal) ou le type de site : com, edu, gov, coop, ...

- L'URL (Uniform Resource Locators) est un système standardisé d'attribution des adresses sur Internet. « Les URL identifient les ressources sur le Web : documents, images, fichiers téléchargeables, services, boites de messagerie électronique et autres ressources ... » (World Wide Web Consortium, 2002). Par extension, l'URL désigne aussi l'adresse d'un site ou d'une page Web. L'adresse URL complète est composée :

S'il est acquis que le Web est aujourd'hui considéré comme un graphe avec comme noeud une page web par exemple et les hyperliens comme arcs, il n'en demeure pas moins que la nature de ces derniers (les hyperliens) ne sont pas toujours nette et clairement définie. Par exemple, on divise souvent les hyperliens en deux types : liens internes et liens externes. La définition ou la limitation de ces liens externes pose problème puisqu'il peut s'agir soit de liens sortant du site concerné vers d'autres sites ; soit des liens venant d'autres sites vers le site concerné.( Björneborn, 2004). Donc, tout cela mérite qu'on essaye d'y voir un peu plus clair, et c'est ce que nous allons faire en nous référant principalement aux notions développées, à travers un graphique, par Lennart Björneborn dans sa thèse.^78(*)

Figure 7 : Terminologie de base des liens wébométriques (Björneborn, 2004)

Les lettres (A, B, C, D, E, F, G, H et I) désignent les noeuds et peuvent être des pages Web, des sites Web, des répertoires... Et les flèches sont les liens hypertextes qui relient ces différents éléments. Pour la compréhension des relations, traduisons les termes Inlink et Outlink respectivement par lien entrant et lien sortant. Ainsi, on a les relations suivantes :

Ø B has an inlink from A; B is inlinked; A is inlinking; A is an in-neighbor of B

Ø B has an outlink to C; B is outlinking; C is outlinked; C is an out-neighbor of B

Ø D, E and F have in- or outlinks connecting each other; they are triadically interlinked

II.4.2 Citation et « Sitation »

Le terme sitation, désignant la relation entre deux sites Web a été prononcé pour la première fois en 1996 par McKiernan^79(*) et a été utilisé par Aguillo lors de la conférence de 4S/EASST à Bielefeld en octobre 1996 (Rousseau, 1997). Ronald Rousseau^80(*) a été sans doute le chercheur qui a véritablement popularisé ce concept (Thelwall, 2003). Cette notion, comme montré plus haut, s'inscrit dans une tentative de faire une analogie entre le Web et les publications scientifiques. Selon Rousseau, étudier la notion de sitation est le même, sur le plan conceptuel, qu'étudier la citation entre articles de périodique. Cependant, il y a une certaine différence dans les significations. A la différence de la citation, la sitation est rarement utilisée pour argumenter, comparer ou présenter des idées (Chu, 2004). Généralement, son objectif est de faire référence à un site intéressant. Elle cible soit une page Web soit le contenu d'un site entier, alors que la citation est beaucoup plus précise, en ce sens qu'elle peut se porter uniquement sur une phrase ou un paragraphe.

Mais essayons de comprendre les motivations qui font qu'un site Web « site » un autre site Web.

Notons qu'il n'existe pas de règles quant à la création d'hyperliens. Il n'y a pas de règles codifiées et reconnues et à partir desquelles les motivations de créations de liens hypertextes se justifient comme c'est le cas dans les publications scientifiques (Ingwersen & Björneborn, 2001). Cette irrégularité et ce désordre sont décrits par Mike Thelwall (2003) : « Web links represent both anarchy and order ». Selon lui, l'ordre est perçu, par exemple, à travers les moteurs de recherche comme Google ou Alta Vista qui, justement, utilisent avec succès la structure des liens hypertextes pour optimiser les résultats de recherche. Comprendre la structure des liens passe incontestablement par la compréhension des différentes raisons qui poussent un site Web à « siter » un autre site. C'est ce que Thelwall a essayé de faire, dans un article précurseur^81(*), dans le cadre universitaire.

Selon lui, il faut d'abord commencer par faire une différenciation entre liens intra-sites qui relient des pages hébergées sur le même site et liens inter-sites qui relient des pages hébergées sur des sites différents.

Sa base de travail est constituée des liens hypertextes de 111 universités britanniques. Sur un total de 19.438 liens, il en a choisi 100 au hasard comme corpus pour cette étude. Il est arrivé ainsi à dégager quatre catégories de motivations :

Un lien est décrit comme étant un lien de navigation générale si la motivation première de sa création est de constituer un point de départ afin de permettre aux visiteurs d'accéder à d'autres informations - contenues dans d'autres sites - qui ne rentrent pas forcément dans les thèmes du site en question. Ces liens jouent en quelque sorte le rôle des renvois d'orientation qu'on retrouve en documentation, seulement à la différence des dits renvois, il n'existe pas de relation de sens, pas de connexion cognitive entre la page source et la page cible.

Ces liens permettent de revendiquer la propriété intellectuelle d'un document. A l'heure des travaux collaboratifs et des projets co-dirigés, ces liens apparaissent comme manifestant une appartenance commune entre les différents partenaires. En général, les informations et données relatives aux projets ou travaux partagés par le « collaboratoire » sont hébergées sur le site de l'un des participant ou sur un serveur commun. Sur les sites des différents membres, on trouve souvent un menu faisant référence aux projets communs et renvoyant aux différents partenaires. Selon Thelwall, ces liens peuvent aussi être considérés comme des remerciements implicites.

De manière générale, ce sont des liens vers des collaborateurs et partenaires. D'une manière plus précise, ce sont des liens créés dans l'optique de renforcer un lien ou une relation sociale. Pour Thelwall, ces liens peuvent être perçus comme un compliment implicite. On reconnaît l'importance d'un site, et de ce fait, on juge utile de créer un lien vers lui. C'est une catégorie de liens très intéressante à étudier mais dont les motivations sont difficiles à déterminer.

Ces liens sont créés sans aucune motivation de communication particulière, et de ce fait, on ne s'attend pas à ce qu'ils jouent un quelconque rôle. Par exemple, ce sont les liens qui font référence aux universités où l'on a fait ses études, aux entreprises où l'on a pu travailler...

Voilà les quatre catégories qui regroupent les différentes raisons qui peuvent pousser à « siter » une page ou un site Web. Mais selon (Prime-Claverie, 2004), cette catégorisation manque un peu d'exhaustivité à cause notamment du contexte d'étude ou du cadre d'investigation dans lequel ces motivations ont été dégagées. Il s'agit du milieu universitaire. Selon elle, les pages d'accueil des universités (qui composent le corpus de Thelwall) comportent rarement des informations de fond, ce qui fait qu'il y a ni liens cognitifs, ni liens thématiques dans l'expérience sus présentée.

- Les liens de navigation thématique, permettant la navigation entre pages de même thème,

- Et les liens cognitifs, qui pointent vers des pages évoquant ou argumentant les idées de la page initiale.

Enfin, elle propose d'inclure dans les liens gratuits, les liens de publicité, qui ne rapportent rien en terme de sémantique ou de cognition mais qui comptent beaucoup financièrement.

Comme nous l'avons vu depuis le début de cette deuxième partie, la naissance et le développement de la wébométrie ont pour base, principalement, l'application des méthodes biblio-sciento-métriques et plus particulièrement l'analogie entre articles scientifiques et pages Web. Cette tentative d'analogie présente pas mal de limites. Prime-Claverie, Beigbeder et Lafouge (2002) nous en donnent quelques-unes :

- Une différence majeure entre un article scientifique et une page web réside dans la volatilité et la possibilité de mise à jour de la page web. Rien ne certifie le changement ou même la disparition pure et simple d'une page sitée par une tierce page. Ce qui pose naturellement un problème de pertinence et de fiabilité des sitations.

- Comme nous le savons, la relation de citation entre deux auteurs n'est jamais réciproque, puisqu'on cite une référence qui est antérieure à l'article qu'on va publier. Alors que dans l'environnement Web, il est tout à fait possible que deux pages Web se sitent mutuellement. Ainsi, le caractère unidirectionnel du graphe de citations disparaît pour le Web.

- Le phénomène de duplication est très fréquent sur le Web. Cette procédure a pour objectif de permettre un plus rapide accès aux ressources. Certains serveurs très volumineux et souvent consultés évitent les encombrements en proposant plusieurs copies de leurs sites en différents points de la planète. On parle alors de sites miroirs. Cette pratique a pour conséquence de générer aussi la multiplication des liens hypertextes, ce qui va fortement biaiser l'analyse du graphe du Web.

- Comme nous l'avons vu dans la précédente section, les motivations de sitation sont multiples et diverses. Les liens de navigation et les liens gratuits ou de publicité très fréquents sur le Web ne peuvent pas être placés au même titre qu'une citation puisqu'ils sont dépourvus de sens et de signification.

II.4.3 Le degré de connectivité du Web

Dans un article assez répandu, « Diameter of the World-Wide Web »^82(*), Albert et al. (1999) ont tenté de calculer le diamètre du Web, c'est à dire la chaîne la plus longue entre deux pages Web. Au moment où la taille du Web était estimée à 800 millions de pages (1999), ils ont pu arriver à la conclusion suivante : en choisissant par hasard deux pages Web, on peut passer de l'une à l'autre en 19 clicks en moyenne. En d'autres termes, ils considéraient le Web comme un univers de faible diamètre et fortement interconnecté. Cette notion de « small world » (petit mode) importée de l'analyse réseau en science sociale pour caractériser le Web, sera ultérieurement contestée par Border et al. (2000) à travers une étude restée référence. Ils ont constitué un corpus de 200 millions de pages par le biais du moteur de recherche Alta Vista. La figure suivante montre des aspects très intéressants de la connectivité du Web assez loin des conclusions de Albert et al.

Leur principale découverte était que, le corpus ainsi constitué pouvait être divisé en 5 grands ensembles, chacun avec ses caractéristiques et son degré d'orientation et de connexion : Strongly Connected Component (SCC), IN, OUT, Tendrils et Disconnected.

Tout d'abord, il y a le (SCC), Strongly Connected Component qui peut être traduit par Composantes Fortement Connexes (Prime-Claverie, 2004). Cet ensemble qui est au fait le coeur de tous les ensembles est constitué de 56 millions de pages sur les 200 millions composant le corpus. C'est le seul ensemble où toutes les pages sont reliées les unes aux autres par un chemin. Son diamètre est estimé à 28 liens. Le concept de « petit monde » peut s'appliquer à cet ensemble.

Ensuite, nous avons les ensembles OUT et IN contenant chacun 44 millions de pages. Si les pages de l'ensemble OUT ne peuvent être atteintes qu'à partir du SCC, celles de l'ensemble IN peuvent atteindre les pages du SCC directement. Ce qui revient aussi à dire que une recherche de liens lancée à partir de l'ensemble IN contiendra les pages de l'ensemble SCC plus celles de l'ensemble OUT.

Nous avons aussi les Tendrils, qui contiennent 44 millions de pages ne pouvant ni atteindre l'ensemble SCC ni être atteintes à partir de celui-ci.

Enfin, il reste l'ensemble Disconnected contenant 16 millions de pages. Et comme son nom l'indique, il n'est lié à aucun des quatre ensembles sus-cités et est complètement déconnecté.

Par ailleurs, ils ont aussi émis l'idée d'un possible passage ou liaison d'une petite partie de l'ensemble IN vers une petite partie de l'ensemble OUT sans passer par le coeur, formant ainsi un Tube.

Cette découverte montre que le Web est loin d'avoir l'aspect d'un « petit monde » où il y aurait un fort degré d'interconnexion. Les auteurs ont pu estimer le diamètre du graphe (dressé à partir des 800 millions de pages extraites), à 500. Ils ont aussi montré que, en choisissant au hasard deux pages, la probabilité pour qu'il existe un chemin entre elles est de 24%. S'il s'agit d'un chemin direct, sa longueur moyenne est estimée à 16. Dans le cas d'un chemin indirect, c'est à dire que les liens entre ces deux pages vont dans les deux sens, la longueur du chemin est estimée à 6.

II.4.4 La notion de Web Impact Factor (WIF)

Le Web Impact Factor est un outil quantitatif pour classer, catégoriser et comparer des sites Web, des pages web et des noms de domaine. Essentiellement, il évalue l'impact d'un site Web à travers le dénombrement des liens entrants c'est à dire le nombre de liens qui pointent vers le site et de liens sortants c'est à dire des liens qui partent du site vers d'autres sites. Comme c'est le cas de plusieurs notions du champ de la wébométrie, ce concept est basé aussi sur l'analogie entre citations et liens hypertextes et s'inspire de ce fait du Journal Impact Factor de l'ISI (voir page 41).

Cette notion a été introduite en 1998 par Ingwersen même si certains pensent que l'étude des facteurs d'impact sur Internet a été abordée pour la première fois par Rodriguez Gairin en 1997 dans le Journal Espagnol de la Documentation (Björneborn, 2004). Seulement, il n'a pas été aussi influent qu'Ingwersen. Ce dernier détermine trois types de Web Impact Factor : interne, externe et global. Le WIF interne est égal au rapport entre le nombre de liens entrant dans un site ou un domaine et le nombre de pages web contenues dans le site ou le domaine en question. Le WIF externe se calcule par le nombre de liens sortant d'un site web ou d'un domaine divisé par le nombre de pages web contenues dans le site. Enfin, pour le WIF global, nous avons toujours le même dénominateur (le nombre de pages contenues dans le site ou le domaine en question) mais le numérateur est égal à l'ensemble des liens externes (entrants comme sortants).

Noruzi (2004)^83(*) nous énumère quelques avantages et limites de l'approche WIF parmi lesquels :

ü Il permet d'évaluer l'importance relative d'un site web en le comparant notamment aux autres sites dans un champ ou dans un nom de domaine d'un pays ;

ü Il permet de faire ressortir la visibilité et la popularité d'un site Web, mais aussi la visibilité d'une compagnie, d'une organisation ou d'un pays dans la toile mondiale ;

ü Le WIF et les liens externes sont utilisés dans les systèmes PageRank par certains moteurs de recherche comme Google pour classer notamment les résultas de recherche ;

ü Il permet de mesurer le succès et l'influence globale d'un site Web ou d'un domaine ;

ü Le principal inconvénient du WIF est qu'il est influencé pour une grande partie par la couverture des moteurs de recherche. Aussi bien pour le nombre de liens entrants et sortants que pour le nombre de pages contenues dans le site en question, cela dépend du degré de couverture du moteur de recherche utilisé. Et quand on sait que, théoriquement, la combinaison des meilleurs moteurs de recherche ne couvre que prés de 60% du Web global (Lawrence & Giles, 1998), cela constitue une réelle limite pour le WIF ;

ü Il y a un biais introduit par les langues de publications sur le net. Les pages Web développées en langue anglaise (qui domine le Web), auront forcément un WIF plus important que les autres ;

ü Il n'y a pas de différence entre d'une part, le site Web A qui contient 10 pages Web et génère 10 liens et d'autre part le site Web B qui contient 100 pages et génère 100 liens ;

ü Le WIF d'un site Web est déterminé généralement sans tenir compte de la qualité scientifique des pages contenues ;

Partie IV : Analyse de l'espace Web du Sénégal

I. La constitution du corpus

La constitution du corpus est l'étape cruciale de notre étude. Notre objectif était de rassembler avec la manière la plus exhaustive possible l'ensemble des sites Web sénégalais. Pour des raisons techniques quant à la constitution de cette liste de sites et afin d'être beaucoup plus précis dans notre analyse, nous avons décidé de ne prendre que les sites avec le ccTLD .sn. Cette procédure mettra naturellement à côté les sites Web sénégalais enregistrés sous des gTLDs comme .com, .org, .edu (...) et même certains avec des codes de pays comme .fr, .ca ou autres.

Connaissant la limite des moteurs de recherche commerciaux notamment la limitation « volontaire » des résultats, nous avons contacté le Pr. Mike Thelwall de The Statistical Cybermetrics Research Group^84(*) de l'Université de Wolverhampton (voir page 49) pour voir s'il n'y a pas un moyen de constituer ce corpus, avec une très bonne exhaustivité. Malheureusement, le crawler dont il disposait n'a pu nous trouver que 79 sites correspondant à l'ensemble des sites composés au maximum de trois lettres (ex : www.xxx.sn). Passer à quatre lettres, à cinq et ainsi de suite demanderait beaucoup de temps car son programme procède en testant toutes les combinaisons possibles des noms de domaine avec le ccTLD .sn. Afin de compléter notre corpus, nous avons eu recours à Google avec la requête « site:.sn » et à Altavista avec « domain:.sn ». Avec le premier nous avons pu remonter jusqu'à 438 résultats bruts et à 1050 avec le second. Après traitement et nettoyage, le croisement entre le crawl du Pr. Thelwall et les résultats des deux moteurs a donné 333 sites, et après vérification de chaque adresse URL, il ne restait plus que 278 (voir la liste en Annexes) sites effectivement en ligne sur les 910 sites officiellement déclarés auprès de NIC Sénégal.

Cette liste de sites ainsi rassemblée n'est en fait qu'une étape vers le corpus final devant servir à l'analyse de l'espace Web du Sénégal. L'étape suivante a concerné d'une part, le choix et l'affectation de métadonnées devant permettre la description de chaque site, et d'autre part, la recherche des liens hypertextes. S'inspirant en grande partie de la typologie dressée par Prime-Claverie (2004)^85(*), nous avons choisi les champs suivants pour décrire chacun des sites Web Sénégalais :

- TA (type d'autorité) : c'est la personne morale ou physique qui est à l'origine de la création du site et qui en assure le fonctionnement et la mise à jour et est ainsi responsable du contenu. L'autorité peut ainsi être une institution, une entreprise, une association ou une personne physique.

- TS (type de site) : on distinguera dans ce champs quatre types de site : le homeserveur qui fait une présentation de l'autorité du site en question et donne les différents types d'information qui permettent de le décrire. C'est le type de site le plus fréquent. Ensuite nous avons le site de recherche qui, comme son nom l'indique permet d'accéder aux différentes ressources du Web. Il peut s'agir des moteurs de recherche ou les annuaires. Le troisième type de site est le site de ressources qui propose des ressources propres à l'exemple des bases de données ou les bibliothèques. Enfin, nous avons les services web qui proposent des services liés à la vie sur le Web et l'Internet, comme des messageries, forums de news...

- LI (liens internes) : nous entendons par là l'ensemble des liens hypertextes partant du site et pointant vers d'autres sites de l'ensemble (.sn). Le but étant d'étudier par la suite le degré de connectivité des sites sénégalais.

- LE (liens externes) : pour ce qui est des liens externes, c'est l'ensemble des liens partant du site et pointant vers d'autres ccTLDs autre que le (.sn) et vers les gTLDs.

- TLD (Top Level Domain) : ce champ fait en quelque sorte la récapitulation des différents TLDs (les génériques et les codes de pays) trouvés dans les champs LI et LE et permettra de répartir et d'analyser la présence de chacun d'eux dans le corpus global.

L'habillage des champs Types d'autorité (TA), Type de sites (TS) et Domaines (DO), a été effectué après une visite de chaque site afin de bien nous assurer de l'exactitude de ces données. Ainsi, après cette première affectation exécutée, la tâche principale de la constitution de ce corpus est la recherche des liens hypertextes. Nous avons choisi de ne pas utiliser les moteurs de recherche commerciaux pour des raisons évoquées plus haut. Notre choix s'est porté sur le robot Soscibot^86(*), développé et mis en libre utilisation en ligne par l'équipe du Pr. Thelwall pour faciliter en quelque sorte le travail des wébomètres et cybermètres. Cet outil, spécialement fait pour ces genres d'études est relativement facile à utiliser avec d'abord l'interface de recherche. Notons que le démarrage de l'opération de recherche nécessite au préalable la mention d'une adresse e-mail accompagnée d'un petit commentaire (sur les raisons du crawl) que le robot envoie aux sites parcourus pour les avertir qu'ils sont en train d'être aspirés. Question d'éthique !

Après l'étape de recherche qui peut durer de quelques secondes à plusieurs heures en fonction de la taille du site à aspirer, l'interface résultats nous offre un rapport complet sur le crawl avec le nombre de pages contenues dans le site, le nombre de liens trouvés, la répartition des noms de domaine, etc.

Figure 10 : Interface de restitution des résultats d'un crawl par Soscibot

Les liens hypertextes ainsi fournis vont subir un traitement avant leur affectation dans le corpus. Ainsi, nous avons procédé d'abord à une normalisation et à une réduction des liens à leur forme canonique (ex : le lien www.brvm.org/fr/marche/donnees/cours_obligations.htm deviendra www.brvm.org). Car, vu que notre objectif général est d'étudier le degré de connexion entre sites Web, conserver la forme complète des hyperliens trouvés n'augmenterait en rien à la pertinence de notre analyse et ne ferait qu'encombrer notre corpus.

Le moteur Soscibot, en dépit des nombreux avantages qu'il présente notamment la possibilité de remonter jusqu'à 5000 liens par site (alors que les moteurs de recherche commerciaux comme Google ne restituent pas plus de 300) mais aussi la restitution des résultats en différentes catégories bien classifiées et dans des formats exportables sur Excel, il comporte quelques limites. L'une de ses limites est l'impossibilité d'aspirer des sites dont la page d'accueil est une application Flash ou Java. Ainsi, nous avons une vingtaine de sites qui n'ont pas donné de résultats. Nous sommes obligés d'entrer par une page intérieure en espérant parcourir tout le site et de récupérer la totalité des liens. Par ailleurs, on note aussi la particularité du site de l'IRD ( www.ird.sn). En fait, avec plusieurs tentatives, c'est le seul site que le robot n'a pu parcourir. Pourtant sa page d'accueil n'est ni en application Flash ni en Java. Peut-être est-il protégé des aspirations.

Une fois finie la recherche suivie des opérations de nettoyage, de normalisation et d'affectation des liens dans le corpus, voici un exemple de la forme que prendra notre corpus final :

LE- le-senegal.com; .funredes.org; .famafrique.org; .anais.org; .fdd.org; .intracen.org; .unrisd.org;

Comme on le voit, la compilation du corpus a été effectuée sous la forme d'une référence bibliographique, et ceci dans le but d'avoir un format compatible avec le logiciel que l'on va utiliser pour l'exploitation et l'analyse de nos données, Mathéo Analyzer,^87(*) outil bibliométrique assez complet notamment avec les corpus volumineux.

Avant d'entrer dans la phase analyse, nous allons présenter d'abord dans le tableau suivant les grands chiffres de notre corpus :

Comme nous l'avons signalé plus haut, les liens internes sont l'ensemble des liens vers les sites de l'ensemble (.sn). C'est pourquoi nous constatons une absence de gTLDs dans ce groupe et un ccTLD unique, le .sn.

Dans la partie suivante, nous tenterons d'approfondir et de détailler ces chiffres pour bien comprendre l'espace Web du Sénégal notamment la manière dont il est structuré et comment il s'ouvre au monde (le reste de la toile).

II. Comment est structuré cet espace Web ?

Etudier la structure de l'espace du Web du Sénégal, revient à essayer de voir quels sont les différents domaines d'activité qui sont présents en ligne dans les sites sénégalais, les différents acteurs, les différents types de site ainsi que la manière dont les sites de l'ensemble (.sn) se sont interconnecté.

II.1. Secteurs d'activité, types d'autorité et types de site

Nous avons relevé 75 secteurs d'activité allant de l'informatique à l'artisanat en passant par la presse et la pêche. Dans les 278 sites sénégalais composant notre corpus de traitement, certains domaines sont très présents comme le montre la figure suivante :

Figure 11 : Répartition des différents secteurs d'activités des sites sénégalais

Tout naturellement, on retrouve en tête des secteurs les plus présents, les activités dont Internet présente une excellente opportunité quant à leur développement et leur expansion. C'est le cas d'abord de l'informatique et de tous les domaines tournant autour des technologies de l'information. Ces domaines ont connu un regain d'intérêt grâce notamment à l'existence de formations d'assez bonne qualité. Le Sénégal se place parmi les premiers pays du Tiers monde pour le nombre d'ingénieurs et de techniciens supérieurs par rapport à sa population (...). Le pays compterait 342 ingénieurs en informatique et 467 techniciens supérieurs par million d'habitants^88(*). Ce qui n'a pas manqué de créer des vocations et de faire exploser ces domaines à travers la vitrine qu'offre le Web. Ensuite, l'enseignement et le tourisme (avec l'immobilier et l'hôtellerie) occupent une place qui mérite d'être signalée. En effet, l'enseignement a toujours été aux avant-postes dans l'appropriation et la pénétration de l'Internet au Sénégal. Nous rappelons juste que le premier serveur Web d'Afrique de l'Ouest a été installé à Dakar par l'Agence Universitaire de la Francophonie en 1995 à l'Université Cheikh Anta Diop (UCAD), et les instituts et écoles de formation supérieures ont très vite adopté Internet et y ont assuré leur présence. Enfin, le secteur touristique est assez bien représenté, chose qui n'est pas surprenante quand on connaît l'importance que représente ce secteur pour l'économie sénégalaise. La vitrine d'exposition internationale qu'offre Internet ne peut que tout naturellement attirer les acteurs de ce domaine. Notons aussi, les bonnes places du secteur de l'environnement (notamment sous l'impulsion des ONG internationaux et locaux), de la finance et du consulting et de l'administration avec les différentes institutions gouvernementales.

Nous avons choisi pour la catégorisation de notre corpus trois types d'autorité, c'est à dire la personne physique ou morale responsable de la création du site : Une entreprise, une institution, une association ou une personne physique.

Sur les 278 sites du corpus, 153 sont des sites d'entreprises, 78 des sites d'institutions et 47 des sites d'associations et 0 pour les sites de personnes physiques.

L'absence assez remarquée de sites individuels est peut-être à chercher dans les prix assez prohibitifs de la création de site Web mais aussi d'acquisition et de gestion d'un nom de domaine (.sn). En dehors des entreprises, des institutions et de quelques associations, très peu de personnes individuelles oseraient investir dans un nom de domaine même si les prix appliqués par NIC Sénégal ont fortement baissé ces dernières années. Et puis, l'acquisition de nom de domaine à très bas prix et l'hébergement gratuit de sites personnels sont aujourd'hui très répandus sur le Web. A part cela, nous notons une forte présence des sites d'entreprise ; chose qui peut montrer une assez bonne appropriation de l'outil Internet par les entreprises sénégalaises. Sachant que l'e-commerce n'est qu'à ses premiers balbutiements avec quelques sites comme Trade Point Sénégal^89(*) qui jouent le rôle de pionnier, nous tenterons d'affirmer que cette présence des entreprises est surtout d'ordre publicitaire et de marketing notamment avec la vitrine qu'offre le Web. Les sites d'institutions sont dans leur grande majorité les sites des institutions et des directions gouvernementales, des universités, des écoles et instituts de formation supérieure mais aussi des grands organismes internationaux. Le gouvernement sénégalais s'est toujours investi pour assurer une assez bonne pénétration de cet outil dans les sphères administratifs. L'e-gouvernement initié par l'Etat sénégalais en janvier 2002 pour rendre accessibles, en ligne, aux citoyens les différents services de l'Etat en est une preuve^90(*). La présence assez importante de grands organismes internationaux au Sénégal avec leur portée mondiale en est aussi pour beaucoup dans le dynamise de cette catégorie de sites. Le mot dynamisme est aussi ce qui peut caractériser les sites d'associations, même s'ils ne représentent qu'une petite partie des sites composants le corpus. Les ONG nationales, principaux acteurs de ce secteur, sont très actives dans le développement et l'appropriation de l'Internet comme l'a bien abordé Caroline Dulau^91(*).

Pour bien approfondir notre compréhension des différents types d'autorité, essayons de les analyser avec les différents secteurs d'activité à travers un réseau asymétrique.

Figure 13 : Réseau asymétrique entre type d'autorité et secteur d'activité

Il apparaît dans cette figure que, à part quelques domaines comme le syndicalisme, la santé, la coopération, la douane, l'enseignement (...) les entreprises touchent à peu prés à tous les secteurs d'activité ; ce qui est normal quand on sait que les sites d'entreprises représentent plus de la moitié des sites recensés. Dans les sites d'institutions, nous rencontrons aussi un nombre assez important et varié de secteurs d'activité dont certains se retrouvent aussi dans les sites d'entreprise et dans les sites d'association et d'autres qui lui sont exclusifs comme l'enseignement, la diplomatie, la coopération, la douane, etc. Les sites d'association, moins nombreux, touchent presque normalement peu de domaines d'activité. Notons juste qu'il y a aussi des secteurs qui leur sont exclusifs comme par exemple le syndicalisme.

Les 278 sites sénégalais, classés par type de site, se répartissent de la manière suivante :

Nous voyons que les homeserveurs sont les plus présents avec presque la moitié des sites recensés ; ce qui est dans « l'ordre normal » des choses quand on sait que ce type de site reste le plus nombreux sur Internet. Les sites de ressources occupent aussi une place assez important. Voir que 46% des sites sénégalais développent et proposent des ressources propres sur des domaines divers et variés montre qu'il y a un réel travail effectué sur le contenu. Ce qui est une excellente chose ; car, à notre avis, il ne s'agit pas seulement d'être sur le net, encore faudrait-il y exister et surtout y apporter du contenu sur les richesses notamment socio-culturelles du pays. Mais, compte tenu du phénomène d'extraversion du contenu des sites sénégalais (du contenu qui concerne beaucoup plus l'extérieur que le Sénégal) constaté par Thomas Guignard^92(*), cette présence assez remarquée des sites de ressources est peut-être à aborder avec quelques réserves. Etant donné que notre méthodologie d'analyse n'est pas portée sur l'étude du contenu des pages Web mais plutôt sur les hyperliens, nous verrons plus loin s'il existerait ce même phénomène dans les habitudes de « sitations » entre sites sénégalais. Les sites de recherche qui représentent 4% de l'ensemble des sites du corpus sont presque des sites portails donnant accès à des ressources du Web.

Comme pour les types d'autorité, nous allons faire une analyse réseau asymétrique des différents types de sites avec les secteurs d'activité.

Nous constatons dans cette figure, une quasi égale répartition des secteurs d'activité entre les homeserveurs et les sites de ressources qui, par ailleurs, représentent respectivement 49% et 46% des 278 sites recensés. Nous constatons aussi que sur les 75 domaines relevés, seuls 5 secteurs se retrouvent à la fois dans les homeserveurs, dans les sites de ressources et dans les sites de recherche. Il s'agit de l'informatique, de la politique, de la culture, de la recherche et des services. On remarque « l'isolement » de la catégorie services Web avec trois sites et un seul secteur d'activité ; ceci est normal puisque ce type de sites proposent des services liés seulement à la vie du Web.

Pour compléter cette partie consacrée à la description du corpus à travers les principales caractéristiques comme le type d'autorité, le type de site et les secteurs d'activité, une analyse réseau entre types de site et types d'autorité s'impose. Ceci va nous permettre de cerner l'importance de chaque type de site en fonction de l'organisme qui est à l'origine de sa création ; et inversement de comprendre la place de chaque type d'autorité à travers du ou des type(s) de site qu'il a créé(s).

Nous voyons que parmi les trois types d'autorité, les sites des entreprises sont les seuls où nous rencontrons tous les types de sites. Si la grande majorité des sites d'entreprise sont des homeserveurs, chez les sites d'institutions, nous remarquons une nette prédominance des sites de ressources avec une importance accordée à la création de contenu. Ce qui est une très bonne chose car il y va tout simplement du rayonnement de l'espace Web du Sénégal. Dans la même lancée, nous retrouvons aussi les sites d'association qui, avec seulement 17% de l'ensemble des sites recensés, représentent prés de 27% des sites de ressources. Par ailleurs, nous notons que la totalité des services Web sont des sites d'entreprises. Les sites de recherche, composés dans la plupart de portail, sont aussi dans leur majorité des sites d'entreprise.

II.2. Le degré d'interconnexion dans l'ensemble (.sn)

Cette partie représente une importance de premier ordre. Car après avoir effectué la description de notre corpus à travers les différents secteurs d'activité, les types d'autorité et les types de site, analyser le degré d'interconnexion dans l'ensemble (.sn) est nécessaire pour voir les « affinités » entre sites, les sites qui « sitent » le plus et ceux qui reçoivent plus de «sitations » (...), avant d'entamer l'étude de leur « l'externalisation » vers le reste du Web.

Nous avons rassemblé dans un même champ (LI : liens internes), l'ensemble des liens émis par les sites de l'ensemble (.sn) vers cette même ensemble. Ceci à l'avantage de nous permettre d'avoir à la fois, la liste des sites qui émettent des liens mais aussi ceux qui en reçoivent. On pourra ainsi bien cerner les degrés de visibilité et de rayonnement des différents sites.

Les liens internes sont au total 706 liens très inégalement répartis entre les sites. Car, sur les 278 sites composant le corpus, ces liens ainsi dénombrés sont seulement le fait de 138 sites. Ce qui revient à dire qu'il y a 140 sites, donc plus que la moitié, qui n'ont émis aucun lien sortant vers l'ensemble (.sn). La première conclusion qu'on peut tirer de ce constat, en attendant d'y voir plus clair, est que, d'une part, l'ensemble (.sn), du point de vue de son degré d'interconnexion, est très dispersée au niveau de sa « périphérie » et même des sites qui sont carrément en dehors. D'autre part, il y a un noyau constitué de quelques sites et qui émettent le plus de « sitations ». Pour approfondir notre analyse, nous allons prendre parmi ces 138 sites « sitants » (sites qui émettent des liens vers d'autres sites), les 30 premiers que nous avons représentés dans le tableau suivant :

Nom sites	Nb. de liens émis	TA	TS
www.sentoo.sn	44	Entreprise	Site de recherche
www.gouv.sn	43	Institution	Site de ressources
www.homeviewsenegal.sn	30	Entreprise	Site de recherche
www.dakarville.sn	24	Institution	Site de ressources
www.refer.sn	23	Institution	Site de recherche
www.arc.sn	22	Entreprise	Homeserveur
www.revedafrique.sn	20	Entreprise	Homeserveur
www.obs-industrie.sn	19	Institution	Site de ressources
www.emploi.sn	14	Entreprise	Site de recherche
www.imedia.sn	14	Entreprise	Homeserveur
www.technisoft.sn	13	Entreprise	Homeserveur
www.art.sn	12	Institution	Site de ressources
www.panos.sn	11	Institution	Site de recherche
www.enda.sn	10	Institution	Site de ressources
www.gainde2000.sn	10	Institution	Site de ressources
www.infoconseil.sn	10	Entreprise	Site de ressources
www.komkom.sn	10	Entreprise	Site de ressources
www.rts.sn	10	Institution	Site de recherche
www.sncds.sn	10	Entreprise	Homeserveur
www.sodefitex.sn	10	Entreprise	Homeserveur
www.minfinances.sn	9	Institution	Site de ressources
www.siagro.sn	9	Association	Site de ressources
www.capicom.sn	8	Entreprise	Site de recherche
www.cnp.sn	8	Association	Site de ressources
www.festivalthies.sn	8	Association	Site de ressources
www.spids.sn	8	Association	Site de ressources
www.2b1.sn	7	Entreprise	Homeserveur
www.arconline.sn	7	Entreprise	Site de recherche
www.education.sn	7	Institution	Site de ressources
www.fnuap.sn	7	Institution	Site de ressources
TOTAL	437	14 E ; 12 I ; 4 A	15 RS ; 8 RC ; 7 HS

Nous voyons que ces 30 sites ont émis 437 des 706 liens internes globaux, soit plus de 60%. Ces sites sont en grande majorité, des sites d'entreprises et des sites d'institutions. Ces derniers, qui sont tous des sites d'institution administratives et d'organismes internationaux, montrent ici tout leur dynamisme quand on sait qu'ils ne représentent que 28% de l'ensemble des sites du corpus comparé au 55% des sites d'entreprise. Du fait aussi qu'ils soient dans leur grande majorité des sites de ressources, avec le souci de développer du contenu notamment local, c'est donc en toute évidence qu'ils soient ouverts aux sites sénégalais donc la création de liens vers eux. Pour les sites d'entreprises, (généralement connus pour être plus « introvertis » avec les homeserveur qui se cantonnent souvent à une présentation descriptive de l'entreprise), on peut dire que leur bonne place dans les sites « sitants » est due en partie à la présence de la quasi totalité des sites de recherche (ils sont 10 dans le corpus, et sur les 8 retrouvés sur cette liste, 6 sont des portails d'entreprise).

Pour approfondir notre compréhension du degré d'interconnexion dans l'ensemble (.sn), après avoir décrit les « sitants », nous allons étudier les « sités », c'est à dire les sites qui reçoivent des liens de la part d'autres sites). Et comme pour les premiers, nous allons choisir les 30 premiers sites « sités ».

Nom sites	Nb. de Liens reçus	TA	TS
.gouv.sn	40	Institution	Site de ressources
.lesoleil.sn	25	Entreprise	Site de ressources
.walf.sn	22	Entreprise	Site de ressources
.ucad.sn	18	Institution	Site de ressources
.sudonline.sn	18	Entreprise	Site de ressources
.imedia.sn	14	Entreprise	Homeserveur
.arc.sn	14	Entreprise	Homeserveur
.refer.sn	12	Institution	Site de recherche
.primature.sn	12	Institution	Site de recherche
.enda.sn	10	Institution	Site de ressources
.sentoo.sn	10	Entreprise	Site de recherche
.lequotidien.sn	10	Entreprise	Site de ressources
.bicis.sn	10	Entreprise	Homeserveur
.osiris.sn	9	Association	Site de ressources
.metissacana.sn	9	Entreprise	Site de ressources
.lobservateur.sn	9	Entreprise	Site de ressources
.apix.sn	9	Institution	Site de ressources
.sonatel.sn	8	Entreprise	Site de ressources
.obs-industrie.sn	7	Institution	Site de ressources
.aps.sn	7	Institution	Site de ressources
.rts.sn	7	Institution	Site de recherche
.ird.sn	7	Institution	Site de recherche
.isoc.sn	6	Institution	Homeserveur
.laposte.sn	6	Entreprise	Homeserveur
.esp.sn	6	Institution	Site de recherche
.homeviewsenegal.sn	5	Entreprise	Site de recherche
.ugb.sn	5	Institution	Site de ressources
.nic.sn	5	Institution	Site de ressources
.ssi.sn	5	Entreprise	Homeserveur
.ita.sn	5	Entreprise	Homeserveur
TOTAL	330	15 E ; 14 I ; 1A	16 RS ; 7RC ; 7 HS ;

Ici aussi nous constatons à peu prés le même phénomène d'inégale répartition des liens entre un coeur (avec peu de sites rassemblant un grand nombre de liens) et une « périphérie » (regroupant un grand nombre de sites avec peu de liens). Sur les 278 sites, ils ne sont que 155 à être « sités ». Cependant, la tendance de l'influence du « coeur » par rapport à la « périphérie » est beaucoup moins importante. Car, les trente premiers sites « sités » n'ont reçu que 330 liens sur les 706, soit prés de 47% comparé au 60% des 30 premiers sites « sitants ».

Les sites d'entreprise et les sites d'institution, comme type d'autorité, se partagent presque équitablement ce tableau. Pour ce qui est de types de site, les sites de ressources sont les plus nombreux comme ce fût le cas dan le tableau précédent, ce qui montre encore une fois leur importance dans l'espace Web sénégalais.

Afin de mieux affiner notre compréhension de l'interconnexion dans l'ensemble (.sn), nous avons fusionné ces deux tableaux. Le tableau issu de cette fusion nous a ainsi livrés une liste de 9 sites et que l'on peut considérer comme les plus grands sites « sitants » et « sités » de l'espace Web du Sénégal.

Tableau 5 : Liste des plus grands sites « sitants » et « sités » de l'espace (.sn)

Figure 17 : Histogramme des plus grands sites « sitants » et « sités »

Ces 9 sites que nous pouvons considérer comme le « noyau » de l'espace Web du Sénégal et qui acquièrent de ce fait, une visibilité et un rayonnement assez important grâce au nombre de « sitations » émis et reçus, sont connu pour être des sites d'envergure, c'est à dire des sites très importants par leur taille et par l'institution, l'entreprise ou l'organisme qui en sont la responsabilité. Par exemple, nous avons parmi ces sites, la vitrine Internet de l'Etat du Sénégal (.gouv.sn), les trois plus grands sites portail et de recherche (.sentoo.sn, .homeviewsenegal.sn, .refer.sn) de l'ensemble (.sn) et enfin le site de l'un des plus dynamiques organismes internationaux installés au Sénégal, Enda Tiers-Monde (.enda.sn).

A l'opposé de ces sites qui jouent des rôles actifs dans l'espace Web sénégalais, nous trouvons des sites qui ne sont ni « sitants », ni « sités », donc qui sont complètement déconnectés de l'ensemble. Nous en avons dénombrés 88, soit plus de 30% du corpus ; ce qui est assez énorme.

Nous avons résumé ce que nous venons développer sur l'interconnexion dans le tableau suivant :

Tableau 6 : Tableau récapitulatif du degré de connectivité des sites sénégalais

En nous inspirant de la théorie du « Noeud Papillon » « Bow Tie » Theory (voir page 58) élaboré par Border et al. (2000) pour montrer la complexité de la connectivité du Web et qu'il n'est pas aussi densément connecté comme l'ont affirmé Albert, R et al. (1999) (voir page 58), nous avons essayé de représenter la connectivité de l'espace Web du Sénégal.

Figure 18 : Représentation de la connectivité de l'espace Web du Sénégal en « Bow-Tie »

Evidemment, notre objectif dans cette représentation n'est pas de mesurer le diamètre de l'espace Web du Sénégal encore moins de calculer la distance moyenne, en nombre de clicks, entre tel et tel site. En plus, nous ne travaillons pas sur des pages Web comme les auteurs de cette théorie, mais sur des sites. Ce que nous voulons c'est de montrer simplement que, à l'instar de l'image du Web démontrée par Border et al., l'espace Web du Sénégal est aussi très loin du concept de « Small world » fortement connecté. Ainsi, l'entité « Sitants » regroupe l'ensemble des sites qui ont émis des liens vers l'ensemble (.sn) sans en recevoir aucun. L'entité « Sités » rassemble les sites qui ont reçu des liens de la part d'autres sites (.sn) sans en émettre aucun. Toutes ces deux entités sont intrinsèquement liées au coeur de ce système qui englobe les sites qui émettent et reçoivent à la fois des liens. Nous précisons que, dans l'étude de Border et al., cette entité centrale qu'ils appelaient Strongly Connected Component (Composants Fortement Connectés) est la seule où toutes les pages sont reliées les unes aux autres par un chemin. Nous ne pourrons faire ce parallélisme en émettant la même conclusion dans notre cas, car encore une fois, notre but n'est pas de calculer le chemin entre les sites. Nous affirmons juste que, dans notre étude, les sites de ce coeur servent de passage obligé pour passer d'un site de l'entité « Sitants » vers un site de l'entité « Sités » même s'il n'est pas à exclure pour certains cas un chemin « Sitants »-« Sités » sans passer par le coeur. Enfin, il y a une entité qui est carrément déconnectée du reste de l'ensemble (.sn), sans liens émis encore moins reçus. La taille de cette entité est assez importante, prés du tiers du corpus ; ce qui confirme encore une fois la dispersion de l'espace Web du Sénégal. Nous avons essayé d'en comprendre un peu mieux sur ces sites en étudiant par exemple quels types de sites ils sont :

Figure 19 : Réseau asymétrique entre les sites « Ni sitantst, ni Sités » et les types de sites

Comme on s'y attendait, les sites complètement déconnectés de l'espace Web sénégalais sont en majorité des homeserveurs. Ils s'opposent aux sites de recherche qui sont complètement absents dans cet ensemble. Pour ce qui est des sites de ressources (25 sites sur 88) leur présence dans cet ensemble déconnecté parait un peu paradoxale compte tenu notamment de leur caractéristique et de leur nature plus ancrées sur le développement de contenu. Peut-être, sont-ils orientés vers des sites hors espace Web du Sénégal. Quoiqu'il en soit, vu la taille assez importante de cet ensemble déconnecté, ajouté à la présence de sites de ressources, nous avons tendance à confirmer les constats de Thomas Guignard (2002) sur l'extraversion des sites sénégalais. Cependant, la forte proéminence du « noyau » avec 37% des sites du corpus, est là pour montrer que l'espace Web du Sénégal présente un degré d'interconnexion assez raisonnable.

Qu'en est-il maintenant de ses liens externes et de ses connexions avec les sites hors ensemble (.sn) ?

III. Etude des hyperliens externes

Après l'étude du degré d'interconnexion interne des sites sénégalais, c'est dans cette phase que nous entamons véritablement « l'extériorisation » de ces sites et la manière dont ils se lient au reste de la toile mondiale. Cette partie est divisée en deux points : Le premier point va concerner l'analyse des liens externes des sites sénégalais vers les noms de domaine génériques (.com, .edu, .org, ...) et le deuxième point abordera l'étude des liens externes vers les ccTLDs à travers une approche géographique.

III.1. L'espace Web sénégalais et les gTLDs

Les noms de domaine génériques trouvés dans notre corpus sont au nombre de 9 :

· .com : ce sont les sites à usage économique et commerciale et sont souvent utilisés pas les entreprises et les sociétés.

· .org : ce nom de domaine est réservé aux organisations à caractère non commercial et aux associations à but non lucratif.

· .net : son usage est réservé aux organisations qui offrent des services Internet ou de téléphonie à une très grande échelle.

· .edu : usage à caractère éducatif, ce nom de domaine est utilisé par exemple par les écoles et les universités.

· .gov : c'est un nom de domaine réservé aux institutions gouvernementales, notamment aux Etast-Unis ; le .gouv est ce qui le plus souvent utilisé ailleurs.

· .info : réservé aux organisations évoluant dans le domaine de l'information.

· .aero : réservé aux institutions s'activant dans le domaine de l'aéronautique.

La totalité des liens vers ces neuf gTLDs est de 2353 correspondant à 1636 sites différents. Ces « sitations » vers ces noms de domaines génériques représentent 68% de l'ensemble des liens externes. Et voici comment ils se répartissent :

Figure 20 : Répartition des liens externes par noms de domaine génériques (gTLDs)

Cette « préférence » vers les noms de domaine génériques peut s'expliquer en partie par le fait que la plupart de ces noms de domaines, particulièrement les .com, sont de loin les sites les plus présents sur le Web. Sur cette graphique, la prédominance des .com et .org saute à l'oeil avec à eux deux prés de 84% des liens vers gTLDs. Mais, à part l'aperçu général qu'ils nous donnent, ces chiffres ne nous aident pas pour autant dans la compréhension de la manière dont l'espace Web du Sénégal s'ouvre au reste du net. Ainsi nous faudrait-il aborder ces liens vers les gTLDs d'abord sous l'angle des quatre entités développées plus haut dans le « Bow-Tie » et ensuite à travers les différents types d'autorité et types de site :

Tableau 7 : Répartition des liens vers les gTLDs (.com, .org, .net, .edu, .int) par les sites sénégalais

Comme on l'a vu plus haut, ces quatre entités sont les catégories qui se sont dégagées de notre classement des sites sénégalais en fonction de leur niveau d'émission et de réception de liens. Il s'agit ici de liens internes c'est à dire les liens effectués dans l'ensemble (.sn).

Les liens externes émis vers ces cinq noms de domaines génériques par les différentes entités se répartissent comme suit :

Figure 21 : Répartition des liens vers les gTLDs (.com, .org, .net, .edu, .int) par les sites sénégalais

L'entité « Sitants et Sités », constituée de 103 sites, était le noyau autour duquel gravitait le reste des sites (à part les sites déconnectés, « ni Sitants ni Sités »). Ce sont les seuls sites qui ont à la fois émis et reçu des liens, d'où l'importance de leur rôle dans l'interconnexion de l'espace Web sénégalais. Vu cette figure, nous voyons une continuation de l'importance et du dynamisme de ces sites dans « l'extériorisation » de l'espace Web du Sénégal notamment vers les noms de domaine génériques, en attendant d'aborder les ccTLDs. La figure suivante illustre bien cette ouverture des sites « noyau » du corpus par rapport aux autres sites :

Figure 22 : Graphe comparative des sites sénégalais vers les gTLDs (.com, .org, .edu, .net, .int)

Les sites qui ont émis des liens internes sans en recevoir aucun sont aussi assez présents avec 16% des liens vers ces gTLDs. Par ailleurs, si on regarde la faiblesse des « sitations » des sites qui n'ont fait que recevoir de liens de l'ensemble (.sn) sans en émettre aucun mais aussi des sites qui n'en ont émis ni reçus, on est tenté de dire que les sites trouvés dynamiques à l'intérieur de l'espace (.sn) pour l'émission de liens sont aussi ceux qu'on retrouve très présents dans les « sitations » émises vers les noms de domaine génériques. Cette conclusion, appelle une autre hypothèse : le fait que la moitié du corpus (140) n'aie pas émis de liens vers les autres sites sénégalais n'est peut-être pas dû à une « extraversion » dans leurs « sitations » qui se tournerait plus vers l'extérieur que vers l'espace Web du Sénégal. Il peut tout simplement être le fait que ces sites dans leur grande majorité se satisfont d'une simple présence sur le Web sans éprouver le besoin de se lier à d'autres sites. Nous allons continuer à observer ces sites dans l'étude des ccTLDs pour voir si on aura le même phénomène. En attendant, continuons à approfondir les liens vers les gTLDs à travers les types d'autorité et les types de site :

Tableau 8 : Répartition des cinq gTLDs (.com, .org, .edu, .net, .int) par types d'autorité et par types de sites

Figure 23 : Comparaison des cinq gTLDs (.com, .org, .net, .edu, .int) par rapport aux types d'autorité et aux types de site

Le premier enseignement qu'on peut tirer de ce tableau (matérialisé par cette graphique), et que, entre les sites d'entreprise et les sites d'institution, nous pouvons presque dire que leur nombre de « sitations » vers les gTLDs est inversement proportionnel à leur poids dans le corpus en terme de nombre de sites. Avec seulement 28% du corpus, les sites d'institution émettent presque autant de liens vers les .com et les .edu que les sites d'entreprise qui composent pourtant 55% du corpus. Et pour ce qui est des liens vers les autres noms de domaine génériques, nous constatons une nette prédominance des sites d'institution surtout vers les .org avec prés de 70% des liens ; ce qui montre tout simplement le dynamisme de ces sites mais aussi leur ouverture aux autres sites d'organismes internationaux et d'association du Web avec qui ils ont beaucoup plus d'affinité et de centres d'intérêts. Donc l'existence de liens devient presque naturelle. La bonne performance des sites d'association est peut-être aussi à classer dans cette optique. Ces sites ont émis vers les .org à peu prés autant de liens que les sites d'entreprises alors qu'ils ne représentent que 17% du corpus.

Concernant les types de sites, dans les cinq noms de domaines génériques, les sites de ressources ont émis 48% des liens vers les .com, 66% vers les .org, 57% vers les .net, 54% vers les .edu et 76% vers les .int. C'est chiffres contrastent presque avec ceux des homeserveurs surtout quand on sait qu'ils constituent la moitié du corpus. Ceci s'explique par le fait que, les sites de ressources, plus soucieux avec le contenu et les informations proposées, sont naturellement plus ouverts en terme de « sitations » que les homeserveurs souvent cantonnés dans la description de leur organisme créateur. Ce même souci du contenu et de la richesse des informations proposées explique aussi la place des sites de recherche qui font même mieux que les homeserveurs.

La conclusion que l'on peut tirer est que, le dynamisme constaté au niveau des « sitations » internes (vers les sites sénégalais) pour les sites d'institution mais aussi pour les sites de recherche se retrouve ici au niveau des « sitations » externes (précisément vers les gTLDs) pour ces mêmes types de site. On verra si on aura le même constat au niveau des liens émis vers les ccTLDs.

III.2. Approche géographique des liens émis par les sites sénégalais

Après l'étude des liens vers les gTLDs, cette partie est le deuxième point de l'analyse consacrée aux liens externes émis par les sites sénégalais. Les « sitations » émises vers les ccTLDs sont au nombre de 1236 correspondant à 899 sites différents et à 86 pays. Nous avons réparti ces pays en 3 zones géographiques : Afrique, Europe-Amérique du Nord et Reste du Monde. Chacune de ces zones géographiques fera l'objet d'une analyse plus détaillée, avec l'identification des pays « sités » par les sites sénégalais. Mais, voyons maintenant comment se répartissent les « sitations » vers les ccTLDs.

La figure suivante est une parfaite illustration de ce tableau et schématise le déploiement des « sitations » émises par les sites sénégalais à travers le monde selon nos trois zones géographiques préalablement identifiées.

Figure 24 : Déploiement des liens émis par les sites sénégalais à travers le monde

Si le nombre de pays recevant des liens de la part des sites sénégalais est quasiment égal dans chaque zone géographique (27 pour l'Afrique, 30 pour l'Europe et 29 pour le Reste du Monde), le nombre de liens émis vers ces zones est très inégalement réparti. La zone Europe-Amérique du Nord à elle seule reçoit plus de 83% des liens externes vers les ccTLDs. La zone Afrique et surtout la zone Reste du Monde se manifestent par la faiblesse des « sitations » reçues de la part des sites sénégalais. On y reviendra plus loin. Voyons maintenant la répartition de ces liens par types d'autorité et par types de site.

Les sites d'institution qui ne représentent que 28% du corpus sont les plus actifs quant à la création de liens vers les ccTLDs. Ceci n'est qu'une confirmation du dynamisme de ces sites déjà constaté dans l'interconnexion dans l'ensemble (.sn) et dans les « sitations » vers les noms de domaine génériques. A l'opposé de ces sites, nous avons les sites d'entreprise qui, pourtant avec prés de 55% du corpus, n'ont émis que 34% des liens vers les ccTLDs. Et comme on l'avait constaté au niveau des noms de domaine génériques, le caractère introverti de ces sites fait qu'ils ne sont pas aussi dynamiques dans l'émission de liens externes que les sites d'institution par exemple. La portée des sites d'association reste aussi très limitée.

Comme on s'y attendait vu leur dynamisme dans les liens internes et vers les gTLDs, les sites de ressources montrent ici encore une fois leur ouverture au Web pour parler de manière plus générale. Mais ce qui est remarquable dans ce tableau, c'est surtout le nombre de liens externes émis par les sites de recherche. Rappelons que ces sites ne sont que 10 dans le corpus. Comparé aux 137 homeserveurs recensés dans le corpus, il apparaît donc clairement que ces sites sont largement ouverts sur l'extérieur en plus de leur assez bonne présence dans l'espace Web sénégalais. Pour les homeserveurs, comme constaté dans les noms de domaine génériques, leur poids dans le corpus contraste souvent avec leur influence dans l'émission de liens.

Pour finir cette description générale des liens vers les ccTLDs, et comme on l'avait effectué pour les gTLDs, nous allons analyser ces « sitations » sous l'angle des quatre catégories de sites que nous avions identifiées, selon leur degré d'émission ou de réception de liens internes (c'est à dire à l'intérieur de l'ensemble .sn).

Tableau 12 : Répartition des liens vers les ccTLDs par entités (« Sitants et Sités », « Seulement Sitants », « Seulement Sités », « Ni Sitants, Ni Sités »)

Les sites « Sitants et Sités » qui sont le noyau de notre corpus ont émis la grande partie des liens externes vers les ccTLDs. Nous avions vu plus haut que ces mêmes sites avaient émis 76% des liens externes vers les gTLDs. Leur dynamisme ne se limite donc pas à l'intérieur de l'ensemble (.sn). Ils sont aussi en première ligne quant à l'ouverture de l'espace Web du Sénégal vers le reste de la toile. Ils sont suivis tout naturellement par les sites qui n'ont fait qu'émettre des liens vers les autres sites sénégalais sans en recevoir. Mais ce qu'on note le plus dans ce tableau c'est le nombre de « sitations » émises par les sites déconnectés (qui n'ont ni émis ni reçu de liens internes c'est à dire dans l'espace Web du sénégalais). Sachant d'un côté qu'ils sont complètement déconnectés du reste de l'ensemble (.sn) et d'un autre côté les voir émettre d'abord vers les gTLDs 4% des 2353 liens et puis vers les ccTLDs 10% des 1236 liens, cela montre une sorte d'extraversion volontairement tournée vers l'extérieur que vers les sites de l'espace Web sénégalais.

III.2.1 Vers la zone Afrique

Nous commençons l'étude du déploiement géographique des liens externes émis par les sites sénégalais par la zone Afrique. La totalité des « sitations » vers l'Afrique est de 156 réparties entre 27 pays comme le montre la figure suivante :

Figure 25 : Répartition des liens émis par les sites sénégalais vers la zone Afrique

Comparé au nombre de liens émis en direction de l'Europe et vers l'Amérique du Nord, ces chiffres de l'Afrique paraissent très insignifiants. Encore plus fort, la seule France reçoit quatre fois plus de liens (594) que les 27 pays africains réunis. Ceci est d'autant plus frappant qu'il s'agit ici de pays évoluant dans les mêmes structures sous-régionales pour certains et continentales pour d'autres que le Sénégal. Ainsi, vu les réalités politiques, économiques et sociales qui les unissent, on devrait s'attendre à une traduction plus nette sur le Web de ces relations, donc à un nombre de « sitations » plus important que ce qui est constaté ici ; ce qui est une vraie extraversion, au niveau continental, des sites Web sénégalais plus « proches » du reste du monde (particulièrement de l'Europe) que des pays du continent africain. Ce qui confirme peut-être, mais sur une autre échelle, l'extraversion du contenu des sites sénégalais constatée par Guignard (2002). On peut essayer de comprendre ce phénomène à travers une étude de Chéneau-Loquay (1999)^93(*) concernant le degré de communication téléphonique entre pays africains. D'après elle, « l'Afrique se distingue par un niveau moyen du trafic international sortant, parmi les plus élevés du monde (75 mns par an et par abonné en France, 200 mns en Afrique) avec de profondes disparités ». Ceci peut s'expliquer par l'importance de l'émigration, l'extraversion des économies et la forte présence des organismes internationaux. Ce niveau élevé d'appels internationaux contraste avec une communication interafricaine assez faible notamment dans la façade maritime de l'Afrique de l'Ouest. N'est-on pas donc en train d'assister à la même configuration concernant le Web ?

La carte suivante nous renseigne sur la manière dont les « sitations » externes des sites sénégalais se déploient sur le continent africain.

Figure 26 : Déploiement géographique des « sitations » des sites sénégalais vers les pays africains

Il apparaît dans cette carte que l'Afrique de l'Ouest, c'est à dire les pays qui sont très proches du Sénégal (géographiquement, économiquement et politiquement à travers l'Union Economique et Monétaire de l'Afrique de l'Ouest) est la zone la plus présente dans les « sitations » des sites sénégalais sur le continent. L'influence évidente de la proximité géographique sur les liens entre universités démontrée par Mike Thelwall (2002)(voir page 19) s'applique peut-être ici. Quoiqu'il en soit, 71 des 156 liens émis vers le continent se dirigent vers l'Afrique de l'Ouest et touchent la quasi totalité des pays de la sous-région. L'Afrique Australe est la seconde région la plus visée avec en tête l'Afrique du Sud qui est le pays le plus « sité » en Afrique (30 liens). Son poids politique et économique sur le continent en est peut-être pour quelque chose.

Avant de terminer cette partie, nous allons brièvement voir la répartition des 27 pays « sités » en fonction des types d'autorité et des types de site.

Figure 27 : Répartition des 27 pays africains « sités » en fonction des types d'autorité

Les sites d'institution apparaissent comme le type d'institution qui touche le plus grand nombre de pays (24 sur 27). Ce constat rejoint ceux que nous avions faits plus haut au niveau de l'interconnexion dans l'ensemble (.sn) et des liens externes sur le dynamisme, l'ouverture et la portée de ces sites. Le fait que Dakar abrite, par exemple, les sièges sous-régionaux de la plupart des organismes internationaux en est pour beaucoup dans l'importance de ces sites.

Figure 28 : Répartition des 27 pays africains « sités » en fonction des types de site

Ce qu'il faut retenir dans cette figure c'est la confirmation de l'importance des sites de ressources d'abord dans l'espace Web du Sénégal mais aussi de leur ouverture vers le reste de la toile et particulièrement vers la zone Afrique. 21 pays africains ont reçu des liens de ce type de site. L'autre type de site qui mérite aussi d'être signalé est le site de recherche. Ils ne sont que 10 dans le corpus, et pourtant leur dynamisme dépasse celui des homeserveurs (14 fois plus nombreux) aussi bien au niveau des liens internes qu'externes.

III.2.2 Vers la zone Europe - Amérique du Nord

C'est la zone qui a reçu la grande partie des liens externes émis vers les ccTLDs par les sites sénégalais, 1029 des 1236 liens, soit plus de 83%. Ces liens sont inégalement répartis entre les 30 pays concernés dans cette zone :

Figure 29 : Répartition des liens émis par les sites sénégalais vers l'Europe-Amérique du Nord

C'est le nombre de « sitations » reçues par la France qui frappe dans cette figure. Cela représente plus de 57% des 1029 liens émis vers cette zone, et meilleur encore, cela fait 48% de l'ensemble des liens vers les 86 pays touchés par les sites sénégalais. Les relations assez privilégiées entre la France et le Sénégal explique le fait que l'hexagone soit la destination préférée des « sitations » des sites sénégalais. Ancien colonisateur du Sénégal, la France est le premier investisseur et premier client du Sénégal et est présente dans les capitaux des grandes entreprises sénégalaises. Elle accueille la plus importante communauté estudiantine étrangère du Sénégal sans compter les immigrés. Ces relations politico-économiques privilégiées se sont donc naturellement traduites « virtuellement » d'où la forte présence du (.fr) dans l'espace Web sénégalais. On remarque aussi un autre pays qui entretient avec le Sénégal des relations bilatérales multiples et diverses, le Canada. Aussi bien au niveau de la protection de l'environnement, de la lutte contre la pauvreté et enfin du développement des NTIC à travers par exemple le projet Acacia, la coopération canadienne est une réalité au Sénégal. Qu'il se place en deuxième rang des pays les plus « sités » par les sites sénégalais n'est donc pas une surprise. Ce qui est par contre surprenant, c'est la place de l'Allemagne. Elle n'est pas assez présente au Sénégal pour pouvoir attirer autant de liens de la part des sites sénégalais. Une vérification de notre corpus nous a révélé qu'une bonne partie de ces liens vers l'Allemagne (84 liens plus précisément) est émise par l'ambassade d'Allemagne au Sénégal ( www.ambassade-allemagne.sn). Sinon, la quasi totalité des pays européens a été touchée par les sites sénégalais, de l'Europe occidentale à l'Europe centrale en passant par la Scandinavie et les pays Baltes.

Voyons maintenant la répartition de ces pays en fonction des types d'autorité et types de site :

Figure 30 : Répartition des 30 pays européens-nord américains « sités » en fonction des types d'autorité

Les sites d'institution, comme ce fût le cas dans la zone Afrique, sont les sites qui touchent le plus de pays. Et on ne répétera jamais assez leur dynamisme et le rôle qu'ils jouent dans « l'extériorisation » du Sénégal via le Web. Les sites d'entreprise montrent aussi une forte présente et semblent bien ouverts aux pays européens.

Figure 31 : Répartition des 30 pays européens-nord américains « sités » en fonction des types de site

Nous notons ici presque la même configuration que dans la zone Afrique. Ce sont les sites de ressources qui sont les plus ouverts, notamment à cause de l'effort déployé sur les informations fournies et le contenu. Ils sont suivis par les sites de recherche malgré leur petit nombre. Et enfin, nous avons les homeserveurs qui n'ont « sités » que 12 pays dans cette zone en dépit de leur nombre assez important dans le corpus. Et comme toujours, les services Web ne sont liés à aucun pays ni dans la zone Afrique ni dans celle-ci.

III.2.3 Vers le reste du monde

Afin d'éviter le morcellement en de petites zones géographiques sans importance dans l'analyse, nous avons regroupé dans l'appellation « Reste du Monde » tous les pays qui n'appartiennent ni à la zone Afrique ni à la zone Europe-Amérique du Nord. Ainsi, 29 pays ont été identifiés comme ayant reçu des liens venant des sites sénégalais. Voici comment ils se répartissent :

Figure 32 : Répartition des liens émis par les sites sénégalais vers la zone Europe-Amérique du Nord

Cette zone géographique, malgré ses 29 pays, a reçu très peu de « sitations » de la part des sites sénégalais, 56 au total, soit 10 fois moins que la seule France. C'est l'Amérique du Sud et centrale, avec 12 pays « sités », qui est la zone la plus présente suivie par l'Asie du Sud-Est. Si nous ne voyons pas de raison évidente qui justifie la place occupée par l'Australie, nous comprenons parfaitement les rangs du Japon et du Brésil même si nous trouvons leurs niveaux de « sitations » assez faibles par rapport à leur présence assez dynamique au Sénégal surtout pour la coopération japonaise.

Figure 33 : Répartition des 29 pays du Reste du Monde « sités » en fonction des types d'autorité

Encore une fois, les sites d'institution montrent ici plus qu'ailleurs l'importance de leur place dans l'espace Web sénégalais et leur aptitude à s'ouvrir au reste du Web. Aussi bien au niveau des liens internes qu'externes (vers les gTLDs et vers ccTLDs), on voit une grande différence, dans les « sitations », entre ces sites et les sites d'entreprise plus nombreux dans le corpus. Ils ont ainsi touché 26 des 29 pays recensés dans cette zone.

Figure 34 : Répartition des 29 pays du Reste du Monde « sités » en fonction des types de site

Au niveau des types de site, comme dans les points précédents, nous retrouvons au coeur les sites de ressources qui touchent ici la presque la totalité des pays. Mais ce qui change dans ce cas de figure c'est la quasi absence des homeserveurs et des sites de recherche avec seulement trois pays « sités ». Ceci montre encore une fois le rôle que jouent ces sites dans l'ouverture de l'espace Web du Sénégal au reste de la toile mondiale.

Conclusion

Notre objectif dans ce travail était d'aborder le degré d'interconnexion de l'espace Web du Sénégal, de voir sa structure, sa connectivité interne et la manière dont il s'ouvre au reste du monde. Le corpus final que nous avons constitué pour faire cette étude regroupait 278 sites (.sn). Par rapport au nombre de sites sénégalais déclarés (plus de 900 environ), ce chiffre paraît très correct car selon Thomas Guignard (2002), en 2001, alors qu'il y avait que 672 sites déclarés au niveau du NIC Sénégal, seulement 160 était effectivement en ligne.

Concernant sa structure interne, nous avons vu que l'espace Web du Sénégal est riche de 75 domaines d'activité touchant presque tous les secteurs de la vie. L'informatique, l'enseignement, le tourisme et les NTIC sont les plus présents. Pour ce qui est des types d'autorité, nous avons l'inexistence de sites perso, 55% provenant d'entreprises, 28% d'institutions et 17% d'association. Et les types de sites se répartissent comme suit : 49% de homeserveurs, 46% de sites de ressources, 4% de sites de recherche et 1% de services Web. Pour l'interconnexion dans l'ensemble (.sn), nous avons vu que le nombre de liens internes émis par les sites sénégalais vers d'autres sites sénégalais est de 706 alors que par exemple les liens vers la seule France sont de 594. Vu sur ce plan, le nombre de « sitations » à l'intérieur de l'espace Web sénégalais est très minime. Ceci est d'autant plus frappant que ces « sitations » ne sont émises que par 138 sites ; ce qui revient à dire que plus de la moitié des sites sénégalais n'a émis aucun lien vers l'ensemble (.sn). Cette extraversion ne serait pas préoccupant si une large majorité des sites avait été « sités ». Mais au lieu de cela, nous avons constaté que seuls 155 sites avaient reçu des liens de la part d'autres sites sénégalais. Ce qui nous donne à la fin 88 sites qui n'ont ni émis, ni reçu de « sitations » à l'intérieur de l'ensemble (.sn). Ils sont opposés aux 103 sites qui sont à la fois « sitants » et « sités » et qui constituent ainsi le coeur de l'espace Web du Sénégal. Toujours dans la connexion interne, nous avons vu que ce sont les institutions qui sont les plus actives comme type d'autorité suivies des entreprises, et pour ce qui est des types de sites, ce sont les sites de ressources et les sites de recherche que l'on voit le plus. Ces constats se sont aussi vérifiés lorsqu'on a abordé les « sitations » externes. En parlant de ces liens externes, nous avons d'abord commencé par les gTLDs où nous avons constaté que, sur les 9 noms de domaines recensés, ce sont les .com et les .org qui ont le plus attiré de liens (84% à eux deux sur les 2353 liens globaux). Là, nous retrouvons un vrai dynamisme des sites d'institutions et d'entreprises mais aussi comme types de sites, les sites de ressources et les sites des recherche comme toujours. Concernant les ccTLDs, la zone Europe-Amérique du Nord est de loin la destination préférée des « sitations » sénégalaise : 1029 liens avec 30 pays, contre 156 vers l'Afrique avec 27 pays et 56 vers le reste de la planète avec 29. Sur ces 86 pays, les liens qui visent la France représentent plus de 48% de tous les liens. Une préférence qui trouve une justification dans les relations privilégiées entre le Sénégal et l'hexagone. La surprise de ce déploiement géographique des « sitations » émises par les sites sénégalais est le nombre très faible de liens reçus par l'Afrique. On peut parler d'extraversion à l'échelle continentale. Mais à bien y voir, ce n'est pas totalement une surprise quand on apprend que, sur un autre domaine, les communications téléphoniques, l'Afrique effectue beaucoup d'appels sortant (parmi les plus élevés au monde) d'une part, et d'autre part, dans pas mal de zone notamment la façade maritime Ouest africaine, les appels interafricains sont relativement faibles (Annie Chéneau-Loquay, 1999). Sinon, l'étude de Mike Thelwall (2002) sur une possible influence de la proximité géographique sur les habitudes de « sitations » se vérifie bien en Afrique. Car ce sont les pays de l'Afrique de l'Ouest qui sont les plus visés par les sites sénégalais.

Voilà en gros, ce que nous ont révélé les 278 sites sur la composition et la connectivité interne de l'espace Web du Sénégal mais aussi de son ouverture vers les autres sites du Net. Cette étude exploratoire, nous l'espérons, aura permis de mieux cerner la position du Sénégal sur le Web mais aussi de sa participation à cette révolution numérique. Mais, nous pensons que, une autre étude qui aborderait l'espace Web du Sénégal à partir des liens qui pointent vers lui, compléterait notre compréhension de la visibilité et du rayonnement des sites sénégalais.

Bibliographie

ALBERT, R., JEONG, H., BARBARASI, A.-L.. (1999). Diameter of the World Wide Web. In : Nature 401:130-131, September 1999

ALMIND, Thomas. C., INGWERSEN, Peter (1996). Informetric analysis on the World Wide Web : A methodological approach to «Webometrics». In : Journal of Documentation, Vol. 53, N° 4, september 1997.

ARCHAMBAULT, Eric, VIGNOLA G., Étienne (2004). L'utilisation de la bibliométrie dans les sciences sociales et les humanités. Conseil de recherche en sciences humaines du Canada (CRSH). Rapport final, août 2004.

BAR-ILAN, J. (2001). «How much information the search engines disclose on links to a web page? - A case study of the `Cybermetrics' home page.» Proceedings of the 8th international Conférence on Scientometrics and Informetrics, 1, 63-73.

BARTHELEMY Marc, GONDRAN Bernard, GUICHARD Eric. Spatial structure of the Internet traffic. In : Physica A: statistical mechanics and its applications, vol. 319, 2003, p.633-642. Disponible aussi sur l'URL : http://fr.arxiv.org/abs/cond-mat/0208553 [page consultée le 23/02/05]

BERNARD, Eric.Le déploiement des infrastructures Internet en Afrique de l'Ouest. Thèse Doctorat : Université Montpellier III, (version corr. 2004), 426p.

BJÖRNEBORN, L. (2001). Small-world linkage and co-linkage. In : Proceedings of the 12th ACM Conference on Hypertext and Hypermedia (pp. 133-134). New York: ACM Press.

BJÖRNEBORN, Lennart. (2004). Small-world link structures across an academic web space : a library and information science approach. PhD dissertation. Copenhagen: Department of Information Studies, Royal School of Library and Information Science, 2004. xxxvi, 399 p.

BJÖRNEBORN, Lennart, INGWERSEN, Peter (2001). «Perspectives of webometrics». In : Scientometrics, Vol. 50, N°1, pp. 65-82.

BJÖRNEBORN, L. & Ingwersen, P. (in press). Towards a basic framework of webometrics, Journal of the American Society for Information Science and Technology, special issue on webometrics

BOSSY, Marcia J. (1995). `The last of the litter: «Netometrics». Dans dossier : "Les sciences de l'information : bibliométrie, scientométrie, infométrie". In Solaris, n° 2, Presses Universitaires de Rennes, 1995 Disponible aussi sur l'URL : http://biblio-fr.info.unicaen.fr/bnum/jelec/Solaris/d02/2bossy.html [visité le 13/01/05]

BRIN, S. and PAGE, L. (1998). The Anatomy of a large scale hypertextual web search engine. In : Computer Networks and ISDN Systems, 30(1-7), 107-117.

BROOKES, B. C.. Biblio-, sciento-, info-métrics ??? What are we talking about? First International Conférence on bibliométrics and theoretical aspects of information retrieval, August 24-28, Belgium, 1987

BRUN, Christophe. Un bref historique de l'Internet au Sénégal , IRD, juillet 2001. Disponible aussi sur l'URL : http://www.orstom.sn/intersen/histo.shtml [consulté le 01/03/05]

BRUN, Christophe, HUTER Steven. Topologie de l'Internet au Sénégal. Université of Oregon, NSRC, janvier 2000.

CAILLIAU, Robert (1995). «A little history of the World Wide Web : from 1945 to 1995». In : World Wide Web Consortium. Disponible sur l'URL : http://www.w3.org/History.html

CASE, D., HIGGINS, G. (2000). How can we investigate citation behavior ? a study of reasons for citing literature in communication. In : Journal of the American Society for Information Science, Vol. 51, N°7, pp. 635- 645.

CHAKRABARTI, et al. [site visité le 06/01/05]. «The structure of broad topics on the Web». WWW2002 Conference. Disponible sur l'URL : http://www2002.org/CDROM/refereed/338/

CHÉNEAU-LOQUAY, Annie. Défis liés à l'insertion des technologies de l'information et de la communication dans les économies africaines : L'exemple d'Internet au Sénégal. In : Abdelkader Djeflat et Bruno Boidin, Ajustement et technologie en Afrique, Publisud, avril 2002, p 103.

CHÉNEAU-LOQUAY, Annie. Entre local et global quel rôle de l'État africain face au développement des réseaux de télécommunications : Exemples du Mali et du Sénégal. In : Afrique Contemporaine, Numéro spécial, n° 199, juillet-septembre 2001, p.36-46.

CHENEAU-LOQUAY, Annie. Modes d'accès et d'utilisation d'Internet en Afrique : les grandes tendances. In : Africa e Mediterraneo, dossier Africa e il Digital Divide, n° 41, déc. 2002, p. 12-15

CHENEAU-LOQUAY, Annie, DIOUF, Pape N'Diaye. Disponibilités et usages des technologies de la communication dans les espaces de l'échange au Sénégal. In : Enjeux des technologies de la communication en Afrique, du téléphone à Internet, Annie Chéneau-Loquay (dir), Karthala, 2000, p247-280.

CHU, H. (2004). Taxonomy of inlinked web entities : What does it imply for webometric research ? In : Library and Information Science Research : An International Journal, (In press.).

DULAU, Caroline. L'Internet au Sénégal : modes d'insertion, différents usages et réseaux de communication mis en place par les ONG Dakaroises. Mémoire de DEA, Université Bordeaux III, 2002, 100p.

GARFIELD, E. (1965). Can citation indexing be automated ? In Statistical association methods for mechanized documentation : In : Symposium proceedings, pages 189-192. Washington, DC

GLOVER et al. [site consulté le 06/01/05].Using Web Structure for Classifying and Describing Web Pages. Disponible sur l'URL : http://www2002.org/CDROM/refereed/504/

GUIGNARD, Thomas. Internet au Sénégal : une émergence paradoxale. DEA Sciences de l'information et de la communication, Université Lille 3, 180p.

HORN, David. [site consulté le 23/02/05]. La cybergéographie : éléments pour une approche socio-spatiale de l'Internet. Essai bibliographique. Disponible sur l'URL : http://barthes.ens.fr/atelier/geo/biblio/index.html [consulté le 23/02/05]

INGWERSEN, Peter (1998). «The calculation of Web impact factors». In : Journal of Documentation, 54 (2): 236-243.

Internet au Sénégal : Liste des fournisseurs d'accès Internet. Disponible sur l'URL : http://www.orstom.sn/intersen/isp.html [site visité le 29/03/05]

KATZ, J.S., HICKS, D. (1998). Indicators for Systems of Innovation - a bibliometrics-based approach. IDEA paper.

LAFOUGE, Thierry, BOUKACEM, Boucif. Application des lois infométriques en sciences de l'information : dualité, champ infométrique d'usage et de production. In : ISDM, N°17, juin 2004 - article n°165

LAINÉ, Audrey. Réseaux de communication et réseaux marchands en Afrique de l'Ouest : premiers éléments sur l'accès et les usages des NTIC dans le domaine du commerce en Guinée et au Sénégal. Mémoire de DEA, Université Bordeaux IV, IEP, CEAN, 1999, 124p.

LAWRENCE, Steve., GILES, C. Lee. (1998). Searching the World Wide Web. In : Science, Avril, pp.98-100.

LAWRENCE, Steve; GILLES, C. Lee. (1999). « Accessability of information on the web ». In : Nature, 8 july 1999, vol.400, p.107-109.

Le quotidien Walfadjri, 11/04/2005. Entretien avec Monsieur Thierno Ousmane Sy, conseiller du Président chargé des nouvelles technologies. Disponible aussi sur l'URL : http://www.walf.sn/interview/?id_inter=136

LOUSTAU, Guillaume. Le développement d'Internet en Afrique à travers l'exemple du Sénégal : identification des acteurs, des infrastructures et des sites Web. Mémoire de maîtrise, 2001

MEADOWS, A. J. "Theory in information science". In : Journal of Information Science, vol. 16, n° 1, 1990, p. 59-63

NOYER, Jean-Max. Scientométrie, infométrie : pourquoi nous intéressent-elles ?. Dans dossier : "Les sciences de l'information : bibliométrie, scientométrie, infométrie". In Solaris, n° 2, Presses Universitaires de Rennes, 1995 Disponible aussi sur : http://biblio-fr.info.unicaen.fr/bnum/jelec/Solaris/d02/2noyer_1.html [visité le 15/01/05]

PARKER, Han Woo (2003). Hyperlink Network Analysis: A New Method for the Study of Social Structure on the Web. In : Connections, Vol 25, N°1, pp. 49-61

PINSKI, G. and NARIN, F. (1976). Citation influence for journal aggregates of scientific publications: Theory, with application to the literature of Physics. In : Information Processing and Management, 12: 297-312.

POLANCO, Xavier. Aux sources de la scientométrie. Dans dossier : "Les sciences de l'information : bibliométrie, scientométrie, infométrie". In Solaris, n° 2, Presses Universitaires de Rennes, 1995 Disponible aussi sur : http://biblio-fr.info.unicaen.fr/bnum/jelec/Solaris/d02/2polanco1.html [visité le 15/01/05]

PRICE, D. S. (1970). Citation measures of hard science, soft science, technology, and non-science. In: Nelson, C. and Pollock, D., editors, Communication among scientists and engineers, pages 3-22, Massachussett

PRIME-CLAVERIE, C., BEIGBEDER, M., and LAFOUGE, T. (2002). Clustérisation du web en vue d'extraction de corpus homogènes. In : Actes du 20^ème congrès INFORSID, pages 229_242, Nantes.

PRIME-CLAVERIE, C. Vers une prise en compte de plusieurs aspects des besoins d'information dans les modèles de recherche documentaire : Propagation de métadonnées sur le World Wide Web. Thèse de Doctorat. Saint-Etienne : Université Jean Monnet, Ecole Nationale Supérieure des Mines, 2004, IX-172.

PRITCHARD, A. (1969). Statistical bibliography or Bibliometrics ? In : Journal of Documentation, 25(4) : 348_349.

RALLET Alain, ROCHELANDET Fabrice. La fracture numérique : une faille sans fondement ? In : Dossier sur La fracture numérique. Réseaux, vol 22, n°127-128, 2004

RENAUD Pascal. Vers la désertification technologique du Sud ? In : Enjeux des technologies de la communication en Afrique, Annie Chéneau-Loquay (dir), Karthala, 2000

SECK, Mouhamed Tidiane. Insertion d'Internet dans les milieux de la recherche scientifique en Afrique de l'Ouest. In : Enjeux des technologies de la communication en Afrique, Annie Chéneau-Loquay (dir), Karthala, 2000

TAGUE-SUTCLIFFE, Jean (1992). «An introduction to informetrics». In : Information Processing & Management, 28(1): 1-3.

THELWALL, Mike. A Free Database of University Web Links: Data Collection Issues. In : Cybermetrics Issues Contents : Vol. 6/7 (2002/3) : Paper 2, 11p. Disponible aussi sur l'URL : http://www.cindoc.csic.es/pruebas/v6i1p2.htm [visité le 23/12/04].

THELWALL, Mike. (2002). An initial exploration of the link relationship between UK university web sites. In : ASLIB Proceedings, 54(2), 118-126.

THELWALL Mike. Evidence for the existence of géographique trends in université web site interlinking. In : Journal of Documentation, 58(5), 2002.

THELWALL, Mike. (2001). Extracting macroscopic information from web links. In : Journal of the American Society for Information Science and Technology, 52 (13), 1157-1168.

THELWALL, Mike. What is this link doing here? Beginning a fine-grained process of identifying reasons for academic hyperlink creation. In : Information Research, Vol. 8 No. 3, April 2003. Disponible aussi sur l'URL : http://informationr.net/ir/8-3/paper151.html [visité le 23/12/04].

THELWALL, M., WILKINSON, D. (2002). Graph Structure in Three National Academic Webs : Power Laws with Anomalies. In : Journal of the American Society for Information Science and Technology, 54(8), 706-712.

ZOOK, Matthew. Etre connecté est une affaire de géographie. Traduit par Eric Bernard. In : Networker, septembre 2001, Vol 5, n°3, pp.13-17. Disponible aussi sur l'URL : http://www.zooknic.com/info/Zook-netWorker-2001.pdf [consulté le 09/03/05]

Centres Multimédias Communautaires : Ouvrir le monde rural à l'Internet. OSIRIS, revue de presse 2004.

Fête de l'internet : 30 minutes de connexion gratuite, mais un bilan mitigé. OSIRIS, revue de presse 2005.

La vitesse de la bande passante Internet Sonatel portée à un demi Gigabits par seconde. OSIRIS : Revue de presse 2004.

Trois millions d'élèves et étudiants bientôt à l'école de l'Internet. OSIRIS, revue de presse 2004.

Innovation majeure en Afrique : SONATEL expérimente la Télévision numérique et la vidéo à la demande via la ligne téléphonique. Communiqué de presse Sonatel, décembre 2004.

SONATEL introduit la technologie ADSL au Sénégal. Communiqué de presse SONATEL, 26 février 2003.

Annexes

1. 1. www.2b1.sn

2. www.aes.sn

3. www.afi.sn

4. www.africaclean.sn

5. www.africanet.sn

6. www.africatel.sn

7. www.agrecol-afrique.sn

8. www.aig.sn

9. www.airliquide.sn

10. www.airsenegalinternational.sn

11. www.aldiana-senegal.sn

12. www.alize.sn

13. www.altes.sn

14. www.amasenegal.sn

15. www.ambamad.sn

16. www.ambassade-allemagne.sn

17. www.ambitaliadakar.sn

18. www.annonces.sn

19. www.apix.sn

20. www.aps.sn

21. www.arc.sn

22. www.arcades.sn

23. www.archivesdusenegal.sn

24. www.arconline.sn

25. www.art.sn

26. www.ascosen.sn

27. www.aselfae.sn

28. www.ati.sn

29. www.atm.sn

30. www.awa.sn

31. www.bernabe.sn

32. www.bes.sn

33. www.bhs.sn

34. www.bicis.sn

35. www.bkr.sn

36. www.bld.sn

37. www.bodybest.sn

38. www.boppbasket.sn

39. www.bst.sn

40. www.buhanteisseire.sn

41. www.cabinetazizdiey.sn

42. www.capicom.sn

43. www.caplast.sn

44. www.cat.sn

45. www.cauris.sn

46. www.ccbm.sn

47. www.cciad.sn

48. www.ccs.sn

49. www.cde.sn

50. www.cesag.sn

51. www.cfi-soserca.sn

52. www.cgfbourse.sn

53. www.chaka.sn

54. www.cifas.sn

55. www.ciga.sn

56. www.civisme.sn

57. www.clm.sn

58. www.cncas.sn

59. www.cnp.sn

60. www.cnts.sn

61. www.congad.sn

62. www.cosec.sn

63. www.coseloc.sn

64. www.courdescomptes.sn

65. www.creditlyonnais.sn

66. www.cresp.sn

67. www.cr-saintlouis.sn

68. www.crse.sn

69. www.cr-thies.sn

70. www.cse.sn

71. www.cti.sn

72. www.dakarmedical.sn

73. www.da-kart.sn

74. www.dakarville.sn

75. www.dcl.sn

76. www.dcm.sn

77. www.defccs.sn

78. www.dfi.sn

79. www.dit.sn

80. www.douanes.sn

81. www.dwl.sn

82. www.ebad.ucad.sn

83. www.edja.sn

84. www.education.sn

85. www.eia.sn

86. www.eic.sn

87. www.emploi.sn

88. www.enda.sn

89. www.ens.ucad.sn

90. www.esmt.sn

91. www.esp.sn

92. www.espace.sn

93. www.etoiledulac.sn

94. www.everyday.sn

95. www.examen.sn

96. www.fcb.sn

97. www.festivalthies.sn

98. www.fnuap.sn

99. www.forumcivil.sn

100. www.fougerolle.sn

101. www.fpe.sn

102. www.francophonie.sn

103. www.fsps.sn

104. www.fsvoile.sn

105. www.futuris.sn

106. www.gainde2000.sn

107. www.gaydel.sn

108. www.gendarmerie.sn

109. www.gic.sn

110. www.git.sn

111. www.gouv.sn

112. www.hertz.sn

113. www.hibiscus.sn

114. www.homeviewsenegal.sn

115. www.hotelsogui.sn

116. www.houda.sn

117. www.hpc.sn

118. www.htcom.sn

119. www.iaa.sn

120. www.iam.sn

121. www.ica.sn

122. www.ics.sn

123. www.ilico.sn

124. www.imedia.sn

125. www.inefsagep.sn

126. www.infoconseil.sn

127. www.ird.sn

128. www.isa.sn

129. www.ised.sn

130. www.isi.sn

131. www.ism.sn

132. www.isoc.sn

133. www.isra.sn

134. www.issic.sn

135. www.ist.sn

136. www.ita.sn

137. www.itg.sn

138. www.iupa.sn

139. www.jade.sn

140. www.jokkoo.sn

141. www.kirene.sn

142. www.komkom.sn

143. www.lagunabeach.sn

144. www.lagune.sn

145. www.laposte.sn

146. www.layene.sn

147. www.lcs.sn

148. www.lecourrierdujour.sn

149. www.ledialogue.sn

150. www.lemessager.sn

151. www.lequotidien.sn

152. www.lesbolongs.sn

153. www.lesoleil.sn

154. www.ljj.sn

155. www.lobservateur.sn

156. www.lse.sn

157. www.luxmission.sn

158. www.mairie-thies.sn

159. www.manobi.sn

160. www.minfinances.sn

161. www.metissacana.sn

162. www.mkr.sn

163. www.moustarchidine.sn

164. www.msp.sn

165. www.naby-allah.sn

166. www.netcom.sn

167. www.next.sn

168. www.ngs.sn

169. www.nic.sn

170. www.nitnet.sn

171. www.obs-industrie.sn

172. www.ofc.sn

173. www.omnet.sn

174. www.optic.sn

175. www.ordredesarchitectes.sn

176. www.osiris.sn

177. www.paillote.sn

178. www.pan-africa.sn

179. www.panos.sn

180. www.pasteur.sn

181. www.pctools.sn

182. www.petrosen.sn

183. www.pfizer.sn

184. www.phenixsomone.sn

185. www.plt.sn

186. www.pmc.sn

187. www.portdakar.sn

188. www.primature.sn

189. www.projetmangrove.sn

190. www.promer.sn

191. www.quatrec.sn

192. www.rag.sn

193. www.refer.sn

194. www.revedafrique.sn

195. www.r-p.sn

196. www.rts.sn

197. www.sae.sn

198. www.sagam.sn

199. www.sagef.sn

200. www.salynautisme.sn

201. www.sanctuaire-poponguine.sn

202. www.sapco.sn

203. www.sarenebeach.sn

204. www.sas.sn

205. www.savana.sn

206. www.sceam-dakar.sn

207. www.scima.sn

208. www.seigneurie.sn

209. www.semis.sn

210. www.senado.sn

211. www.senartisanat.sn

212. www.senbotin.sn

213. www.sencomane.sn

214. www.sendec.sn

215. www.senegalfoot.sn

216. www.senegalhotel.sn

217. www.senegalindia.sn

218. www.senegalyellowpages.sn

219. www.senelec.sn

220. www.sentel.sn

221. www.sentoo.sn

222. www.sga.sn

223. www.sgbs.sn

224. www.siagro.sn

225. www.sicap.sn

226. www.sieau.sn

227. www.siggiljigeen.sn

228. www.simatel.sn

229. www.sip.sn

230. www.sipres.sn

231. www.siup.sn

232. www.siw.sn

233. www.sncds.sn

234. www.sntpt.sn

235. www.sntt.sn

236. www.soacibb.sn

237. www.socomaf.sn

238. www.sodefitex.sn

239. www.somone-online.sn

240. www.sonac.sn

241. www.sonatel.sn

242. www.sones.sn

243. www.sorong.sn

244. www.spids.sn

245. www.ssi.sn

246. www.standingimmobilier.sn

247. www.ste.sn

248. www.stradex.sn

249. www.sudinfo.sn

250. www.sudlangues.sn

251. www.sudonline.sn

252. www.sunumail.sn

253. www.supdeco.sn

254. www.synergies.sn

255. www.tabala.sn

256. www.taco.sn

257. www.technisoft.sn

258. www.tek.sn

259. www.tourdusenegal.sn

260. www.tourismesinesaloum.sn

261. www.tpsnet.sn

262. www.trainmar.sn

263. www.transexpress.sn

264. www.transfret.sn

265. www.transsene.sn

266. www.tunde.sn

267. www.uael.sn

268. www.ucad.sn

269. www.ugb.sn

270. www.um-goree.sn

271. www.unfpa.sn

272. www.unis.sn

273. www.urd.sn

274. www.viavoyages.sn

275. www.vieirasa.sn

276. www.waame.sn

277. www.walf.sn

278. www.webhosting.sn

1. 1. www.afi.sn

2. www.africanet.sn

3. www.alize.sn

4. www.apix.sn

5. www.arc.sn

6. www.arcades.sn

7. www.archivesdusenegal.sn

8. www.arconline.sn

9. www.art.sn

10. www.ascosen.sn

11. www.ati.sn

12. www.bhs.sn

13. www.bicis.sn

14. www.bst.sn

15. www.capicom.sn

16. www.caplast.sn

17. www.ccbm.sn

18. www.cciad.sn

19. www.cesag.sn

20. www.cncas.sn

21. www.cnp.sn

22. www.cosec.sn

23. www.courdescomptes.sn

24. www.creditlyonnais.sn

25. www.cresp.sn

26. www.cr-saintlouis.sn

27. www.crse.sn

28. www.cr-thies.sn

29. www.cse.sn

30. www.dakarville.sn

31. www.douanes.sn

32. www.ebad.ucad.sn

33. www.education.sn

34. www.emploi.sn

35. www.enda.sn

36. www.esmt.sn

37. www.esp.sn

38. www.etoiledulac.sn

39. www.examen.sn

40. www.festivalthies.sn

41. www.fnuap.sn

42. www.forumcivil.sn

43. www.fsps.sn

44. www.futuris.sn

45. www.gainde2000.sn

46. www.gouv.sn

47. www.hertz.sn

48. www.homeviewsenegal.sn

49. www.iam.sn

50. www.imedia.sn

51. www.infoconseil.sn

52. www.ised.sn

53. www.isi.sn

54. www.ism.sn

55. www.isra.sn

56. www.ita.sn

57. www.jokkoo.sn

58. www.laposte.sn

59. www.lcs.sn

60. www.lecourrierdujour.sn

61. www.lesbolongs.sn

62. www.lesoleil.sn

63. www.lse.sn

64. www.mairie-thies.sn

65. www.metissacana.sn

66. www.minfinances.sn

67. www.nitnet.sn

68. www.obs-industrie.sn

69. www.optic.sn

70. www.osiris.sn

71. www.paillote.sn

72. www.panos.sn

73. www.portdakar.sn

74. www.refer.sn

75. www.sagef.sn

76. www.sceam-dakar.sn

77. www.semis.sn

78. www.senado.sn

79. www.sencomane.sn

80. www.sentoo.sn

81. www.sgbs.sn

82. www.siagro.sn

83. www.sip.sn

84. www.sncds.sn

85. www.socomaf.sn

86. www.sodefitex.sn

87. www.sonatel.sn

88. www.spids.sn

89. www.ssi.sn

90. www.stradex.sn

91. www.sudlangues.sn

92. www.sudonline.sn

93. www.supdeco.sn

94. www.technisoft.sn

95. www.tourismesinesaloum.sn

96. www.transsene.sn

97. www.uael.sn

98. www.ucad.sn

99. www.unfpa.sn

100. www.viavoyages.sn

101. www.vieirasa.sn

102. www.walf.sn

103. www.webhosting.sn

1. 1. www.aig.sn

2. www.airliquide.sn

3. www.airsenegalinternational.sn

4. www.aldiana-senegal.sn

5. www.altes.sn

6. www.ambassade-allemagne.sn

7. www.aselfae.sn

8. www.awa.sn

9. www.bernabe.sn

10. www.bes.sn

11. www.bkr.sn

12. www.bld.sn

13. www.bodybest.sn

14. www.boppbasket.sn

15. www.buhanteisseire.sn

16. www.cat.sn

17. www.cauris.sn

18. www.ccs.sn

19. www.cde.sn

20. www.cfi-soserca.sn

21. www.chaka.sn

22. www.ciga.sn

23. www.cnts.sn

24. www.coseloc.sn

25. www.cti.sn

26. www.dit.sn

27. www.eia.sn

28. www.eic.sn

29. www.edja.sn

30. www.fcb.sn

31. www.fougerolle.sn

32. www.gaydel.sn

33. www.gic.sn

34. www.git.sn

35. www.hibiscus.sn

36. www.hotelsogui.sn

37. www.houda.sn

38. www.hpc.sn

39. www.iaa.sn

40. www.ics.sn

41. www.inefsagep.sn

42. www.isa.sn

43. www.ist.sn

44. www.itg.sn

45. www.lagune.sn

46. www.layene.sn

47. www.ledialogue.sn

48. www.ljj.sn

49. www.mkr.sn

50. www.moustarchidine.sn

51. www.msp.sn

52. www.naby-allah.sn

53. www.netcom.sn

54. www.ngs.sn

55. www.ofc.sn

56. www.pan-africa.sn

57. www.pctools.sn

58. www.petrosen.sn

59. www.pmc.sn

60. www.promer.sn

61. www.quatrec.sn

62. www.r-p.sn

63. www.sagam.sn

64. www.salynautisme.sn

65. www.sarenebeach.sn

66. www.scima.sn

67. www.seigneurie.sn

68. www.senartisanat.sn

69. www.senegalfoot.sn

70. www.senegalindia.sn

71. www.sga.sn

72. www.sieau.sn

73. www.simatel.sn

74. www.siw.sn

75. www.sntpt.sn

76. www.sntt.sn

77. www.soacibb.sn

78. www.sonac.sn

79. www.sorong.sn

80. www.standingimmobilier.sn

81. www.sunumail.sn

82. www.tek.sn

83. www.tourdusenegal.sn

84. www.transexpress.sn

85. www.transfret.sn

86. www.tunde.sn

87. www.um-goree.sn

88. www.urd.sn

* ¹ CHÉNEAU-LOQUAY, Annie. Défis liés à l'insertion des technologies de l'information et de la communication dans les économies africaines : L'exemple d'Internet au Sénégal. In : Abdelkader Djeflat et Bruno Boidin, Ajustement et technologie en Afrique, Publisud, avril 2002, p 103.

* ² BRUN, Christophe. Un bref historique de l'Internet au Sénégal , IRD, juillet 2001

* ³ GUIGNARD, Thomas. Internet au Sénégal : une émergence paradoxale. DEA Sciences de l'information et de la communication, Université Lille 3, p.109

* ⁵ CHENEAU-LOQUAY, Annie. Modes d'accès et d'utilisation d'Internet en Afrique : les grandes tendances. In : Africa e Mediterraneo, dossier Africa e il Digital Divide, n° 41, décembre 2002, p. 12-15

* ⁶ RENAUD, Pascal. Quand le hign-tech réduit le fossé numérique. In : Futur(e)s, n°4, mars 2001.

* ⁷ GUIGNARD, Thomas. Internet au Sénégal : une émergence paradoxale. DEA Sciences de l'information et de la communication, Université Lille 3,180p.

* ⁸ SECK, Mouhamed Tidiane. Insertion d'Internet dans les milieux de la recherche scientifique en Afrique de l'Ouest. In : Enjeux des technologies de la communication en Afrique, Annie Chéneau-Loquay (dir), Karthala, 2000

* ⁹ HORN, David. [site consulté le 23/02/05].La cybergéographie : éléments pour une approche socio-spatiale de l'Internet. Essai bibliographique. Disponible sur l'URL : http://barthes.ens.fr/atelier/geo/biblio/index.html

* ¹² ZOOK, Matthew. Etre connecté est une affaire de géographie. Traduit par Eric Bernard. In : Networker, septembre 2001, Vol 5, n°3, pp.13-17.

* ¹³ BARTHELEMY Marc, GONDRAN Bernard, GUICHARD Eric. Spatial structure of the Internet traffic. In : Physica A: statistical mechanics and its applications, vol. 319, 2003, p.633-642.

* ¹⁵ THELWALL Mike. Evidence for the existence of géographique trends in université web site interlinking. In : Journal of Documentation, 58(5), 2002.

* ¹⁸ RALLET Alain, ROCHELANDET Fabrice. La fracture numérique : une faille sans fondement ? In : Dossier sur La fracture numérique. Réseaux, vol 22, n°127-128, 2004

* ¹⁹ HEEKS Richard. [site visité le 07/03/05]. La fracture numérique surestimée.

* ²⁰ CHENEAU-LOQUAY, Annie. [site visité le 07/03/05]. Quelle insertion de l'Afrique dans les réseaux mondiaux ? Une approche géographique.

* ²¹ RENAUD Pascal. Vers la désertification technologique du Sud ? In : Enjeux des technologies de la communication en Afrique, Annie Chéneau-Loquay (dir), Karthala, 2000

* ²² CHENEAU-LOQUAY, Annie. Défis liés à l'insertion des technologies de l'information et de la communication dans les économies africaines : L'exemple d'Internet au Sénégal. In : Abdelkader Djeflat et Bruno Boidin, Ajustement et technologie en Afrique, Publisud, avril 2002, p 103

* ²³ BRUN, Christophe. Un bref historique de l'Internet au Sénégal , IRD, juillet 2001

* ²⁵CHENEAU-LOQUAY, Annie. Quelle insertion de l'Afrique dans les réseaux mondiaux ? Une approche géographique. texte mis à jour : novembre 1999.

* ²⁸ Le quotidien Walfadjri, 11/04/2005. Entretien avec Monsieur Thierno Ousmane Sy, conseiller du Président chargé des nouvelles technologies. Disponible aussi sur l'URL : http://www.walf.sn/interview/?id_inter=136

* ²⁹CHENEAU-LOQUAY, Annie, DIOUF, Pape N'Diaye. Disponibilités et usages des technologies de la communication dans les espaces de l'échange au Sénégal. In : Enjeux des technologies de la communication en Afrique, Annie Chéneau-Loquay (dir), Karthala, 2000

* ³¹ BERNARD, Eric.Le déploiement des infrastructures Internet en Afrique de l'Ouest. Thèse Doctorat : Université Montpellier III, (version corr. 2004), p.218

* ³³ BIDOLI, Marina. Africans now do it for themselves. Financial Mail, 07 juin 2002,

* ³⁶ La vitesse de la bande passante Internet Sonatel portée à un demi Gigabits par seconde. OSIRIS : Revue de presse 2004. Diponible sur l'URL : http://www.osiris.sn/article1410.html [site visité le 04/04/05]

* ³⁷ SONATEL introduit la technologie ADSL au Sénégal. Communiqué de presse SONATEL, 26 février 2003.

* ³⁸ Innovation majeure en Afrique : SONATEL expérimente la Télévision numérique et la vidéo à la demande via la ligne téléphonique. Communiqué de presse Sonatel, décembre 2004.

* ³⁹ CHÉNEAU-LOQUAY, Annie. Défis liés à l'insertion des technologies de l'information et de la communication dans les économies africaines : L'exemple d'Internet au Sénégal. In : Abdelkader Djeflat et Bruno Boidin, Ajustement et technologie en Afrique, Publisud, avril 2002, p 103.

* ⁴⁰MORA, André. [site visité le 30/03/05]. Internet au Sénégal : les zones rurales sont délaissées. (janvier 2003)

* ⁴² BRUN, Christophe, HUTER Steven. Topologie de l'Internet au Sénégal. Université of Oregon, NSRC, janvier 2000

* ⁴³ JENSEN, Mike. [site visité le 28/02/05]. African Internet Connectivity.

* ⁴⁴ Internet au Sénégal : les zones rurales sont délaissées. (janvier 2003)

* ⁴⁸ CHENEAU-LOQUAY, Annie. Modes d'accès et d'utilisation d'Internet en Afrique : les grandes tendances. In : Africa e Mediterraneo, dossier Africa e il Digital Divide, n° 41, décembre 2002, p. 12-15

* ⁴⁹ Centres Multimédias Communautaires : Ouvrir le monde rural à l'Internet. Revue de presse OSIRIS, 2004.

* ⁵⁰ Trois millions d'élèves et étudiants bientôt à l'école de l'Internet. OSIRIS, revue de presse 2004.

* ⁵¹ Fête de l'internet : 30 minutes de connexion gratuite, mais un bilan mitigé. OSIRIS, revue de presse 2005.

* ⁵³ MEADOWS, A. J. "Theory in information science", Journal of Information Science, vol. 16, n° 1, 1990, p. 59-63

* ⁵⁵ BROOKES, B. C. Biblio-, sciento-, info-métrics ??? What are we talking about? First International Conférence on bibliométrics and theoretical aspects of information retrieval, August 24-28, Belgium, 1987

* ⁵⁷ LE COADIC, Yves François. [site consulté le 13/01/05]. Infométrie mathématique et infométrie statistique. Disponible sur l'URL :

* ⁵⁸ ARCHAMBAULT, Eric, VIGNOLA G., Étienne. L'utilisation de la bibliométrie dans les sciences sociales et les humanités. Conseil de recherche en sciences humaines du Canada (CRSH). Rapport final, août 2004.

* ⁵⁹ CASE, D., HIGGINS, G. (2000). How can we investigate citation behavior ? a study of reasons for citing literature in communication. In : Journal of the American Society for Information Science, 51(7) : 635- 645.

* ⁶⁰ Ce travail fut ensuite publié en 1951 dans la revue Archives Internationales d'Histoire des Sciences, vol. 14, p. 85-93.

* ⁶¹ROSTAING, Hervé. Le Web et ses outils d'orientation. In : Bulletin des Bibliothèques de France. Paris, 2001, t. 46, n° 1, p. 68-77

* ⁶⁶ AGUILLO, Isidro F. (2002). «Cybermetrics : definitions and methods for an emerging discipline». Séminaires de l`ADEST, Paris, 14 February, 2002.

* ⁶⁷ BJÖRNEBORN, Lennart. Small-world link structures across an academic web space : a library and information science approach. PhD dissertation. Copenhagen: Department of Information Studies, Royal School of Library and Information Science, 2004. p.14

* ⁶⁸THELWALL, M., PARK, H. W. [site consulté le 23/12/04]. Hyperlink Analyses of the World Wide Web: A Review.

* ⁷¹ BAR-ILAN, J. (2001). «How much information the search engines disclose on links to a web page? - A case study of the `Cybermetrics' home page.» In : Proceedings of the 8th international Conference on Scientometrics

* ⁷⁴ THELWALL, Mike. [site visité le 23/12/04]. A Free Database of University Web Links: Data Collection Issues. In : Cybermetrics. Issues Contents: Vol. 6/7 (2002/3) : Paper 2, 11p.

* ⁷⁵ THELWALL, M., WILKINSON, D. (2002). Graph Structure in Three National Academic Webs : Power Laws with Anomalies. In : Journal of the American Society for Information Science and Technology, 54(8), 706-712.

* ⁷⁶ PARKER, Han Woo. (2003). Hyperlink Network Analysis: A New Method for the Study of Social Structure on the Web. In : Connections, 25(1): 49-61

* ⁷⁸ BJÖRNEBORN, Lennart. Small-world link structures across an academic web space : a library and information science approach. PhD dissertation. Copenhagen: Department of Information Studies, Royal School of Library and Information Science, 2004. xxxvi, 399 p.

* ⁸⁰ ROUSSEAU, Donald. [site visité le 06/01/05]. Sitations ; an exploratory study.

* ⁸¹ THELWALL, Mike. [site visité le 23/12/04]. What is this link doing here? Beginning a fine-grained process of identifying reasons for academic hyperlink creation. In : Information Research, Vol. 8 No. 3, April 2003. Disponible aussi sur l'URL : http://informationr.net/ir/8-3/paper151.html

* ⁸² ALBERT, R., JEONG, H., BARBARASI, A.-L.. Diameter of the World Wide Web. In : Nature 401:130-131, Sep 1999.

* ⁸⁸ CHÉNEAU-LOQUAY, Annie. Défis liés à l'insertion des technologies de l'information et de la communication dans les économies africaines : L'exemple d'Internet au Sénégal. In : Abdelkader Djeflat et Bruno Boidin, Ajustement et technologie en Afrique, Publisud, avril 2002, p 103

* ⁹⁰ Le quotidien Walfadjri, 11/04/2005. Entretien avec Monsieur Thierno Ousmane Sy, conseiller du Président chargé des nouvelles technologies. Disponible aussi sur l'URL : http://www.walf.sn/interview/?id_inter=136

* ⁹¹ DULAU, Caroline. L'Internet au Sénégal : modes d'insertion, différents usages et réseaux de communication mis en place par les ONG Dakaroises. Mémoire de DEA, Université Bordeaux III, 2002, 100p.

* ⁹³ CHENEAU-LOQUAY, Annie. [site visité le 07/03/05]. Quelle insertion de l'Afrique dans les réseaux mondiaux ? Une approche géographique.