L'espace web du sénégal : étude de son degré d'ouverture ´ travers l'analyse des liens hypertextes

( Télécharger le fichier original )
par El Hadji Malick GUEYE
Université Paris 10 Nanterre - Master de Recherche 2005

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

I.2.2 Découpage du corpus en unités statistiques

Cette étape est aujourd'hui moins fastidieuse avec les efforts considérables que fournissent les serveurs de banques de données dans la compilation des références. Les notices bibliographiques sont des ensembles structurés d'information composés de champs comme : auteurs, titre, mots-clés, date de publication, langue, résumé ... Chaque champ est composé d'un nom de champ et d'un contenu. « Certains champs sont particulièrement riches d'information pour contribuer à l'analyse de l'univers scientifique. Les champs mots-clés et titre en sont de bons exemples. Ils figurent d'ailleurs parmi les champs les plus souvent utilisés dans les études bibliométriques » (Prime-Claverie, 2004).

I.2.3 Normalisation des données

La normalisation du corpus est une étape très importante, car elle conditionne pour une grande partie la bonne analyse des données collectées. Malgré les efforts déployés par les serveurs pour l'harmonisation des références, certains champs posent beaucoup de problèmes dans le cadre d'un traitement bibliométrique comme le champ adresse des auteurs (Archambault, Vignola., 2004), qui présente souvent beaucoup de variances. Toujours selon eux, il faut noter que les banques de données sont optimisées pour retracer des articles plutôt que pour faire des calculs complexes de dénombrement. En d'autres termes, elles sont conçues pour des usages bibliographiques plutôt que bibliométriques. Le travail de bibliométrie commence donc avec le conditionnement de données bibliographiques dans le but de constituer des banques de données bibliométriques. Le travail consiste principalement à normaliser les données. Donc tout ceci nécessite un travail de nettoyage, d'épuration et d'harmonisation du corpus (ajout ou suppression de champs) pour arriver à un bon niveau de traitement.

Ces différentes étapes ainsi présentées, même si elles posent de temps en temps des problèmes dans le cadre d'une étude bibliométrique, elles sont largement facilitées par les efforts des serveurs de banques de données en matière de compilation et d'harmonisation des références bibliographiques. Dans notre contexte d'étude, vu la spécificité et l'hétérogénéité des documents web, ces étapes, surtout celles concernant le découpage et la codification du corpus, sont assez fastidieuses comme nous le verrons plus loin dans la troisième partie.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Tu supportes des injustices; Consoles-toi, le vrai malheur est d'en faire" Démocrite