I.2.2 Découpage du corpus en
unités statistiques
Cette étape est aujourd'hui moins fastidieuse avec les
efforts considérables que fournissent les serveurs de banques de
données dans la compilation des références. Les notices
bibliographiques sont des ensembles structurés d'information
composés de champs comme : auteurs, titre, mots-clés,
date de publication, langue, résumé ... Chaque champ est
composé d'un nom de champ et d'un contenu. « Certains champs
sont particulièrement riches d'information pour contribuer à
l'analyse de l'univers scientifique. Les champs mots-clés et
titre en sont de bons exemples. Ils figurent d'ailleurs parmi les
champs les plus souvent utilisés dans les études
bibliométriques » (Prime-Claverie, 2004).
I.2.3 Normalisation des
données
La normalisation du corpus est une étape très
importante, car elle conditionne pour une grande partie la bonne analyse des
données collectées. Malgré les efforts
déployés par les serveurs pour l'harmonisation des
références, certains champs posent beaucoup de problèmes
dans le cadre d'un traitement bibliométrique comme le champ adresse
des auteurs (Archambault, Vignola., 2004), qui présente souvent
beaucoup de variances. Toujours selon eux, il faut noter que les banques de
données sont optimisées pour retracer des articles plutôt
que pour faire des calculs complexes de dénombrement. En d'autres
termes, elles sont conçues pour des usages bibliographiques plutôt
que bibliométriques. Le travail de bibliométrie commence donc
avec le conditionnement de données bibliographiques dans le but de
constituer des banques de données bibliométriques. Le travail
consiste principalement à normaliser les données. Donc tout ceci
nécessite un travail de nettoyage, d'épuration et d'harmonisation
du corpus (ajout ou suppression de champs) pour arriver à un bon niveau
de traitement.
Ces différentes étapes ainsi
présentées, même si elles posent de temps en temps des
problèmes dans le cadre d'une étude bibliométrique, elles
sont largement facilitées par les efforts des serveurs de banques de
données en matière de compilation et d'harmonisation des
références bibliographiques. Dans notre contexte d'étude,
vu la spécificité et
l'hétérogénéité des documents web, ces
étapes, surtout celles concernant le découpage et la codification
du corpus, sont assez fastidieuses comme nous le verrons plus loin dans la
troisième partie.
|