B. Préparation du corpus
1. Échantillonnage
Échantillonner revient à
sélectionner les données d'un corpus selon des
logiques de représentativité. Pour les enquêtes sous
forme de questionnaire ou entretien sémi- directif, des formules
statistiques permettent une réduction des informations à
une taille convenable pour mieux assurer leur exploitation. Il en va de
même pour les textes faisant l'objet d'une analyse de discours.
Certes, notre corpus, Le Projet d'établissement 2004/2007 de
l'Université de Nantes est assimilable à un discours. Mais cela
dépend de la définition que l'on donne au discours. Ce dans
quoi nous ne nous embarquerons pas. Du moins, pas plus que
sommairement. Il est néanmoins important de préciser la
nature de ce corpus pour mieux comprendre les choix méthodologiques
qui lui sont appliqués.
"Développement oratoire sur un sujet
déterminé, prononcé en public ; allocution"
(Petit Larousse, 2005) ? Tel n'est pas exactement le cas de ce
Projet. Auquel cas, notre corpus ne serait pas un discours. "Ling. a.
Réalisation concrète, écrite ou orale, de la langue
considérée comme un système abstrait." (Petit
Larousse, 2005) semble déjà correspondre à sa
nature, dans sa globalité. Il convient toutefois
d'apporter quelques précisions pour préciser une
catégorisation qui semble si nette. Les deux pages d'avant-propos du
président François Resche, oeuvre individuelle s'il en est,
vérifient bien la première définition. Les 91 pages
suivantes, plus collectives quant à elles, revêtent une forme
mixte : elles mélangent la forme d'un discours oral semblable à
l'allocution du Président et une forme de rapport
structuré et documenté par des tableaux statistiques,
graphiques, listes et index qui ressemble plutôt à la
deuxième définition. Dans tous les cas, "une réalisation
écrite [...] de la langue considérée comme un
système abstrait" définit mieux ce document. Alors comment
échantillonner un tel document qui traite de plusieurs sujets
complémentaires pour former un ensemble de projection d'une
grande organisation ? Malgré d'énormes efforts de
réflexion pour y parvenir, nul argument ne nous parait justifier la
négligence de telle partie au dépens de telle autre, la mise en
relief de telles idées par rapport à d'autres sans tomber dans
une prise de partie fortement inductive. Le choix de
considérer le document dans sa totalité, pour respecter son
intégrité, l'a donc emporté. Il en va de la qualité
de l'enseignement qui peut en être tiré. Techniquement, par
ailleurs, plus le corpus est volumineux, meilleure sera la qualité des
résultats de son traitement par Alceste.
Cependant, pour des raisons techniques liées à
l'utilisation du logiciel Alceste,
il a fallu procéder à une très longue
préparation, en amont, afin que le maximum de données
texte soit compatible avec le format imposé par le traitement
automatique.
2. Formatage du texte
Toutes les manipulations du texte ont été faites
à partir de la version numérique
du document. Complète, elle contient les mises
en forme très élaborées qu'offre le logiciel
Microsoft Word qui a servi à son édition. Il a donc fallu
"nettoyer" ce corpus pour le mettre au format Alceste. Ce qui a
nécessité deux phases de travail :
Malgré notre aisance en matière de
bureautique, le plus long et fastidieux travail fut l'élimination
de tous les index qui ne peut s'effectuer que mot par mot,
élément par élément, sans aucune automatisation
possible. En tout cas, aucune astuce de la version de Microsoft Word
2003 ou antérieure ne le rend possible encore. Ensuite, plus
raisonnable en temps de travail, la suppression des graphiques pour
finir par la conversion des tableaux en textes. En allocation de
ressources temporaires, cette partie de formatage nous a
dilapidé des heures de travail excessivement
disproportionnées.
La suite a été faite dans un délai
plus raisonnable proportionnellement à l'ensemble du temps
consacré à la réalisation de tout ce travail de
mémoire. Il s'agit de rendre le corpus exactement conforme au format
Alceste : conversion du document en format texte ;
transformation des majuscules en minuscules pour que maximum
d'items puisse être analysé ;
réécriture de certaines expressions (ie. groupes
nominaux, noms composés...) concaténées par
des tirets bas (_) pour garder leur unité sous forme
d'un seul mot, etc. Quant au découpage par UCI et UCE, le texte a
été laissé en entier dans sa forme "naturelle" afin que le
logiciel prenne entièrement en charge de sa réorganisation. Un
tel choix est le corollaire même de la nature du document qui
l'autorise. Il participe aussi de certaines précautions pour se
prémunir des tentations d'influer sur la direction de l'analyse en
intervenant le moins possible en amont. Cela correspond bien à la
philosophie générale d'Alceste.
Soulignons seulement pour finir, que la méthodologie,
qu'elle soit quantitative
ou qualitative, avec tous les lots d'instrumentations qu'elle
propose, n'a pas pour fonction de faire
la recherche à notre place. Si en sciences physiques ou en
chimie cela semble possible - ce qui
est moins sûr - en sciences humaines, nous estimons
que la méthodologie aide et encadre le travail de recherche pour
assurer un travail scientifique. Mais ce n'est pas une procédure
à suivre
à la lettre ou à la virgule près. À
nous d'adapter soit la méthode, soit le résultat de ses
instruments
à ce que nous observons et au résultat de notre
propre constat, analyse ou remarques inopinées, pour vérifier si
notre hypothèse est corroborée, pour l'échantillon choisi,
ou infirmée.
Alors, passons au stade suivant pour poser nos
hypothèses.
|