1.2.2. Apurement du fichier et
déroulement du stage
1.2.2.1. Méthodologie de la phase
d'apurement
Après la saisie, l'apurement des données qui
est la détection des erreurs dans le fichier et leur correction est
nécessaire. Il comprend les étapes suivantes :
ü contrôles d'exhaustivité de la
saisie ;
ü contrôles de cohérence et de valeurs
aberrantes ;
ü gestion des données manquantes.
Le contrôle d'exhaustivité de la saisie permet de
repérer l'ensemble des informations partielles ou des omissions de
saisie non renseignées dans les questionnaires. Les omissions de saisie
peuvent conduire à l'incohérence de certaines variables, qu'il
convient de corriger avant toute analyse des données ; c'est ce qui
résume les contrôles de cohérence et de valeurs
manquantes.
L'on observe généralement des non
réponses totales ou partielles ; il s'agit non pas d'omission de
saisie, mais des données non renseignées au moment de
l'enquête sur le terrain. Compte tenu de l'impact que peut avoir ces
données manquantes sur la qualité des estimateurs et la
précision ou la vraisemblance des résultats obtenus, il convient
de les traiter par des techniques appropriées.
Le traitement des données manquantes consiste en un
ensemble de méthodes à appliquer en cas de non réponses,
en vue d'améliorer la qualité des résultats obtenus
lorsqu'on n'a pas pu enquêter la totalité de l'échantillon
ou encore en cas de valeurs aberrantes ou manquantes. Les
procédés possibles mis en exergue par la société
statistique du Canada dans une étude de cas sur le traitement des
données manquantes sont les suivantes :
ü Ne rien faire : les
diverses analyses réalisées risquent alors, selon l'ensemble des
variables analysées, d'être incohérentes ;
ü Inclure uniquement les répondants pour
lesquels les renseignements sont complets : il s'agit
d'éliminer toutes les unités d'échantillonnage avec au
moins une valeur manquante. Les estimateurs utilisés peuvent être
dans ce cas fortement biaisés, à moins que la non réponse
ne dépende d'aucune des variables d'intérêts.
ü Utiliser une des méthodes de
repondération : il s'agit d'augmenter le poids
appliqué aux répondants pour compenser les non répondants
quand on est en présence des non réponses totales (NRT).
ü Imputer les données pour remplacer les
données manquantes : il s'agit de produire une valeur
artificielle pour remplacer la valeur manquante. On utilise couramment
l'imputation par la moyenne, par le ratio, par régression et par le plus
proche voisin. Il faut noter cette technique est utilisée lorsque la non
réponse est partielle.
Pratiquement, l'apurement du fichier des données s'est
faite en plusieurs étapes : le regroupement des fichiers issues de
la saisie, l'implémentation des procédures de contrôle
d'exhaustivité de saisie, le contrôle de cohérences et des
procédures d'imputation éventuelle de certaines valeurs
manquantes ou aberrantes, l'exportation des données, la consultation des
listings d'erreurs produits et correction manuelle des données.
1.2.2.2. Le « Batch Edit
Application »
Le Batch Edit est un des modules du logiciel CSPro qui permet
de développer des applications permettant le contrôle a posteriori
des enregistrements d'un fichier de données. Ces contrôles se font
par le biais de procédures implémentées dans l'application
et s'appliquant aux fichiers de données adjoints spécifiés
lors du montage et à l'exécution de l'application ; le
résultat escompté est alors un listing d'erreurs
généré automatiquement que l'on peut aussi personnaliser.
Graphique 1.1: Exemple d'application Batch Edit
pour CRTV 2007
Source : EDIJ-2007
(ISSEA)
Ces contrôles se font par le biais de procédures
implémentées dans l'application et s'appliquant aux fichiers de
données adjoints spécifiés lors du montage et à
l'exécution de l'application ; le résultat escompté
est alors un listing d'erreurs généré automatiquement, que
l'on peut aussi personnaliser. Ce listing contient toutes les informations
relatives au nombre d'enregistrements parcourus, aux erreurs relevés,
aux imputations effectuées ainsi que l'indication des identifiants des
questionnaires correspondants.
Pour l'établissement de cette application, il suffit
d'avoir un ou plusieurs dictionnaires de données et autant de fichiers
de données correspondants ; Dans notre cas, il s'agit du
dictionnaire de données créé pour le masque de saisie
utilisé pour l'EDIJ 2007 monté dans CSPro. L'impression
écran ci-dessus illustre un aspect de quelques contrôles mis en
place dans CSPro.
Le tableau ci-dessous donne également un exemple
important de contrôles implémentés et ses fonctions dans le
tableau suivant :
Tableau 1.2 :
Quelques exemples de contrôles utilisés.
Fonction
|
Procédure
|
Description
|
Contrôle de cohérence
|
PROC CRTV05C
if s2q05a in 1-6 and $ in 1-2,9 then errmsg ("Niveau
d'instruction < 7; CRTV05c doit être vide"); endif ;
|
Cette procédure s'assure que le niveau d'instruction ne
doit pas être une valeur que celles permises
|
Source : EDIJ-2007 (ISSEA)
1.2.2.3.
Déroulement du stage
Après une réunion de mise au point avec notre
encadreur, notre stage a effectivement commencé le 04 juillet 2007. Ce
stage peut être découpé en quatre périodes :
Première période : du 4 au 15
juillet.
Durant cette période, il était question pour
nous de contrôler les questionnaires saisis et de procéder ensuite
à l'apurement du premier fichier de données issu de la saisie des
questionnaires par les étudiants de deuxième année du
cycle IAS et enfin de déceler les erreurs et omissions de saisie. La
plupart des variables telles que sexe, âge, durée de
résidence à Yaoundé ayant été
marquées « missing value » (valeurs manquantes)
ont été remplacés par leurs valeurs effectives
retrouvées sur les questionnaires. Les incohérences ont
été traitées automatiquement avec les procédures de
contrôle dans le logiciel CSPRO.
Deuxième période : du 16 au 31
juillet.
Cette période était essentiellement
consacrée à la saisie des questionnaires retrouvés et sa
fusion avec le fichier existant. La saisie s'est faite sur CSPRO suivie de
l'exportation des données vers le logiciel SPSS et de l'apurement de la
base de données ainsi générée.
Troisième période : du 1er au 18
Août.
Elle était consacrée à la tabulation,
à la création des variables nécessaires pour l'analyse et
à la confection des tableaux.
Quatrième période : du 19
Août au 15 septembre.
Durant cette période nous avons analysé les
données de l'enquête suivant les objectifs de l'étude. Nous
nous sommes particulièrement intéressés à la
section CRTV du questionnaire ménage et plus précisément
à l'étude du comportement des ménages de la ville de
Yaoundé par rapport au média CRTV.
|