1.3. APUREMENT DU FICHIER
Après la saisie, l'apurement des données qui est
la détection des erreurs dans le fichier et leur correction est
nécessaire. Il comprend les étapes suivantes :
ü contrôles d'exhaustivité de la
saisie ;
ü contrôles de cohérence et de valeurs
aberrantes ;
ü gestion des données manquantes.
Le contrôle d'exhaustivité de la saisie permet de
repérer l'ensemble des informations partielles ou des omissions de
saisie non renseignées dans les questionnaires. Les omissions de saisie
peuvent conduire à l'incohérence de certaines variables, qu'il
convient de corriger avant toute analyse des données ; c'est ce qui
résume les contrôles de cohérence et de valeurs
manquantes.
L'on observe généralement des non
réponses totales ou partielles ; il s'agit non pas d'omission de
saisie, mais des données non renseignées au moment de
l'enquête sur le terrain. Compte tenu de l'impact que peut avoir ces
données manquantes sur la qualité des estimateurs et la
précision ou la vraisemblance des résultats obtenus, il convient
de les traiter par des techniques appropriées.
Le traitement des données manquantes consiste en un
ensemble de méthodes à appliquer en cas de non réponses,
en vue d'améliorer la qualité des résultats obtenus
lorsqu'on n'a pas pu enquêter la totalité de l'échantillon
ou encore en cas de valeurs aberrantes ou manquantes. Les
procédés possibles mis en exergue par la société
statistique du Canada dans une étude de cas sur le traitement des
données manquantes sont les suivantes :
ü Ne rien faire : les
diverses analyses réalisées risquent alors, selon l'ensemble des
variables analysées, d'être incohérentes ;
ü Inclure uniquement les répondants pour
lesquels les renseignements sont complets : il s'agit
d'éliminer toutes les unités d'échantillonnage avec au
moins une valeur manquante. Les estimateurs utilisés peuvent être
dans ce cas fortement biaisés, à moins que la non réponse
ne dépende d'aucune des variables d'intérêts.
ü Utiliser une des méthodes de
repondération : il s'agit d'augmenter le poids
appliqué aux répondants pour compenser les non répondants
quand on est en présence des non réponses totales (NRT).
ü Imputer les données pour remplacer les
données manquantes : il s'agit de produire une valeur
artificielle pour remplacer la valeur manquante. On utilise couramment
l'imputation par la moyenne, par le ratio, par régression et par le plus
proche voisin. Il faut noter cette technique est utilisée lorsque la non
réponse est partielle.
Pratiquement, l'apurement du fichier des données s'est
fait en plusieurs étapes : le regroupement des fichiers issues de
la saisie, l'implémentation des procédures de contrôle
d'exhaustivité de saisie, le contrôle de cohérence et des
procédures d'imputation éventuelle de certaines valeurs
manquantes ou aberrantes, l'exportation des données, la consultation des
listings d'erreurs produits et correction manuelle des données.
|