Source : INCPAT SARL, Business Segment Research, 2012
B) Traitement des bases de données
Après les phases de collecte et de saisie des
données, deux bases ont été constituées : une base
pour les entreprises formelles et une autre pour les entreprises informelles.
Ensuite, il a été procédé à la segmentation
de chacun des marchés formel et informel afin d'affecter chaque
entreprise à l'un des segments suivants : Onlookers, Followers ou
Strikers43.
1- Traitement des données de l'enquête
Initialement, la base formelle contenait 461 entreprises et
401 variables. La base informelle quant à elle contenait 399 entreprises
et 377 variables. Ainsi, après suppression de certaines variables non
corrélées au thème d'étude et création de
nouvelles, la base formelle contenait à nouveau 244 variables et la base
informelles 228 variables. En ce qui concerne les individus (ici les
entreprises formelles et informelles), certains présentant des valeurs
anormales ont été supprimés. Ainsi, six entreprises ont
été supprimées de la base formelle et quatorze de la base
informelle.
43 La description de ces segments a été
faite dans le chapitre premier
NGUEMO NGUEABOU Joel - Élève Ingénieur
Statisticien 27
Chapitre 2
Revue de littérature, aspects méthodologiques,
données et sources de données
2- Apurement des données
L'apurement est l'une des phases les plus importantes du
traitement des données d'une enquête. Il précède
l'analyse des résultats et vient tout juste après la saisie des
données. La fiabilité des résultats obtenus est largement
tributaire de cette phase qui s'impose au statisticien dans son travail de
collecte, de traitement et de diffusion de l'information. Elle se
déroule généralement en plusieurs étapes. Nous
n'exposerons que les méthodes et mécanismes de traitement de
données que nous avons utilisé.
A) Le contrôle des données
Le contrôle des données vise à
détecter les erreurs et les incohérences dans la base. Selon
Christian GOURIEROUX44, les différents types de
contrôles à effectuer sur les données collectées et
saisies sont :
? Le contrôle par comparaison avec les meilleures
données ;
? Le contrôle comptable destiné à
vérifier si les données respectent une certaine logique comptable
;
? Le contrôle de structure et de validité dont le
but est de vérifier s'il n'existe pas dans la base de données des
modalités ou des codes qui ne devraient pas exister.
a) Le traitement des données
manquantes
Les non-réponses sont un phénomène
très fréquent dans les enquêtes statistiques. Ils se
manifestent par des vides au niveau de certains champs d'une base de
données. La résolution de ce problème demeure un objectif
majeur de l'apurement. Cependant, il convient de distinguer au niveau des
non-réponses les valeurs manquantes dues aux sauts logiques et celles
dues aux non-réponses proprement dites qu'on appelle fréquemment
les « sans objets » ou « non concernés ».
(i) Les sans objets
Les sans objets sont les individus qui ne sont pas
concernés par une question du fait de leur inéligibilité
à celle-ci. Toutes les variables présentant des sauts ont
été supprimées des bases.
(ii) Le traitement des valeurs manquantes
C'est une phase délicate dans l'apurement des
données manquantes. Il s'agit d'abord d'évaluer le
mécanisme de non-réponse, ensuite de faire le choix de la
méthode de traitement. Concernant le mécanisme de
non-réponse, on distingue plusieurs types :
44 Théorie des sondages, Economica, Paris 1981,
PP. 24-26
NGUEMO NGUEABOU Joel - Élève Ingénieur
Statisticien 28
Chapitre 2
Revue de littérature, aspects méthodologiques,
données et sources de données
? Les données manquantes complètement dues au
hasard (MCAR pour Missing completely at random) : la probabilité de
réponse pour la variable d'intérêt est la même pour
toutes les unités de la population et ne dépend donc ni des
variables auxiliaires ni de la variable d'intérêt ;
? Les données manquantes dues au hasard (MAR pour
Missing at random) : la probabilité de réponse pour la variable
d'intérêt dépend des variables auxiliaires ;
? Les données manquantes non dues au hasard (NMAR pour
Not missing at random) : la probabilité de réponse pour la
variable d'intérêt dépend d'un ou d'autres variables non
étudiées.
Dans le cadre de cette étude, pour le traitement des
valeurs manquantes nous avons adopté la procédure suivante :
? Pour les variables qualitatives, nous avons utilisé
le mode de la série des observations valides ;
? Pour les variables quantitatives nous avons combiné
la méthode de la moyenne des 10 points voisins et celle de la moyenne de
la série des observations valides.
|