2.1. CONSTITUTION DE LA BASE
2.2.1. Apurement des données
L'apurement est l'une des phases les plus importantes du
traitement des données d'enquêtes. Il précède
l'analyse des résultats de l'enquête et vient tout juste
après la saisie des données. La fiabilité des
résultats obtenus est largement tributaire de cette phase qui s'impose
au statisticien dans son travail de collecte, de traitement et de diffusion de
l'information. Elle se déroule généralement en plusieurs
étapes. Rappelons que nous n'exposerons que les méthodes et
mécanismes de traitement de données que nous avons
utilisé.
2.2.1.1. Contrôle des
données
L'apurement vise à détecter les erreurs et les
incohérences dans la base. Pour Christian GOURIEROUX27, les
différents types de contrôle à effectuer sur les
données collectées et saisies sont :
> Le contrôle par comparaison avec les meilleures
données ;
> Le contrôle comptable destinée à
vérifier si les données respectent une certaine logique comptable
;
> Le contrôle de structure et de validité visant
à vérifier s'il n'existe pas dans la base, des modalités
ou codes qui ne devraient pas exister.
2.2.1.2. Traitement des données
manquantes
Le phénomène des non-réponses est assez
fréquent dans les enquêtes statistiques. Il se matérialise
par des vides au niveau de certains champs d'une base de données.
27 GOURIEROUX Christian, Théorie des sondages, Economica,
Paris 1981, PP.24-26.
La résolution de ce problème demeure l'un des
objectifs de l'apurement. Toutefois, il convient de distinguer, au niveau des
non-réponses, les sans objets et les valeurs manquantes à
proprement parler.
a) Les sans objets
Les "sans objets" sont des non-répondants à une
question du fait de leur inéligibilité pour cette question. Dans
le cas de cette enquête les "sans objets" ont été
définis. Par exemple, tous les individus de moins de 6 ans ne sont pas
concernés par les questions concernant l'alphabétisation, le
niveau d'instruction et l'emploi. Ce sont les questions Q15 à Q26 du
questionnaire ménage. De même tous les individus de moins de 12
ans ne sont pas concernés par la question sur l'état matrimonial
; il s'agit de la question Q23 du questionnaire ménage. Le code 8 a
été choisi pour codifier les "sans objets".
b) Traitements des valeurs
manquantes
C'est la phase la plus délicate dans l'apurement des
données. Il s'agit d'abord d'évaluer le mécanisme de
non-réponses et ensuite de faire le choix de la méthode de
traitement.
Concernant le mécanisme de non réponse, on
distingue types :
Les données manquantes complètement dues au
hasard (MCAR pour Missing completely at random) : la probabilité de
réponse pour la variable d'intérêt y est la même pour
toutes les unités de la population et ne dépend donc ni des
variables auxiliaires ni de la variable d'intérêt
Les données manquantes dues au hasard (MAR pour Missing
at random) : la probabilité de réponse pour la variable
d'intérêt y dépend des variables auxiliaires
Les données manquantes non dues au hasard (NMAR pour
Not missing at random) : la probabilité de réponse pour la
variable d'intérêt y dépend d'un ou d'autres variables non
étudiées.
La méthode Hot deck aléatoire a
été utilisée pour traiter ces valeurs manquantes. Cette
méthode consiste à produire une « valeur artificielle »
pour remplacer la valeur manquante. Elle permet d'utiliser un poids unique
associé à chaque individu ou modalité, si bien que les
résultats de diverses analyses seront nécessairement
cohérents. On remplace la valeur manquante par la valeur observée
chez un répondant proche, appelé donneur. Et le donneur est
choisit au hasard parmi les répondants (Hot deck d'ensemble).
2.2.1.3. Recherche de doublons, Contrôles
interne et de vraisemblance
Le phénomène de doublons représente le
fait qu'un ménage ou un individu soit enregistré plusieurs fois
dans la même base de données. Cela pourrait non seulement
augmenter inutilement la taille de la base de données mais aussi de
biaiser les analyses faites en prenant en compte ces doublons. La
méthode utilisée est la plus usuelle de détection des
irrégularités dans une base. Elle consiste à la mise en
regard des réponses à plusieurs questions communes des
questionnaires concernés et de supprimer celle qui sont superflues
après avoir pris connaissance de ces derniers.
Parfois, une réponse donnée à l'une de
ces questions n'autorise pas une certaine réponse aux autres questions.
En effet il serait aberrant de rencontrer dans une base de données : un
chef de ménage âgé de moins de 10 ans, une épouse de
moins de six ans, un individu de niveau scolaire supérieur qui ne sait
pas lire ni écrire, etc. Ces aberrations supposent une mauvaise
réponse à l'une des questions concernées. C'est ainsi
qu'un contrôle des données est donc nécessaire pour
s'assurer de la cohérence interne dans la base et la meilleure
manière de parvenir à une bonne correction est d'élaborer
des tableaux croisés entre
les variables. Plus encore, un masque de saisie basé
sur des contrôles appropriés ne garantit pas une base propre et
dépourvue d'erreurs. Même avec une formation rigoureuse des agents
de collecte, des agents de codification et une supervision des
opérations de codification et de saisie, les incohérences peuvent
toujours apparaître. Elles sont liées à la mauvaise
compréhension des instructions par les agents de collecte, à la
mauvaise codification et à la mauvaise saisie. Mais la mauvaise foi des
enquêtés eux-mêmes conduit à des réponses
erronées. C'est donc l'objet des contrôles de vraisemblance.
2.2.1.4. Contrôles de
vraisemblance
Les contrôles de vraisemblance visent à
vérifier la crédibilité des données
enregistrées. Ils se basent sur des connaissances acquises dans le
domaine d'étude et font intervenir des normes ou des fourchettes
d'évolution des valeurs de variables ou de rapports de ces valeurs. En
ce qui concerne les variables quantitatives, celles relatives à la
dépense des valeurs invraisemblables ont été
déclarées. Certains enquêtés ont
déclaré par exemple que leur dépense de loyer est 2500
francs par mois, leur dépense en consommation journalier de plus de
5000. Tous les chefs de ménages ayant déclaré des sommes
invraisemblables ont été sélectionnés et,
après recours aux questionnaires, ont été traités
au cas par cas. Certaines valeurs étaient le résultat d'une
mauvaise saisie et ont donc fait l'objet d'une simple correction. Mais les
sommes ayant été déclarées sur les questionnaires
avec justification n'ont pas fait l'objet d'une correction.
2.2.2. Plan d'analyse
La présente étude fait l'état des lieux
de la situation scolaire des enfants de 6 à 15 ans. Dans une telle
étude l'utilisation des outils statistiques s'avère
nécessaire pour apprécier les facteurs objectifs dont la
fiabilité sera testée à l'aide de méthodes
rigoureuses. Pour ce faire, nous aurons recours à deux méthodes :
l'analyse des correspondances multiples (ACM) et la classification ascendante
hiérarchique. La première est une technique de réduction
factorielle qui permet d'avoir une vue globale des variables de base en mettant
en évidence les liaisons, ressemblances ou différences entre
elles. La seconde effectue des regroupements d'individus sur la base de
comportements ou caractéristiques semblables (ou des regroupements de
variables sur la base d'individus semblables) permettant ainsi de
préciser les résultats de l'analyse factorielle. Mais avant, une
analyse descriptive sera mise en oeuvre afin de déceler les liens
éventuels entre les caractéristiques des jeunes et les variables
permettant d'évaluer leur situation scolaire. Pour cela, il a
été jugé nécessaire de procéder par des
analyses univariées et bivariées.
2.2.2.1 Démarche univariée
:
Nous construirons des tableaux de fréquence pour
décrire certaines variables qualitatives et calculerons une
variété de statistiques pour décrire les variables
quantitatives. Cette étude se fera tant pour les variables à
expliquer que pour les variables explicatives. 2.2.2.2
Démarche bivariée :
Elle consistera à l'évaluation de
l'intensité de la relation qui existe entre les variables à
expliquer et chacune des variables explicatives. Elle permettra aussi de
dégager le profil des modalités de la variable à expliquer
par rapport aux modalités de chacune des variables explicatives
qualitatives.
Des modèles d'analyse de régression logistique
seront utilisés pour mettre en exergue les caractéristiques
socioculturelles des chefs de ménages qui ne scolarisent pas leurs
enfants. Pour ce faire, nous utiliserons le logiciel STATA
version 9, SPSS version 12 et SPAD 5.
Analyse de la situation de l'éducation des
enfants de 6 à 15 ans : Cas de la commune de San Pedro
|