3.3 Traitements relatifs aux bases de
données
La première étape du traitement consiste
à sélectionner les variables d'intérêt pour notre
étude dans chacune des bases. Le questionnaire de l'enquête de
l'intérieur étant inspiré de celui d'Abidjan, on a pu
avoir des variables similaires dans les deux bases. Ce sont ces variables qui
vont ensuite nous permettre d'effectuer la fusion des bases par ajout des
observations .En définitif on a pu avoir trente-deux variables dont dix
sont relatives aux caractéristiques sociodémographiques, que nous
allons croiser avec les vingt-deux variables de la section « mutilations
génitales féminines ». Cependant, il convient de souligner
que les concepteurs du questionnaire de l'intérieur ont adopté
une codification différente de celle de l'enquête d'Abidjan pour
certaines variables. En effet, les modalités de certaines variables ont
été codées comme des entiers alors qu'elles étaient
des chaines de caractère dans le questionnaire d'Abidjan. La fusion des
variables étant impossible si les deux variables sont de types
différents, nous avons dû changer le type numérique en
chaine de caractère.
La seconde étape du traitement consistait à
rendre les noms et les libelles des variables identiques dans les deux bases.
En effet, certaines variables qui ne figuraient pas dans le questionnaire
d'Abidjan ont été ajoutées dans le questionnaire de
l'intérieur c'est ce qui a bouleversé l'ordre des variables par
rapport au questionnaire initial.
Après avoir uniformisé les noms et les
libellés des variables dans les deux bases, nous les avons enfin
fusionné par ajout des observations. A ce niveau, il apparaissait encore
les variables où certaines modalités sont les chaines de
caractère et d'autres des codes. Nous avons donc fait recours au manuel
de codification pour transformer les codes en chaines de caractères.
Nous avons également uniformisé certaines variables dichotomiques
car la modalité « non » était parfois codée
«2 » parfois codée «1».
Après la fusion des deux bases, nous avons
procédé à un tri à plat sur toutes les variables
retenues. Cette étape nous a permis de déceler la présence
d'un grand nombre de valeurs manquantes. Notre objectif fut de savoir si ces
valeurs manquantes étaient dues à des sauts ou si celles-ci
étaient réellement des valeurs manquantes dans les sens propre du
terme. Notre objectif étant d'avoir un taux de valeur manquante par
variable inférieur ou égal à 5 pourcent. A ce niveau, nous
avons remarqué que la variable groupe ethnique, (Qui sera
déterminante pour notre analyse) présentait un très grand
nombre de valeurs manquantes, issue principalement de la base de
l'intérieur. La technique d'imputation des valeurs manquantes.
Était de regrouper les individus dans les mêmes ménages et
d'affecter l'ethnie d'un répondant à celui des autres non
répondants du même ménage. Cette méthode est
fondée sur l'hypothèse selon laquelle les individus d'un
même ménage ou à la limite, d'une même concession,
appartiendraient au même groupe ethnique. La phase technique consistait
à ranger les individus selon le département, puis selon le milieu
de résidence, puis la commune, jusqu'au niveau le plus fin qui est le
ménage. D'autres technique similaires ont été
utilisées pour traiter les valeurs manquantes d'autres variables.
Finalement, ces différentes manipulations nous ont permis d'avoir une
base prête à être utilisée. Cette base (d'extension
SAV) a ensuite été convertie en un format d'extension SBA pour
l'analyse multivariée à l'aide du logiciel SPAD.
Religion et pratique de l'excision en Côte d'Ivoire ENSEA,
Mai 2012
Douala Roméo, Nguemo Ngueabou Joel - ITS 2012 35
|