WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Analyse de la situation de l'éducation des enfants de 6 à 15 ans: cas de la commune de San pedro

( Télécharger le fichier original )
par Victorien TCHOUDJA
Ecole National Supérieur de Statistique et d'Economie appliquée - Ingenieur des Travaux Statistiques 2007
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

2.1. CONSTITUTION DE LA BASE

2.2.1. Apurement des données

L'apurement est l'une des phases les plus importantes du traitement des données d'enquêtes. Il précède l'analyse des résultats de l'enquête et vient tout juste après la saisie des données. La fiabilité des résultats obtenus est largement tributaire de cette phase qui s'impose au statisticien dans son travail de collecte, de traitement et de diffusion de l'information. Elle se déroule généralement en plusieurs étapes. Rappelons que nous n'exposerons que les méthodes et mécanismes de traitement de données que nous avons utilisé.

2.2.1.1. Contrôle des données

L'apurement vise à détecter les erreurs et les incohérences dans la base. Pour Christian GOURIEROUX27, les différents types de contrôle à effectuer sur les données collectées et saisies sont :

> Le contrôle par comparaison avec les meilleures données ;

> Le contrôle comptable destinée à vérifier si les données respectent une certaine logique comptable ;

> Le contrôle de structure et de validité visant à vérifier s'il n'existe pas dans la base, des modalités ou codes qui ne devraient pas exister.

2.2.1.2. Traitement des données manquantes

Le phénomène des non-réponses est assez fréquent dans les enquêtes statistiques. Il se matérialise par des vides au niveau de certains champs d'une base de données.

27 GOURIEROUX Christian, Théorie des sondages, Economica, Paris 1981, PP.24-26.

La résolution de ce problème demeure l'un des objectifs de l'apurement. Toutefois, il convient de distinguer, au niveau des non-réponses, les sans objets et les valeurs manquantes à proprement parler.

a) Les sans objets

Les "sans objets" sont des non-répondants à une question du fait de leur inéligibilité pour cette question. Dans le cas de cette enquête les "sans objets" ont été définis. Par exemple, tous les individus de moins de 6 ans ne sont pas concernés par les questions concernant l'alphabétisation, le niveau d'instruction et l'emploi. Ce sont les questions Q15 à Q26 du questionnaire ménage. De même tous les individus de moins de 12 ans ne sont pas concernés par la question sur l'état matrimonial ; il s'agit de la question Q23 du questionnaire ménage. Le code 8 a été choisi pour codifier les "sans objets".

b) Traitements des valeurs manquantes

C'est la phase la plus délicate dans l'apurement des données. Il s'agit d'abord d'évaluer le mécanisme de non-réponses et ensuite de faire le choix de la méthode de traitement.

Concernant le mécanisme de non réponse, on distingue types :

Les données manquantes complètement dues au hasard (MCAR pour Missing completely at random) : la probabilité de réponse pour la variable d'intérêt y est la même pour toutes les unités de la population et ne dépend donc ni des variables auxiliaires ni de la variable d'intérêt

Les données manquantes dues au hasard (MAR pour Missing at random) : la
probabilité de réponse pour la variable d'intérêt y dépend des variables auxiliaires

Les données manquantes non dues au hasard (NMAR pour Not missing at random) : la probabilité de réponse pour la variable d'intérêt y dépend d'un ou d'autres variables non étudiées.

La méthode Hot deck aléatoire a été utilisée pour traiter ces valeurs manquantes. Cette méthode consiste à produire une « valeur artificielle » pour remplacer la valeur manquante. Elle permet d'utiliser un poids unique associé à chaque individu ou modalité, si bien que les résultats de diverses analyses seront nécessairement cohérents. On remplace la valeur manquante par la valeur observée chez un répondant proche, appelé donneur. Et le donneur est choisit au hasard parmi les répondants (Hot deck d'ensemble).

2.2.1.3. Recherche de doublons, Contrôles interne et de vraisemblance

Le phénomène de doublons représente le fait qu'un ménage ou un individu soit enregistré plusieurs fois dans la même base de données. Cela pourrait non seulement augmenter inutilement la taille de la base de données mais aussi de biaiser les analyses faites en prenant en compte ces doublons. La méthode utilisée est la plus usuelle de détection des irrégularités dans une base. Elle consiste à la mise en regard des réponses à plusieurs questions communes des questionnaires concernés et de supprimer celle qui sont superflues après avoir pris connaissance de ces derniers.

Parfois, une réponse donnée à l'une de ces questions n'autorise pas une certaine réponse aux autres questions. En effet il serait aberrant de rencontrer dans une base de données : un chef de ménage âgé de moins de 10 ans, une épouse de moins de six ans, un individu de niveau scolaire supérieur qui ne sait pas lire ni écrire, etc. Ces aberrations supposent une mauvaise réponse à l'une des questions concernées. C'est ainsi qu'un contrôle des données est donc nécessaire pour s'assurer de la cohérence interne dans la base et la meilleure manière de parvenir à une bonne correction est d'élaborer des tableaux croisés entre

les variables. Plus encore, un masque de saisie basé sur des contrôles appropriés ne garantit pas une base propre et dépourvue d'erreurs. Même avec une formation rigoureuse des agents de collecte, des agents de codification et une supervision des opérations de codification et de saisie, les incohérences peuvent toujours apparaître. Elles sont liées à la mauvaise compréhension des instructions par les agents de collecte, à la mauvaise codification et à la mauvaise saisie. Mais la mauvaise foi des enquêtés eux-mêmes conduit à des réponses erronées. C'est donc l'objet des contrôles de vraisemblance.

2.2.1.4. Contrôles de vraisemblance

Les contrôles de vraisemblance visent à vérifier la crédibilité des données enregistrées. Ils se basent sur des connaissances acquises dans le domaine d'étude et font intervenir des normes ou des fourchettes d'évolution des valeurs de variables ou de rapports de ces valeurs. En ce qui concerne les variables quantitatives, celles relatives à la dépense des valeurs invraisemblables ont été déclarées. Certains enquêtés ont déclaré par exemple que leur dépense de loyer est 2500 francs par mois, leur dépense en consommation journalier de plus de 5000. Tous les chefs de ménages ayant déclaré des sommes invraisemblables ont été sélectionnés et, après recours aux questionnaires, ont été traités au cas par cas. Certaines valeurs étaient le résultat d'une mauvaise saisie et ont donc fait l'objet d'une simple correction. Mais les sommes ayant été déclarées sur les questionnaires avec justification n'ont pas fait l'objet d'une correction.

2.2.2. Plan d'analyse

La présente étude fait l'état des lieux de la situation scolaire des enfants de 6 à 15 ans. Dans une telle étude l'utilisation des outils statistiques s'avère nécessaire pour apprécier les facteurs objectifs dont la fiabilité sera testée à l'aide de méthodes rigoureuses. Pour ce faire, nous aurons recours à deux méthodes : l'analyse des correspondances multiples (ACM) et la classification ascendante hiérarchique. La première est une technique de réduction factorielle qui permet d'avoir une vue globale des variables de base en mettant en évidence les liaisons, ressemblances ou différences entre elles. La seconde effectue des regroupements d'individus sur la base de comportements ou caractéristiques semblables (ou des regroupements de variables sur la base d'individus semblables) permettant ainsi de préciser les résultats de l'analyse factorielle. Mais avant, une analyse descriptive sera mise en oeuvre afin de déceler les liens éventuels entre les caractéristiques des jeunes et les variables permettant d'évaluer leur situation scolaire. Pour cela, il a été jugé nécessaire de procéder par des analyses univariées et bivariées.

2.2.2.1 Démarche univariée :

Nous construirons des tableaux de fréquence pour décrire certaines variables qualitatives et calculerons une variété de statistiques pour décrire les variables quantitatives. Cette étude se fera tant pour les variables à expliquer que pour les variables explicatives. 2.2.2.2 Démarche bivariée :

Elle consistera à l'évaluation de l'intensité de la relation qui existe entre les variables à expliquer et chacune des variables explicatives. Elle permettra aussi de dégager le profil des modalités de la variable à expliquer par rapport aux modalités de chacune des variables explicatives qualitatives.

Des modèles d'analyse de régression logistique seront utilisés pour mettre en exergue les caractéristiques socioculturelles des chefs de ménages qui ne scolarisent pas leurs enfants. Pour ce faire, nous utiliserons le logiciel STATA version 9, SPSS version 12 et SPAD 5.

Analyse de la situation de l'éducation des enfants de 6 à 15 ans : Cas de la commune de San Pedro

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Le doute est le commencement de la sagesse"   Aristote