Analyse socio-économique de l'alphabetisme au Mali( Télécharger le fichier original )par Monde MAMBIMONGO WANGOU Institut Sous-régional de Statistique et d'Economie Appliquée (ISSEA) - Ingénieur Statisticien 2008 |
III.3.3. Caractérisation de la population selon les capacités linguistiques.III.3.3.1 : ACM: occupation des individus.N'ayant pas la maîtrise du traitement des données manquantes, nous avons trouvé mieux de ne pas les supprimer de la base d'étude, extraite de l'ELIM II et qui comprend 21281 individus âgés de plus de 15 ans. C'est dans ce souci que nous avons maintenu sur certaines variables, la modalité « réponses manquantes » et avons laissé le soin au logiciel de traitement SPAD 4.0 de ventiler les occurrences de variables dont le pourcentage serait inferieur à 2%. A titre illustratif, nous présentons ci-dessous les variables nominales actives et leurs modalités avant apurement. Ces variables sont en nombre de 10 et reparties sur 48 modalités. Tableau3.14 : variables actives et modalités avant apurement.
Source : ELIM II/DNSI. Dans tout le long de cette partie, nous désignerons par J, le nombre de modalités actives et par P, celui des variables actives. La lecture du tableau 3.15 en annexes B, montre que 12 modalités ont été éliminées car le nombre de modalités est passé de 48 à 36. Cependant plus d'éclaircis sont amenés par le tableau 3.16 (Annexes B), car selon les résultats du tri-à-plat des questions actives, la totalité des réponses manquantes ont été ventilées automatiquement. De plus, la modalité « supérieur » de la variable niveau d'instruction, la modalité « chômeurs » de la situation face à l'emploi, les modalités « transporteur », « chômeur », « retraité », de la variable groupe socioéconomique ont été ventilées. Prenons par exemple la variable `capacités linguistiques', on peut facilement remarquer que les 13 réponses manquantes ont été reparties aléatoirement de la façon suivante : 6 observations vers les alphabètes et 7 autres vers les analphabètes. III.3.3.1.1. Nombre d'axes à retenirEn ACM14(*), la somme des valeurs propres15(*) est donnée par le rapport I = (J-P)/P, avec I, l'inertie totale16(*) de l'ensemble des données, alors que le nombre de valeurs propres s'établit à partir de la différence suivante : J-P. C'est ainsi que nous obtenons 26 valeurs propres de somme égale à 2,6. Le tableau 3.17 (voir Annexes B), donnant l'histogramme des valeurs propres peut nous aider à décider du nombre d'axes factoriels sur lesquels seront faites les interprétations. En effet, la lecture de ce tableau montre que la décroissance des valeurs propres n'est pas régulière. De même, l'histogramme des valeurs propres laisse entrevoir un fort décalage entre la 4e et la 5e valeur propre (pourcentage respectif de 6,5% et 4,68%). On peut tout aussi constater que le premier axe n'explique que 15,34% de l'information contenue dans l'ensemble des données, suivi du deuxième axe qui ne s'arrête compte à lui qu'à 10,61%. Le cumul de la variance expliquée par les deux premiers axes s'établit autour de 25%. Or, en analyse des données, il est conseillé d'utiliser en général au moins la moitié de la variance totale, donc environ les 7 premiers axes dans notre cas. Le choix de 7 premiers axes factoriels pose problème dans le cadre de l'interprétation et reviendra très lourd, dans la mesure où beaucoup d'axes (à partir du 4e) n'expliquent individuellement que moins de 4% de l'inertie totale. C'est ainsi que nous nous proposons d'arrêter l'interprétation sur les 2 premiers axes factoriels, ce qui est d'ailleurs acceptable dans le cadre d'une ACM. * 14 L'analyse en correspondances multiples en abrégé ACM, est une méthode d'analyse des données qui permet de décrire les liaisons entre (p = 3) variables qualitatives simultanément observées sur N individus. * 15Ici la valeur propre peut être considérée comme un nombre qui décrit la part de l'information expliquée par l'axe correspondant. * 16 En Analyse factorielle, l'inertie totale peut être vue comme la quantité de l'information contenue dans les données, c'est une valeur qui traduit la dispersion des individus par rapport aux variables actives. Le principe de l'ACM est de trouver un sous-espace de dimension réduite sur lequel seront projetés l'ensemble des données, tout en respectant dans la mesure du possible, les proximités qui existent entre les individus du tableau initial. |
|