V. Méthodologie de l'analyse des
correspondances multiples
Avant de lancer l'ACM, on a vu opportun de se baser sur un
découpage spatial en distinguant les deux milieux : urbain et
rural. Cette distinction est très intéressante pour cette
étude socio-économique. En effet, il existe d'énormes
disparités entre les ruraux et les citadins du point de vue des niveaux
de vie. Les pauvres au sein du milieu rural représentent 20,54% alors
que les pauvres parmi les citadins ne représentent que 8,11%. Les ruraux
n'ont pour ressources que celles qu'ils tirent péniblement de leur
milieu naturel, tandis que les citadins occupent des professions qui
génèrent un revenu plus ou moins important.
Dans notre fichier de données les ruraux
représentent 56,40% de l'ensemble des individus soit environ 11064
individus. Les citadins quant à eux représentent 43,60% soit 8554
individus. De plus cette distinction entre les deux milieux nous a permis de
réduire davantage le nombre total d'individus.
Les variables dites actives retenues pour l'analyse des
correspondances multiples pour les deux sous-fichiers à savoir le
fichier des ruraux et le fichier des citadins, sont au nombre de 13
variables :
v Profession principale (8 modalités).
v Branche d'activité (12 modalités).
v Situation dans la profession (5 modalités)
v Plus haut diplôme obtenu(7 modalités).
v Dernière classe fréquentée ( 5
modalités )
v Les tranches d'âges (5modalités).
v Les classes de dépenses (10 modalités).
v Le sexe de l'individu (2 modalités).
v Le lieu de naissance (3 modalités).
v Le lien de parenté avec le chef du ménage (7
modalités).
v Situation familiale (4 modalités).
v Sexe du chef du ménage (2 modalités).
v Niveau de pauvreté (2 modalités ).
Ces 13 variables actives engendrent au total 72
modalités. Celles-ci sont ensuite utilisées pour le recodage
disjonctif complet. En effet, l'ACM ne s'applique que sur des tableaux binaires
ne comportant que de 0 et des 1. Le codage disjonctif complet présente
des propriétés très intéressantes, les
procédures de calculs sont simplifiées ainsi que les
règles d'interprétations. Le logiciel STATlab permet le recodage
disjonctif complet des variables qualitatives automatiquement après le
lancement de l'ACM.
Le codage disjonctif complet consiste à transformer une
variable qualitative à r modalités en
r variables binaires indicatrices de chaque modalité.
Il est disjonctif parce que toutes les modalités d'une variable
qualitative s'excluent mutuellement et il est complet parce qu'à tout
individu correspond une modalité de réponse et une seule. Par
exemple, à partir de la variable "S_indiv" qui indique
le sexe de l'individu, on construit deux nouvelles variables binaires
notées "S_Masc" et "S_Fémi"
codées de la manière suivante :Absence de modalité :
0Présence de modalité : 1
Tableau 4. : Le recodage disjonctif
complet d'une variable qualitative
Individu
|
...
|
S_Masc
|
S_Fémi
|
....
|
1
2
3
4
5
.
.
.
|
|
1
0
0
0
1
.
.
.
|
0
1
1
1
0
.
.
.
|
|
C'est-à-dire que les individus 1 et 5 sont de sexe
masculin et les individus 2, 3 et 4 sont de sexe féminin.
IV.1 L'ACM du milieu urbain
L'ACM du milieu urbain a donné environ 26 axes
factoriels qui est un nombre très élevé. Ceci est dû
au fait que les premiers axes factoriels ont une inertie expliquée
très faible (11,19% pour le premier axe et 9.52% pour le deuxième
axe). Dans ce cas on est obligé de conserver un nombre important d'axes
factoriels ce qui va alourdir le temps de calcul lorsqu'on effectue des
classifications. On a conservé 9 axes qui ont un cumul d'inerties
expliquées de 61,11%.
Figure 2. : Les inerties expliquées des axes factoriels
obtenus à l'aide de l'analyse des correspondances multiple du milieu
urbain
Les premiers axes factoriels choisis remplaceront donc les
variables qualitatives initiales. Les distances entre individus sont alors
calculées dans l'espace des premiers axes factoriels avec la distance
euclidienne usuelle. Les méthodes de classifications peuvent cependant
être menées sur de grand ensemble comportant des milliers ou des
dix milliers d'individus.
|