III. Recodage des variables
La nature des variables socio-économiques objet de
l'étude n'étant pas la même, ceci pose un problème
au niveau de l'analyse désirée. Pour résoudre ce
problème on transforme les deux variables quantitatives qui sont
"l'âge" et "les dépenses annuelles par tête" en variables
qualitatives, en procédant par un découpage de l'espace
d'arrivé O de la variable quantitative V en classes [Celeux, G., et
al., (1989)] avec
V : I O
V : est la variable quantitative
I : l'ensemble des individus
O : l'espace d'arrivé ( R ou N par exemple)
Ø Pour la variable "dépenses
annuelles moyennes par personne", on a adopté le
découpage par déciles de L'E.N.N.V.M.90/91. On obtient donc une
variable qualitative dénommée "Cl_dép" et qui a
pour modalités
1- Dépenses inférieures à 2306 DH.
2- Dépenses comprises entre 2307 et 2934 DH.
3- Dépenses comprises entre 2935 et 3529 DH
4- Dépenses comprises entre 3530 et 4177 DH.
5- Dépenses comprises entre 4178 et 5064 DH.
6- Dépenses comprises entre 5065 et 6001 DH.
7- Dépenses comprises entre 6002 et 7303 DH.
8- Dépenses comprises entre 7304 et 9062 DH.
9- Dépenses comprises entre 9063 et 12438DH.
10- Dépenses supérieures à 12439 DH.
Pour la variable âge, on
choisit les tranches d'âges suivantes
1- 0_14ans : l'individu est âgé de moins de 14
ans révolus
2- 15_24ans : l'âge de l'individu est compris entre 15
et 24 ans révolus.
3- 25_44ans : l'âge de l'individu est compris entre 25
et 44 ans révolus.
4- 45_59ans : l'âge de l'individu est compris entre 45
et 59 ans révolus.
5- 60 et plus : l'âge de la personne est de 60 ans et
plus.
Le choix de ces tranches d'âges est en fonction de
l'âge à l'activité. Généralement, dans la
tranche d'âge de 0 à 14 ans révolus se situent les
inactifs. Par contre les retraités se situent dans la dernière
tranche d'âge ouverte c'est à dire 60 ans et plus. Il est en effet
notable que ce type de découpage entraîne une perte d'information
qu'on peut la qualifier de deux manières [Celeux, G., et al.,
(1989)] :
On perd la distinction entre les objets (ici les individus)
d'une même classe.
On perd aussi l'amplitude de la différence entre les
objets de deux classes différentes.Le tableau T1 est donc
homogène (toutes les variables sont qualitatives) et de dimension 19618
x 14, on exclue les trois variables Fiche, identif et Num_ordre.
IV. Complémentarité entre l'analyse
factorielle et la classification
Les données d'enquêtes comportent en
général un ensemble de variables qualitatives ayant un ensemble
limité de modalités. Les analyses factorielles notamment
l'analyse des correspondances multiples s'apprêtent bien à ce type
de données. En effet, l'ACM se caractérise par son pouvoir de
filtrage. Elle permet également de travailler sur les coordonnées
factorielles moins nombreuses que les variables initiales. Elle a l'avantage
d'apporter de précieuses informations sur la structure des
données et leur interprétation.
Les coordonnées des individus sur les premiers axes
factoriels peuvent être prises comme de nouvelles variables
quantitatives. Celles-ci résument bien le tableau initial avec moins de
variables. Cette dernière stratégie est intéressante
à plusieurs titres : elle permet de réaliser des
classifications très riches avec un coût réduit de plus ces
classifications issues des analyses des correspondances multiples aboutissent
à des typologies dont les classes sont très
hétérogènes entre elles et leurs éléments
sont par ailleurs très homogènes. C'est en effet l'objectif de
toute méthode de classification. Malgré l'efficacité de
l'ACM comme une étape préalable à une classification,
cette stratégie présente une difficulté quant aux choix
du nombre d'axes factoriels. Pour remédier à ce problème,
on se base généralement sur le cumul des pourcentages des
inerties expliqués. Il faut conserver les premiers axes factoriels dont
le cumul des inerties expliquées est assez important. Il faut en plus
éviter de conserver un axe et rejeter l'autre alors que leurs
pourcentages des inerties expliqués sont très voisins. Pour cela
on cherche une forte décroissance des inerties expliquées qui
sera un bon indicateur du nombre d'axes à retenir.
Comme on l'a déjà indiqué ci-dessus,
l'ACM n'est qu'un pré traitement qui simplifie plus ou moins les calculs
générés par les méthodes de classification. Elle
n'est pas l'objectif de cette étude. L'ACM a pour finalité de
réduire le temps de calcul sur machine qui sera en revanche très
important si on travaille directement sur les variables du fichier. En effet,
lorsqu'on lance la classification hiérarchique sur les individus en
utilisant les logiciels STATlab ou SPSS, un message d'erreur s'affiche sur
l'écran qui indique que la mémoire est insuffisante pour
continuer les calculs. Ce problème est dû au fait que notre
fichier de travail est très grand, celui-ci croise un ensemble
d'individus dont le cardinal est égal à 19618 et un nombres assez
important de variables. Le système est saturé parce que le nombre
d'opérations à effectuer est très grand. Par exemple pour
le calcul de la matrice de proximité, la machine doit calculer distances avec n = 19618 !
|