3. La classification
q Avec l'ACP et l'ACM, nous avons vu que la population du
Sénégal se sub-
divise en deux groupes : A travers la classification nous
cherchons à retrouver ces
groupes avec leurs caractéristiques si possible. Les
méthodes de classification représen
Les caractéristiques démographiques et socio
économiques des ménages à partir des données de
l'enquete ESAM2
tent donc l'ensemble des techniques statistiques qui cherchent
à partitionner l'ensemble
des individus à des groupes homogènes.
Notre classification étant ici appliquée à
la suite d'une ACM, nous avons retenu les 2 premiers axes.
3.1. Les fondamentaux de la classification
L'objectif d'une méthode de classification déborde
le cadre strictement explora-
toire. C'est la recherche d'une typologie, ou segmentation
(partition) des individus en classes, ou catégories. Ceci est fait en
optimisant un critère visant `a regrouper les indivi
possibles. Un calcul 'élémentaire de combinatoire
montre que le nombre de partitions possibles d'un ensemble de n
éléments croît plus qu'exponentiellement avec n.
Ainsi, pour n = 20, il est de l'ordre de 1013. Il n'est
donc pas question de chercher à optimiser le
critère sur toutes les partitions possibles. Les
méthodes se limitent à l'exécution d'un al-
gorithme itératif convergeant vers une « bonne »
partition qui correspond en général à un
optimum local.
3.1.1. La classification ascendante hiérarchique
Le principe de cette méthode est simple. On dresse tout
d'abord un tableau de dis-
tance entre les différents individus à classer.
L'algorithme démarre alors de la partition
triviale des singletons (chaque individu constitue une
classe) et cherche, à chaque étape, à
l'étape précédente. L'algorithme
s'arrête avec l'obtention d'une seule classe. Les regroupements
successifs sont représentés sous la forme d'un arbre binaire
appelé dendrogramme.
Une métrique très utilisée du fait de ses
propriétés particulières est la distance de l'inertie,
aussi appelée distance de Ward, qui est définie par :
, B) = (PA*PB/PA+PB)*d (gA ; gB
Où gA, gB,PA, PB, sont respectivement les centres de
gravité des classes A et B et les
proportions d'individus dans ces classes.
50
Les caractéristiques démographiques et socio
économiques des ménages à partir des données de
l'enquete ESAM2
En effet, ce critère induit, à chaque étape
de regroupement, une minimisation de la dé-
croissance de la variance interclasse. De ce fait elle est le
critère permettant à l'utilisateur de cette méthode de
statuer sur le nombre de classe à retenir.
3.1.2. La méthode des centres
mobiles
Contrairement à la méthode hiérarchique, le
nombre de classes k doit être déter
miné à priori. Ces méthodes sont
itératives : après une initialisation des centres consis
tant, le plus souvent, à tirer aléatoirement k
individus, l'algorithme répète deux opérations
jusqu'à la convergence d'un critère :
6. Chaque individu est affecté à la classe dont le
centre est le plus proche.
6. Calcul des k centres des classes ainsi constituées.
Cette méthode a une variante dénommée
« Méthode des nuées dynamiques » qui au lieu de
prendre des individus comme centre des classes prend plutôt des groupes
d'individus.
3.1.3. La classification mixte
Sur un grand nombre de données, il est
préférable d'appliquer cette méthode-ci.
E lle combine les deux méthodes décrites
précédemment. Son principe est le suivant:
v Exécuter la méthode des centres mobiles en
demandant un grand nombre de classes
v Sur les barycentres des classes précédentes,
exécuter une classification hiérarchique puis
déterminer un nombre «optimal» k de classes.
v Exécuter une méthode des centres mobiles sur
tout l'ensemble en fixant à k le nombre de classes.
D ans notre analyse, nous utiliserons la CAH car mieux adapter
à la dimension du tableau dont nous disposons.
|