3. La classification
Avec l'ACP et l'ACM, nous avons vu que la population du
Sénégal se sub-
divise en deux groupes : A travers la classification nous
cherchons à retrouver ces groupes avec leurs caractéristiques
si possible. Les méthodes de classification représen-
50
Les caractéristiques démographiques et socio
économiques des ménages à partir des données de
l'enquête ESAM2
tent donc l'ensemble des techniques statistiques qui cherchent
à partitionner l'ensemble des individus à des groupes
homogènes.
Notre classification étant ici appliquée à
la suite d'une ACM, nous avons retenu les 2 premiers axes.
3.1. Les fondamentaux de la classification
L'objectif d'une méthode de classification déborde
le cadre strictement explora-
toire. C'est la recherche d'une typologie, ou segmentation
(partition) des individus en classes, ou catégories. Ceci est fait en
optimisant un critère visant `a regrouper les individus dans des
classes, chacune la plus homogène possible et, entre elles, les plus
distinctes possibles. Un calcul 'élémentaire de combinatoire
montre que le nombre de partitions possibles d'un ensemble de n
éléments croît plus qu'exponentiellement avec n.
Ainsi, pour n = 20, il est de l'ordre de 1013. Il n'est
donc pas question de chercher à optimiser le critère sur toutes
les partitions possibles. Les méthodes se limitent à
l'exécution d'un algorithme itératif convergeant vers une «
bonne » partition qui correspond en général à un
optimum local.
3.1.1. La classification ascendante
hiérarchique
Le principe de cette méthode est simple. On dresse tout
d'abord un tableau de dis-
tance entre les différents individus à classer.
L'algorithme démarre alors de la partition triviale des
singletons (chaque individu constitue une classe) et cherche, à
chaque étape, à constituer des classes par agrégation des
deux éléments les plus proches de la partition de l'étape
précédente. L'algorithme s'arrête avec l'obtention d'une
seule classe. Les regroupements successifs sont représentés sous
la forme d'un arbre binaire appelé dendrogramme.
Une métrique très utilisée du fait de ses
propriétés particulières est la distance de l'inertie,
aussi appelée distance de Ward, qui est définie par :
d (A, B) = (PA*PB/PA+PB)*d (gA ; gB)
Où gA, gB,PA, PB, sont respectivement les centres de
gravité des classes A et B et les proportions d'individus dans ces
classes.
Les caractéristiques démographiques et socio
économiques des ménages à partir des données de
l'enquête ESAM2
En effet, ce critère induit, à chaque
étape de regroupement, une minimisation de la décroissance de la
variance interclasse. De ce fait elle est le critère permettant à
l'utilisateur de cette méthode de statuer sur le nombre de classe
à retenir.
|