II.3. Les étapes et l'algorithme
généralisé d'une classification hiérarchique
1) Les étapes d'une classification
hiérarchique
Avant de lancer une quelconque classification, il faut
respecter au préalable les étapes suivantes :
Etape -1- Il faut
sélectionner les individus à classer et les variables qui
serviront pour critère de classification. Si par exemple on veut faire
une classification selon le milieu de résidence, il faut stratifier le
fichier initial en deux sous-fichiers. On sélectionne les individus qui
résident en milieu urbain et ceux en milieu rural puis lancer la
classification sur chacun de ces deux sous-fichiers.
Etape -2- On choisit une
distance ou un indice d'écart entre paires d'individus. La distance
généralement utilisée dans les algorithmes de
classification hiérarchique est la distance euclidienne.
Etape -3- On choisit une
règle de calcul pour les distances entre classes.
Etape -4- On détermine
un critère d'agrégation des individus dans les classes.
2) L'algorithme généralisé d'une
classification hiérarchique
Après avoir déterminé les étapes
citées au-dessus, l'algorithme généralisé de la
classification hiérarchique s'opère de la manière
suivante :
a- On calcule toutes les distances entre les
individus constituant l'ensemble à classer. Supposant par exemple qu'on
a n individus à classer, la matrice des distances (dite aussi de
proximité)est symétrique. On lit donc distances.
b- Le tri de ces distances permet de
déterminer les deux éléments qui vont constituer une
nouvelle classe. Puis on calcul les distances entre cette classe et les
éléments restants que se soit des classes ou des individus.
c- On recommence b/ avec un
élément de moins à chaque itération.
d- Etirer jusqu'à ce qu'on soit
agrégé tous les individus de I en une seule classe.
II.4. Méthode d'agrégation des
classes
L'algorithme de la classification hiérarchique se base
sur la méthode du moment centré d'ordre 2. Le principe de cette
méthode est la décomposition de l'inertie totale en deux
composantes à savoir l'inertie interclasse et l'inertie intra-classe.
Puisque l'inertie totale ne dépend pas d'une quelconque partition alors
la méthode du moment centré d'ordre 2 minimise la dispersion
à l'intérieure d'une classe ou elle maximise la
variabilité entre les classes.
Supposons par exemple pour passer d'une étape (h-1)
à une étape (h), on agrège deux classes de la partition
P(h-1) :
On a
Donc on aura
La méthode du moment centré d'ordre 2
agrège deux classes Pk et Pl de sorte que
M2(P(h)) soit maximum. Pour cette méthode la
distance entre deux classes Pk et Pl est la
différence entre le moment centré d'ordre 2 de deux partitions
successives :
|