I. Notations usuelles
Soit I l'ensemble des individus de cardinal
égale à n et N (I) est le nuage
associé dans l'espace des variables.
On associe à chaque individu sa masse qu'on la note par
mi. On appelle moment centré d'ordre 2 d'une
classe Pl la quantité
L'indice J désigne le cardinal de
l'ensemble des variables. La distance entre deux individus est donnée
par la distance euclidienne définit comme suit
Avec est le centre de gravité de la classe
Pl qui a pour coordonnées
désigne la masse de la classe
Pl.
La variance de la classe Pl est
donnée par
Soit P une partition de I en
k classes c'est-à-dire qu'elle vérifie la
propriété suivante
et lk.
Le moment centré d'ordre 2 de la partition
P est
avec gJ est le centre
de gravité du nuage N(I ).
La variance de la partition P
est donnée par
.
mI désigne la masse du
nuage N(I) qui a pour expression
.
Le moment centré d'ordre 2 du nuage
N(I) se décompose comme suit :
avec et .
On obtient donc la relation de décomposition d'inertie
suivante :
II. La classification hiérarchique
II.1. Définitions
La classification hiérarchique constitue depuis
longtemps une forme de classification très populaire. Elle a l'avantage
d'être interprétable visuellement à l'aide des graphes ou
Dendrogramme. Elle est utilisée dans différents domaines : la
taxinomie [Benzécri, J.P., et al. (1984)], la biologie [Lermann, I.C.,
(1981)], l'étude de la variabilité spatio-temporelle de la
primo-nuptialité du Maghreb [Ajbilou, A., (1997)], les réseaux
de télécommunications [Jumbu, M., (1989)], la phytosociologie
[Roux, G., et Roux, M. (1967)], ... etc.
On distingue deux types de classifications
hiérarchiques :
· La classification ascendante
hiérarchique notée (C.A.H) qui se déroule comme
suit : à partir des éléments terminaux, on forme de
petites classes ne comportant que les individus les plus semblables, et
à partir de celles-ci, on construit des classes de moins en moins
homogène jusqu'à obtenir la classe tout entière qui
réunit tous les éléments terminaux.
· La classification descendante
hiérarchique notée aussi (C.D.H), il s'agit d'une
dichotomie de la classe entière jusqu'à obtenir tous les
éléments terminaux.
II.2. Notions et terminologie de la classification
hiérarchique
L'idéal de la classification hiérarchique est
l'obtention des classes dites significatives à l'aide d'un
découpage de l'arbre de classification ou dendrogramme comme dans
l'exemple suivant
Figure 1. : Dendrogramme d'une classification
hiérarchique
Indice de niveau
a b
1 c 5 d
4
2
e
6
f
g 3
Considérant l'ensemble I={a, b, c, d, e, f, g}
formé d'individus qu'on veut regrouper en classes homogènes.
Soit CLS(I) l'ensemble de toutes les classes établies par la
classification hiérarchique. Dans cet exemple on a les classes
suivantes :
CLS(I) = {{a, b, c, d, e, f, g } ; {a, b, c, d, e} ; {c, d, e}
; {a, b} ; {f, g} ; {d, e} ; {a} ; {b} ; {c} ; {d} ; {e} ; {f} ; {g}}.
Les éléments terminaux qu'on va noter par
T_CLS(I) est l'ensemble de tous les singletons formés par les individus.
On a donc T_CLS(I) = {{a} ; {b} ; {c} ; {d} ; {e} ; {f} ; {g}} qui est
l'ensemble des éléments minimaux de CLS(I). En effet, la distance
entre un individu et lui-même est nulle. L'ensemble des noeuds
noté N_CLS(I) est l'ensemble des classes non terminales de CLS(I). On a
N_CLS(I) = {1, 2, 3, 4, 5, 6}
avec :
1 : {a, b}
2 : {d, e}
3 : {f, g}
4 : {c, d, e}
5 : {a, b, c, d, e}
6 : {a, b, c, d, e, f, g }
La classification hiérarchique établie sur I est
constituée de sous-ensembles d'éléments de I,
ordonnée par une relation d'inclusion vérifiant la
propriété suivante[Jumbu, M., (1989)]
CLS_1, CLS_2 CLS(I) on a CLS_1CLS_2={CLS1, CLS2,
}
Toute classe de CLS(I) est la réunion de deux classes
qui existe déjà dans CLS(I).
A l'étape initiale tous les objets de l'ensemble I sont
considérés des classes séparées ou singletons : il
y a autant de classes que le nombre d'individus de l'ensemble I. A la
deuxième étape, deux individus sont combinés dans une
seule classe. A la troisième étape, soit un individu est
ajouté à la classe déjà existante ou deux autres
individus sont agglomérés dans une nouvelle classe. A chaque
étape soit les individus sont ajoutés à des classes
existantes, soit deux classes sont combinées pour former une autre
classe.
Le découpage de l'arbre nous permet de dégager
un certain nombre de classes. La lecture du dendrogramme s'avère
très difficile puisque le nombre total d'individus à classer est
très grand. Le logiciel STATlab permet de résoudre ce
problème. Il nous offre la possibilité de créer une
variable qualitative indiquant la classe dans laquelle appartient l'individu.
Cette variable est obtenue en choisissant soit un niveau de découpage,
soit le nombre de ses modalités. Dans l'exemple ci-dessus, on obtient
les classes suivantes :
Droite -1- : { {a, b} ; {c, d, e} ; {f, g} }
Droite -2- : { {a, b} ; {c} ; {d, e} ; {f} ; {g} }
Droite -3- : { {a, b} ; {c} ; {d} ; {e} ; {f} ; {g} }
Droite -4- : { {a} ; {b} ; {c} ; {d} ; {e} ; {f} ; {g} }
Quand on parle de la classification hiérarchique, on
aborde toujours l'hiérarchie indicée, c'est-à-dire
à toute classe CLS_i de la classification CLS(I) est associée une
valeur numérique notée (CLS_i) qui est compatible avec la
relation d'inclusion suivante
Si CLS_i CLS_j on a alors (CLS_i)
(CLS_j).
(CLS_i) est appelé l'indice de niveau de la classe
CLS_i de la classification hiérarchique CLS(I) où est une
fonction de distance.
|