WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Classification de la population en catégories socio-économiques : méthodologie et application pratique

( Télécharger le fichier original )
par Mustapha HADD
Institut national de statistiques et d'économie appliquée - Ingénieur d'Etat Option : Démographie 1999
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

I. Notations usuelles

Soit I l'ensemble des individus de cardinal égale à n et N (I) est le nuage associé dans l'espace des variables.

On associe à chaque individu sa masse qu'on la note par mi. On appelle moment centré d'ordre 2 d'une classe Pl la quantité 

L'indice J désigne le cardinal de l'ensemble des variables. La distance entre deux individus est donnée par la distance euclidienne définit comme suit

Avec est le centre de gravité de la classe Pl qui a pour coordonnées

désigne la masse de la classe Pl.

La variance de la classe Pl est donnée par 

Soit P une partition de I en k classes c'est-à-dire qu'elle vérifie la propriété suivante

et lk.

Le moment centré d'ordre 2 de la partition P est

avec gJ est le centre de gravité du nuage N(I ).

La variance de la partition P est donnée par

.

mI désigne la masse du nuage N(I) qui a pour expression 

.

Le moment centré d'ordre 2 du nuage N(I) se décompose comme suit :

avec et .

On obtient donc la relation de décomposition d'inertie suivante :

II. La classification hiérarchique

II.1. Définitions

La classification hiérarchique constitue depuis longtemps une forme de classification très populaire. Elle a l'avantage d'être interprétable visuellement à l'aide des graphes ou Dendrogramme. Elle est utilisée dans différents domaines : la taxinomie [Benzécri, J.P., et al. (1984)], la biologie [Lermann, I.C., (1981)], l'étude de la variabilité spatio-temporelle de la primo-nuptialité du Maghreb [Ajbilou, A., (1997)], les réseaux de télécommunications [Jumbu, M., (1989)], la phytosociologie [Roux, G., et Roux, M. (1967)], ... etc.

On distingue deux types de classifications hiérarchiques :

· La classification ascendante hiérarchique notée (C.A.H) qui se déroule comme suit : à partir des éléments terminaux, on forme de petites classes ne comportant que les individus les plus semblables, et à partir de celles-ci, on construit des classes de moins en moins homogène jusqu'à obtenir la classe tout entière qui réunit tous les éléments terminaux.

· La classification descendante hiérarchique notée aussi (C.D.H), il s'agit d'une dichotomie de la classe entière jusqu'à obtenir tous les éléments terminaux.

II.2. Notions et terminologie de la classification hiérarchique 

L'idéal de la classification hiérarchique est l'obtention des classes dites significatives à l'aide d'un découpage de l'arbre de classification ou dendrogramme comme dans l'exemple suivant

Figure 1. : Dendrogramme d'une classification hiérarchique

Indice de niveau

a b 1 c 5 d

4

2

e 6

f

g 3

Considérant l'ensemble I={a, b, c, d, e, f, g} formé d'individus qu'on veut regrouper en classes homogènes. Soit CLS(I) l'ensemble de toutes les classes établies par la classification hiérarchique. Dans cet exemple on a les classes suivantes :

CLS(I) = {{a, b, c, d, e, f, g } ; {a, b, c, d, e} ; {c, d, e} ; {a, b} ; {f, g} ; {d, e} ; {a} ; {b} ; {c} ; {d} ; {e} ; {f} ; {g}}.

Les éléments terminaux qu'on va noter par T_CLS(I) est l'ensemble de tous les singletons formés par les individus. On a donc T_CLS(I) = {{a} ; {b} ; {c} ; {d} ; {e} ; {f} ; {g}} qui est l'ensemble des éléments minimaux de CLS(I). En effet, la distance entre un individu et lui-même est nulle. L'ensemble des noeuds noté N_CLS(I) est l'ensemble des classes non terminales de CLS(I). On a N_CLS(I) = {1, 2, 3, 4, 5, 6}

avec :

1 : {a, b}

2 : {d, e}

3 : {f, g}

4 : {c, d, e}

5 : {a, b, c, d, e}

6 : {a, b, c, d, e, f, g }

La classification hiérarchique établie sur I est constituée de sous-ensembles d'éléments de I, ordonnée par une relation d'inclusion vérifiant la propriété suivante[Jumbu, M., (1989)]

CLS_1, CLS_2 CLS(I) on a CLS_1CLS_2={CLS1, CLS2, }

Toute classe de CLS(I) est la réunion de deux classes qui existe déjà dans CLS(I).

A l'étape initiale tous les objets de l'ensemble I sont considérés des classes séparées ou singletons : il y a autant de classes que le nombre d'individus de l'ensemble I. A la deuxième étape, deux individus sont combinés dans une seule classe. A la troisième étape, soit un individu est ajouté à la classe déjà existante ou deux autres individus sont agglomérés dans une nouvelle classe. A chaque étape soit les individus sont ajoutés à des classes existantes, soit deux classes sont combinées pour former une autre classe.

Le découpage de l'arbre nous permet de dégager un certain nombre de classes. La lecture du dendrogramme s'avère très difficile puisque le nombre total d'individus à classer est très grand. Le logiciel STATlab permet de résoudre ce problème. Il nous offre la possibilité de créer une variable qualitative indiquant la classe dans laquelle appartient l'individu. Cette variable est obtenue en choisissant soit un niveau de découpage, soit le nombre de ses modalités. Dans l'exemple ci-dessus, on obtient les classes suivantes :

Droite -1- : { {a, b} ; {c, d, e} ; {f, g} }

Droite -2- : { {a, b} ; {c} ; {d, e} ; {f} ; {g} }

Droite -3- : { {a, b} ; {c} ; {d} ; {e} ; {f} ; {g} }

Droite -4- : { {a} ; {b} ; {c} ; {d} ; {e} ; {f} ; {g} }

Quand on parle de la classification hiérarchique, on aborde toujours l'hiérarchie indicée, c'est-à-dire à toute classe CLS_i de la classification CLS(I) est associée une valeur numérique notée (CLS_i) qui est compatible avec la relation d'inclusion suivante

Si CLS_i CLS_j on a alors (CLS_i) (CLS_j).

(CLS_i) est appelé l'indice de niveau de la classe CLS_i de la classification hiérarchique CLS(I) où est une fonction de distance.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Il faut répondre au mal par la rectitude, au bien par le bien."   Confucius