WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Techniques d'extraction de connaissances appliquées aux données du Web

( Télécharger le fichier original )
par Malika CHARRAD
Ecole Nationale des Sciences de l'Informatique, Université de la Manouba, Tunis - Mastère en informatique, Option : Génies Documentiel et Logiciel 2005
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

4.2.5 Etude de la qualité d'apprentissage des cartes topologiques

Une carte topologique doit satisfaire certains critères pour que l'apprentissage soit efficace [Val, 00]. En effet, une SOM doit:

- Minimiser l'erreur de discrétisation i.e. minimiser les distances d'un vecteur prototype aux entrées qui l'activent.

- Respecter les relations de voisinage de l'espace d'entrée. Deux entrées proches doivent être représentées par deux cellules proches sur la carte.

- Être organisée i.e. il faut que deux cellules proches aient deux vecteurs prototypes proches.

Les mesures de qualité de la clustérisation évaluent le compromis entre l'homogénéité de chaque cluster (ressemblance entre données affectées à un même groupe) et la séparabilité des clusters. Pour les cartes de Kohonen, la mesure de la séparabilité n'est pas importante. En effet, des groupes très similaires sont possibles, s'ils sont associés à des neurones proches au sens du voisinage; le compromis s'effectue donc entre l'homogénéité et le respect de la topologie (organisation). Pour déterminer la validité de la carte obtenue, la carte doit être évaluée suivant deux axes : la qualité des regroupements qu'elles proposent et la qualité d'organisation des clusters. Vers le début des années 90, les deux critères suivants

ont été proposés. Le premier est relatif à l'homogénéité. Le second rend compte de la préservation de la topologie.

Evaluation de l'homogénéité de la carte

L'évaluation de l'homogénéité de la carte est effectuée en fonction de la mesure de l'erreur de quantification proposée par Kohonen en 2001. Elle correspond à la distance entre chaque entrée X et le centroïde du cluster auquel elle est affectée.

-

X i

Wr

qC1 =

1 ? ? K

N r x C

= ?

1 i

i r

2 N=Nombre des vecteurs d'entrée K= Nombre de clusters

Xi= Vecteur d'entrée

Wr= Poids du centroïde du cluster Cr

Dans le cas des cartes topologiques, le centre d'un groupe est distinct de sa moyenne puisque les centres sont influencés par leurs voisins du fait de la contrainte d'organisation. Par conséquent, le calcul de l'écart au centre introduit un biais dans la mesure d'homogénéité et sous-estime la qualité du regroupement. Pour pallier ce problème, [Les, 03] propose de mesurer la moyenne des variances des groupes.

L'erreur de quantification doit tendre vers une valeur limite en fin d'apprentissage, valeur que l'on souhaite proche de 0. [Rez, 98] propose d'utiliser comme mesure d'homogénéité la variance moyenne des groupes :

1 ? 1

K

*

K C

r 1

- -

X X

-

i r

Avec K* le nombre de clusters non vides.

qM2 =

2

?

=?

i

r i r

x C

Evaluation de la préservation de la topologie

L'évaluation de la préservation de la topologie nécessite de considérer l'ordonnancement des cellules par rapport aux relations de voisinage définies sur la carte. Ces relations sont préservées lorsque deux vecteurs d'entrée proches sont représentés par deux cellules proches sur la carte. Pour mesurer la préservation du voisinage, plusieurs types de mesures essentiellement dédiées à la formulation neuronale des cartes de Kohonen sont proposés. La première mesure, concerne la préservation de voisinage inverse qui consiste à vérifier si deux cellules de la carte ont des vecteurs prototypes proches dans l'espace d'entrée. Cette mesure a été proposée par Cottrell et Fort [Cot, 87] pour des cartes unidimensionnelles et des

données unidimensionnelles et généralisée à des cartes de dimension supérieure par Zrehen et Blayo [Zre, 92]. Certaines mesures sont calculées uniquement grâce aux neurones, sans utiliser les données, ce qui permet une économie de temps de calcul. Elles évaluent la corrélation entre la distance en termes de poids et la distance imposée sur la carte i.e. entre

 

2

et

 

2

dWpq=

wp - wq

dZpq =

zp - zq

En effet, l'organisation impose que deux neurones soient d'autant plus proches au sens dZ qu'ils ont des vecteurs proches en terme de dW. Un autre type de mesures se base sur les neurones gagnants associés aux données. Si la contrainte d'organisation est respectée, le neurone gagnant et le second meilleur neurone sont adjacents sur la carte, pour toute donnée. Par suite, l'erreur topographique est définie comme la proportion de vecteurs de données pour laquelle les deux premières unités de meilleur appariement (best matching units) ne sont pas adj acentes.

N- 1

?d bmu bmu

( 1 2 ) 1

- ?

i=0

N

Avec N est le nombre des vecteurs d'entrée

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Il ne faut pas de tout pour faire un monde. Il faut du bonheur et rien d'autre"   Paul Eluard