WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain

( Télécharger le fichier original )
par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.3.3 Les étapes de la méthode HLS

La méthode HLS comprend 2 étapes : L'analyse

Une première phase d'analyse consiste à regrouper les agrégats tant que des regroupements sont possibles. La phase d'analyse se compose de trois parties : fusion, extension et condensation

- la fusion recherche les agrégats de taille minimale ;

- l'extension consiste à inclure un objet voisin dans l'agrégat courant et ce, tant qu'il existe un objet voisin à insérer (l'opération d'extension utilise un opérateur d'extension qui va étendre l'agrégat courant « A » aux objets voisins ; l'opérateur d'extension est défini comme une condition et doit être adapté en fonction des éléments à agréger) ;

- la condensation place les objets regroupés dans l'agrégat en cours de constitution et met à jour le plan d'assemblage, qui est présenté dans la section suivante.

L'assemblage

La phase d'assemblage exécute un plan d'assemblage où chaque agrégat est considéré comme un objet de départ. Nous n'utilisons pas cette phase dans nos travaux afin de mieux mesurer la qualité de la phase d'extension. Les travaux de Jermann C. présentent plusieurs mises en oeuvre possibles [Jermann&al-20041 [Jermann-20021 de la phase d'assemblage. L'Enrichissement par Gravité présenté en paragraphe 3.20, est une instanciation possible de cette phase.

3.3.4 Implantation et adaptation de la méthode HLS

Définissons S un G.C.S.P. tel que S=(MC,R) MC est l'ensemble noeuds et R l'ensemble des relations et où A=(MCA, RA). A est un agrégat dans le G.C.S.P., le voisinage de A est le sous ensemble MC' des objets géométriques de S qui sont liés par des relations à des objets de A par l'opérateur d'extension O.

Dans notre instanciation, nous définissons l'agrégat minimum comme une clique. La phase de fusion recherche donc ces objets.

La phase d'extension est déterminée par la connaissance du voisinage de l'agrégat de départ et par la capacité à étendre cet agrégat. L'opération d'extension utilise un opérateur

3.3 : Méthode 2 : Rigidification Simple 95

Chapitre 3. Les méthodes d'agrégations proposées

d'extension O obéissant à la règle suivante : le graphe de l'agrégat doit toujours rester bi-connexe pendant les opérations d'extension. La figure 3.2 donne un exemple du déroulement de la phase d'extension.

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

E

D

F

D

F

K

L

C

D

E

E

F

K

C

H

K

A

B

I

L

A

B

I

L

Figure 3.2. Illustration du déroulement de l'algorithme Fusion/Extension dans notre implantation de H.L.S.

A

B

E

D'autres critères interviennent dans l'opération d'extension, tels que le poids des mots et des relations.

C

H

C

H

K

A

B

I

L

A

B

I

Nous nommons poids, le nombre de recherches liées à un objet. Cet objet est soit un

mot-clé soit une relation R inter mots-clés. Le poids d'un mot-clé est le nombre de requêtes

incluant ce mot-clé. Le poids PRAB d'une relation RAB entre un mot-clé A et un mot-clé B est

égal au nombre de requêtes incluant conjointement les deux mots-clés A et B.

D

F

D

C

H

? Le poids d'un mot-clé : Nb étant le nombre total de requêtes, MCT,Q étant

l'élément valant 1 si le mot-clé T est présent dans la requête Q et 0 sinon. On

définira le poids d'un mot-clé A noté PA comme suit :

PA= MA,Q

? Le poids d'une relation : Soient les deux mots-clés A et B, la relation RAB telle que A RAB B, Nb le nombre total de requêtes, Ri étant l'élément de valeur « vrai » ou « faux » si les mots-clés sont conjointement présents dans la requête (vrai valant 1, faux valant 0). On définira le poids d'une relation RAB noté PRAB comme suit :

PRAB = RI

Remarque : Le poids total d'un mot-clé n'est pas nécessairement la somme des poids de ses relations. En effet, une même recherche peut inclure plusieurs mots-clés et donc

3.3 : Méthode 2 : Rigidification Simple 96

Chapitre 3. Les méthodes d'agrégations proposées

compter pour 1 dans le poids du mot-clé qui est en relation avec « n » mots-clés (cf. figure 3.3).

Graphe non orienté

Matrice symétrique des poids du graphe

 

Mot

Poids mot

A

B

C

D

E

 
 
 
 
 
 

A

8

-

6

7

0

2

 
 
 
 
 
 
 
 
 
 
 
 

B

10

6

-

10

0

0

 
 
 
 
 
 
 
 
 
 
 
 
 
 

C

20

7

10

-

2

1

D

500

0

0

2

-

1

 

E

2

2

0

1

1

-

8 6 B-10

2

1 D 500

Figure 3.3 : Graphe et Matrice non orientés.

A

7 10

2 C

20

1

E-2

Utilisation du poids pour l'orientation du graphe et l'amélioration de

l'opérateur d'extension

Nous proposons de compléter l'opérateur d'extension par une prise en compte de la notion de poids relatif. Il semble évident que le poids de la relation est à comparer aux poids des mots-clés en relation. Une relation d'un poids de « 1 » entre un mot-clé A pesant « 1000 » et un mot-clé B pesant « 2 » ne représente pas du tout la même importance relative. Ainsi la relation pèse 10-3 du poids du mot-clé A et .5 du poids du mot-clé B. Afin de prendre en compte ce poids relatif, nous orientons et pondérons le graphe de la matrice présenté en figure 3.3. Nous utilisons pour ceci la valeur du poids du mot-clé de départ sur le poids de la relation du mot-clé de départ avec le mot-clé cible. On note ce rapport CFL ou Coefficient de Fiabilité de Lien.

Ainsi pour un mot-clé A en relation avec un mot-clé B noté A RAB B, PA le poids du mot-clé A, PRAB le poids de la relation RAB. On définit le Coefficient de Fiabilité de Lien du mot-clé A vers le mot-clé B noté CFLA=>B comme suit :

CFLA=>B = PA / PRAB

La figure 3.4 présente le résultat de cette opération sur le graphe proposé en figure 3.3

3.3 : Méthode 2 : Rigidification Simple 97

Chapitre 3. Les méthodes d'agrégations proposées

E

2

2

60% B

A

25% 8 6 10

100%

50%

0,5%

1

35% 7 100%

50%

0.2%

87,5%

1

20

C

75%

50%

10

0.4%

2

10%

D

500

Figure 3.4 : Graphe orienté pondéré du CFL de la matrice présentée en figure 3.3. (CFL est ici présenté en pourcentage pour en faciliter la lecture).

Matrice symétrique - graphe
non dirigé

 

Matrice asymétrique - graphe dirigé - CFL

(%)

Mot

Poids

A

B

C

D

E

 

Mot

Relation

A

B

C

D

E

A

8

-

6

7

0

2

 

A

->

-

75

87.5

0

25

B

10

6

-

10

0

0

 

B

->

60

-

100

0

0

C

20

7

10

-

2

1

 

C

->

35

50

-

10

5

D

500

0

0

2

-

1

 

D

->

0

0

0.4

-

0.25

E

2

2

0

1

1

-

 

E

->

100

0

50

50

-

Tableau 3.1. Matrice asymétrique d'un graphe orienté pondéré - CFL.

Définition d'un opérateur d'extension

L'utilisation de cet algorithme avec un opérateur d'extension qui ne tient pas compte de la valeur relative des liaisons a pour conséquence la création d'un agrégat massif de plusieurs milliers de mots-clés. Il paraît donc indispensable de définir des seuils de validité. Pour ne pas maintenir des liens présentant un CFL trop faible, nous ne prenons en compte que les relations présentant un CFL supérieur à une valeur nommée Valeur Minimale de CFL ou Val-Min-CFL. De même, pour les mots de faible poids en relation avec des mots de poids fort, nous maintenons quel que soit le CFL de sens inverse toutes relations ayant un CFL supérieur à la valeur d'activation prédéterminée ou Val-Activ-CFL. Dans cette méthode les valeurs Val-Min-CFL et Val-Activ-CFL sont définies arbitrairement après un ensemble d'essais ayant pour but de détecter un ordre de grandeur permettant à l'opérateur de fonctionner.

Dans l'exemple ci-dessus (cf. Figure 3.4), l'opérateur défini est appliqué à la phase d'extension.

L'opérateur d'extension définitif sera donc basé sur les deux règles suivantes :

? le graphe doit rester bi-connexe ;

? un CFL inférieur à Val-Min-CFL supprimera la relation sauf si le CFL de sens inverse est supérieur à Val-Activ-CL.

3.3 : Méthode 2 : Rigidification Simple 98

Chapitre 3. Les méthodes d'agrégations proposées

Dans l'exemple de la figure 3.5 nous représentons sur le graphe déjà présenté en figure 3.4 le déroulement de l'algorithme de la phase d'extension. La valeur de Val-Min-CFL est arbitrairement fixée à 5 et celle de Val-Activ-CLF arbitrairement à 20. La liaison C-D n'est pas maintenue car le CFLD=>C est inférieur au Val-Min-CFL fixé et le CFLc=>d est inférieur au Val-Activ-CFL fixé. L'élément « D » ne peut donc rejoindre l'agrégat car le graphe résultant ne serait alors plus bi-connexe.

Étape I : Validation du lien A-E. Le lien appartient à une triade.

Étape II : Extension vers le noeud C. Validation des
liens A-C et E-C : « Bien que le CFLC=>E soit inférieur au
Val-Min-CFL le lien est maintenu CFLE=>C est supérieur
à Val-Activ-CFL ».

250A

8

E287,5

50 35

75 B

10

50

100

 

250A

8

E2

35

50

75 B

10

87,5

50

100

 

0,5 D

0,5 D

C

 
 

C

 
 
 

20

500

0,4

 
 

20

0,2

50%

0,4 500

10

 
 

10

 
 

0,2

50%

 
 
 
 

Étape III : Extension vers le noeud B. Validation des
liens A-B et C-B.

Étape IV : Tentative d'extension CFLD=>C est inférieur à Val-Min-CFL inférieur à Val-Activ-CFL. Le lien maintenu.

vers le noeud B, et CFLC=>D est C-D ne peut être

iâ0 A

8

E2

50 35

60

75 B

10

87,5

50

100

 
 
 

in0 A 75

8

E

2 87,5

35

50

B

10

50

100

 

0,5 D

 

0,5

D

 
 
 

C

 
 
 

C

20

500

0,4

 

20

500

0,4

 

0,2

50%

10

 
 

0,2

50%

10

 
 
 
 
 

Étape V : Le noeud D est définitivement l'agrégat son intégration ne permet un graphe de l'agrégat

exclut de

pas de maintenir bi-connexe.

L'agrégat définitif est constitué des noeuds E, A, B et

C.

A

E2

8

B

10

A

E 2

8

B

10

 
 
 
 
 
 

D

 
 

-

C

500

 
 

20

 
 
 

ç

 

20

 
 
 

Figure 3.5 : Illustration du déroulement de l'algorithme Fusion/Extension en utilisant l'opérateur d'extension

définitif.

3.3 : Méthode 2 : Rigidification Simple 99

Chapitre 3. Les méthodes d'agrégations proposées

Mécanisme de regroupement des mots-clés en agrégats (application de la méthode HLS)

Si un mot-clé peut appartenir à plusieurs agrégats, une paire de mots-clés constituant une diade ne peut appartenir au plus qu'à un agrégat. En effet, s'il existe un troisième mot-clé formant avec les deux premiers une triade, cette triade ne sera présente que dans un et un seul agrégat. S'il n'existe pas de triade incluant la diade alors la diade n'est dans aucun agrégat. C'est sur cette règle que se fonde l'algorithme de regroupement en agrégats proposé (cf. Algorithme 3.2).

Pour chaque mot-clé X faire [Phase de fusion]

Extraire les mots-clés Y qui forment une triade valide selon l'opérateur d'extension avec X

Pour chaque couple de mots-clés X-Y valides faire [Phase d'extension]

S'il n'existe pas d'agrégat contenant le couple X-Y et que le couple n'a pas été testé

alors

Créer un nouvel agrégat « X-Y » et ajout de X-Y

Tant que l'on ajoute des mots-clés dans l'agrégat faire

Pour les mots de l'agrégat faire

Rechercher de nouveaux mots en triade

Ajouter des mots-clés formant la triade avec les mots de

l'agrégat

Noter des couples trouvés comme « testés »

Fin de Pour

Fin de Tant que

Fin de Si

Fin de Pour [Fin de Phase d'extension] Fin de Pour [Fin de Phase de Fusion]

Algorithme 3.2 : Regroupement des mots-clés en agrégats (application de la méthode HIS)

A titre d'exemple et afin d'éclairer le lecteur sur les résultats que la technique d'agrégation permet d'obtenir, nous proposons ici une représentation schématique des différents agrégats générés incluant le mot « Apple ».

3.4 : Méthode 3 : Rigidification Régulée 100

Chapitre 3. Les méthodes d'agrégations proposées

1-Pomme

4-Fleur

daylily

pie

spice

3-Cidre

de pomme

gala

pollinator

Apple

cider

viniger

vinegar

relat

investor

2-Ordinateur

computer

Figure 3.6 : Exemple de 4 agrégats partageant le même mot commun « Apple » résultant de notre proposition.

Comme on peut le remarquer dans la figure 3.6, les quatre agrégats sont cohérents et illustrent quatre contextes (acceptions) différents identifiés par rapport au mot-clé « Apple ». Ainsi, l'agrégat 1 fait référence au fruit (pomme) lui-même, le 2 à la marque d'ordinateur bien connue, le 3 au cidre de pomme et enfin le numéro 4 à une fleur nommée « Daylily » (un Lis) ayant pour non « Apple Pie Spice ».

Afin de valider les résultats, nous proposons plusieurs méthodes. Nous reviendrons en détail sur ces méthodes de validation dans le chapitre 4 consacré aux expérimentations et validations.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"L'ignorant affirme, le savant doute, le sage réfléchit"   Aristote