WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain

( Télécharger le fichier original )
par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Conclusion

La méthode d'évaluation MCCVS est basée sur le postulat que statistiquement les documents présents dans Internet et les recherches effectuées par les utilisateurs sont des éléments possédant tous deux une cohérence sémantique certaine. Le postulat inclut un autre point qui est que, statistiquement, des requêtes constituées aléatoirement présentent une cohérence sémantique plus faible que celles écrites par un utilisateur.

Si tel est bien le cas, nous devrions voir émerger sur un nombre important de requêtes une distribution du nombre de documents trouvés différente entre des requêtes sémantiquement cohérentes qui sont celles créées par des utilisateurs et des requêtes créées aléatoirement.

Cette différence de comportement, si on accepte le postulat, devient alors un élément nous permettant de valider la méthode elle-même. En effet, si la différence de comportement est suffisamment sensible, cela permet de valider que les requêtes sont bien de nature

4.3 : Les méthodes de validation sémantique 136

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

différente. Cette nature est liée à la source des requêtes : soit il s'agit d'un esprit humain animé par une intention soit c'est un système d'association aléatoire.

En respectant des conditions de mesure identiques pour les trois sources de requêtes, en opérant sur un nombre de requêtes statistiquement significatif et en vérifiant que la différence entre les deux sources de référence (utilisateur et aléatoire) est sensible, il est alors possible de créer un coefficient pour évaluer la nature sémantique de la source des requêtes.

La méthode MCCVS que nous proposons, permet en respectant des conditions et un protocole de mesure de donner une valeur CVSC sur la cohérence sémantique des agrégats.

4.3.2 Méthode TREC-Eval : enrichissement de requêtes

Le principe de mesure

TREC-Eval est un outil basé sur un ensemble de requêtes et de documents destiné à évaluer la qualité d'un moteur de recherche en fonction de la pertinence des documents retournés. Mais, ce n'est pas là notre objectif avec TREC-Eval. En effet, nous allons utiliser un seul moteur de recherche, mais nous allons modifier les requêtes utilisateurs en les enrichissant avec des mots trouvés dans les agrégats et nous comparerons la « qualité » des requêtes originales avec celles enrichies.

Nous utilisons comme moteur de recherche « Terrier ». Ce moteur est disponible sur le site : http://terrier.org/

La démarche consiste à enrichir des requêtes utilisateurs avec les mots des agrégats associés aux mots déjà présents dans la requête et à comparer la pertinence des documents obtenus.

TREC-Eval permet, en effet, de comparer la qualité des résultats obtenus entre deux requêtes. Si cet outil est généralement utilisé pour comparer des moteurs de recherche sur une même requête, rien n'empêche d'utiliser un seul moteur de recherche et de comparer la « qualité » de requêtes différentes.

Pour chaque requête effectuée par Terrier nous sauvegardons les résultats dans un fichier au format attendu par TREC-Eval. Ce type de fichier est nommé fichier « Run ». Pour chaque requête TREC-Eval possède une liste de réponses « idéales ». Cette liste de réponses a été constituée manuellement et stockée dans un fichier « Qrel ». En comparant les résultats obtenus par la requête (fichier « Run ») et ceux de la réponse idéale (fichier « Qrel ») TREC-Eval note la qualité du résultat obtenu (cf. figure 4.7).

4.3 : Les méthodes de validation sémantique 137

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Topics

Fichier « Orel »

Agrégats

Requêtes

enrichies

M.A.P M.A.P.

Index : 1500000 articles

Trec_eval

Fichier « Run »

Figure 4.7 : Comparaison de résultats entre des « Topics », des agrégats et des « Topics » enrichis comme requêtes dans un même moteur de recherche « Terrier » avec TREC-Eval.

Résultat de la recherche

avec Terrier

Le fichier « Run » est constitué de la liste des documents retournés par le moteur de recherche Terrier. Nous utilisons la note de pertinence ou «Rank Note» donnée par Terrier comme note dans le « Fichier « Run ».

Dans TREC-Eval une requête utilisateur est nommée « Topic ». Nous pouvons, pour une requête utilisateur de référence ou « Topic », comparer les résultats obtenus en utilisant comme requête :

M.A.P.

? le « Topic » seul ;

? le « Topic » enrichi avec des mots issus d'agrégats ;

? l'agrégat lui-même utilisé comme requête.

Paramétrage de Terrier

Le paramétrage de Terrier dans notre cas est très limité. Il consiste à définir le nombre de documents maximum retournés pour chaque requête. Afin de pouvoir détecter des variations fines sur la qualité des requêtes, nous avons paramétré Terrier pour retourner les 1000 premiers articles. Ce paramétrage a déjà été utilisé avec succès par Chris Buckley et Ellen M. Voorhees [Buckley&al-2004].

La mesure de la qualité de la requête

TREC-Eval est capable de mesurer un grand nombre de paramètres de cohésion entre la requête et les résultats retournés. Dans nos tests nous avons choisi de mesurer les valeurs de M.A.P. (Mean Average Precision) valeur de comparaison généralement la plus utilisée. La

4.3 : Les méthodes de validation sémantique 138

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

valeur M.A.P. est définie comme la moyenne des précisions obtenues chaque fois qu'un document pertinent est retrouvé. Si d'autres mesures sont possibles il convient d'en relativiser l'importance ici. En effet, nous mesurons comparativement des populations de requêtes. Le choix du type de mesure n'a donc comme contrainte principale que celle de posséder la capacité à notifier une évolution de qualité.

La précision est définie en Recherche d'Information (R.I.) comme le nombre de documents pertinents retrouvés, rapporté au nombre total de documents retrouvés. Pour une requête q, Rq étant le nombre de documents retournés et Pq le nombre de documents pertinents, la précision se définit comme suit :

La Mean Précision ou correspond à un calcul de la moyenne des précisons calculée pour chaque document pertinent retourné.

Supposons un Topic pour lequel il existe cinq documents pertinents appartenant à l'ensemble Pt défini comme suit :

Pt = {dp1 ; dp2 ; dp3 ; dp4 ; dp5}

Supposons un ensemble de documents retourné Rqt par une requête sur ce même Topic défini comme suit :

Rqt = {dp1 ; dp4 ; da ; db ; dp5 ; dp3 ; dc ; dd ; de ; dp2}

La précision sera pour chaque document pertinent la suivante :

dp1

dp4

da

db

dp5

dp3

dc

dd

de

dp2

1

1

-

-

0.6

0.833

-

-

-

0.5

La Mean Precision étant la moyenne des précisions rencontrées est dans notre exemple : MP = (1+1+0.6+0.833+0.5) / 5= 0.7866

Pour un ensemble de requêtes, la MAP ou Mean Average Precision est la moyenne de l'ensemble des Mean Precision de l'ensemble des requêtes du jeu de test.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Il y a des temps ou l'on doit dispenser son mépris qu'avec économie à cause du grand nombre de nécessiteux"   Chateaubriand