5.3 Application des règles d'associations aux
textes
Les règles d'associations ont été
appliquées dans plusieurs domaines particuliè-rements dans ceux
traitant des données textuelles. Cette section s'inscrit dans cette
même démarche.
En effet la fouille des textes, comme nous l'avons
souligné à la section 4.1.2, est un ensemble de
processus permettant, à partir d'un ensemble de ressources textuelles,
de construire des connaissances pouvant être représentées
dans un langage formel de représentation des connaissances et
exploitées pour raisonner sur le contenu des textes. Ainsi elle donne
une vue synthétique du contenu d'une collection d'un ou plu-sieur
milliers de textes, exhibe des relations entre les differentes notions
impliquées dans un texte ou des relations entre les textes.[11][29]
L'objectif de cette fouille est de retrouver, à travers
la collection des textes, des relations connues dans le domaine, de pouvoir les
localiser rapidement dans les documents, d'observer des familles de documents
contruites à partir d'une ou plusieurs de ces relations. Elle permet
également de découvrir des relations non encore connues.
C'est ainsi que, nous recherchons l'expression de ces
relations par le biais des règles d'associations extraites
à partir des textes.
5.3.1 Description du problème
Le processus de fouille de textes est fondé sur
l'utilisation de méthodes symboliques. Elles sont basée sur
l'extraction de règles d'association ainsi que l'Analyse Formelle de
Concepts et se subdivise en 2 étapes :[11]
1. L'extraction de règles d'association;
2. Le classement des règles suivant des indices
statistiques;
L'extraction de règles d'association se fait à
l'aide de l'Analyse Formelle de Concepts par la construction des motifs
fréquents générés par l'algorithme
A-priori(section 4.3.2). Les motifs ainsi obtenus permettent le calcul
des règles d'association. Les indices statistiques sont, quant à
eux, des mesures de pondération affectés aux règles. Ces
indices donnent un poids à chaque règle et permettent alors de
les classer.
3.1.1 Règle d'association
Les règles d'associations sont utilisées en
fouille de données afin de trouver des correlations dans des bases de
données relationnelles.Elles ont été appliquées,
par la suite, à la fouille de textes.
Définition 1 (Règle
d'association)
Une règle d'association est du type [29] :
R : t1 ? t2 = t3 ?
t4 ? t5 où
t1,t2,...,tn sont des termes (5.1)
64
Elle est constituée d'une conjoction de termes en
partie gauche(qu'on nomme B) impliquant une conjoction de termes en partie
droite(nommée H). La règle sera donc notée par :
R : B = H
L'interprétation de la règle donnée en
(5.1) est que : si les documents possèdent les termes {t1, t2}
alors ils possèdent également les termes {t3, t4,
t5}. Deux indices ont été ainsi associés aux
règles d'association à savoir : Le support et la
confiance de la règle.
Définition 2 (Support)
Le support d'une règle d'association représente
le nombre de documents qui sont décrits par les termes présents
en partie gauche et droite de la règle [29].
sup[B = H] = nombre de documents verifiant {t1, t2, t3, t4,
t5} (5.2)
C'est la probabilité d'apparition de l'ensemble des
documents correspondant à B?H soit :
support[B = H]
P(B, H) = E [0, 1] (5.3) nombre total de
documents du corpus
Définition 3 (Confiance)
La confiance d'une règle est donnée par :
nombre de documents verifiant {t1, t2, t3, t4, t5}
conf[B = H] = (5.4) nombre de documents
verifiant {t1, t2}
En termes probabilistes la confiance mesure la
probabilité conditionnelle de H sachant B [1] :
sup[B = H]
P(H|B) = (5.5) nombre de documents verifiant
{t1, t2}
|