3.1.2 Indices statistiques associés aux
règles d'association
Le support et la confiance ne sont pas les seuls indices
permettant d'indiquer la qualité d'une règle. D'autres indices
statistiques apportent des informations supplémentaires et permettent
ainsi différents classements des règles. A savoir : La
dépendance, l'intérêt, la conviction,
l'étonnement.
L'indice de dépendance est utilisée en
probabilité, il permet de calculer l'apport du prémisse B dans la
règle.
Définition 4 (Dépendance)
L'indice de dépendance renforce une règle en
mesurant la fait que B et H soient dépendants ou pas:
dep[B = H] = |P(H|B) - P(H)| (5.6)
Les termes très fréquent dans un corpus
n'apportent pas d'information particulière puisque tout terme du corpus
devra impliquer un terme fréquent. Alors que les termes rares, qui
peuvent porter de l'information, apparaissent dans des règles à
faible support et sont par conséquent peu intéressants. C'est
ainsi que l'indice suivant a été défini au vue de cette
différence d'apparition des termes dans un corpus.
65
FIGURE 5.5 - Exemple d'un document du corpus
Définition 5 (Intérêt)
L'intérêt mesure la dépendance entre B
et H. Cet indice privilégie les termes rares aux dépens des
termes trop répandus dans le corpus.
P (B, H)
int[B = H] = (5.7) P (B) x P
(H)
L'intérêt a un comportement symetrique pour B et
pour H, c'est-à-dire que : int[B = H] est égal à
int[H = B]. [28]
5.3.2 Expérimentations
Considérons un corpus constitué de 43 documents
d'environs 200 000 mots dont l'extrait d'un des documents est
montré à la figure 5.5. Un document est
constitué d'un identifiant unique (c'est-à-dire un
numéro), d'un titre, d'un (ou des) auteur(s), du
résumé sous forme textuelle et d'une liste de
termes caractérisant ce resumé.
Soit une base de donnée comprénant des livres,
thèses, cours ainsi que des articles en format numérique :
1. La proie
2. Adéquation d'indices statistiques à
l'interprétation de règles d'association
3. Analyse comparative de corpus cas de l'ingénierie
des connaissances
4. Analyse en ligne de l'information: une approche
permettant l'extraction d'in-formations
5. Analyse statistique implicative
66
6. Annotation documentaire et peuplement d'ontologie
à partir d'extractions linguistiques
7. Apprentissage statistisque pour l'extraction des
concepts à partir des textes.
8. Application aux filtrage des textes
9. Approche linguistique pour l'analyse
syntaxique
10. Balades aléatoires dans les Petits Mondes
lexicaux
11. Construction de ressources terminologiques ou
ontologiques à partir de textes
12. Construction d'ontologie à partir des
textes
13. Programmation Java
14. Créez votre application web avec java
Entreprise Edition
15. Dévellopement Java avec Jquery
16. Développons en Java
17. Documents électroniques et constitution de
ressources terminologiques ou ontologiques
18. Engagement sémantique et engagement
ontologique conception et réalisation d'ontologies en ingénierie
des connaissances
19. Enrichissement automatique d'une base de
connaissances biologiques a l'aide des outils du Web semantique
20. Etude et realisation d'un systeme d'extraction de
connaissances à partir des textes
21. Evaluation de la qualité de la
représentation en fouille des donnée
22. Extraction automatique des motifs syntaxiques
23. Extraction de connaissances dans les bases de donnees
comportant des valeurs manquantes
24. Extraction et impact des connaissances sur les
performances des systemes de recherche d'information
25. Fouille de textes hiérarchisée,
appliquée à la détection des fautes
26. Fouille de données séquentielles pour
l'extraction de l'information dans le texte
27. Hierarchisation des regles d'association en fouille
de textes
28. Ontologie de domaine pour la modélisation des
contextes en recherche d'infor-mation
29. Ingénierie des connaissances entre science de
l'information et science de gestion
30. La Programmation Orientée Objet
31. Optimisation des réseaux intelligents et des
réseaux hétérogènes
32. Modelisation du domaine par une methode fondee sur
l'analyse du corpus
33. Modelisation XML
34. Ontologies pour l'aide à l'exploration d'une
collection des documents
35. Plate forme d'analyse morpho-syntaxique pour
l'indexation automatique et la recherche d'information
36. Précis de recherche
opérationnelle
67
37. Résumé automatique par filtrage semantique
d'informations dans des textes
38. Système d'exploration contextuelle
39. Tout sur les Réseaux sans fil
40. Un systeme de visualisation pour l'extraction,
l'evaluation, et l'exploration interactives des regles d'association
41. Une étude comparative de quelques travaux sur
l'acquisition de connaissances
42. Vers le traitement de la masse de donnée
disponible
43. Vers une acquisition automatique de
connaissances
Soit un groupe de mots (simples ou composés) que nous
devons chercher dans cette base de donnée :
1. règles d'associations
2. fouille de textes
3. ontologie
4. corpus
5. analyse syntaxique
6. extraction d'information
7. traitement du langage naturel
8. intelligence artificielle
9. treillis de galois
10. connaissances
11. recherche d'information
12. linguistique
13. représentation des connaissances
14. traitement automatique des langues
15. ingénierie des connaissances
16. contexte formel
17. connexion de galois
18. web sémantique
19. base de connaissances
20. base de données
Nous contruirons un contexte d'extraction K = (X,
Y, R) où X est l'ensemble de livres de notre base de
donnée, Y l'ensemble de termes ou mots clés de notre
corpus et la relation R désignera la presence d'un mot dans un
document et sera simbolisé par × dans la case correspondante au
croisement de la ligne du nom d'un livre et la colonne du nom d'un motif tel
que montré par la figure ci-dessous.
Les documents seront symbolisés par la variable
x ·(j allant de 1 à 43) et les termes (ou mots
clés) par les lettres de l'alphabet français (a = 1... t =
20).
TABLE 5.2 -- Contexte d'extraction associé à la
base de données textuelle (Livres éléctroniques et mots
clés)
68
'R.
|
a
|
h
|
c:
|
ci
|
cT
|
I
|
g
|
h
|
i
|
j
|
k
|
l
|
in
|
u
|
ca
|
p
|
c1
|
r
|
s
|
t
|
3: I
|
|
|
|
|
|
|
|
X
|
|
X
|
|
|
|
|
|
|
|
|
|
|
3:2
|
|
X
|
X
|
X
|
X
|
|
|
|
|
X
|
|
|
|
|
X
|
X
|
|
|
|
|
3:4.!
|
|
|
X
|
X
|
X
|
|
|
X
|
|
X
|
|
X
|
X
|
X
|
X
|
|
|
X
|
|
|
:4'i
|
|
|
X
|
X
|
X
|
|
X
|
X
|
|
X
|
|
X
|
|
|
X
|
|
|
|
|
X
|
;1::,
|
|
X
|
X
|
X
|
|
|
|
|
X
|
X
|
|
X
|
|
|
|
|
|
|
|
X
|
:!.'i;
|
|
X
|
X
|
X
|
|
|
X
|
X
|
|
X
|
|
X
|
X
|
|
|
|
|
X
|
|
|
r7
|
|
X
|
X
|
X
|
X
|
X
|
X
|
X
|
X
|
X
|
X
|
X
|
|
X
|
X
|
X
|
|
|
X
|
X
|
3:8
|
|
|
X
|
X
|
X
|
|
|
|
|
X
|
|
X
|
|
X
|
X
|
|
|
|
X
|
|
3:1i
|
|
X
|
|
X
|
|
|
|
X
|
|
X
|
|
X
|
X
|
X
|
|
|
|
|
|
|
11]
|
|
|
X
|
X
|
X
|
|
|
X
|
|
X
|
|
X
|
|
X
|
X
|
|
|
X
|
X
|
X
|
xii
|
|
|
X
|
X
|
X
|
|
|
X
|
|
X
|
|
X
|
|
X
|
|
|
|
|
X
|
|
X12
|
|
|
|
|
|
|
|
|
|
X
|
X
|
|
|
|
|
|
|
|
|
X
|
ZIA
|
|
|
|
|
|
|
|
|
|
X
|
X
|
|
|
|
|
|
|
|
X
|
X
|
ZIA
|
|
|
|
|
|
|
|
|
|
X
|
|
|
|
|
|
|
|
|
|
|
XII")
|
|
|
|
|
|
|
|
|
|
X
|
X
|
|
|
|
|
|
|
|
|
X
|
2Iy
|
|
X
|
X
|
X
|
|
|
|
X
|
|
T
X
|
|
X
|
X
|
X
|
X
|
|
|
|
|
|
x.17
|
|
|
X
|
X
|
|
|
|
X
|
|
X
|
|
X
|
X
|
|
X
|
X
|
|
|
|
|
3:1#]
|
|
|
X
|
X
|
|
X
|
X
|
X
|
|
X
|
|
X
|
X
|
X
|
X
|
|
|
X
|
X
|
X
|
3:19
|
|
X
|
X
|
X
|
X
|
|
|
|
X
|
X
|
|
X
|
|
X
|
|
|
X
|
X
|
X
|
X
|
3:21]
|
X
|
|
|
|
|
|
|
|
|
X
|
|
|
|
|
|
|
|
|
X
|
X
|
3:21
|
|
|
|
X
|
X
|
|
|
X
|
|
|
|
X
|
|
|
|
|
|
|
|
|
3:22
|
X
|
X
|
|
X
|
|
|
|
|
X
|
X
|
X
|
X
|
|
|
|
|
X
|
|
|
X
|
3:23
|
|
|
X
|
X
|
X
|
|
|
|
|
X
|
X
|
X
|
|
|
|
|
|
|
X
|
|
:#:2 ·1
|
X
|
X
|
|
X
|
X
|
X
|
|
|
|
X
|
X
|
X
|
|
X
|
|
|
|
|
|
|
x25
|
|
X
|
|
X
|
X
|
|
|
|
|
X
|
|
X
|
|
|
|
|
|
X
|
|
|
:L`.){;
|
|
X
|
X
|
|
|
|
|
|
X
|
X
|
|
|
|
|
|
|
X
|
|
X
|
|
;i:27
|
|
|
X
|
X
|
|
|
|
|
|
X
|
|
|
X
|
X
|
X
|
|
|
X
|
|
|
z2A
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
X
|
3:29
|
|
|
X
|
|
|
|
|
X
|
|
X
|
X
|
X
|
|
|
|
|
|
|
|
|
3:34]
|
|
|
|
|
|
|
|
X
|
|
X
|
|
|
|
|
|
|
|
X
|
X
|
X
|
37-411
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
27;12
|
|
|
X
|
X
|
|
|
|
X
|
|
X
|
|
X
|
|
X
|
X
|
|
|
|
X
|
|
1:33
|
|
|
X
|
|
|
|
|
X
|
|
X
|
|
X
|
|
|
|
|
|
X
|
X
|
X
|
1.'34
|
|
|
X
|
X
|
X
|
X
|
|
X
|
|
X
|
X
|
X
|
X
|
X
|
X
|
|
|
X
|
X
|
X
|
;1.3r,
|
|
|
X
|
|
|
X
|
|
|
|
X
|
X
|
|
|
X
|
|
|
|
|
|
X
|
:a':cents,.
|
|
|
|
X
|
X
|
X
|
X
|
X
|
|
X
|
X
|
X
|
X
|
X
|
X
|
|
|
X
|
X
|
;a':g ;
|
|
|
X
|
X
|
|
X
|
|
|
|
X
|
|
X
|
X
|
|
|
|
|
|
|
X
|
3.';
|
|
|
|
|
|
|
|
|
|
X
|
|
X
|
|
|
|
|
|
|
|
X
|
3.';s1]~
|
|
X
|
X
|
|
|
|
|
|
X
|
X
|
X
|
X
|
|
|
|
|
X
|
|
X
|
|
l'..1 I)
|
|
|
X
|
X
|
|
|
|
|
|
X
|
|
|
|
|
|
|
|
|
|
X
|
1:4 L
|
|
|
|
|
|
|
|
|
|
X
|
|
|
|
|
X
|
|
|
|
X
|
X
|
:!',12
|
|
|
|
|
|
|
|
|
|
X
|
|
|
X
|
|
X
|
|
|
X
|
X
|
|
+1: ·1;s
|
|
|
|
|
|
|
|
|
X
|
X
|
|
|
X
|
|
X
|
|
|
|
X
|
|
69
|