5.3.3 Extraction de connaissances par règles
d'association
L'extraction des connaissances est une technique qui consiste
à trouver des éléments de sens à partir d'une base
de données. Dans cette section, nous utiliserons la notion de
règles d'association pour arriver à extraire ces
connaissances.
En effet, les règles d'associations sont basées
sur des motifs qui apparaissent fréquemment dans la base de
donnée. Ainsi nous commencons par trouver des motifs et ne retenir que
ceux qui sont fréquents.
3.3.1 Extraction de motifs fréquents
Pour extraire les motifs fréquents, nous nous baserons
sur l'algorithme A-priori vu à la section 4.3.2 pour
un seuil ó,9 = 15 43.Pour cela, on commence par
déterminer les motifs fréquents de taille 1; on note cet ensemble
L1. Ensuite, on construit l'ensemble C2 des motifs
fréquents candidats de taille 2 (ce sont tous les couples construits
à partir des motifs fréquents de taille 1). On obtient ainsi la
liste des motifs fréquents de taille 2 qu'on note par L2. On ne
conservera, bien sûr, que les éléments de C2 dont
le support est supérieur au seuil. On construit encore l'ensemble
C3 des motifs fréquents candidats de taille 3 et on ne retient
que ceux dont le support est supérieur au seuil, ce qui produit
L3. On continue le processus jusqu'à ce que l'ensemble Li
n'ait plus d'éléments.
Génération de candidats de taille 1
La génération de motif candidat de taille 1 est
présenté par le tableau suivant avec leurs motifs respectifs.
Seuls les motis fréquents(support = 15
43) seront retenus
(valeurs en gras). Ainsi la liste
L1 nous donne les motifs fréquents de taille 1.
L1 = {c, d, e, h, j, l, n, o, s, t}
Génération de candidats de taille 2 : Obtenus
par combinaison 2 à 2 des candidats de taille 1 de L1. La liste
L2 donne les motifs fréquents de taille 2.
L2 = {cd, cj, cl, dh, dj, dl, hj,
hl,jl,jn,jo,js,jt}
Génération de candidats de taille 3 : Obtenus
par combinaison 2 à 2 des candidats de taille 2 de L2. Nous ne
considererons que les motifs dont la taille vaut
3. La liste L3 nous donne la liste des motifs
fréquents de taille 3.
L3 = {cdj, cdl, cjl, djl, hjl}
Génération de candidats de taille 4 : Obtenus
par combinaison 2 à 2 des candidats de taille 3 de L3. Nous ne
considererons que les motifs dont la taille vaut
4. La liste L4 nous donne la liste des motifs
fréquents de taille 4.
L4 = {cdjl}
Nous constatons qu'il ne sera pas possible de
générer les candidats de taille 5. D'où L5 =
Ø. Ainsi l'ensemble L de motifs fréquents est
:
L =
{L1,L2,L3,L4} (5.8)
Le tableau de tous les motifs candidats est montré
à la table 5.3.
70
TABLE 5.3 - Mots clés candidats à l'analyse et
leurs supports respectifs
71
|