Chapitre IV : Conception et expérimentation du
système BIODM - 67 -
Nous nous sommes fixés un nombre convenable et
suffisant pour notre expérience vu le problème combinatoire de
l'algorithme qui génère un nombre assez important d'Itemsets
fréquents à chaque itération. Nous avons alors pris les 15
premiers de chaque séquence, avec la supposition que ces quinze
gènes sont assez représentatifs et distinctifs de chaque souche
prise séparément. Par la suite l'expérience pourra
être tentée en réel sur une machine suffisamment puissante
du genre station de travail.
1 ) aac accD aceA-1 aceA-2 aceB aceE ackA acnA acp-1
acp-2 acpP acpS acs adh adk
2 ) aceE acpP acpS adk alaS alr argC argD argJ argS aroB
aroE aroK aspS atpC
3 ) aac aao accA1 accA2 accA3 accD1 accD2 accD3 accD4
accD5 accD6 aceAa aceAb aceE acg
4 ) 35kd_a aac aao accA1 accA2 accA3 accD1 accD2 accD3
accD4 accD5 accD6 aceAa aceAb aceE
Figure 4.6 : Echantillon de gènes servant
à la fouille de données.
Les résultats expérimentaux
On se basant sur l'échantillon
expérimental cité auparavant (voir Figure 4.6), le
système BIODM donne des résultats intéressants qui
resteront à consolider avec de nouvelles souches en cours de
séquençage (voir Tableau 1.3) et qui seront prises en
considération par notre système au fur et mesure de leur
publication définitive sur leurs sites d'origines, NCBI.
De plus, d'après l'algorithme Apriori, un
principe de base de la génération de règles est celui de
la génération de combinaisons possibles d'Items pour trouver les
Itemsets, ce traitement prend énormément de temps, ce qui risque
de mobiliser la machine pour un temps assez conséquent, du fait
qu'à chaque itération il génère 2n
Itemsets possibles.
Ainsi, par exemple pour 15 gènes nous notons un
ordre de grandeur de plus de 835000 de règles avec un temps
d'exécution machine de avoisinant les 5 secondes, ce qui est
énorme. Ce qui à fait que nous avons limité notre
échantillon d'apprentissage à une vingtaine de gènes i.e.
Items, ceci pour éviter un temps de calcul énorme pour une
machine modeste. Nous avons aussi noté la constatation suivante
:
Plus l'échantillonnage est grand (> 15),
plus le temps de calcul croit énormément arrivant jusqu'à
réduire le temps de réponse de notre machine.
Chapitre IV : Conception et expérimentation du
système BIODM - 68 -
Prémisse -> Conclusion
|
Support
|
Confiance
|
acpP -> aceE
|
100.0
|
100.0
|
aac ackA - > aceE
|
75.0
|
100.0
|
aac aceE -> ackA
|
75.0
|
100.0
|
ackA aceE -> aac
|
75.0
|
100.0
|
aac ackA -> acpP
|
75.0
|
100.0
|
aac acpP -> ackA
|
75.0
|
100.0
|
ackA acpP -> aac
|
75.0
|
100.0
|
aac aceE -> acpP
|
75.0
|
100.0
|
aac acpP -> aceE
|
75.0
|
100.0
|
ackA aceE -> acpP
|
75.0
|
100.0
|
ackA acpP -> aceE
|
75.0
|
100.0
|
acpS aceE -> acpP
|
75.0
|
100.0
|
acpS acpP -> aceE
|
75.0
|
100.0
|
aac ackA aceE -> acpP
|
75.0
|
100.0
|
aac ackA acpP -> aceE
|
75.0
|
100.0
|
Tableau 4.2 : Exemple de règles
générées par Apriori pour un support de 60% et une
confiance de 80%.
Règles cellulaires
|
Rc1 : s0 -> aac=1 , s1
|
Rc2 : s0 -> accA1=1 , s2
|
Rc3 : s0 -> accA2=1 , s3
|
Rc4 : s0 -> accA3=1 , s4
|
Rc5 : s0 -> accD1=1 , s5
|
Rc6 : s0 -> accD2=1 , s6
|
Rc7 : s0 -> accD3=1 , s7
|
Rc8 : s0 -> accD4=1 , s8
|
Rc9 : s0 -> accD5=1 , s9
|
Rc10 : s0 -> accD6=1 , s10
|
Rc11 : s11 -> aac=1 , s12
|
Rc12 : s11 -> accA2=1 , s13
|
Tableau 4.3 : Exemple de règles cellulaires
générées par BRI.
|