Chapitre IV : Conception et expérimentation du
système BIODM - 58 -
Les Figures 4.2, et 4.3 montrent (en
flèche) sur quelques morceaux de fichiers, les descripteurs les plus
importants dans la définition d'une séquence
biologique.
1: aac
aminoglycoside 2-N-acetyltransferase [Mycobacterium
Tuberculosis CDC1551]
Other Aliases: MT0275
Annotation: NC_002755.2 (314424..314969, complement)
GeneID: 923198
4257: tRNA-Arg-4
tRNA [Mycobacterim Tuberculosis CDC1551]
Annotation: NC_002755.1 (4209177..4209249,
complement)
GeneID: 922623
This record was discontinued.
Figure 4.2 : Morceaux de la séquence
génomique du Mt CDC1551.
1: AAK44224
chromosomal replication initiator protein DnaA
[Mycobacterium Tuberculosis CDC1551]
gi|13879042|gb|AAK44224.1|[13879042]
2: AAK44225
DNA polymerase III, beta subunit [Mycobacterium
Tuberculosis CDC1551] gi|13879043|gb|AAK44225.1|[13879043]
7880: NP_338144
virulence factor mce family protein [Mycobacterium
Tuberculosis CDC1551] gi|15843107|ref|NP_338144.1|[15843107]
Figure 4.3 : Morceaux de séquence
protéique du Mt CDC1551.
2ème étape : Transformation des
données
La transformation des données, du format
original vers un formalisme base de données (attribut, valeur), est
faite à partir des descripteurs possibles dégagés
auparavant. Cependant, les caractéristiques dégagées n'ont
pas des valeurs binaires, ce qui nécessitera une opération de
« binarisation » afin que les algorithmes d'extraction de
règles puissent les traiter. Il y a évidemment de très
nombreuses manières d'effectuer cette "binarisation", celle
adoptée par notre processus est de vérifier la présence ou
non du gène ou de la protéine dans les séquences en
question. Ainsi, un gène présent sera noté "1" et absent
par "0". On peut aussi proposer de choisir d'autres valeurs, néanmoins
nous pouvons dire que cette étape de prétraitement est longue,
complexe, et nécessite de
Chapitre IV : Conception et expérimentation du
système BIODM - 59 -
faire de nombreux choix.
De plus, il est difficile de déterminer dans
quelle mesure ces choix ont une influence sur le résultat des
extractions de connaissances. Les traitements de cette étape sont
décrits par le pseudo code suivant :
Algorithme : Transformation
Début
Entrée : fichier des gènes nettoyé
(fichier_gene_nettoyé)
Sortie : table des gènes (T_gene)
chaine ligne_courante
Lire (fichier_gene_nettoyé)
Tant que (NFF fichier_gene_nettoyé)
faire
Cas de ( lig )
lig =1 : xcode=ligne_courante , lig=2
lig =2 : xgene=ligne_courante , lig=3
lig =3 : xsouche=ligne_courante , lig=1
Fin cas
ecrire_table(T_gene, xcode,xgene, xsouche)
Fin Tant que
Fermer_fichier(fichier_gene_nettoyé)
Fermer_table(T_gene)
Fin
3ème étape : Production et
évaluation des règles d'association
Production. Cette phase concerne l'utilisation de
l'algorithme d'extraction de motifs sur les données
préparées pendant l'étape précédente. Dans
cette phase, l'utilisateur doit définir les contraintes sur ces motifs
et fixer les paramètres de l'algorithme i.e. support et confiance. Cette
définition des contraintes est importante car souvent l'ensemble des
motifs possibles est tellement grand qu'il n'est pas calculable, il faut donc
le restreindre.
L'algorithme Apriori est alors utilisé pour
rechercher les Itemsets. Ensuite un traitement approprié est
effectué sur les Itemsets valables afin de trouver les règles
d'association par une opération de combinaison.
Evaluation. La production des règles
d'association peut donner des règles non intéressantes, il est
donc nécessaire d'évaluer leurs qualités. Cette
évaluation sera faite en utilisant la confiance et le support pour ne
retenir que les règles dont le support et la confiance dépassent
les seuils fixés par l'utilisateur.
Il existe aussi d'autres méthodes
d'évaluation qui viennent renforcer le choix des règles
produites. Ces méthodes utilisent des fonctions d'évaluations,
elles ne sont pas abordées dans le cadre de cette
étude.
A un autre niveau, l'évaluation du
spécialiste est nécessaire. En effet, les algorithmes
|