Fouille de données biologiques. étude comparative et expérimentation.par Abdelhak MANSOUL Université Ahmed Ben Bella Oran 1, Algérie - Magister Informatique et Automatique 2010 |
II.4 ConclusionLe processus de l'ECD biologiques adopté par notre système est composé de 7 étapes majeures : 1ere étape . A partir de la banque de donnée NCBI1, il y a récupération des données biologiques relatives aux souches ciblées par notre étude sous leurs formats originaux. Les souches ciblées sont ceux dont l'annotation a été finie à savoir : Mt H37Rv, Mt CDC1551, Mt F11, Mt H37Ra. Un nettoyage et une mise en forme sont effectués afin de dégager des descripteurs « attributs » possibles. 2eme étape . La transformation des données du format original vers un formalisme approprié est faite et suivra alors une «binarisation». 3eme étape . La recherche des Itemsets et des règles d'association est faite par l'algorithme Apriori [Agrawal et Srikant., 1994] avec calcul systématique du support et de la confiance pour ne retenir que les règles ayant une confiance dépassant la valeur fixée par l'utilisateur. 4eme étape . Les règles d'association trouvées sont transformées puis représentées selon un formalisme transitoire aidant à la production d'un graphe d'induction. Ainsi la règle d'association Ri se verra traduite en une règle booléenne transitoire selon le principe suivant : ( Ri , Antécédenti , Conséquenti , support , confiance ) ( Rti , Prémissei ( Antécédenti ) , Conclusioni ( Conséquenti ) ) 5eme étape . Un graphe d'induction est construit selon le principe suivant : un sommet désigne un noeud sur lequel on fait un test, avec les résultats possibles binaires ou à valeur multiple. 1 http://www.ncbi.nlm.nih.gov/Database/ http://www.ncbi.nlm.nih.gov/genomes/genlist.cgi?taxid=2&type=0&name=Complete%20Bacteria Chapitre II : L'extraction de règles d'association - 43 - 6eme étape : Production des règles cellulaires
{ Rck } REGLES et { Prémissek , Conclusionk , Sommetk } FAITS 7eme étape : Intégration La machine cellulaire intégrera et exploitera la représentation cellulaire et les matrices d'E/S à travers une inférence en chaînage avant pour enrichir la base de connaissances. Le chapitre suivant nous montrera le processus de génération et d'intégration des règles booléennes par le système BRI. Ce processus commence à partir de l'étape 4, la transformation et fini à l'intégration des résultats dans la base de connaissances. |
|