Fouille de données biologiques. étude comparative et expérimentation.par Abdelhak MANSOUL Université Ahmed Ben Bella Oran 1, Algérie - Magister Informatique et Automatique 2010 |
Chapitre IV : Conception et expérimentation du système BIODM - 56 -Le système BIODM fonctionne selon les 7 principales étapes suivantes : 1ere étape : Sélection et prétraitement des données Récupération des données biologiques relatives aux souches concernées par notre étude, sous leurs formats originaux, à partir de la banques de données biologiques NCBI, avec nettoyage et mise en forme de celles-ci (voir Tableau 0.2). 2eme étape : Transformation des données Transformation des données du format original vers un formalisme base de données. 3eme étape : Production et évaluation des règles d'association Recherche des Itemsets et des règles d'association par l'algorithme Apriori. Les règles d'association auront le formalisme suivant : ( Ri , Antécédenti , Conséquenti , support , confiance) 4eme étape : Transformation des règles d'association Transformation des règles d'association selon un formalisme transitoire aidant à la production d'un graphe d'induction. Les règles transformées auront le formalisme suivant : ( Rti , Prémissei , Conclusioni ) 5eme étape : Production du graphe d'induction Production d'un graphe d'induction aidant à la génération des règles booléennes inductives. 6eme étape : Production des règles cellulaires Génération des règles cellulaires ( Rc ) à partir du graphe d'induction. Elles auront la forme suivante : Rck : Si { Prémissek } Alors { Conclusionk , Sommetk } Elles seront représentées selon le formalisme cellulaire. (Chapitre III-Section2). 7eme étape : Intégration Enfin, on intégrera les règles générées dans la machine cellulaire CASI qui les exploitera à travers une inférence en chaînage avant pour enrichir sa base de connaissances. Chapitre IV : Conception et expérimentation du système BIODM - 57 -IV.3 Le processus de l'ECD biologiquesLe processus de fouille de données adopté par notre système suivra les 7 étapes majeures définies auparavant: 1ère étape : Sélection et prétraitement des données A cette étape, nous récupérerons les séquences génomiques et protéiques des souches concernées par l'expérimentation, à partir la banque de données NCBI1 (National Center for Biotechnology Information). Pour le choix des souches cibles, nous nous sommes fixés dans un premier temps sur les souches pathogènes dont l'annotation a été finie à savoir : Mt H37Rv, Mt CDC1551, Mt F11, Mt H37Ra (voir Tableau 0.2). Par la suite les autres souches (voir Tableau 0.3) peuvent êtres prises en compte au fur et à mesure de leurs complètes annotations. Ensuite, un prétraitement nécessaire est effectué pour l'épuration, la préparation, et le formatage des données afin de les rendre exploitables lors de l'expérimentation. Les données brutes utilisées sont constituées de plusieurs fichiers sous le format original i.e. texte brut. Cette étape de prétraitement utilise le pseudo code suivant : Algorithme : Pretraitment_sequence Début Entrée : le fichier des gènes (fichier_gene) Sortie : le fichier des gènes nettoyé (fichier_gene_nettoyé) Variables : ligne, sous_chaine ,code_gene, nom_gene, nom_souche, Crochet1, Crochet2 : chaîne taille, pos1, pos2 : entier Crochet1="[" , Crochet2="]" Lire (fichier_gene) Tant que (NFF fichier_gene ) faire Si ( ligne[0] = chiffre ) alors code_gene =trouver_code_gene(ligne_courante) ecrire_fichier(fichier_gene_nettoyé ,code_gene Sinon sous_chaine=ligne(debut,5) Si ( sous_chaine # "Other" et sous_chaine # "Annot" et sous_chaine #"This") alors pos1=trouver_ligne(ligne,Crochet1) pos2=trouver_ligne(ligne,Crochet2) nom_gene=trouver_gene(ligne,pos1) nom_souche=trouver_souche(ligne,pos1,pos2) ecrire_fichier(fichier_gene_nettoyé ,nom_gene) ecrire_fichier(fichier_gene_nettoyé ,nom_souche) Finsi Finsi FinTant que Fermer_fichier(fichier_gene) Fermer_fichier(fichier_gene_nettoyé) Fin 1 http://www.ncbi.nlm.nih.gov/Database/ http://www.ncbi.nlm.nih.gov/genomes/genlist.cgi?taxid=2&type=0&name=Complete%20Bacteria |
|