Fouille de données biologiques. étude comparative et expérimentation.

par Abdelhak MANSOUL
Université Ahmed Ben Bella Oran 1, Algérie - Magister Informatique et Automatique 2010

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Chapitre IV : Conception et expérimentation du système BIODM - 56 -

Le système BIODM fonctionne selon les 7 principales étapes suivantes :

1ere étape : Sélection et prétraitement des données

Récupération des données biologiques relatives aux souches concernées par notre étude, sous leurs formats originaux, à partir de la banques de données biologiques NCBI, avec nettoyage et mise en forme de celles-ci (voir Tableau 0.2).

2eme étape : Transformation des données

Transformation des données du format original vers un formalisme base de données.

3eme étape : Production et évaluation des règles d'association

Recherche des Itemsets et des règles d'association par l'algorithme Apriori. Les règles d'association auront le formalisme suivant :

( Ri , Antécédenti , Conséquenti , support , confiance)

4eme étape : Transformation des règles d'association

Transformation des règles d'association selon un formalisme transitoire aidant à la production d'un graphe d'induction. Les règles transformées auront le formalisme

suivant : ( Rti , Prémissei , Conclusioni )

5eme étape : Production du graphe d'induction

Production d'un graphe d'induction aidant à la génération des règles booléennes inductives.

6eme étape : Production des règles cellulaires

Génération des règles cellulaires ( Rc ) à partir du graphe d'induction. Elles auront la forme suivante : Rck : Si { Prémissek } Alors { Conclusionk , Sommetk }

Elles seront représentées selon le formalisme cellulaire. (Chapitre III-Section2).

7eme étape : Intégration

Enfin, on intégrera les règles générées dans la machine cellulaire CASI qui les exploitera à travers une inférence en chaînage avant pour enrichir sa base de connaissances.

Chapitre IV : Conception et expérimentation du système BIODM - 57 -

IV.3 Le processus de l'ECD biologiques

Le processus de fouille de données adopté par notre système suivra les 7 étapes majeures définies auparavant:

1ère étape : Sélection et prétraitement des données

A cette étape, nous récupérerons les séquences génomiques et protéiques des souches concernées par l'expérimentation, à partir la banque de données NCBI¹ (National Center for Biotechnology Information). Pour le choix des souches cibles, nous nous sommes fixés dans un premier temps sur les souches pathogènes dont l'annotation a été finie à savoir : Mt H37Rv, Mt CDC1551, Mt F11, Mt H37Ra (voir Tableau 0.2). Par la suite les autres souches (voir Tableau 0.3) peuvent êtres prises en compte au fur et à mesure de leurs complètes annotations.

Ensuite, un prétraitement nécessaire est effectué pour l'épuration, la préparation, et le formatage des données afin de les rendre exploitables lors de l'expérimentation. Les données brutes utilisées sont constituées de plusieurs fichiers sous le format original i.e. texte brut. Cette étape de prétraitement utilise le pseudo code suivant :

Algorithme : Pretraitment_sequence Début

Entrée : le fichier des gènes (fichier_gene)

Sortie : le fichier des gènes nettoyé (fichier_gene_nettoyé)

Variables : ligne, sous_chaine ,code_gene, nom_gene, nom_souche, Crochet1, Crochet2 : chaîne

taille, pos1, pos2 : entier

Crochet1="[" , Crochet2="]"

Lire (fichier_gene)

Tant que (NFF fichier_gene ) faire

Si ( ligne[0] = chiffre ) alors

code_gene =trouver_code_gene(ligne_courante)

ecrire_fichier(fichier_gene_nettoyé ,code_gene

Sinon

sous_chaine=ligne(debut,5)

Si ( sous_chaine # "Other" et sous_chaine # "Annot" et sous_chaine #"This") alors pos1=trouver_ligne(ligne,Crochet1) pos2=trouver_ligne(ligne,Crochet2) nom_gene=trouver_gene(ligne,pos1) nom_souche=trouver_souche(ligne,pos1,pos2) ecrire_fichier(fichier_gene_nettoyé ,nom_gene) ecrire_fichier(fichier_gene_nettoyé ,nom_souche)

Finsi

Finsi FinTant que Fermer_fichier(fichier_gene) Fermer_fichier(fichier_gene_nettoyé)

Fin

¹ http://www.ncbi.nlm.nih.gov/Database/

http://www.ncbi.nlm.nih.gov/genomes/genlist.cgi?taxid=2&type=0&name=Complete%20Bacteria

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Je ne pense pas qu'un écrivain puisse avoir de profondes assises s'il n'a pas ressenti avec amertume les injustices de la société ou il vit" Thomas Lanier dit Tennessie Williams