Fouille de données biologiques. étude comparative et expérimentation.

par Abdelhak MANSOUL
Université Ahmed Ben Bella Oran 1, Algérie - Magister Informatique et Automatique 2010

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

II.4 Conclusion

Le processus de l'ECD biologiques adopté par notre système est composé de 7 étapes majeures :

1ere étape .
· Sélection et prétraitement des données

A partir de la banque de donnée NCBI¹, il y a récupération des données biologiques relatives aux souches ciblées par notre étude sous leurs formats originaux. Les souches ciblées sont ceux dont l'annotation a été finie à savoir : Mt H37Rv, Mt CDC1551, Mt F11, Mt H37Ra. Un nettoyage et une mise en forme sont effectués afin de dégager des descripteurs « attributs » possibles.

2eme étape .
· Transformation des données

La transformation des données du format original vers un formalisme approprié est faite et suivra alors une «binarisation».

3eme étape .
· Production et évaluation des règles d'association

La recherche des Itemsets et des règles d'association est faite par l'algorithme Apriori [Agrawal et Srikant., 1994] avec calcul systématique du support et de la confiance pour ne retenir que les règles ayant une confiance dépassant la valeur fixée par l'utilisateur.

4eme étape .
· Transformation

Les règles d'association trouvées sont transformées puis représentées selon un formalisme transitoire aidant à la production d'un graphe d'induction.

Ainsi la règle d'association Ri se verra traduite en une règle booléenne transitoire selon le principe suivant :

( Ri , Antécédenti , Conséquenti , support , confiance )

( Rti , Prémissei ( Antécédenti ) , Conclusioni ( Conséquenti ) )

5eme étape .
· Production du graphe d'induction

Un graphe d'induction est construit selon le principe suivant : un sommet désigne un noeud sur lequel on fait un test, avec les résultats possibles binaires ou à valeur multiple.

¹ http://www.ncbi.nlm.nih.gov/Database/

http://www.ncbi.nlm.nih.gov/genomes/genlist.cgi?taxid=2&type=0&name=Complete%20Bacteria

Chapitre II : L'extraction de règles d'association - 43 -

6eme étape : Production des règles cellulaires

(1) Génération des règles cellulaires : Elles sont déduites à partir du graphe d'induction et auront la forme suivante:

Rck : Si { Prémissek } Alors { Conclusionk , Sommetk }

où Prémissek et Conclusionk sont composée d'Items et Sommetk le noeud du graphe d'où la règle est déduite.

(2) Représentation cellulaire : Les règles générées auparavant (6.1) sont représentées en couches cellulaires selon le principe cellulaire (voir III.3). Schématiquement nous aurons :

{ Rck } REGLES et { Prémissek , Conclusionk , Sommetk } FAITS

7eme étape : Intégration

La machine cellulaire intégrera et exploitera la représentation cellulaire et les matrices d'E/S à travers une inférence en chaînage avant pour enrichir la base de connaissances.

Le chapitre suivant nous montrera le processus de génération et d'intégration des règles booléennes par le système BRI. Ce processus commence à partir de l'étape 4, la transformation et fini à l'intégration des résultats dans la base de connaissances.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Qui vit sans folie n'est pas si sage qu'il croit." La Rochefoucault