I.3 Notre contribution
Dans notre étude, nous nous proposons
d'étudier les aspects physiologiques liés à la
génomique de cette bactérie modèle (Mycobacterium
Tuberculosis), à savoir : les gènes, protéines, et autres
données génomiques, ceci afin de mieux connaitre notre terrain
expérimental.
Ensuite, nous étudions les outils de l'ECD pour
les utiliser sur les données précitées, et dégager
une approche expérimentale par des moyens informatiques afin de donner
à l'expert du domaine des connaissances qui permettent d'avoir quelques
éléments de réponses possibles aidant à comprendre
certains processus biologiques et se fixer de nouvelles hypothèses et
continuer ainsi le processus de compréhension et de recherche
médicale.
En premier
Nous avons établi un état de l'art de
l'ECD, où nous présentons les techniques de l'ECD avec certains
détails d'une technique à une autre et qui ne sont pas forcement
en rapport direct avec notre étude. Ceci est justifié par le fait
que ce travail est notre première contribution dans ce domaine, nous
avons alors pensé qu'il est utile de faire le tour du domaine afin de
situer la technique de recherche d'associations parmi les différents
outils de l'ECD. Ensuite, une étude comparative des différentes
méthodes existantes a été faite pour nous positionner par
rapport à celles-ci et nous fixer sur la plus appropriée pour
notre étude.
Deuxièmement
Nous avons abordé l'étude de l'agent
pathogène afin de cerner la nature et le type de données
biologiques qui nous intéressent et ainsi pouvoir localiser d'où
puiser nos données expérimentales pour la fouille de
données, i.e. les sources de données biologiques relatives au
Mycobacterium Tuberculosis.
Troisièmement
Nous avons établi notre propre démarche
expérimentale par un processus d'ECD pour générer des
connaissances à partir de données biologiques. Ces connaissances
vont êtres profitables et exploitables à deux niveaux
:
· profitables au premier niveau au
spécialiste du domaine pour la compréhension des aspects
biologiques liés à la pathologie ;
· exploitables au deuxième niveau par la
machine cellulaire pour l'inférence et la
Chapitre I : L'extraction de connaissances
à partir de données biologiques -
14 -
déduction.
Le processus informatique établi procède
en deux étapes : une fouille de données est faite dans un premier
temps et donnera des règles d'association, ensuite ces règles
sont transformées dans un deuxième temps pour produire des
règles booléennes inductives qui vont alimenter la base de
connaissances de la machine cellulaire CAST, [Atmani et Beldjilali, 2007],
[Abdelouhab et Atmani., 2008], [Benamina et Atmani, 2008]. Cette machine a
été développée pour l'acquisition automatique
incrémentale de connaissances par induction et la prédiction par
déduction [Atmani et Beldjilali, 2007].
Ainsi, notre contribution a adopté la
démarche suivante :
(1) Etude et sélection des données
biologiques relatives au mycobactérium tuberculosis ;
(2) Extraction des motifs fréquents et
recherche des règles d'association ;
(3) Production des règles booléennes
inductives pour la machine cellulaire CAST.
|