M.
M.
M.
Bovis
M. Bovis BCG
M.
Canetti
M.
Microti
· L'ADN (le chromosome) : Chez les bactéries
tout l'ADN est codant.
· L'ADN Extrachromosomique (les plasmides) : A
côté du chromosome, il peut exister des éléments
génétiques (ADN) de petites tailles (0,5 à 5 % du
chromosome bactérien), extra-chromosomiques, se sont les plasmides. Les
plus connus sont les plasmides de résistance aux antibiotiques, ils
portent des gènes
Introduction générale - 3 -
qui confèrent aux bactéries la
résistance à divers antibiotiques [Carbonelle et al.,
2003].
Dans le domaine des bactéries et en
particulier celui du Mycobacterium Tuberculosis, les séquences
complètes de génomes s'accumulent depuis 1995 (voir Tableau
0.1, Tableau 0.2, Tableau 0.3). Ces données ont
permis d'envisager l'étude du génome du Mycobacterium
Tuberculosis par des techniques informatiques, pour identifier et
connaître au mieux la source de l'infection afin d'aider les
spécialistes à trouver des solutions thérapeutiques et
stopper la diffusion de la bactérie et par conséquent stopper
l'épidémie par certains vaccins, ou antibiotiques.
Plusieurs approches informatiques notamment par la
fouille de données ont été alors développées
en exploitant des données biologiques en générale et de la
tuberculose en particulier, notamment par :
· l'utilisation d'algorithmes de recherche de
mots puis de couples de mots représentés énormément
dans les séquences ADN des souches et espèces
phylogénétiquement proches, ces séquences de lettres
particulières, permettent de repérer et d'identifier des
séquences anormales.
· la fouille de données génomiques
sans à priori pour faire émerger des sous-séquences d'ADN
qui peuvent donner des éléments d'informations sur les grandes
séquences d'ADN ;
· la recherche de gènes
co-régulés, etc.
En 1998, la première séquence
complète du génome de Mt H37RV a été
réalisée et a permis de dégager des
caractéristiques propres aux mycobactéries dont les plus
importantes [Carbonelle et al., 2003]:
· 51 % des gènes sont
dupliqués;
· 10 % du génome code pour 2 familles de
gènes qui codent eux mêmes pour 2 protéines nommées
PE et PPE;
· forte présence de séquences
répétées d'ADN, dont 65 copies de séquences
appelées MIRUs (Mycobacterial Interspaced Repetitive Unit), et de
répétitions directes appelées RDs. Ces séquences
répétées sont riches en particularités sur le
génome. Toutes ces caractéristiques de ce génome sont
autant chacune une source qu'on exploite en fouille de données
[Fleiishman et al., 2002], [Ferdinand et al., 2004], [Yokoyama et al.,
2007].
Introduction générale - 4 -
Problématique.
La représentation des séquences
biologiques. Dans un passé récent, la fouille de données
dans un contexte biologique utilisait la séquence dans sa structure
primaire à base de nucléotides (ex : AAGTCGTTGCTGGC) où
celle-ci est considérée comme une chaine de milliers de
caractères, en ce moment le gène, la protéine, et autres
éléments caractérisant n'étaient pas suffisamment
cernés (annotation incomplète) pour être exploités
efficacement et donc le prétraitement des données se basait
essentiellement sur des techniques de traitement de texte plus ou moins
aménagées selon le contexte.
Alors, nous avons envisagé un système
de fouille de données un peu plus élaboré du fait de
l'existence d'entités sémantiques dans le fichier de la
séquence en question (le
gène, la protéine, sa localisation, )
(voir Figure 0.2). Nous utilisons donc des
traitements
spécifiques pour obtenir une structure bien appropriée à
la fouille de données (voir Figure 0.3) ou les entités
sémantiques (gènes, protéines, ...) deviennent des
descripteurs, et on attribuera la valeur «0» en l'absence et
«1» en la présence de ce descripteur dans la
séquence.
Figure 0.2. Morceau de séquence
génomique Figure 0.3. Fichier des séquences
rapatriée de NCBI. ayant subi une
transformation.
Dans le cadre de cette étude, nous avons
développé des recherches sur les systèmes d'extraction de
règles d'association à partir des données (gènes,
...) [Chen et al., 2003], [Bahar et Chen, 2004], [Benabdeslem et al., 2007] et
nous avons réalisé un système baptisé BIODM :
BIOlogical Data Mining. En premier lieu, nous avons étudié
l'extraction de règles d'association en utilisant des algorithmes
appropriés. En deuxième lieu nous avons travaillé sur le
raffinement, des résultats, par un processus d'induction cellulaire BRI
(Boolean Rule Induction). Ce raffinement est assuré par une
modélisation booléenne.
Deux motivations concurrentes nous ont amenés
à adopter le principe des automates
Introduction générale - 5 -
cellulaires pour les systèmes à base de
règles d'association. En effet, nous avons non seulement souhaité
avoir une base de règles optimale (modélisation
booléenne), mais nous avons également exploité les
performances du moteur d'inférence cellulaire CIE de la machine
cellulaire CASI, déjà opérationnel [Benamina et Atmani,
2008].
Ce mémoire s'articule autour de quatre chapitres
:
Le chapitre I introduit l'extraction de la
connaissance à partir de données biologiques. Nous commencerons
par expliquer comment est né le besoin en fouille de données
biologiques et particulièrement en épidémiologie, ensuite
nous passerons en revue les différents types de données
biologiques auxquels nous seront amené à travailler pour donner
par la suite une vue d'ensemble du processus d'ECD biologiques que nous
envisageons de suivre. Une fois, toutes ces notions clarifiées nous
aborderons un état de l'art du domaine de l'ECD biologiques que nous
concluons par une étude comparative des méthodes et techniques
utilisées et une explication de notre contribution par cette
étude.
Le chapitre II aborde le principe de l'extraction des
règles d'association, une méthode descriptive de fouille de
données qui a reçu beaucoup d'intérêt en recherche.
Nous présentons le principe ainsi que les différents algorithmes
les plus en vue dans la littérature.
Le chapitre III est consacré à la
présentation du processus d'ECD biologiques que nous avons adopté
en particulier la modélisation booléenne des règles
d'association, résultat du module BRI, selon le principe de la machine
cellulaire CASI [Benamina et Atmani, 2008].
Le chapitre IV présente les données
expérimentales et l'architecture générale du
système que nous avons réalisé : BIODM. Ensuite, nous
présentons les résultats obtenus sur la base des
échantillons test que nous avons utilisés.
Finalement, nous concluons en synthétisant les
différentes étapes de notre contribution et nous proposons les
perspectives envisagées pour poursuivre cette recherche.
Chapitre I : L'extraction de connaissances à
partir de données biologiques - 6 -