WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Fouille de données biologiques. étude comparative et expérimentation.


par Abdelhak MANSOUL
Université Ahmed Ben Bella Oran 1, Algérie - Magister Informatique et Automatique 2010
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Introduction générale - 2 -

a incité à les valoriser pour mieux connaitre les épidémies et aider les spécialistes à trouver des réponses thérapeutiques efficaces.

En effet, parmi ces épidémies, il existe une qui a montré un fort intérêt notamment par les récents séquençages de nouvelles souches : c'est la tuberculose.

A l'origine l'infection est provoquée par la pénétration dans l'organisme d'une bactérie appelée Mycobacterium Tuberculosis, et lorsque cette infection se multiplie dans un lieu et une période donnée cela abouti à une l'épidémie. Dans la pratique, il existe un Complexe Tuberculosis dont le Mycobacterium Tuberculosis est l'agent typique responsable de la tuberculose humaine (voir Figure 0.1).

Complexe Tuberculosis

M.

Tuberculosis

M.

Africanum

M.
Bovis

M. Bovis BCG

M.
Canetti

M.
Microti

Figure 0.1: Complexe Tuberculosis.

L'agent pathogène : La bactérie

Les bactéries (Bacteria) sont des organismes vivants unicellulaires. Elles mesurent quelques micromètres de long et peuvent présenter différentes formes : des formes sphériques (coques), allongées ou en bâtonnets (bacilles), et des formes plus ou moins spiralées [Wikipedia].

Caractéristiques génétiques d'une bactérie

La plupart des bactéries possèdent un unique chromosome circulaire, d'autres possèdent un chromosome linéaire. Il existe toutefois de rares bactéries possédant deux chromosomes. La taille du génome s'exprime en millier de nucléotides et peut être très variable selon les espèces de bactéries.

L'analyse chimique de l'appareil nucléaire indique qu'il est composé à 80 % d'ADN (le chromosome), à 10 % d'ARN et à 10 % de protéines [Carbonelle et al., 2003].

· L'ADN (le chromosome) : Chez les bactéries tout l'ADN est codant.

· L'ADN Extrachromosomique (les plasmides) : A côté du chromosome, il peut exister des éléments génétiques (ADN) de petites tailles (0,5 à 5 % du chromosome bactérien), extra-chromosomiques, se sont les plasmides. Les plus connus sont les plasmides de résistance aux antibiotiques, ils portent des gènes

Introduction générale - 3 -

qui confèrent aux bactéries la résistance à divers antibiotiques [Carbonelle et al., 2003].

Dans le domaine des bactéries et en particulier celui du Mycobacterium Tuberculosis, les séquences complètes de génomes s'accumulent depuis 1995 (voir Tableau 0.1, Tableau 0.2, Tableau 0.3). Ces données ont permis d'envisager l'étude du génome du Mycobacterium Tuberculosis par des techniques informatiques, pour identifier et connaître au mieux la source de l'infection afin d'aider les spécialistes à trouver des solutions thérapeutiques et stopper la diffusion de la bactérie et par conséquent stopper l'épidémie par certains vaccins, ou antibiotiques.

Plusieurs approches informatiques notamment par la fouille de données ont été alors développées en exploitant des données biologiques en générale et de la tuberculose en particulier, notamment par :

· l'utilisation d'algorithmes de recherche de mots puis de couples de mots représentés énormément dans les séquences ADN des souches et espèces phylogénétiquement proches, ces séquences de lettres particulières, permettent de repérer et d'identifier des séquences anormales.

· la fouille de données génomiques sans à priori pour faire émerger des sous-séquences d'ADN qui peuvent donner des éléments d'informations sur les grandes séquences d'ADN ;

· la recherche de gènes co-régulés, etc.

En 1998, la première séquence complète du génome de Mt H37RV a été réalisée et a permis de dégager des caractéristiques propres aux mycobactéries dont les plus importantes [Carbonelle et al., 2003]:

· 51 % des gènes sont dupliqués;

· 10 % du génome code pour 2 familles de gènes qui codent eux mêmes pour 2 protéines nommées PE et PPE;

· forte présence de séquences répétées d'ADN, dont 65 copies de séquences appelées MIRUs (Mycobacterial Interspaced Repetitive Unit), et de répétitions directes appelées RDs. Ces séquences répétées sont riches en particularités sur le génome. Toutes ces caractéristiques de ce génome sont autant chacune une source qu'on exploite en fouille de données [Fleiishman et al., 2002], [Ferdinand et al., 2004], [Yokoyama et al., 2007].

Introduction générale - 4 -

Problématique.

La représentation des séquences biologiques. Dans un passé récent, la fouille de données dans un contexte biologique utilisait la séquence dans sa structure primaire à base de nucléotides (ex : AAGTCGTTGCTGGC) où celle-ci est considérée comme une chaine de milliers de caractères, en ce moment le gène, la protéine, et autres éléments caractérisant n'étaient pas suffisamment cernés (annotation incomplète) pour être exploités efficacement et donc le prétraitement des données se basait essentiellement sur des techniques de traitement de texte plus ou moins aménagées selon le contexte.

Alors, nous avons envisagé un système de fouille de données un peu plus élaboré du fait de l'existence d'entités sémantiques dans le fichier de la séquence en question (le

gène, la protéine, sa localisation, ) (voir Figure 0.2). Nous utilisons donc des
traitements spécifiques pour obtenir une structure bien appropriée à la fouille de données (voir Figure 0.3) ou les entités sémantiques (gènes, protéines, ...) deviennent des descripteurs, et on attribuera la valeur «0» en l'absence et «1» en la présence de ce descripteur dans la séquence.

Figure 0.2. Morceau de séquence génomique Figure 0.3. Fichier des séquences

rapatriée de NCBI. ayant subi une transformation.

Dans le cadre de cette étude, nous avons développé des recherches sur les systèmes d'extraction de règles d'association à partir des données (gènes, ...) [Chen et al., 2003], [Bahar et Chen, 2004], [Benabdeslem et al., 2007] et nous avons réalisé un système baptisé BIODM : BIOlogical Data Mining. En premier lieu, nous avons étudié l'extraction de règles d'association en utilisant des algorithmes appropriés. En deuxième lieu nous avons travaillé sur le raffinement, des résultats, par un processus d'induction cellulaire BRI (Boolean Rule Induction). Ce raffinement est assuré par une modélisation booléenne.

Deux motivations concurrentes nous ont amenés à adopter le principe des automates

Introduction générale - 5 -

cellulaires pour les systèmes à base de règles d'association. En effet, nous avons non seulement souhaité avoir une base de règles optimale (modélisation booléenne), mais nous avons également exploité les performances du moteur d'inférence cellulaire CIE de la machine cellulaire CASI, déjà opérationnel [Benamina et Atmani, 2008].

Ce mémoire s'articule autour de quatre chapitres :

Le chapitre I introduit l'extraction de la connaissance à partir de données biologiques. Nous commencerons par expliquer comment est né le besoin en fouille de données biologiques et particulièrement en épidémiologie, ensuite nous passerons en revue les différents types de données biologiques auxquels nous seront amené à travailler pour donner par la suite une vue d'ensemble du processus d'ECD biologiques que nous envisageons de suivre. Une fois, toutes ces notions clarifiées nous aborderons un état de l'art du domaine de l'ECD biologiques que nous concluons par une étude comparative des méthodes et techniques utilisées et une explication de notre contribution par cette étude.

Le chapitre II aborde le principe de l'extraction des règles d'association, une méthode descriptive de fouille de données qui a reçu beaucoup d'intérêt en recherche. Nous présentons le principe ainsi que les différents algorithmes les plus en vue dans la littérature.

Le chapitre III est consacré à la présentation du processus d'ECD biologiques que nous avons adopté en particulier la modélisation booléenne des règles d'association, résultat du module BRI, selon le principe de la machine cellulaire CASI [Benamina et Atmani, 2008].

Le chapitre IV présente les données expérimentales et l'architecture générale du système que nous avons réalisé : BIODM. Ensuite, nous présentons les résultats obtenus sur la base des échantillons test que nous avons utilisés.

Finalement, nous concluons en synthétisant les différentes étapes de notre contribution et nous proposons les perspectives envisagées pour poursuivre cette recherche.

Chapitre I : L'extraction de connaissances à partir de données biologiques - 6 -

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"L'imagination est plus importante que le savoir"   Albert Einstein