WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Fouille de données biologiques. étude comparative et expérimentation.


par Abdelhak MANSOUL
Université Ahmed Ben Bella Oran 1, Algérie - Magister Informatique et Automatique 2010
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

I.4 Etat de l'art de l'ECD biologiques

Vu la variété des données biologiques et par la même des banques de données biologiques, différents travaux de fouilles de données biologiques ont été faits. Nous présentons quelques uns mais la liste n'est pas exhaustive, et nous mentionnons quand même que ce qui a été fait à nos jours l'a été à base de séquences biologiques ou de cohortes et suivent deux orientations principales : certains travaux touchent directement l'épidémiologie alors que d'autres la touchent indirectement (génomique et protéomique), mais sont d'un grand apport pour la compréhension des maladies et par la même des phénomènes épidémiologiques. Nous présentons les travaux réalisés dans un tableau récapitulatif (voir Tableau 1.4) qui donne une vue générale sur les principales méthodes de fouille de données utilisées en biologie et dans le domaine des maladies. Ce tableau donne une tendance à priori sur les méthodes de fouille utilisées mais notons quand même que c'est un tableau qui résume des articles que nous avons pu lire et se rapportant à notre sujet sans pour autant prétendre à l'exhaustivité, vu les travaux qui se font continuellement.

La classification de protéines

Le prétraitement des séquences biologiques permet de préparer les données et de les

I.4.1 La fouille de séquences biologiques

Chapitre I : L'extraction de connaissances à partir de données biologiques - 15 -

exploiter par la suite afin d'identifier des gènes, comparer des séquences, rechercher des motifs, ou détecter des signaux (segment ADN) qui indiquent à la cellule la protéine qui doit être exportée ou sécrétée. Pour la classification des protéines on commence souvent par cette phase de prétraitement comme indiquée pour construire des attributs plus significatifs que la chaîne de caractères originale. Différentes approches ont été étudiées allant de l'extraction des descripteurs (variables qui décrivent au mieux) discriminants, à l'extraction des n-grammes [Mhamdi et al., 2006], à d'autres en utilisant les modèles de Markov cachées [Hergalant et al., 2005].

La prédiction de gène

Les modèles de Markov cachés interviennent dans de nombreux algorithmes d'analyse de séquence, que ce soit pour la détection de gènes, l'inférence et la détection de motifs, ou encore la recherche de mots exceptionnels. L'utilisation des modèles de Markov cachées d'ordre 2 (HMM2) est d'une grande utilité dans la segmentation de grandes séquences ADN en grandes classes déduites à partir de courtes séquences riches en sémantiques biologiques. Cette segmentation est utilisée pour prédire des ensembles de gènes co-régulés donc susceptibles d'avoir des fonctions liées [Hergalant et al., 2002].

La segmentation de séquences biologiques

Les très grandes séquences d'ADN qui constituent les génomes ne sont pas avantageuses directement pour la fouille de données, donc il est nécessaire de dégager des sous séquences d'ADN significatives pour une exploitation en génomique fonctionnelle. Les modèles de Markov cachés ont étés utilisés pour permettre la segmentation de grandes séquences d'ADN en différentes classes pour l'étude d'une bactérie du sol du genre Streptomyces, important producteur d'antibiotiques. En effet, l'ADN est stratifiée en différents niveaux de structures, de la plus globale qui reflète une organisation propre à une espèce considérée, aux portions locales qui décrivent des constituants fonctionnels particuliers, en passant par des régions intermédiaires qui délimitent des domaines où réside une certaine homogénéité (par exemple pour les protéines).

Recherche de similitudes et étude d'alignement

La recherche de similarité de séquences ou de structures est un autre sujet abordé avec les méthodes de comparaison des séquences ADN et de protéines. Cette comparaison peut être en local c'est-à-dire entre séquences (Alignement Local) ou globale (Alignement Global) avec une base de données. Elle a pour but le repérage des

Chapitre I : L'extraction de connaissances à partir de données biologiques - 16 -

endroits où se trouvent des régions identiques ou très proches entre deux séquences et déduire celles qui sont significatives et qui correspondent à un sens biologique. En général les algorithmes fonctionnent sur des segments de séquences sur lesquels on regarde s'il existe ou pas une similitude significative et la comparaison de séquences s'appuie sur une de ces trois notions : la recherche de segments identiques, de segments similaires, ou d'alignements. Leur but est de filtrer les données de la banque en étapes successives, car peu de séquences vont avoir des similitudes avec la séquence comparée. Ces programmes calculent ensuite un score pour mettre en évidence les meilleures similitudes locales qu'ils ont observées. Plusieurs programmes ont étés créés dont les plus connus et les plus utilisés par les biologistes sont les logiciels FASTA et BLAST [Chervitz et al., 1999].

La recherche de motifs fréquents

La recherche de séquences répétées (motifs fréquents), en tandem ou répétées en dispersion sur l'ensemble du génome, utilise les Modèles de Markov cachées d'ordre 2. Une étude a été faite en utilisant cette méthode pour classer un résidu ou un groupe de résidus nucléotidiques [Hergalant et al., 2002].

La recherche d'hétérogénéité

L'analyse de séquences génomiques à l'aide des modèles de Markov cachés a montré une grande capacité à détecter des zones hétérogènes dans les génomes, ces zones qui peuvent renseigner sur l'implication d'un pathogène donné dans une maladie [Hergalant et al., 2002].

La recherche de séquences exogènes

Un autre aspect, de l'étude des gènes, est le transfert horizontal (échange de matériel génétique entre bactéries). Des études ont été faites sur le genre Streptococcus parce qu'il revêt une importance particulière en renfermant les bactéries pathogènes. L'utilisation des modèles de Markov cachés [Hergalant et al., 2002], a permis d'identifier certaines séquences exogènes au sein de ces génomes qui sont susceptibles de contenir des gènes de virulence, caractéristiques d'un pathogène, ou des gènes d'adaptation écologique particulière, ces résultats montrent que des bactéries seraient en mesure de transmettre des gènes de virulence à d'autres bactéries encore inoffensives. Ce genre de découverte améliore la compréhension du phénomène de résistance à un antibiotique.

Chapitre I : L'extraction de connaissances à partir de données biologiques - 17 - I.4.2 fouille du génome

De nombreuses maladies, rares ou fréquentes, dont souffrent les humains ont une origine génétique tels que le diabète, les maladies cardiovasculaires ou la mucoviscidose [Maumus et al., 2005]. Ces maladies ont un caractère plus ou moins héréditaire dans le sens où des anomalies chromosomiques sont à l'origine ou favorisent l'apparition de ces maladies. Cela signifie qu'un ou plusieurs gènes anormaux sont là où est la maladie. L'étude du génome ou la génomique structurelle (recherche de mutation, de délétion, ...) peut montrer des anomalies tout comme la génomique fonctionnelle (compréhension du fonctionnement des gènes et des autres composantes du génome). Cette étude se situe à plusieurs niveaux depuis l'échelle nucléique jusqu'à celui de la génomique comparative avec pour objectif la localisation, de structures, de régions fonctionnelles, la caractérisation d'une fonction biologique ou la prédiction d'autres gènes, c'est ce qui explique le décryptage du génome par plusieurs travaux de fouille dont les suivants :

Identification de gènes codants et non codants

Si l'existence de facteurs génétiques de susceptibilité est fortement soupçonnée dans de nombreuses maladies, leurs identifications sont souvent difficiles ce qui ouvre la voie à une étude de recherche des facteurs génétiques de susceptibilité aux maladies à l'échelle de tout le génome. Sur le volet de l'annotation des génomes, c'est-à-dire l'identification des gènes codants (exon), et non codants (intron), la localisation du début des gènes ainsi que la détection de petits gènes restent difficiles, et dans le but de répondre à ces problèmes, on utilise des modèles de Markov cachés couplés à une estimation par maximisation de la vraisemblance (comptage des mots de m nucléotides) [Prum et al., 2001].

La classification et l'identification de gènes candidats

L'analyse de séquences sur puces à ADN permet d'obtenir des morceaux de séquences appelées EST (Expressed Sequence Tags) courtes, de 300-500 nucléotides en général, ces éléments permettent d'identifier les variations génétiques associées (zone de susceptibilité) comme par exemple le gène NOD-2 impliqué dans la maladie de CROHN.

L'approche gène candidat recherche et met en relation des gènes nouveaux, découverts par le séquençage, avec les pathologies orphelines (dont on ne connaît pas encore le gène responsable) ou des pathologies complexes, (obésité, arthrose, ...). Deux

Chapitre I : L'extraction de connaissances à partir de données biologiques - 18 -

classifications ont été utilisées, l'une pour classer les patients dont la maladie se ressemble quant à l'expression des gènes, et l'autre qui cherche les gènes ou les ensembles de gènes dont l'expression est différente chez des patients de mauvais et de bon pronostic [Maumus et al., 2005].

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Un démenti, si pauvre qu'il soit, rassure les sots et déroute les incrédules"   Talleyrand