I.4 Etat de l'art de l'ECD biologiques
Vu la variété des données
biologiques et par la même des banques de données biologiques,
différents travaux de fouilles de données biologiques ont
été faits. Nous présentons quelques uns mais la liste
n'est pas exhaustive, et nous mentionnons quand même que ce qui a
été fait à nos jours l'a été à base
de séquences biologiques ou de cohortes et suivent deux orientations
principales : certains travaux touchent directement
l'épidémiologie alors que d'autres la touchent indirectement
(génomique et protéomique), mais sont d'un grand apport pour la
compréhension des maladies et par la même des
phénomènes épidémiologiques. Nous présentons
les travaux réalisés dans un tableau récapitulatif (voir
Tableau 1.4) qui donne une vue générale sur les
principales méthodes de fouille de données utilisées en
biologie et dans le domaine des maladies. Ce tableau donne une tendance
à priori sur les méthodes de fouille utilisées mais notons
quand même que c'est un tableau qui résume des articles que nous
avons pu lire et se rapportant à notre sujet sans pour autant
prétendre à l'exhaustivité, vu les travaux qui se font
continuellement.
La classification de protéines
Le prétraitement des séquences biologiques
permet de préparer les données et de les
I.4.1 La fouille de séquences biologiques
Chapitre I : L'extraction de connaissances
à partir de données biologiques -
15 -
exploiter par la suite afin d'identifier des
gènes, comparer des séquences, rechercher des motifs, ou
détecter des signaux (segment ADN) qui indiquent à la cellule la
protéine qui doit être exportée ou
sécrétée. Pour la classification des protéines on
commence souvent par cette phase de prétraitement comme indiquée
pour construire des attributs plus significatifs que la chaîne de
caractères originale. Différentes approches ont été
étudiées allant de l'extraction des descripteurs (variables qui
décrivent au mieux) discriminants, à l'extraction des n-grammes
[Mhamdi et al., 2006], à d'autres en utilisant les modèles de
Markov cachées [Hergalant et al., 2005].
La prédiction de
gène
Les modèles de Markov cachés
interviennent dans de nombreux algorithmes d'analyse de séquence, que ce
soit pour la détection de gènes, l'inférence et la
détection de motifs, ou encore la recherche de mots exceptionnels.
L'utilisation des modèles de Markov cachées d'ordre 2 (HMM2) est
d'une grande utilité dans la segmentation de grandes séquences
ADN en grandes classes déduites à partir de courtes
séquences riches en sémantiques biologiques. Cette segmentation
est utilisée pour prédire des ensembles de gènes
co-régulés donc susceptibles d'avoir des fonctions liées
[Hergalant et al., 2002].
La segmentation de séquences
biologiques
Les très grandes séquences d'ADN qui
constituent les génomes ne sont pas avantageuses directement pour la
fouille de données, donc il est nécessaire de dégager des
sous séquences d'ADN significatives pour une exploitation en
génomique fonctionnelle. Les modèles de Markov cachés ont
étés utilisés pour permettre la segmentation de grandes
séquences d'ADN en différentes classes pour l'étude d'une
bactérie du sol du genre Streptomyces, important producteur
d'antibiotiques. En effet, l'ADN est stratifiée en différents
niveaux de structures, de la plus globale qui reflète une organisation
propre à une espèce considérée, aux portions
locales qui décrivent des constituants fonctionnels particuliers, en
passant par des régions intermédiaires qui délimitent des
domaines où réside une certaine homogénéité
(par exemple pour les protéines).
Recherche de similitudes et étude
d'alignement
La recherche de similarité de séquences
ou de structures est un autre sujet abordé avec les méthodes de
comparaison des séquences ADN et de protéines. Cette comparaison
peut être en local c'est-à-dire entre séquences (Alignement
Local) ou globale (Alignement Global) avec une base de données. Elle a
pour but le repérage des
Chapitre I : L'extraction de connaissances
à partir de données biologiques -
16 -
endroits où se trouvent des régions
identiques ou très proches entre deux séquences et déduire
celles qui sont significatives et qui correspondent à un sens
biologique. En général les algorithmes fonctionnent sur des
segments de séquences sur lesquels on regarde s'il existe ou pas une
similitude significative et la comparaison de séquences s'appuie sur une
de ces trois notions : la recherche de segments identiques, de segments
similaires, ou d'alignements. Leur but est de filtrer les données de la
banque en étapes successives, car peu de séquences vont avoir des
similitudes avec la séquence comparée. Ces programmes calculent
ensuite un score pour mettre en évidence les meilleures similitudes
locales qu'ils ont observées. Plusieurs programmes ont
étés créés dont les plus connus et les plus
utilisés par les biologistes sont les logiciels FASTA et BLAST [Chervitz
et al., 1999].
La recherche de motifs
fréquents
La recherche de séquences
répétées (motifs fréquents), en tandem ou
répétées en dispersion sur l'ensemble du génome,
utilise les Modèles de Markov cachées d'ordre 2. Une étude
a été faite en utilisant cette méthode pour classer un
résidu ou un groupe de résidus nucléotidiques [Hergalant
et al., 2002].
La recherche
d'hétérogénéité
L'analyse de séquences génomiques
à l'aide des modèles de Markov cachés a montré une
grande capacité à détecter des zones
hétérogènes dans les génomes, ces zones qui peuvent
renseigner sur l'implication d'un pathogène donné dans une
maladie [Hergalant et al., 2002].
La recherche de séquences
exogènes
Un autre aspect, de l'étude des gènes,
est le transfert horizontal (échange de matériel
génétique entre bactéries). Des études ont
été faites sur le genre Streptococcus parce qu'il revêt une
importance particulière en renfermant les bactéries
pathogènes. L'utilisation des modèles de Markov cachés
[Hergalant et al., 2002], a permis d'identifier certaines séquences
exogènes au sein de ces génomes qui sont susceptibles de contenir
des gènes de virulence, caractéristiques d'un pathogène,
ou des gènes d'adaptation écologique particulière, ces
résultats montrent que des bactéries seraient en mesure de
transmettre des gènes de virulence à d'autres bactéries
encore inoffensives. Ce genre de découverte améliore la
compréhension du phénomène de résistance à
un antibiotique.
Chapitre I : L'extraction de connaissances
à partir de données biologiques -
17 - I.4.2 fouille du génome
De nombreuses maladies, rares ou fréquentes,
dont souffrent les humains ont une origine génétique tels que le
diabète, les maladies cardiovasculaires ou la mucoviscidose [Maumus et
al., 2005]. Ces maladies ont un caractère plus ou moins
héréditaire dans le sens où des anomalies chromosomiques
sont à l'origine ou favorisent l'apparition de ces maladies. Cela
signifie qu'un ou plusieurs gènes anormaux sont là où est
la maladie. L'étude du génome ou la génomique structurelle
(recherche de mutation, de délétion, ...) peut montrer des
anomalies tout comme la génomique fonctionnelle (compréhension du
fonctionnement des gènes et des autres composantes du génome).
Cette étude se situe à plusieurs niveaux depuis l'échelle
nucléique jusqu'à celui de la génomique comparative avec
pour objectif la localisation, de structures, de régions fonctionnelles,
la caractérisation d'une fonction biologique ou la prédiction
d'autres gènes, c'est ce qui explique le décryptage du
génome par plusieurs travaux de fouille dont les suivants :
Identification de gènes codants et non
codants
Si l'existence de facteurs génétiques de
susceptibilité est fortement soupçonnée dans de nombreuses
maladies, leurs identifications sont souvent difficiles ce qui ouvre la voie
à une étude de recherche des facteurs génétiques de
susceptibilité aux maladies à l'échelle de tout le
génome. Sur le volet de l'annotation des génomes,
c'est-à-dire l'identification des gènes codants (exon), et non
codants (intron), la localisation du début des gènes ainsi que la
détection de petits gènes restent difficiles, et dans le but de
répondre à ces problèmes, on utilise des modèles de
Markov cachés couplés à une estimation par maximisation de
la vraisemblance (comptage des mots de m nucléotides) [Prum et al.,
2001].
La classification et l'identification de
gènes candidats
L'analyse de séquences sur puces à ADN
permet d'obtenir des morceaux de séquences appelées EST
(Expressed Sequence Tags) courtes, de 300-500 nucléotides en
général, ces éléments permettent d'identifier les
variations génétiques associées (zone de
susceptibilité) comme par exemple le gène NOD-2 impliqué
dans la maladie de CROHN.
L'approche gène candidat recherche et met en
relation des gènes nouveaux, découverts par le
séquençage, avec les pathologies orphelines (dont on ne
connaît pas encore le gène responsable) ou des pathologies
complexes, (obésité, arthrose, ...). Deux
Chapitre I : L'extraction de connaissances
à partir de données biologiques -
18 -
classifications ont été
utilisées, l'une pour classer les patients dont la maladie se ressemble
quant à l'expression des gènes, et l'autre qui cherche les
gènes ou les ensembles de gènes dont l'expression est
différente chez des patients de mauvais et de bon pronostic [Maumus et
al., 2005].
|