I.4.3 Fouille de cohortes
Les cohortes fournissent aussi un tas de
données médicales et en particulier biologiques, qui permettent
de travailler directement sur des cas réels (sujets exposés, non
exposés) et permettent de montrer le rôle et la contribution des
facteurs génétiques et environnementaux dans une maladie. Les
données recueillies sont de 3 types : cliniques, biologiques, et
génétiques.
Les données cliniques. Se divisent en examens
cliniques systématiques (taille, poids,
pression artérielle, ....), et en examens
cliniques spécifiques (échographie, ).
Les données biologiques. Sont les dosages
systématiques réalisés, la biochimie, NFS «
numération de formule sanguine » et analyse d'urine.
Les données génétiques. Se
rapportent à chaque sujet.
On dit que le sujet est génotypé, si
l'on procède par le recueillement de toutes ces données
génétiques. Ce génotypage permettra d'avoir des SNPs
(Single Nucleotide Polymorphisms ou polymorphismes génétiques)
correspondant à tous les processus métaboliques impliqués
dans la maladie. Une fois ces données recueillis, les premières
expérimentations d'extraction de règles sont utilisées
pour permettre la détection d'interactions de type
gène-gène et gène-environnement. Les méthodes de
classification sont aussi très utilisées pour comprendre les
maladies, une étude comparative des différents algorithmes a
été faite pour la pertinence de ces méthodes [Chervitz et
al., 1999], et a montré que les réseaux de neurone, et les SVM
donnent à peu près les mêmes résultats
comparativement aux K-ppv et les arbres de décision. Ces méthodes
de classification sont aussi utilisées pour étudier la
variété des segments ADN et leurs relations avec des maladies ou
symptômes particuliers [Etienne, 2004].
L'extraction de motifs fréquents et
recherche d'association
La technique d'extraction de motifs fréquents
pour l'extraction de règles d'association et de profils
génétiques pour une maladie a bien montré de bons
résultats. Une étude dans ce sens a été faite sur
la cohorte STANISLAS [Maumus et al., 2005], pour la compréhension de
l'athérosclérose et étudier les mécanismes
physiopathologies du syndrome métabolique et déterminer les
facteurs influents. Cette technique a permis
Chapitre I : L'extraction de connaissances
à partir de données biologiques -
19 -
aussi de mettre en évidence la relation entre
un gène en l'occurrence le HLA-DQ impliqué dans les maladies
auto-immunes tel que la maladie coeliaque sur une cohorte de 470 individus
(témoins) de 3 pays européens [Maumus et al., 2005]. Aussi,
l'apprentissage des règles à partir de données d'une
étude épidémiologique « cas-témoins » a
montré une grande utilité pour la compréhension de
certaines maladies telle que le cancer du nasopharynx de 1289 observations.
L'objectif était de connaître les différents facteurs
impliqués dans cette maladie [Benabdeslem et al., 2007].
L'association entre un facteur d'exposition et la
maladie en question a été aussi utilisé pour trouver les
facteurs liés à une maladie, identifier un facteur d'exposition,
mettre en évidence le lien entre la maladie et ce facteur avec un test
statistique approprié, et ensuite mesurer la force de ce lien avec des
indicateurs bien connus en épidémiologie tels que le RR (Risque
relatif), DR (Différence de Risque) et OR (Odds Ratio) [Boutin et al.,
2003].
La recherche de gènes
candidats
Pour les maladies multifactorielles (facteurs
environnementaux et génétiques) la part du
génétique met souvent en jeu plusieurs gènes de
susceptibilité [Etienne, 2004], [Bahar et Chen, 2004], ce sont ces
gènes qui sont mis en évidence par une approche statistique
exploratoire utilisant les modèles de Markov cachés sur une
cohorte. En effet la comparaison des génomes, dans le cadre d'une
étude de cohorte familiale consiste à vérifier le partage
génétique le long de chaque chromosome. La description au travers
d'un modèle probabiliste markovien de ce partage génétique
permet de déterminer les gènes impliqués dans une maladie
[Maumus et al., 2005].
La recherche de gènes candidats et de
marqueurs génétiques
L'épidémiologie génétique
a tenté de comprendre le déterminisme génétique
(approche gène candidat / maladie) par l'approche des marqueurs
génétiques dans des familles de malades tels que le cancer par
exemple. Cette approche a pu montrer d'une part l'existence de facteurs
génétiques et les identifier. La stratégie était de
tester le rôle éventuel de gènes candidats en utilisant des
marqueurs situés sur ces gènes. Un gène candidat est un
gène dont la fonction est soupçonnée dans le processus
étiopathogénique. Il a été nécessaire de
présenter les liens (associations) existants entre les gènes et
les maladies génétiques. Une constatation à
été faite : les quelques trois mille maladies
génétiques connues peuvent recouvrir deux cas : les maladies mono
géniques (dues à un seul gène) et les maladies
polygéniques et/ou polyfactorielles.
Chapitre I : L'extraction de connaissances
à partir de données biologiques -
20 -
Prédiction de maladies
L'utilisation des réseaux bayésiens a
été très utile pour la prédiction des risques de la
maladie coronarienne, une étude a été faite dans ce sens
sur une population de 8000 participants, et a montré de bons
résultats de prédiction de cette maladie [Maumus et al.,
2005]
|