WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Fouille de données biologiques. étude comparative et expérimentation.


par Abdelhak MANSOUL
Université Ahmed Ben Bella Oran 1, Algérie - Magister Informatique et Automatique 2010
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

I.4.3 Fouille de cohortes

Les cohortes fournissent aussi un tas de données médicales et en particulier biologiques, qui permettent de travailler directement sur des cas réels (sujets exposés, non exposés) et permettent de montrer le rôle et la contribution des facteurs génétiques et environnementaux dans une maladie. Les données recueillies sont de 3 types : cliniques, biologiques, et génétiques.

Les données cliniques. Se divisent en examens cliniques systématiques (taille, poids,

pression artérielle, ....), et en examens cliniques spécifiques (échographie, ).

Les données biologiques. Sont les dosages systématiques réalisés, la biochimie, NFS « numération de formule sanguine » et analyse d'urine.

Les données génétiques. Se rapportent à chaque sujet.

On dit que le sujet est génotypé, si l'on procède par le recueillement de toutes ces données génétiques. Ce génotypage permettra d'avoir des SNPs (Single Nucleotide Polymorphisms ou polymorphismes génétiques) correspondant à tous les processus métaboliques impliqués dans la maladie. Une fois ces données recueillis, les premières expérimentations d'extraction de règles sont utilisées pour permettre la détection d'interactions de type gène-gène et gène-environnement. Les méthodes de classification sont aussi très utilisées pour comprendre les maladies, une étude comparative des différents algorithmes a été faite pour la pertinence de ces méthodes [Chervitz et al., 1999], et a montré que les réseaux de neurone, et les SVM donnent à peu près les mêmes résultats comparativement aux K-ppv et les arbres de décision. Ces méthodes de classification sont aussi utilisées pour étudier la variété des segments ADN et leurs relations avec des maladies ou symptômes particuliers [Etienne, 2004].

L'extraction de motifs fréquents et recherche d'association

La technique d'extraction de motifs fréquents pour l'extraction de règles d'association et de profils génétiques pour une maladie a bien montré de bons résultats. Une étude dans ce sens a été faite sur la cohorte STANISLAS [Maumus et al., 2005], pour la compréhension de l'athérosclérose et étudier les mécanismes physiopathologies du syndrome métabolique et déterminer les facteurs influents. Cette technique a permis

Chapitre I : L'extraction de connaissances à partir de données biologiques - 19 -

aussi de mettre en évidence la relation entre un gène en l'occurrence le HLA-DQ impliqué dans les maladies auto-immunes tel que la maladie coeliaque sur une cohorte de 470 individus (témoins) de 3 pays européens [Maumus et al., 2005]. Aussi, l'apprentissage des règles à partir de données d'une étude épidémiologique « cas-témoins » a montré une grande utilité pour la compréhension de certaines maladies telle que le cancer du nasopharynx de 1289 observations. L'objectif était de connaître les différents facteurs impliqués dans cette maladie [Benabdeslem et al., 2007].

L'association entre un facteur d'exposition et la maladie en question a été aussi utilisé pour trouver les facteurs liés à une maladie, identifier un facteur d'exposition, mettre en évidence le lien entre la maladie et ce facteur avec un test statistique approprié, et ensuite mesurer la force de ce lien avec des indicateurs bien connus en épidémiologie tels que le RR (Risque relatif), DR (Différence de Risque) et OR (Odds Ratio) [Boutin et al., 2003].

La recherche de gènes candidats

Pour les maladies multifactorielles (facteurs environnementaux et génétiques) la part du génétique met souvent en jeu plusieurs gènes de susceptibilité [Etienne, 2004], [Bahar et Chen, 2004], ce sont ces gènes qui sont mis en évidence par une approche statistique exploratoire utilisant les modèles de Markov cachés sur une cohorte. En effet la comparaison des génomes, dans le cadre d'une étude de cohorte familiale consiste à vérifier le partage génétique le long de chaque chromosome. La description au travers d'un modèle probabiliste markovien de ce partage génétique permet de déterminer les gènes impliqués dans une maladie [Maumus et al., 2005].

La recherche de gènes candidats et de marqueurs génétiques

L'épidémiologie génétique a tenté de comprendre le déterminisme génétique (approche gène candidat / maladie) par l'approche des marqueurs génétiques dans des familles de malades tels que le cancer par exemple. Cette approche a pu montrer d'une part l'existence de facteurs génétiques et les identifier. La stratégie était de tester le rôle éventuel de gènes candidats en utilisant des marqueurs situés sur ces gènes. Un gène candidat est un gène dont la fonction est soupçonnée dans le processus étiopathogénique. Il a été nécessaire de présenter les liens (associations) existants entre les gènes et les maladies génétiques. Une constatation à été faite : les quelques trois mille maladies génétiques connues peuvent recouvrir deux cas : les maladies mono géniques (dues à un seul gène) et les maladies polygéniques et/ou polyfactorielles.

Chapitre I : L'extraction de connaissances à partir de données biologiques - 20 -

Prédiction de maladies

L'utilisation des réseaux bayésiens a été très utile pour la prédiction des risques de la maladie coronarienne, une étude a été faite dans ce sens sur une population de 8000 participants, et a montré de bons résultats de prédiction de cette maladie [Maumus et al., 2005]

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Là où il n'y a pas d'espoir, nous devons l'inventer"   Albert Camus