Chapitre I.
L'extraction de connaissances à partir de
données biologiques
L'avènement des biotechnologies nouvelles a
permis, au cours des dernières années, d'améliorer les
connaissances sur le génome des agents pathogènes
épidémiologiques, de développer des moyens de lutte
efficace par le développement de plusieurs médicaments
appropriés. Par contre l'exploitation des données
génomiques n'a pas suivi le rythme des découvertes et
l'extraction de connaissances à partir de données (ECD)
biologiques, particulièrement à caractère
épidémiologique, s'est imposée d'elle-même afin de
répondre aux questions que se pose l'épidémiologiste comme
par exemple la recherche des facteurs de risque des maladies.
Ainsi et depuis le premier séquençage
d'une bactérie, des dizaines de génomes ont été
révélés. Les dispositifs expérimentaux tels que les
séquenceurs automatiques ont permis de constituer des banques de
données de séquences de génomes complets. Il fallait donc
analyser ces données, identifier les gènes, les protéines
produites et leurs fonctions pour comprendre les mécanismes cellulaires.
Les retombées de ces travaux sont énormes et concernent aussi
bien la biologie, l'épidémiologie et l'industrie pharmaceutique,
pour une meilleure compréhension des maladies et la découverte de
nouvelles réponses thérapeutiques.
I.1 Définition de l'extraction de connaissances
à partir de données biologiques
Le terme ECD (en anglais Knowledge Discovery in
Databases) est communément confondu avec la fouille de données ou
« Data Mining ». Ceci s'explique par le fait que la fouille de
données est l'étape principale du processus de l'ECD.
L'ECD a été définie comme suit
[Fayyad et al., 1996] : « l'ECD vise à transformer des
données (volumineuses, multiformes, stockées sous
différents formats sur des supports pouvant être
distribués) en connaissances. Ces connaissances peuvent s'exprimer sous
forme d'un concept général qui enrichit le champ
sémantique de l'usager par rapport à une question qui le
préoccupe. Elles peuvent prendre la forme d'un rapport ou d'un
graphique. Elles peuvent s'exprimer comme un modèle mathématique
ou logique pour la prise de décision. Les modèles explicites
quelle que soit leur forme, peuvent alimenter un système à base
de connaissances ou un système expert ».
Chapitre I : L'extraction de connaissances à
partir de données biologiques - 7 -
Cette définition apporte un concept nouveau,
celui de modèle et sous entend un autre celui de motif qui ne seraient
pas synonymes. En réalité il existe une différence entre
les deux :
Un modèle est une connaissance qui concerne la
totalité des données. Si le Data Miner possède un
modèle, il peut l'appliquer à chaque nouveau cas qui se
présente.
Un motif est une connaissance qui concerne une partie
des données. On ne peut l'appliquer à chaque nouveau cas. En
d'autres termes, c'est un modèle local, selon lequel se comporte une
partie des données et non pas la totalité.
|