I.6 Etude comparative
Après avoir passé en revu les
différentes tâches et méthodes, nous avons établi un
tableau récapitulatif (voir Tableau 1.4), mentionnant les
principales caractéristiques des différentes méthodes de
l'ECD. Mais il restera toujours à l'utilisateur de bien fixer ses choix
pour telle ou telle méthode en fonction de ses objectifs et de la nature
des données qu'il se propose de fouiller. Le récapitulatif donne
aussi un aperçu global sur l'utilisation des différentes
méthodes de fouille de données par tâche, mais notons quand
même que ce n'est pas un tableau exhaustif, il résume les
techniques les plus utilisées et qui apparaissent souvent dans la
littérature relative au domaine que nous avons abordé. Nous avons
aussi établi un tableau comparatif (voir Tableau 1.6) qui
mentionne les principaux avantages et inconvénients des
différentes tâches de l'ECD.
Chapitre I : L'extraction de connaissances à
partir de données biologiques - 28 -
Domaines d'utilisation
|
Méthodes de FDD
|
H M M
|
S V M
|
K - Moyenne
|
K - ppv
|
Réseaux de neurones
|
Arbre de décision
|
Réseaux Bayésiens
|
Induction de règles
|
Treillis
|
Autres
méthodes
|
PROTEOMIQUE
|
Identification de sequences
|
|
v
|
|
|
v
|
v
|
v
|
|
|
|
Comparaison de séquences
|
|
|
|
|
|
|
|
|
|
Alignement , similitude
|
Segmentation de sequences
|
v
|
|
|
|
|
|
|
|
|
|
Classification
|
v
|
|
|
|
|
|
|
|
|
n-gramme.
|
Prédiction structure
|
|
|
|
v
|
v
|
|
|
|
|
|
Prédiction domaine
|
|
|
|
|
v
|
|
|
|
|
|
Recherche de motifs fréquents
|
v
|
|
|
|
|
|
|
|
|
|
Recherche d'aberration
|
v
|
|
|
|
|
|
|
|
|
|
Recherche séquence exogène
|
v
|
|
|
|
|
|
|
|
|
|
Recherché
hétérogénéité
|
v
|
|
|
|
|
|
|
|
|
|
GENOMIQUE
|
Identification groupe gene
|
v
|
v
|
v
|
|
v
|
|
|
|
|
|
Expression de gènes
|
|
v
|
v
|
v
|
v
|
|
|
|
|
|
Identification de gènes
|
v
|
|
|
|
|
|
|
|
|
|
Prediction de gène
|
v
|
|
|
|
|
|
|
v
|
|
|
Comparaison de séquences
|
|
|
|
|
|
|
|
|
|
similarité
|
Groupement
|
v
|
|
|
|
|
|
|
|
v
|
|
COHORTE
|
Recherche de règles
d'association
|
v
|
|
|
|
|
|
v
|
v
|
|
Motifs frequents
|
Recherche de gènes candidats
|
v
|
|
|
|
|
|
|
|
|
Marqueurs génétiques
|
Fouille de données médicales
|
|
v
|
|
v
|
v
|
v
|
|
v
|
|
|
MALADIE
|
Interaction gène / environnement
|
|
|
|
|
|
|
v
|
v
|
|
|
Recherche gène candidat
|
v
|
|
|
|
|
|
|
|
|
|
Recherche cause
|
|
v
|
|
|
v
|
|
v
|
|
|
|
Tableau 1.4 : Les méthodes de FDD
utilisées en ECD biologiques.
Chapitre I : L'extraction de connaissances à
partir de données biologiques - 29 -
Tâches de l'ECD
|
Types
|
Méthodes de FDD
|
Descriptive
|
Prédictive
|
Supervisée
|
Non Superv.
|
AED
|
H M M
|
Régression. linéaire.
|
S V M
|
K - Moyenne
|
K - ppv
|
Réseaux de neurones
|
Arbre de décision
|
Réseaux bayésiens
|
Algorithmes génétiques
|
Induction de règles
|
Treillis
|
Description
|
v
|
|
v
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Estimation
|
|
v
|
v
|
|
|
|
v
|
|
|
|
v
|
|
|
|
|
|
Prédiction
|
|
v
|
v
|
|
|
v
|
v
|
|
|
|
v
|
|
|
|
|
|
Classification
|
|
v
|
v
|
|
|
v
|
v
|
v
|
|
v
|
v
|
v
|
v
|
v
|
v
|
v
|
Groupement
|
v
|
|
|
v
|
|
|
|
|
v
|
v
|
v
|
|
|
|
|
|
Recherche Association
|
|
v
|
|
v
|
|
|
|
|
|
|
|
|
v
|
v
|
v
|
|
Tableau 1.5 : Les tâches et méthodes
utilisées en ECD.
Tâches de l'ECD
|
Caractéristiques / Objectifs
|
Apprentissage
|
Avantages
|
Inconvénients
|
Algorithmes utilisés
|
Description
|
· Il s'agit de décrire les données
pour
essayer de découvrir et de comprendre le
processus qui est à l'origine de ces données.
|
supervisé
|
Facile à mettre en oeuvre.
|
Difficiles à évaluer en cas de beaucoup de
variables.
|
· Stat. élémentaire ;
· Histogramme ;
· moy, écart-type ;
· ACP....
|
Estimation
|
· Consiste à estimer la valeur
d'une variable à valeurs continues à partir des valeurs
d'autres attributs.
|
supervisé
|
En cas d'estimation numérique le résultat
est numérique.
|
Besoin d'un ensemble d'exemples
|
· Régression ;
· Réseaux de neurones ;
· Kppv.
|
Prédiction
|
· Consiste à prédire la valeur
future d'un attribut en fonction d'autres attributs ;
· Se base sur le présent pour
trouver des résultats dans le futur ;
· Assimilable à l'estimation mais
les objets sont classés en fonction d'un comportement futur
prédit.
|
supervisé
|
Nécessite un tas de données assez
énorme pour pouvoir faire une prédiction assez
précise.
|
On ne peut vérifier la précision du
résultat tout de suite.
|
· Arbre de décision ;
· Réseaux de neurones ;
· Réseaux bayesiens.
|
Classification
|
· Consiste à examiner les
caractéristiques d'un objet et lui attribuer
une classe ;
· Les classes sont connues à
l'avance avec des profils particuliers.
|
supervisé
|
Robustesse (bruit, données manquantes,...)
;
Interprétabilité simple.
|
Taux d'erreur non négligeable ;
Temps d'exécution (construction, utilisation)
conséquent.
|
· Kppv ;
· Arbre de décision ;
· Réseaux de neurones ;
· Algo. Génétique ;
· HMM.
|
Groupement
|
· Il s'agit de grouper des objets en
se basant sur leurs similarités ;
· Les objets sont les plus
similaires possibles dans un groupe et moins
similaires possibles entre deux groupes ;
· La similarité peut être
calculée pour différents types de données. Elle
dépend des données utilisées et du type de
similarité recherchée.
|
non supervisé
|
Peut traiter # types de
données ;
Peut traiter les données bruitées et
isolées ;
Peut découvrir des clusters de # formes
;
Pour les attributs numériques, la distance est
bien définie.
|
L'interprétation des groupes identifiés
est plus difficile que la classification car les groupes ne sont pas connus
à l'avance ;
Pour les attributs énumératifs ou mixtes
la distance est difficile à définir.
|
· K moyennes ;
· Réseaux de neurones.
|
Recherche d'association
|
· Déterminer les attributs qui
sont corrélés, i.e. découvrir des relations plus fines
entre les données.
|
non supervisée
|
Itemsets de tailles variables ;
Résultats clairs.
|
Produit énormément de règles
;
Nécessite un post- traitement
humain.
|
· Apriori ;
· AIS ;
· FP-Growth.
|
|
Tableau 1.6 : Tableau comparatif des tâches
de l'ECD.
Chapitre I : L'extraction de connaissances
à partir de données biologiques -
30 - I.7 Discussion sur l'ECD Biologiques
L'ECD est un domaine qui a connu une émergence
remarquable pendant la dernière décennie. Ce succès s'est
réalisé sur le champ scientifique et s'est prolongé au
champ commercial. En effet, plusieurs éditeurs d'outils de fouille de
données ont formé un marché riche de logiciels fiables
implémentant pratiquement la totalité des méthodes de la
littérature et ciblant toutes les tâches de fouille de
données. On trouve alors : WEKA et TANAGRA.
Ceci dit, l'ECD n'est pas du tout une clé avec
laquelle on fait jaillir les connaissances. Un outil de l'ECD n'est pas aussi
une boîte noire qu'on utilise ou un système totalement
automatique, son caractère interactif nécessite l'intervention
d'un humain et préférablement une personne ayant une expertise
dans son domaine d'application. Bien que l'ECD ait aidé à
répondre à plusieurs questions dans plusieurs domaines, il reste
un travail considérable à réaliser. Cet immense travail de
recherche, couramment présenté dans la littérature, montre
que l'ECD est un champ en cours d'émergence et qu'il reste quelques
défis que la communauté de fouille de données essaye de
relever et en particulier au niveau de l'ECD biologique. Nous citons quelques
uns :
Le traitement des données
complexes
En effet, la plupart des recherches dans le domaine
de l'ECD se focalisent sur l'extraction de connaissances à partir de
données simples, souvent sous la forme d'une table dont les colonnes
correspondent aux variables (items) et les lignes correspondent aux
entités décrites. Cependant, les banques de données
biologiques contiennent des données de différents formats et de
plus en plus complexes et non structurées telles que les données
textuelles et graphiques. Bien que des outils d'extraction de connaissances
à partir de textes (texte Mining), d'images (Image Mining) ont vu le
jour, ils ne semblent pas être aussi évolués pour permettre
l'extraction aisée de connaissances à partir de données
biologiques telles quelles se présentent aujourd'hui. Des travaux
novateurs ont été réalisés [Bahar et Chen, 2004],
[Abdelouhab et Atmani., 2008], [Benamina et Atmani, 2008], mais beaucoup reste
à faire.
Tenir compte des connaissances à
priori
Les systèmes d'ECD devraient permettre
à l'utilisateur d'exploiter ses connaissances à priori, non
seulement dans la sélection des données, mais aussi dans la phase
de fouille de données, car plus cette phase est guidée, plus les
connaissances dégagées
Chapitre I : L'extraction de connaissances
à partir de données biologiques -
31 -
seraient potentiellement utiles, et cet aspect
revêt une importance particulière en biologie parce que l'expert
capitalise une expertise qui peut très bien guider le processus de
fouille de données.
Optimisation
À cause de la très grande taille des
données (séquences génomiques, etc..), les algorithmes de
fouille de données devraient être performants. Le temps
d'exécution doit être pris en considération pour être
plus ou moins acceptable.
Variabilité des
données
Une particularité des données
biologiques, c'est qu'elles se trouvent sous divers formats définis par
les biologistes pour leurs besoins spécifiques. Ceci fait que du point
de vue traitements automatiques, nous nous retrouvons en face de divers formats
complexes et divers types de données : fichier texte, images, puce
à ADN, etc. Ceci, pose la question de la normalisation des formats des
données biologiques.
Evaluation des motifs
L'extraction de motifs dans des données de
grandes tailles (séquence biologique), donne généralement
un nombre très élevé de motifs. Peut être qu'il
faudra trouver des mesures du domaine de la biologie (en plus du support et de
la confiance) qui permettent l'évaluation des motifs pour dégager
ceux qui sont réellement intéressants.
|