WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Fouille de données biologiques. étude comparative et expérimentation.


par Abdelhak MANSOUL
Université Ahmed Ben Bella Oran 1, Algérie - Magister Informatique et Automatique 2010
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

I.6 Etude comparative

Après avoir passé en revu les différentes tâches et méthodes, nous avons établi un tableau récapitulatif (voir Tableau 1.4), mentionnant les principales caractéristiques des différentes méthodes de l'ECD. Mais il restera toujours à l'utilisateur de bien fixer ses choix pour telle ou telle méthode en fonction de ses objectifs et de la nature des données qu'il se propose de fouiller. Le récapitulatif donne aussi un aperçu global sur l'utilisation des différentes méthodes de fouille de données par tâche, mais notons quand même que ce n'est pas un tableau exhaustif, il résume les techniques les plus utilisées et qui apparaissent souvent dans la littérature relative au domaine que nous avons abordé. Nous avons aussi établi un tableau comparatif (voir Tableau 1.6) qui mentionne les principaux avantages et inconvénients des différentes tâches de l'ECD.

Chapitre I : L'extraction de connaissances à partir de données biologiques - 28 -

Domaines d'utilisation

Méthodes de FDD

H M M

S V M

K - Moyenne

K - ppv

Réseaux de neurones

Arbre de
décision

Réseaux Bayésiens

Induction
de règles

Treillis

Autres

méthodes

PROTEOMIQUE

Identification de sequences

 

v

 
 

v

v

v

 
 
 

Comparaison de séquences

 
 
 
 
 
 
 
 
 

Alignement , similitude

Segmentation de sequences

v

 
 
 
 
 
 
 
 
 

Classification

v

 
 
 
 
 
 
 
 

n-gramme.

Prédiction structure

 
 
 

v

v

 
 
 
 
 

Prédiction domaine

 
 
 
 

v

 
 
 
 
 

Recherche de motifs fréquents

v

 
 
 
 
 
 
 
 
 

Recherche d'aberration

v

 
 
 
 
 
 
 
 
 

Recherche séquence exogène

v

 
 
 
 
 
 
 
 
 

Recherché hétérogénéité

v

 
 
 
 
 
 
 
 
 

GENOMIQUE

Identification groupe gene

v

v

v

 

v

 
 
 
 
 

Expression de gènes

 

v

v

v

v

 
 
 
 
 

Identification de gènes

v

 
 
 
 
 
 
 
 
 

Prediction de gène

v

 
 
 
 
 
 

v

 
 

Comparaison de séquences

 
 
 
 
 
 
 
 
 

similarité

Groupement

v

 
 
 
 
 
 
 

v

 

COHORTE

Recherche de règles

d'association

v

 
 
 
 
 

v

v

 

Motifs frequents

Recherche de gènes candidats

v

 
 
 
 
 
 
 
 

Marqueurs génétiques

Fouille de données médicales

 

v

 

v

v

v

 

v

 
 

MALADIE

Interaction gène / environnement

 
 
 
 
 
 

v

v

 
 

Recherche gène candidat

v

 
 
 
 
 
 
 
 
 

Recherche cause

 

v

 
 

v

 

v

 
 
 

Tableau 1.4 : Les méthodes de FDD utilisées en ECD biologiques.

Chapitre I : L'extraction de connaissances à partir de données biologiques - 29 -

Tâches de
l'ECD

Types

Méthodes de FDD

Descriptive

Prédictive

Supervisée

Non Superv.

AED

H M M

Régression. linéaire.

S V M

K - Moyenne

K - ppv

Réseaux de neurones

Arbre de
décision

Réseaux
bayésiens

Algorithmes génétiques

Induction de règles

Treillis

Description

v

 

v

 
 
 
 
 
 
 
 
 
 
 
 
 

Estimation

 

v

v

 
 
 

v

 
 
 

v

 
 
 
 
 

Prédiction

 

v

v

 
 

v

v

 
 
 

v

 
 
 
 
 

Classification

 

v

v

 
 

v

v

v

 

v

v

v

v

v

v

v

Groupement

v

 
 

v

 
 
 
 

v

v

v

 
 
 
 
 

Recherche Association

 

v

 

v

 
 
 
 
 
 
 
 

v

v

v

 

Tableau 1.5 : Les tâches et méthodes utilisées en ECD.

Tâches de
l'ECD

Caractéristiques / Objectifs

Apprentissage

Avantages

Inconvénients

Algorithmes utilisés

Description

· Il s'agit de décrire les données pour

essayer de découvrir et de
comprendre le processus qui est à l'origine de ces données.

supervisé

Facile à mettre en oeuvre.

Difficiles à évaluer en cas de beaucoup de variables.

· Stat. élémentaire ;

· Histogramme ;

· moy, écart-type ;

· ACP....

Estimation

· Consiste à estimer la valeur d'une
variable à valeurs continues à partir des valeurs d'autres attributs.

supervisé

En cas d'estimation numérique le résultat est numérique.

Besoin d'un ensemble d'exemples

· Régression ;

· Réseaux de neurones ;

· Kppv.

Prédiction

· Consiste à prédire la valeur future
d'un attribut en fonction d'autres attributs ;

· Se base sur le présent pour trouver
des résultats dans le futur ;

· Assimilable à l'estimation mais les
objets sont classés en fonction d'un comportement futur prédit.

supervisé

Nécessite un tas de données assez énorme pour pouvoir faire une prédiction assez précise.

On ne peut vérifier la précision du résultat tout de suite.

· Arbre de décision ;

· Réseaux de neurones ;

· Réseaux bayesiens.

Classification

· Consiste à examiner les

caractéristiques d'un objet et lui
attribuer une classe ;

· Les classes sont connues à l'avance
avec des profils particuliers.

supervisé

Robustesse (bruit, données manquantes,...) ;

Interprétabilité simple.

Taux d'erreur non négligeable ;

Temps d'exécution (construction, utilisation) conséquent.

· Kppv ;

· Arbre de décision ;

· Réseaux de neurones ;

· Algo. Génétique ;

· HMM.

Groupement

· Il s'agit de grouper des objets en se
basant sur leurs similarités ;

· Les objets sont les plus similaires
possibles dans un groupe et moins

similaires possibles entre deux
groupes ;

· La similarité peut être calculée pour
différents types de données. Elle dépend des données utilisées et du type de similarité recherchée.

non supervisé

Peut traiter # types de

données ;

Peut traiter les données bruitées et isolées ;

Peut découvrir des clusters de # formes ;

Pour les attributs numériques, la distance est bien définie.

L'interprétation des groupes identifiés est plus difficile que la classification car les groupes ne sont pas connus à l'avance ;

Pour les attributs énumératifs ou mixtes la distance est difficile à définir.

· K moyennes ;

· Réseaux de neurones.

Recherche d'association

· Déterminer les attributs qui sont
corrélés, i.e. découvrir des relations plus fines entre les données.

non supervisée

Itemsets de tailles variables ;

Résultats clairs.

Produit énormément de règles ;

Nécessite un post-
traitement humain.

· Apriori ;

· AIS ;

· FP-Growth.

 

Tableau 1.6 : Tableau comparatif des tâches de l'ECD.

Chapitre I : L'extraction de connaissances à partir de données biologiques - 30 - I.7 Discussion sur l'ECD Biologiques

L'ECD est un domaine qui a connu une émergence remarquable pendant la dernière décennie. Ce succès s'est réalisé sur le champ scientifique et s'est prolongé au champ commercial. En effet, plusieurs éditeurs d'outils de fouille de données ont formé un marché riche de logiciels fiables implémentant pratiquement la totalité des méthodes de la littérature et ciblant toutes les tâches de fouille de données. On trouve alors : WEKA et TANAGRA.

Ceci dit, l'ECD n'est pas du tout une clé avec laquelle on fait jaillir les connaissances. Un outil de l'ECD n'est pas aussi une boîte noire qu'on utilise ou un système totalement automatique, son caractère interactif nécessite l'intervention d'un humain et préférablement une personne ayant une expertise dans son domaine d'application. Bien que l'ECD ait aidé à répondre à plusieurs questions dans plusieurs domaines, il reste un travail considérable à réaliser. Cet immense travail de recherche, couramment présenté dans la littérature, montre que l'ECD est un champ en cours d'émergence et qu'il reste quelques défis que la communauté de fouille de données essaye de relever et en particulier au niveau de l'ECD biologique. Nous citons quelques uns :

Le traitement des données complexes

En effet, la plupart des recherches dans le domaine de l'ECD se focalisent sur l'extraction de connaissances à partir de données simples, souvent sous la forme d'une table dont les colonnes correspondent aux variables (items) et les lignes correspondent aux entités décrites. Cependant, les banques de données biologiques contiennent des données de différents formats et de plus en plus complexes et non structurées telles que les données textuelles et graphiques. Bien que des outils d'extraction de connaissances à partir de textes (texte Mining), d'images (Image Mining) ont vu le jour, ils ne semblent pas être aussi évolués pour permettre l'extraction aisée de connaissances à partir de données biologiques telles quelles se présentent aujourd'hui. Des travaux novateurs ont été réalisés [Bahar et Chen, 2004], [Abdelouhab et Atmani., 2008], [Benamina et Atmani, 2008], mais beaucoup reste à faire.

Tenir compte des connaissances à priori

Les systèmes d'ECD devraient permettre à l'utilisateur d'exploiter ses connaissances à priori, non seulement dans la sélection des données, mais aussi dans la phase de fouille de données, car plus cette phase est guidée, plus les connaissances dégagées

Chapitre I : L'extraction de connaissances à partir de données biologiques - 31 -

seraient potentiellement utiles, et cet aspect revêt une importance particulière en biologie parce que l'expert capitalise une expertise qui peut très bien guider le processus de fouille de données.

Optimisation

À cause de la très grande taille des données (séquences génomiques, etc..), les algorithmes de fouille de données devraient être performants. Le temps d'exécution doit être pris en considération pour être plus ou moins acceptable.

Variabilité des données

Une particularité des données biologiques, c'est qu'elles se trouvent sous divers formats définis par les biologistes pour leurs besoins spécifiques. Ceci fait que du point de vue traitements automatiques, nous nous retrouvons en face de divers formats complexes et divers types de données : fichier texte, images, puce à ADN, etc. Ceci, pose la question de la normalisation des formats des données biologiques.

Evaluation des motifs

L'extraction de motifs dans des données de grandes tailles (séquence biologique), donne généralement un nombre très élevé de motifs. Peut être qu'il faudra trouver des mesures du domaine de la biologie (en plus du support et de la confiance) qui permettent l'évaluation des motifs pour dégager ceux qui sont réellement intéressants.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Le doute est le commencement de la sagesse"   Aristote