WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Fouille de données biologiques. étude comparative et expérimentation.


par Abdelhak MANSOUL
Université Ahmed Ben Bella Oran 1, Algérie - Magister Informatique et Automatique 2010
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

II.2 L'induction et l'évaluation des règles

L'induction est en effet l'extraction de règles qui satisfont des seuils minimums prédéfinis de support et de confiance à partir d'une base de données volumineuse [Agrawal et Srikant., 1994]. Cette extraction se déroule en deux phases :

(1) extraction des Itemsets fréquents ;

(2) génération des règles d'association confiantes.

Le nombre d'Itemsets possibles pour une base de données stockant n Items est 2n. Ceci rend le nombre de règles encore plus énorme. Il en découle que l'extraction de la totalité des Itemsets (pour ensuite tester leurs fréquences) soit une opération très coûteuse voir impossible. Les deux mesures qui évaluent le degré d'intérêt de l'utilisateur envers un motif sont : le support et la confiance. L'utilisateur mentionne alors un seuil minimal de support et un seuil minimal de confiance, et les règles dont les confiances sont supérieures au seuil fixé sont acceptées et les autres sont alors rejetées. On peut dire alors que ces deux seuils sont des contraintes d'extraction de règles. Ainsi, le problème d'extraction de règles d'association est décomposé en deux étapes :

- la première consiste à dégager les Itemsets fréquents, i.e., les Itemsets dont le nombre d'occurrences est supérieur au seuil minimum de support ;

- la seconde consiste à générer des règles d'association à partir de ces Itemsets fréquents qui respectent un seuil minimum de confiance. Cette seconde étape est beaucoup plus simple. En effet, une fois les Itemsets fréquents trouvés, il y a génération des règles possibles pour chaque Itemset.

Génération des règles

La génération des règles est donc une opération de transformation des ensembles d'Items en règles de manière efficace. De ce fait, à partir d'un ensemble de n Items, on

Chapitre II : L'extraction de règles d'association - 36 -

peut générer 2n-1 règles potentielles, et on ne gardera que les règles avec une confiance supérieure au minimum fixé par l'utilisateur.

On peut alors dire : Etant donné deux seuils minimaux, s de support et c de confiance, l'extraction de règles d'association se fait en deux étapes :

(1) Extraction des Itemsets fréquents (dont la fréquence est supérieure à s)

(2) Extraction des règles d'associations confiantes (dont la confiance est supérieure à c) à partir des Itemsets fréquents.

Ce traitement se traduit par :

(1) un calcul coûteux des supports;

(2) une génération coûteuse des règles ;

(3) un calcul coûteux de la confiance ;

(4) un parcours des données initiales récurrent.

Évaluation des règles

La méthode d'extraction de règles d'association peut produire des règles d'association triviales ou inutiles. Ces règles triviales sont des règles évidentes (par exemple : Si marié Alors non-célibataire) qui n'apporte pas d'information supplémentaire. Les règles inutiles sont des règles difficiles à interpréter qui peuvent provenir de particularités propres à la liste des t-uples ayant servi à l'apprentissage. De plus, une règle d'association est destinée à être utilisée par la suite dans un but décisionnel, il est nécessaire d'évaluer sa qualité. Il faut qu'à l'étape de fouille, il y ait suffisamment d'exemples vérifiant cette règle, et une quantité de contre-exemples qui ne porte pas préjudice au sens que prend cette règle dans son contexte d'extraction.

De nombreux critères d'évaluation existent [Hip et al., 2000]. Ils peuvent être aussi subjectifs. L'expert du domaine sait quels attributs il souhaite avoir dans les règles d'association, mais ce cas de figure est très rare, car contraire au but de l'ECD qui est la découverte des connaissances dont on ignore à priori l'existence. Il existe également de nombreux critères beaucoup plus objectifs qui consistent à étudier le nombre d'exemples et de contre-exemples afin que la règle obtenue ne soit pas trop générale ou évidente, car dans ce cas il n'y a rien de nouveau. Les statistiques sont utilisées pour associer à chaque règle d'association de la forme X ? Y des mesures permettant d'avoir une idée de sa qualité :

- le support est une mesure dite d'utilité. C'est la probabilité p (X, Y) pour que X et Y soient vrais en même temps ;

Chapitre II : L'extraction de règles d'association - 37 -

- la confiance est une mesure dite de précision. C'est la probabilité pour que Y soit vrai lorsque l'on a X vrai, soit la probabilité conditionnelle p (Y | X).

Suivant le contexte dans lequel est extraite cette règle, le taux d'erreur admissible dépend du facteur risque. Par exemple, on exigera une qualité de cette règle d'association beaucoup plus importante dans le domaine médical. Dans ce cas, les valeurs des seuils minimaux de support et de confiance seront élevées afin de ne retenir que les règles les plus fiables dans le sens où elles ont très peu de contre-exemples (dont l'existence peut être dangereuse). De nombreux autres indices de mesure de la qualité d'une règle d'association existent [Agrawal et al., 1993].

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Je ne pense pas qu'un écrivain puisse avoir de profondes assises s'il n'a pas ressenti avec amertume les injustices de la société ou il vit"   Thomas Lanier dit Tennessie Williams