Extraction des connaissance à partir d'un datamart à l'aide de l'arbre de décision application aux données médicales

( Télécharger le fichier original )
par Richard KANGIAMA LWANGI
Université de Kinshasa RDC - Licence 2011

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

III .2.2 EXEMPLE PRATIQUE [k], [11]

Pour introduire et exécuter "à la main" l'algorithme ID3 nous allons tout d'abord considérer l'exemple ci-dessous: Une entreprise possède les informations suivantes sur ses clients et souhaite pouvoir prédire à l'avenir si un client donné effectue des consultations de compte sur Internet.

client	Moyenne des montants	Age	Lieu de Résidence	Etudes supérieures	Consultation par internet
1	Moyen	Moyen	Village	Oui	oui
2	Elevé	Moyen	Bourg	non	non
3	Faible	Age	Bourg	non	non
4	Faible	Moyen	Bourg	oui	oui
5	Moyen	Jeune	Ville	oui	Oui
6	Elevé	Agé	Ville	oui	non
7	Moyen	Agé	Ville	oui	non
8	Faible	Moyen	Village	non	non

Tableau III 3:exemples pratiques

Ici, on voit bien que la procédure de classification à trouver qui à partir de la description d'un client, nous indique si le client effectue la consultation de ses comptes par Internet, c'est-à-dire la classe associée au client.

- le premier client est décrit par (M : moyen, Age : moyen, Résidence : village, Etudes : oui) et a pour classe Oui.

- le deuxième client est décrit par (M : élevé, Age : moyen, Résidence : bourg, Etudes : non) et a pour classe Non.

Pour cela, nous allons construire un arbre de décision qui classifie les clients. Les arbres sont construits de façon

H(C|Lieu) = -P (bourg).(P (C|bourg) log(P (C|bourg)) + P (C |bourg)

[53]

descendante. Lorsqu'un test est choisi, on divise l'ensemble d'apprentissage pour chacune des branches et on

réapplique récursivement l'algorithme.

Choix du meilleur attribut : Pour cet algorithme deux mesures existent pour choisir le meilleur attribut : la mesure d'entropie et la mesure de fréquence:

L'entropie : Le gain (avec pour fonction i l'entropie) est également appelé l'entropie de Shannon et peut se réécrire de la manière suivante :

Pour déterminer le premier attribut test (racine de l'arbre), on recherche l'attribut d'entropie la plus faible. On doit donc calculer H(C|Solde), H(C|Age), H(C|Lieu), H(C|Etudes), où la classe C correspond aux personnes qui consultent leurs comptes sur Internet.

H(C|Solde) = -3/8(1/3.log(1/3) + 2/3.log(2/3)-3/8(2/3.log(2/3) + 1/3.log(1/3)

-2/8(0.log(0) + 1.log(1)

H(C|Solde) = 0.20725

H(C|Age) = 0.15051

[54]

log(P (C|ville)))

H(C|Lieu) = 0.2825

Le premier attribut est donc l'âge (attribut dont l'entropie est minimale). On obtient l'arbre suivant :