WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Modélisation et implémentation d'un système décisionnel pour la gestion du personnel à  la RVA Kananga


par Paulin KABEYA ILUNGA
Université Saint Laurent de Kananga - Licence 2021
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

III.1.2. Les Tâches Du Datamining

Contrairement aux idées reçues, le Data Mining n'est pas le remède miracle capable de résoudre toutes les difficultés ou besoins de l'entreprise cependant, une multitude de problèmes d'ordre intellectuel, médical, économique peuvent être regroupés, dans leurs formalisations, dans l'une des tâches suivantes :

1. Classification ;

2. Estimation ;

3. Prédiction ;

4. Discrimination ;

5. Segmentation.

III.I.2.1. Les Tâches Et Technique Du Datamining

TACHES

TECHNIQUE

Classification

L'arbre de décision

Le raisonnement par cas

L'analyse de lien

Estimation

Le réseau de neurones

Prédiction

L'analyse du panier de la ménagère

Le raisonnement base sur le mémoire

L'arbre de décision

Les réseaux de neurones

Extraction de connaissance

L'arbre de décision

Tableau 4: les taches et technique du datamining.

En outre, hormis ces quelques techniques et tâches du datamining, nous signalons qu'il existe d'autres que nous n'avons pas énumérez dans notre travail.

44

III.2. Arbre de décision

III .2.1. Introduction à l'arbre de décision

Un arbre de décision est une structure qui permet de déduire un résultat à partir de décisions successives. Pour parcourir un arbre de décision et trouver une solution, il faut partir de la racine. Chaque noeud est une décision atomique.24

Proche en proche, on descend dans l'arbre jusqu'à tomber sur une feuille. La feuille représente la réponse qu'apporte l'arbre au cas où l'on vient de tester.

a) Début à la racine de l'arbre

Descendre dans l'arbre en passant par les noeuds de test, la feuille atteinte à la fin permet de classer l'instance testée. Très souvent on considère qu'un noeud pose une question sur une variable, la valeur de cette variable permet de savoir sur quels fils descendre. Pour les variables énumérées, il est parfois possible d'avoir un fils par valeurs, on peut aussi décider que plusieurs variables différentes mènent au même sous arbre.

Pour les variables continues, il n'est pas imaginable de créer un noeud qui aurait potentiellement un nombre de fils infini, on doit discrétiser le domaine continu (arrondis, approximation), donc décider de segmenter le domaine en sous-ensembles. Plus l'arbre est simple, et plus il semble techniquement rapide à utiliser.

En fait, il est plus intéressant d'obtenir un arbre qui est adapté aux probabilités des variables à tester. La plupart du temps un arbre équilibré sera un bon résultat.

Si un sous arbre ne peut mener qu'à une solution unique, alors tout ce sous arbre peut être réduit à sa simple conclusion, cela simplifie le traitement et ne change rien au résultat final.

III.2.2. Définition

Un arbre de décision est un outil d'aide à la décision et à l'exploration de données. Il permet de modéliser simplement, graphiquement et rapidement un phénomène mesuré plus ou moins complexe. Sa lisibilité, sa rapidité d'exécution et le peu d'hypothèses nécessaires a priori expliquent sa popularité actuelle.25

III.2.3. Caractéristiques et Avantages

La caractéristique principale est la lisibilité du modèle de prédiction que l'arbre de décision fourni, et de faire comprendre ses résultats afin d'emporter l'adhésion des décideurs.

24 VINCENT GUIJARRO, Les Arbres de Décisions L'algorithme ID3, lile, 2006, p.16

25 RAKOTOMALALA. : Graphes d'induction apprentissage et data mining, hermès, 2000.THESE, p.43

26 KANGIAMA LWANGI Richard : Extraction des connaissances a partir d'un entrepôt des données à l'aide de l'arbre de décision application aux données médicales, UNIKIN 2010-2011.

45

Cet arbre de décision a également la capacité de sélectionner automatiquement les variables discriminantes dans un fichier de données contenant un très grand nombre de variables potentiellement intéressantes. En ce sens, constitue aussi une technique exploratoire privilégiée pour appréhender de gros fichiers de données.

III.2.4. Algorithme ID3

L'algorithme ID3 a été développé à l'origine par ROSS QUINLAN. C'est un algorithme de classification supervisé. C'est-à-dire il se base sur des exemples déjà classés dans un ensemble de classes pour déterminer un modèle de classification. Le modèle que produit ID3 est un arbre de décision. Cet arbre servira à classer de nouveaux échantillons. Il permet aussi de générer des arbres de décisions à partir de données. Imaginons que nous ayons à notre disposition un ensemble d'enregistrements ayant la même structure, à savoir un certain nombre de paires attribut ou valeur. L'un de ses attributs représente la catégorie de l'enregistrement. Le problème consiste à construire un arbre de décision qui sur la base de réponses à des questions posées sur des attributs non cible peut prédire correctement la valeur de l'attribut cible. Souvent l'attribut cible pend seulement les valeurs vrai, faux ou échec, succès.

III.2.5. Principes

Les principales idées sur lesquels repose ID3 sont les suivantes :

Dans l'arbre de décision chaque noeud correspond à un attribut non cible et chaque arc a une valeur possible de cet attribut. Une feuille de l'arbre donne la valeur escomptée de l'attribut cible pour l'enregistrement testé décrit par le chemin de la racine de l'arbre de décision jusqu'à la feuille. (Définition d'un arbre de décision). Dans l'arbre de décision, à chaque noeud doit être associé l'attribut non cible qui apporte le plus d'information par rapport aux autres attributs non encore utilisés dans le chemin depuis la racine. (Critère d'un bon arbre de décision). L'entropie est utilisée pour mesurer la quantité d'information apportée par un noeud. (Cette notion a été introduite par Claude Shannon lors de ses recherches concernant la théorie de l'information qui sert de base à énormément de méthodes du datamining).26

Algorithme

Entrées : ensemble d'attributs A; échantillon E; classe c

Début

Initialiser à l'arbre vide;

Si tous les exemples de E ont la même classe c

46

Alors étiqueter la racine par c;

Sinon si l'ensemble des attributs A est vide

Alors étiqueter la racine par la classe majoritaire dans E;

Si non soit a le meilleur attribut choisi dans A;

Étiqueter la racine par a;

Pour toute valeur v de a

Construire une branche étiquetée par v;

Soit Eav l'ensemble des exemples tels que e(a) = v;

ajouter l'arbre construit par ID3 (A-{a}, Eav, c);

Fin pour Fin sinon

Fin sinon

Retourner racine;

Fin

III.2.6. Exemple Pratique d'un Algorithme ID3

Pour introduire et exécuter "à la main" l'algorithme ID3 nous allons tout d'abord considérer l'exemple ci-dessous: Une entreprise possède les informations suivantes sur ses clients et souhaite pouvoir prédire à l'avenir si un client donné effectue des consultations de compte sur Internet.

Client

Moyenne des
montants

Age

Lieu de
Résidence

Etudes
supérieures

Consultation par
internet

1

Moyen

Moyen

Village

Oui

Oui

2

Elevé

Moyen

Bourg

Non

Non

3

Faible

Age

Bourg

Non

Non

4

Faible

Moyen

Bourg

Oui

Oui

5

Moyen

Jeune

Ville

Oui

Oui

6

Elevé

Agé

Ville

Oui

Non

7

Moyen

Agé

Ville

Oui

Non

8

Faible

Moyen

Village

Non

Non

Tableau 5: exemples pratiques

Log (P (C[ville)))

47

Ici, on voit bien que la procédure de classification à trouver, qui à partir de la description d'un client, nous indique si le client effectue la consultation de ses comptes par Internet, c'est-à-dire la classe associée au client.

o Le premier client est décrit par (M : moyen, Age : moyen, Résidence : village, Etudes : oui) et a pour classe Oui.

o Le deuxième client est décrit par (M : élevé, Age : moyen, Résidence : bourg, Etudes : non) et a pour classe Non.

Pour cela, nous allons construire un arbre de décision qui classifie les clients. Les arbres sont construits de façon descendante. Lorsqu'un test est choisi, on divise l'ensemble d'apprentissage pour chacune des branches et on

Réapplique récursivement l'algorithme.

H(C[Lieu) = -P (bourg). (P (C[bourg) log (P (C[bourg)) + P (C [bourg)

a) Choix du meilleur attribut : Pour cet algorithme deux mesures existent pour choisir le meilleur attribut : la mesure d'entropie et la mesure de fréquence:

b) L'entropie : Le gain (avec pour fonction il'entropie) est également appelé l'entropie de Shannon et peut se réécrire de la manière suivante :

Pour déterminer le premier attribut test (racine de l'arbre), on recherche l'attribut d'entropie la plus faible. On doit donc calculer H(C[Solde), H(C[Age), H(C[Lieu), H(C[Etudes), où la classe C correspond aux personnes qui consultent leurs comptes sur Internet.

H(C[Solde) = -P (faible).(P (C[faible) log(P (C[faible)) + P (C [faible) log(P (C[faible)))-P (moyen).(P (Cmoyen) log(P (Cmoyen)) + P (Cmoyen) log(P (Cmoyen)))-P (eleve).(P (C[eleve) log(P (C[eleve)) + P (C[eleve) log(P(C[eleve)))H(C[Solde)

H(CSolde) = -3/8(1/3.log(1/3) + 2/3.log(2/3)-3/8(2/3.log(2/3) + 1/3.log(1/3) -2/8(0.log (0) + 1.log(1)

H (C[Solde) = 0.20725

H(C[Age) = -P (jeune).(P (C[jeune) log(P (C[jeune)) + P (C [jeune) log(P (C[jeune)))-P (moyen).(P (C[moyen) log(P (C[moyen)) + P (C [moyen) log(P (C[moyen)))-P (age).(P (C[age) log(P (C[age)) + P (C[age) log(P (C[age)))

H(C[Age) = 0.15051

Log (P (C[bourg)))-P (village).(P (C[village) log(P (C[village)) + P (C [village) log(P (C[village)))-P (ville).(P (C[ville) log(P (C[ville)) + P (C[ville)

48

H(C[Lieu) = 0.2825

H(C[Etudes) = -P (oui).(P (C[oui) log(P (C[oui)) + P (C [oui) log(P (C[oui)))

-P (non).(P (C[non) log(P (C[non)) + P (C[non) log(P (C[non))) H(C[Etudes) = 0.18275 Le premier attribut est donc l'âge (attribut dont l'entropie est minimale). On obtient l'arbre suivant :

Age

Jeune moyen âgé

Consultation ? Consultation

Figure 9: Arbre de décision construit à partir de l'attribut âge

Pour la branche correspondant à un âge moyen, on ne peut pas conclure, on doit donc recalculer l'entropie sur la partition correspondante.

H(C|Solde) = -P (faible).(P (C|faible) log(P (C|faible)) + P (C |faible) log(P

(C|faible)))-P (moyen).(P (C|moyen) log(P (C|moyen)) + P (C|moyen)

Log (P (C|moyen)))-P (eleve). (P (C|eleve) log(P (C|eleve)) + P (C|eleve) log(P

(C|eleve)))

H(C|Solde) = -2/4(1/2.log(1/2) + 1/2.log(1/2)-1/4(1.log(1) + 0.log(0)

-1/4(0.log (0) + 1.log (1)

H (C|Solde) = 0.15051

H(C|Lieu) = -P (bourg).(P (C|bourg) log(P (C|bourg)) + P (C |bourg) log(P

(C|bourg)))-P (village).(P (C|village) log(P (C|village)) + P (C |village) log(P

(C|village)))-P (ville).(P (C|ville) log(P (C|ville)) + P (C|ville) log(P (C|ville)))

H (C|Lieu) = 0.30103

H (C|Etudes) = -P (oui).(P (C|oui) log(P (C|oui)) + P (C |oui) log(P (C|oui)))

-P (non). (P (C|non) log(P (C|non)) + P (C|non) log(P (C|non))) H(C|Etudes) = 0

L'attribut qui a l'entropie la plus faible est « Etudes ».

49

L'arbre devient alors :

Figure 10 : Arbre de décision finale

L'ensemble des exemples est classé et on constate que sur cet ensemble d'apprentissage, seuls deux attributs sur les quatre sont discriminants.

III.3 Concepts Théoriques Sur Le Graphe

III.3.1. Définition : Un graphe G est un couple G=(X, U), X est un ensemble non vide et au plus dénombrable.

Nota : X est un ensemble fini, les éléments de x X sont appelés les sommets ou noeuds. U = une famille d'éléments du produit cartésiens X€X .

Les éléments de U=(x,y) , x,y X, sont appelés : soit des arcs lorsqu'on tient compte de l'orientation, soit les arêtes lorsqu'on ne tient pas compte de l'orientation.27

III.3.2. Graphe connexe a) Définition :

Un graphe est connexe si l'on peut atteindre n'importe quel sommet à partir d'un sommet quelconque en parcourant les différentes arêtes.

Exemple : soit G=(X, U) qui est un graphe connexe

Figure 11 : graphe connexe

27 MANYA NDJADI, Recherche opérationnelle, G3 informatique option Gestion, cours inédit, U.K.A 2013-2014.

Figure 13 : arborescence

50

U6 U5

U7

U8

EX :

U4

U3

U1 U2

III.3.2. Arbres et arborescence

1. Arbres

a) Définition : Un arbre est un graphe connexe sans cycle. C'est-à-dire dont on peut atteindre n'importe quel sommet à partir d'un sommet quel- conque en parcourant différents arêtes et ses arêtes ne coïncide pas.

EX :

Figure 12 : Arbre

2) Arborescence

a) Définition : une structure qui permet de déduire un résultat à partir de décision successive.

Soit G=(X, U) on dit que le sommet rX est une racine de G si V X, (avec xr) un chemin de r à x .c'est -à -dire un arbre ayant une racine.

51

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Il faut répondre au mal par la rectitude, au bien par le bien."   Confucius