II.5.2. Caractéristiques et avantages :
Le caractéristique principale est la
lisibilité du modèle de prédiction que l'arbre de
décision fourni, et de faire faire comprendre ses résultats afin
d'emporter l'adhésion des décideurs. Cet arbre de décision
a également la capacité de sélectionner automatiquement
les variables discriminantes dans un fichier de données contenant un
très grand nombre de variables potentiellement intéressantes.
En ce sens, constitue aussi une technique exploratoire
privilégiée pour appréhender de gros fichiers de
données.
II.5.3. Algorithme ID3
L'algorithme ID3 a été
développé à l'origine par ROSS QUINLAN. C'est un
algorithme de classification supervise. C'est-a-dire il se base sur des
échantillons déjà classés dans un ensemble de
classes pour déterminer un modèle de classification. Le
modèle que produit ID3 est un arbre de décision. Cet arbre
servira à classer de nouveaux échantillons
Le modèle que produit ID3 est un arbre de
décision. Cet arbre servira à classer de nouveaux
échantillons. Permet aussi de générer des arbres de
décisions à partir de données. Imaginons que nous ayons
à notre disposition un ensemble d'enregistrements ayant la même
structure, à savoir un certain nombre de paires attribut ou valeur.
L'un de ses attributs représente la
catégorie de l'enregistrement. Le problème consiste à
construire un arbre de décision qui sur la base de réponses
à des questions posées sur des attributs non cible peut
prédire correctement la valeur de l'attribut cible. Souvent l'attribut
cible pend seulement les valeurs vrai, faux ou échec,
succès.
1. Principes
Chaque exemple en entrée est constitué d'une
liste d'attributs. Un de ces attributs est l'attribut « cible » et
les autres sont les attributs « non cibles ». On appelle aussi cette
"cible" la "classe". En fait l'arbre de décision va permettre de
prédire la valeur de l'attribut « cible » à partir des
autres valeurs. Bien entendu, la qualité de la prédiction
dépend des exemples : plus ils sont variés et nombreux, plus la
classification de nouveaux cas sera fiable.
Un arbre de décision permet de remplacer un expert
humain dont il modélise le cheminement intellectuel. À chaque
noeud correspond une question sur un attribut non cible. Chaque valeur
différente de cet attribut sera associée à un arc ayant
pour origine ce noeud. Les feuilles de l'arbre, quant à elles, indiquent
la valeur prévue pour l'attribut cible relativement aux enregistrements
contenus par la branche (indiqués par les différents arcs)
reliant la racine à cette feuille.
ID3 construit l'arbre de décision
récursivement. À chaque étape de la récursion, il
calcule parmi les attributs restant pour la branche en cours, celui qui
maximisera le gain d'information. C'est-à-dire l'attribut qui permettra
le plus facilement de classer les exemples à ce niveau de cette branche
de l'arbre. On appelle ce calcul l'entropie de Shannon.
L'entropie est utilisée pour mesurer la
quantité d'information apportée par un noeud. (Cette notion a
été introduite par Claude Shannon lors de ses recherches
concernant la théorie de l'information qui sert de base à
énormément de méthodes du datamining.
|