II.4. LES TACHES DU DATA MINING
Contrairement aux idées reçues, le Data
Mining n'est pas le remède miracle capable de résoudre toutes les
difficultés ou besoins de l'entreprise .Cependant, une multitude de
problèmes d'ordre intellectuel, médical, économique
peuvent être regroupés, dans leur formalisation, dans l'une des
tâches suivantes :
Ø Classification ;
Ø Estimation ;
Ø Prédiction ;
Ø Discrimination ;
Ø Segmentation.
Tâches
|
Technique
|
Classification
|
L'arbre de décision
|
Le raisonnement par cas
|
L'analyse de lien
|
Estimation
|
Le réseau de neurones
|
Prédiction
|
L'analyse du panier de la ménagère
|
Le raisonnement base sur le mémoire
|
L'arbre de décision
|
Les réseaux de neurones
|
Extraction de connaissance
|
L'arbre de décision
|
Tableau II.1. Les tâches
et techniques du datamining.
En outre, hormis ces quelques techniques et tâches
du datamining, nous signalons qu'il existe d'autres que nous n'avons pas
énumérez dans notre travail.
II.5. ARBRE DE DECISION
Un arbre de décision est une structure qui permet
de déduire un résultat à partir de décisions
successives. Pour parcourir un arbre de décision et trouver une
solution, il faut partir de la racine. Chaque noeud est une décision
atomique.
Chaque réponse possible est prise en compte et
permet de se diriger vers un des fils du noeud. De proche en proche, on descend
dans l'arbre jusqu'à tomber sur une feuille. La feuille
représente la réponse qu'apporte l'arbre au cas où l'on
vient de tester.
· Début à la racine de l'arbre
· Descendre dans l'arbre en passant par les noeuds de
test
· La feuille atteinte à la fin permet de
classer l'instance testée.
Très souvent on considère qu'un noeud pose
une question sur une variable, la valeur de cette variable permet de savoir
sur quels fils descendre. Pour les variables énumérées, il
est parfois possible d'avoir un fils par valeurs, on peut aussi décider
que plusieurs variables différentes mènent au même sous
arbre.
Pour les variables continues, il n'est pas imaginable de
créer un noeud qui aurait potentiellement un nombre de fils infini, on
doit discrétiser le domaine continu (arrondis, approximation), donc
décider de segmenter le domaine en sous-ensembles. Plus l'arbre est
simple, et plus il semble techniquement rapide à utiliser.
En fait, il est plus intéressant d'obtenir un arbre
qui est adapté aux probabilités des variables à tester. La
plupart du temps un arbre équilibré sera un bon résultat.
Si un sous arbre ne peut mener qu'à une solution unique, alors toute
cette sous-barbe peut être réduit à sa simple conclusion,
cela simplifie le traitement et ne change rien au résultat
final.
II.5.1. Définition
Un arbre de décision est un outil d'aide à
la décision et à l'exploration de données. Il permet de
modéliser simplement, graphiquement et rapidement un
phénomène mesuré plus ou moins complexe. Sa
lisibilité, sa rapidité d'exécution et le peu
d'hypothèses nécessaires a priori expliquent sa popularité
actuelle.
|