II.2. SATATISTIQUE ET
DATAMINING
Nous pourrions croire que les techniques du datamining
viennent en remplacement des statistiques .En fait, il n'en est rien et
elles sont omniprésentes .On les utilise :
· Pour faire une analyse préalable,
· Pour estimer ou alimenter les valeurs
manquantes,
· Pendant le processus pour évaluer la
qualité des estimations,
· Après le processus pour mesurer les actions
entreprises et faire un bilan.
Ainsi la statistique et datamining sont tout à
fait complémentaires.
II.3. LES TECHNIQUES DE
DATAMINING
Le Data mining met en oeuvre un ensemble de techniques
issues de la statistique, de l'analyse de données et de l'informatique
pour exploiter les données. On distingue deux grandes familles de
techniques à savoir les techniques Descriptives et celles
Prédictives.
Les techniques descriptives permettent évidemment
de « décrire, résumer, synthétiser,
réduire, classer, mettre en oeuvre des informations présentes
mais cachées par le volume de données ». Aussi
appelées techniques non supervisées, elles produisent des
modèles de classement et ne disposent pas de variable cible à
prédire. Elles regroupent entre autre :La Segmentation (clustering
/ Classification Automatique), l'Analyse factorielle des correspondances,
Analyse en composantes principales, la Recherche d'associations (analyse du
ticket de caisse), etc.
Les techniques prédictives visent à
« prédire, extrapoler (anticiper) de nouvelles informations
à partir des informations présentes ». Aussi
appelées techniques supervisées, elles sont plus délicates
à mettre en oeuvre que celles descriptives et leur objectif est de
prévoir une variable cible mais aussi de classer à partir de la
variable cible.
Elles regroupent entre autre :
Ø Classement/discrimination (variable
« cible » qualitative)
Ø Analyse discriminante / Régression
logistique ;
Ø Arbres de décision et Réseaux
de neurones
Ø Prédiction à variable
« cible » quantitative
Ø Régression linéaire (simple et
multiple) ;
Ø Machines de Vecteurs à Supports
(SVM);
II.3.1.La classification ascendante hiérarchique
Elle consiste à obtenir une succession de
partitions (partitionnement horizontal) sur l'ensemble des clients sachant
qu'à chaque partition est associée un seuil de similarité
(de distance) au-delà duquel deux n-uplets sont
considérés comme similaires et appartiennent donc à la
même classe. Ces partitions irons des clients particuliers jusqu'à
une partition globale contenant toute la population. L'algorithme
utilisé fournit une hiérarchie de partitions, se
présentant sous la forme d'arbres appelés
« dendrogrammes » et contenant n-1 partitions.
Il est évident qu'au départ l'ensemble des
individus à segmenter est muni d'une distance, ceci ne suppose donc pas
que les distances soient toutes calculées au départ, d'où
il faudra les calculer ou recalculer à partir des coordonnées des
individus. On construit alors une première matrice de distances entre
tous les individus. .
|