II.3 PRINCIPALES METHODES DU DATA
MINING
Pour arriver à exploiter ces quantités
importantes de données, le data mining utilise des méthodes
d'apprentissages automatiques. Une amalgame est faite à tord entre
toutes ces méthodes. Ces méthodes sont de deux types : les
méthodes descriptives et les méthodes prédictives, selon
qu'il existe ou non une variable "cible" que l'on cherche à
expliquer.
II.3.1 Méthodes descriptive
Le principe de ces méthodes est de pouvoir mettre en
évidence les informations présentes dans le data warehouse mais
qui sont masquées par la masse de donnée.
Parmi les techniques et algorithmes utilisés dans
l'analyse descriptive, on cite :
Ø Analyse factorielle (ACP et ACM)
Ø Méthode des centres mobiles
Ø Classification hiérarchique
Ø Classification neuronale (réseau de
Kohonen)
Ø Recherche d'association
II.3.2 Méthode
prédictive
Contrairement à l'analyse descriptive, cette technique
fait appels à de l'intelligence artificielle . L'analyse
prédictive, est comme son nom l'indique une technique qui va essayer de
prévoir une évolution des événements en se basant
sur l'exploitation de données stockés dans le data warehouse.
En effet, l'observation et l'historisation des
événements peuvent permettre de prédire une suite logique.
Le meilleur exemple est celui des prévisions
météorologiques qui se base sur des études des
évolutions météorologiques passées. En marketing,
l'objectif est par exemple de déterminer les profils d'individus
présentant une probabilité importante d'achat ou encore de
prévoir à partir de quel moment un client deviendra
infidèle.
Parmi les techniques et algorithmes utilisés dans
l'analyse prédictive, on cite :
Ø Arbre de décision
Ø Réseaux de neurones
Ø Régression linéaire
Ø Analyse discriminante de Fisher
Ø Analyse probabiliste
II.4 LES TACHES DU DATA MINING
Contrairement aux idées reçues, le data mining
n'est pas le remède miracle capable de résoudre toutes les
difficultés ou besoins de l'entreprise. Cependant, une multitude de
problèmes d'ordre intellectuel, économique ou commercial peuvent
être regroupés, dans leur formalisation, dans l'une des
tâches suivantes :
- Classification,
- Estimation,
- Prédiction,
- Groupement par similitudes,
- Segmentation (ou clusterisation),
- Description,
- Optimisation.
Afin de lever toute ambiguïté sur des termes qui
peuvent paraître similaires, il semble raisonnable de les
définir.
II.4.1 La classification
La classification se fait naturellement depuis
déjà bien longtemps pour comprendre et communiquer notre vision
du monde (par exemple les espèces animales, minérales ou
végétales).
« La classification consiste à examiner des
caractéristiques d'un élément nouvellement
présenté afin de l'affecter à une classe d'un ensemble
prédéfini. »
Dans le cadre informatique, les éléments sont
représentés par un enregistrement et le résultat de la
classification viendra alimenter un champ supplémentaire.
La classification permet de créer des classes
d'individus (terme à prendre dans son acception statistique). Celles-ci
sont discrètes : homme / femme, oui / non, rouge / vert / bleu, ...
Les techniques les plus appropriées à la
classification sont :
- les arbres de décision,
- le raisonnement basé sur la mémoire,
- éventuellement l'analyse des liens.
|