III.1.2. Objectifs de la
Fouille de données
Les objectifs du Data Mining peuvent être
regroupés dans trois axes importants :
(1) Prédiction (What-if) : consiste
à prédire les conséquences d'un événement
(ou d'une décision), se basant sur le passé.
(2) Découverte de règles cachées
: découvrir des règles associatives, entre différents
événements (Exemple : corrélation entre les ventes de deux
produits).
(3) Confirmation d'hypothèses : confirmer des
hypothèses proposées par les analystes et décideurs, et
les doter d'un degré de confiance.
En considérant le serveur de base
données ou le serveur d'entrepôt de données, la Fouille de
données est considéré comme un client riche de ces deux
serveurs. Notons que le client serveur est un mode de dialogue entre deux
processus, l'un appelé client qui sollicite des services auprès
de l'autre appelé serveur, par envoie des requêtes (send request
en anglais). Après avoir lancé une requête par rapport au
fait à analyser, le client data ming applique des méthodes ou
procédures sur les données obtenues, afin d'obtenir les
informations nécessaires pour la prise de décision. Ces
procédures ou méthodes, sont classées en deux
catégories : les méthodes descriptives et les
méthodes prédictives.
III.1.3. Méthodes
(Algorithmes) de Fouille de données
Résoudre un problème par un processus
d'exploration de données impose généralement l'utilisation
d'un grand nombre de méthodes et d'algorithmes différents plus ou
moins faciles à comprendre et à employer. Il existe deux grandes
familles d'algorithmes : les méthodes descriptives et les
méthodes prédictives.
III.1.3.1. Méthodes descriptives
Les méthodes descriptives consistent à mettre en
évidence les informations cachées par le grand volume de
données, en vue de détecter dans ces données des tendances
cachées. Cela signifie identifier des régularités qui
permettent d'un certain de comprimer l'information présente dans les
données et de les décrire de manière synthétique.
Il s'agit donc à simplifier et à aider
à comprendre l'information sous-jacente d'un ensemble important de
données. Il s'agit essentiellement de synthétiser, de
résumer et de structurer l'information contenue dans les données.
Il existe ainsi deux sous-catégories des
méthodes descriptives, à savoir :
· Lesméthodes factorielles, qui ont pour
but de réduire le nombre des variables statistiques en les
résumant en petit nombre des composantes statiques qu'on appelle axe
factoriel. Les techniques utilisées sont l'Analyse en Composante
Principale (A.C.P), l'Analyse Factorielle des Correspondances (A.F.C),
l'Analyse de Correspondances Multiples (ACM), etc. ;
· Lesméthodes de classification ou de
segmentation (en anglais clustering), qui ont pour but de
regrouper en sous-groupes homogènes les individus d'une
population hétérogène de telle manière que les
individus d'une même classe se ressemblent de plus en plus et celles des
classes différentes se diffèrent de plus en plus. Ces
méthodes sont de deux types :
- Lesméthodes hiérarchiques : ce
sont des méthodes qui utilisent des hiérarchies pour former ses
groupes. On a des méthodes comme : la Classification Ascendante
Hiérarchique (C.A.H) et la Classification Descendante
Hiérarchique (C.D.H) et
- Lesméthodes de partitionnement : ce
sont des méthodes qui utilisent des partitions pour former ses groupes.
On a des méthodes comme : le k-means (Centres mobiles),
les nués dynamiques, le modèle de mélange gaussien, etc.
|