I.7.2.Problème de
segmentation
Dans les problèmes de segmentation, on dispose d'un
ensemble de points et la tâche consiste à repérer des
groupes de points qui se ressemblent. On verra alors deux ensembles de
techniques : les algorithmes qui proposent une segmentation des données
puis des algorithmes qui construisent une représentation
géométrique interprétable par un humain (dans un plan)
d'un ensemble de données. C'est alors un humain qui détecte les
groupes et effectue la segmentation : l'algorithme de projection est une aide
pour l'humain ; on effectue de la fouille de données assistée par
ordinateur.
I.7.3.Problème de
recherche d'association
Plus généralement, on peut disposer d'un
ensemble de données pour lesquels on veut détecter des relations
entre la valeur de leurs attributs. Il s'agit alors de chercher des
règles d'association.
I.7.4.Recherche de
séquences
Liaisons entre événements sur une période
de temps, extension des règles d'association en prenant en compte le
facteur temps (série temporelle).
Exemple : Achat Télévision ==>
Achat Magnétoscope d'ici 5 ans.
I.7.5 Détection de
déviation
Instances ayant des caractéristiques les plus
différentes des autres, basées sur la notion de distance entre
instances
Expression du
problème :
Temporelle : évolution des instances ?
Spatiale : caractéristique d'un cluster d'instances
?
Notons que dans tous ces problèmes, la notion de «
corrélation » est omniprésente, l'extraction d'information
repose sur la recherche de corrélations entre des données. Ces
corrélations peuvent être linéaires : c'est le cas simple.
En général, on doit chercher des corrélations non
linéaires. Enfin, l'espace de données dans lequel celles-ci nous
sont fournies initialement n'est pas forcément le plus adéquat.
Il s'agît alors de préparer les données pour en faciliter
l'extraction d'information. Cette préparation peut consister en la
diminution du nombre d'attributs, à divers traitements sur les valeurs
d'attributs (lissage, ...), au changement d'espace de représentation des
données (projection dans un espace ou les relations sont plus faciles
à détecter, projection dans un sous-espace plus petit, ou
représentation dans un espace obtenu par combinaison des attributs
initiaux {création de facteurs). La représentation des
données dans un espace inadéquat entraîne lui-aussi du
bruit, différent de celui rencontré plus haut.
I .8.Méthodes
Utilisées
La fouille de données est au centre de plusieurs
domaines tels que :
Ø Intelligence artificielle et apprentissage
Ø Bases de données
Ø Analyse de données (statistiques)
Ø Visualisation
Ø Recherche opérationnelle et optimisation
Ø Informatique parallèle et distribuée
Nous nous intéresserons aux méthodes d'analyse
de données qui nous permet d'atteindre nos objectifs.
|