I.2 Les outils
On y retrouve des méthodes statistiques bien
établies, mais aussi des développements récents issus
directement de l'informatique. Sans prétendre à
l'exhaustivité, on distinguera les méthodes exploratoires
où il s'agit de découvrir des structures ou des comportements
inattendus, de la recherche de modèles prédictifs où une
« réponse » est à prédire.
I.3. Les différents types
de données rencontrés
Classiquement, les données sont décrites dans un
tableau individus-variables par une valeur unique. On parlera alors de
« tableau de descriptions univaluées ou
classiques ». Dans les applications réelles, où le
grand souci est de prendre en compte la variabilité et la richesse
d'informations au sein des données, il est courant d'avoir affaire
à des données complexes et hétérogènes (ou
mixtes). Ce qui se traduit par le fait que chaque case du tableau de
descriptions peut tenir non seulement une valeur unique mais également
de valeurs multiple, un intervalle de valeurs ou une distribution sur un
ensemble de valeurs. On dira alors que la classification va porter sur un
« tableau de descriptions symboliques ».
I.3.1 Description classique
d'une variable
Classiquement, une variable yl est définie
par une application :
![](Une-contribution-du-datamining-la-segmentation-du-march-et-au-ciblage-des-offres--l-aide1.png)
![](Une-contribution-du-datamining-la-segmentation-du-march-et-au-ciblage-des-offres--l-aide2.png)
Où : X={X1, X2,..., Xn} est
l'ensemble des individus. L'ensemble d'arrivée 0h est
appelé domaine d'observation de la variable yl. Un individu
est alors décrit sur une variable yl par une valeur unique de
0h.
On distingue schématiquement deux types de
variables : les variables quantitatives dites aussi numériques et
les variables qualitatives dites aussi catégorielles.
I.3.2 Les variables
quantitatives
Définition
Une variable est dite quantitative, lorsqu'elle prend
des valeurs ordonnées (comparable par la relation d'ordre =) pour
lesquelles des opérations arithmétiques telles que
différence et moyenne aient un sens. Une variable quantitative
peut être binaire, continue ou discrète. Les variables binaires ne
peuvent prendre que deux valeurs, le plus souvent associées à
{0,1}, {absence, présence} ou {succès, échec}
(exemple : le sexe d'un nouveau né).
Les
variables continues ou d'échelle sont les variables dont les valeurs
forment un sous-ensemble continu et dans certains cas les valeurs forment un
sous-ensemble infini de l'ensemble R des réels (exemple : le
salaire, le coût du séjour). Les variables discrètes sont
celles dont les valeurs forment un sous-ensemble fini de l'ensemble N des
entiers naturels (exemple : le nombre de jours d'hospitalisation, le
nombre d'enfants).
|