I.3.3 Variables qualitatives
Définition :
On
entend par une variable qualitative, une donnée dont l'ensemble des
valeurs est finie et qui prend des valeurs symboliques qui désignent des
catégories ou des modalités. Par exemple la couleur de cheveux
est une variable qualitative.
Remarque : On ne peut effectuer des
opérations arithmétiques sur des variables qualitatives.
I.3.4 Description symbolique
d'une variable
L'analyse de données symboliques a été
introduite par Diday en 1991, la définition d'une variable a
été étendue afin de pouvoir décrire un individu par
des variables yh à description symbolique. La
définition a été modifiée de manière
suivante : On notera Äh ce nouvel ensemble
d'arrivée. La variable yh est ainsi définie par
l'application suivante :
![](Une-contribution-du-datamining-la-segmentation-du-march-et-au-ciblage-des-offres--l-aide3.png)
![](Une-contribution-du-datamining-la-segmentation-du-march-et-au-ciblage-des-offres--l-aide4.png)
Le domaine d'arrivée Äh peut
s'écrire à partir du domaine de valeurs
élémentaires Oh et nous pouvons distinguer les trois
types de domaine Äh suivants :
Ø Äh= Oh. C'est le cas des
variables de valeurs unique classique présentées dans la section
1.2. On parlera ainsi de variable à description univaluée,
quantitative ou qualitative. Par exemple Yh(Xi) =
rectangle.
Ø Äh= p (Oh) avec p
(Oh) est l'ensemble de parties de Oh . C'est le cas d'une
variable qualitative qui peut être décrite par un intervalle de
valeurs. On parlera alors de descriptions multivaluées. Par exemple
Yh(Xi) = Oh{rectangle, carré}.
Ø , l'ensemble des fonctions de 0h dans [0,1]. On parlera alors
de description modale. Par exemple, Yh(Xi) est une
distribution de probabilité sur l'ensemble de valeurs {rectangle,
carré}.
Le tableau 1.2 suivant présente des exemples de
descriptions multivaluées et modales des variables salaire et forme
géométrique.
|
Age
|
Forme géométrique
|
Multivaluée
|
[15, 25]
|
{rectangle, carré}
|
Modale
|
Densité de la loi normale (20, ó)
|
Prob (rectangle) = 0,7
Prob (carré) = 0,3
Prob = 0 ailleurs
|
Tableau 1.2 Exemple de
descriptions multivaluées et modales.
I.3.5 Les variables à
descriptions multivaluées
C'est le cas d'une variable Yh qui peut être
décrite par plusieurs valeurs du domaine d'observation 0h.
Ø si le domaine d'observation 0h est
quantitatif (continu, discret) ou qualitatif ordinal, la description
multivaluée de Yh est un intervalle de valeurs et le domaine
d'arrivée Äh de Yh est l'ensemble des
intervalles fermés bornés sur 0h. Par exemple, la
variable Yh = coût d'hospitalisation pour une intervention sur
le rachis peut être Yh (intervention sur le rachis).
Ø Si le domaine d'observation 0h est
qualitatif nominal, la description multivaluée de Yh est un
ensemble de valeurs et le domaine d'arrivé Äh de
Yh est l'ensemble de sous-ensembles de 0h. Par exemple,
la variable Yh= traitements subis au cours d'une hospitalisation
pour le patient jopi peut prendre les valeurs Yh(jopi) =
{Uncusectomie, Foraminotomie}.
|