Chapitre I : UNE INTRODUCTION A L'ANALYSE DES
DONNEES
L'analyse des données est un sous domaine des
statistiques qui se préoccupe de la description de données
conjointes. On cherche par ces méthodes à donner les liens
pouvant exister entre les différentes données et à en
tirer une information statistique qui permet de décrire de façon
plus succincte les principales informations contenues dans ces données.
On peut également chercher à classer les données en
différents sous groupes plus homogènes.
Le but de ces méthodes est de synthétiser
les grands tableaux pour en fournir une présentation
simplifiée.
.
I.0 Les Tableaux des données
Les données sont les mesures effectuées
sur n unité (xi1,xi2,
· · ·xip). Les p variables qui
représentent ces mesures sont {v1, v2, ..., vj , ...,vp}.
Le tableau des données brutes à partir
duquel on va faire l'analyse est noté X et a la forme suivante
:
[x11 x12 · · · x1p X = x21
x22 · · · x2p xn1 xn2
· · · xnp
Chaque unité xi peut être
représentée par le vecteur
xi = (xi1,xi2, · · ·
xip), xi E Rp
De façon analogue, on peut représenter
chaque variable par un vecteur de R~ dont les composantes sont les valeurs de
la variable pour les n unités :
11 '2j
~~ = ...
V.,~
Pour avoir une image de l'ensemble des unités,
on se place dans un espace affine en choisissant comme origine un vecteur
particulier de R , par exemple le vecteur dont toutes les coordonnées
sont nulles. Alors, chaque unité sera représentée par un
point dans cet espace. L'ensemble des points qui représentent les
unités est appelé traditionnellement «nuage des
individus».
En faisant de même dans Ri', chaque
variable pourra être représentée par un point de l'espace
affine correspondant.
L'ensemble des points qui représentent les
variables est appelé «nuage des variables».
I.0.1 Les différents types des données
multidimensionnelles
a. on appelle données multidimensionnelles,
l'ensemble des valeurs d'un certain nombre des variables statistiques sur un
individu d'une population donnée.
8
b. Tableaux individu X caractères
quantitatifs
Ce type de tableau est l'un le plus simple et le plus
répandu. En général xj(i) est un nombre réel
représentant la mesure de
la variable xj sur l'individu i.
Exemple : la répartition des candidats X, Y et Z
dans 4 provinces de la RDC
|
Kinshasa
|
Bandundu
|
Bas Congo Katanga
|
X
|
2500
|
1250
|
1000
|
1800
|
Y
|
3000
|
1000
|
2500
|
2800
|
Z
|
1000
|
600
|
100
|
700
|
Si i = X et xj=Kinshasa;xj(i) = 2500
c. Tableaux logiques
Si l'on définit, pour les variables
quantitatives, une répartition en classe, l'ensemble des
résultats de l'observation peut être présenté sous
la forme d'un tableau logique composé de 0 et de 1. On présente
de façon analogue les tableaux x des caractères
qualitatifs.
d. Tableaux de contingence
prenant les valeurs sur un ensemble I, de n
modalités i, et l'autre sur un ensemble J, de p
modalités j, le tableau de contingence K (ou tableau
croisé), associé à ces données est le tableau
de dimensions n × p et de terme général k1 ; dont k1 le
nombre d'individus présentant simultanément la
modalité i pour le premier caractère, et j
pour le second.
d1. Tableau des fréquences
&'(
Les fréquences sont calculés par :%J = ~ .
. Tableau des fréquences lignes : flLJ = *'(
*'.
Tableau des fréquences colonnes fcLJ = *'(
*. (
e. Tableaux de proximité
Considérons un ensemble I d'objets, on dispose
d'une mesure de ressemblance ou de dissemblance entre tous les
éléments de I pris deux a deux.
i ? I,i' ?
I;d(i,i') = 0
|