I.1 les principales méthodes de l'analyse des
données
Globalement ces méthodes sont classées
en
méthode d'analyse factorielle et méthode
des classifications. Les premières méthodes occupent une place
primordiale et sont particulièrement intéressantes parce qu'elles
permettent de représentation graphique.
Ces méthodes permettent notamment de manipuler
et de synthétiser l'information provenant de tableaux de données
de grande taille.
Pour cela, il est très important de bien
estimer les corrélations entre les variables que l'on étudie. On
a alors souvent recours à la matrice des
corrélations.
Dans le cadre de ce travail, nous allons nous
limité à deux de ces méthodes : L'analyse
en composantes principales (ACP) et l'analyse
factorielle des correspondants (AFC).
I.1.1 Méthode de l'Analyse en Composantes
Principales (ACP).
L'ACP est une Analyse Factorielle de la famille de
l'Analyse des données et de la Statistique Multi-variée, qui
consiste à transformer des variables liées entre elles (dites
"corrélées" en statistique) en nouvelles variables
indépendantes les unes des autres (donc "non corrélées").
Ces nouvelles variables sont nommées "composantes principales". Elle
permet au praticien de réduire l'information en un nombre de composantes
plus limité que le nombre
11
initial de variables.
L'ACP prend sa source dans un article de Karl Pearson
publié en 1901. Le père du Test du ÷2 y prolonge
ses travaux dans le domaine de la régression et des corrélations
entre plusieurs variables. Pearson utilise ces corrélations non plus
pour expliquer une variable à partir des autres (comme en
régression), mais pour décrire et résumer l'information
contenue dans ces variables.
Les champs d'application sont aujourd'hui multiples,
allant de la biologie à la recherche économique et sociale, et
plus récemment le traitement d'images.
I.1.1.a. Choix de la distance entre individus
Soit un tableau à double entrée des
individus i, i? I = 01, ... , p} et des variables numériques j,4 ? 5 =
01, ... k} avec généralement chaque ligne i est un vecteur
définie dans Rc ; on évalue ensuite la ressemblance
entre individus en calculant la distance euclidienne entre points pris deux
à deux, la distance euclidienne entre les individus
~~ = (~~ ~,~~ 2,... ,x ) et e3 =
(x3~,x32, ..., x3
) est définie par :
d2(e1,e3) = (x11 - x<
1)2 + (x8 2 - x<2)2 + ? +
(x8 - x< ?)2
p
d2(e1,e3) = (x~ & -
x3&)2
k=1
ressemblent.
La corrélation entre les variables k et les
variables h, k ? K, h ? K.
Le coefficient de corrélation entre la
variable
k et Ia variable h est:
1 , @ (x~& - Xk)(XL,, -
x,,)
(crkcrh)
t?l
r(k,h) =
Plus r(k, h) est élevé, plus la liaison
entre ces deux variables est forte ;
Si r(k,h) > 0, alors la liaison est de même
sens, si r(k,h) < 0, la liaison est de sens opposé.
L'ACP consiste à établir un état de
la ressemblance entre les individus et un état de liaison entre les
variables.
|